它不是要取代 Whisper 的高品質離線轉錄,而是補上「現場即時字幕」這一段:不用下載模型、不需要 GPU、打開 Chrome / Edge 授權麥克風後就能把字幕投到桌面上。
進入 nodejs_project 後執行 npm start 或 run.bat。
程式自動開 Chrome / Edge,使用者點擊開始語音辨識並授權麥克風。
按 Shift + F2 啟動或關閉桌面字幕顯示。
按住 Alt 進入移動模式,可拖動字幕或設定視窗。
字幕浮在桌面最前景,適合 OBS 擷取、會議共享或教學錄影。
不需要 faster-whisper、Breeze、CUDA 或模型下載,電腦能跑 Chrome / Edge 就能展示。
字幕不是藏在網頁裡,而是透明懸浮在桌面,可疊到簡報、IDE、瀏覽器、會議工具上。
支援多種字幕樣式與即時預覽,現場可以快速切換成直播感、簡報感或動漫感。
後續可接 Agent API,提供 Web Speech 即時模式與 Whisper/Breeze 高品質模式的切換。
Shift + F2 控制字幕啟停;Alt 拖曳定位,操作不被目前焦點視窗綁住。
Electron 專案可用 electron-builder 打 portable,適合快速發給測試者或展示機。
| 辨識 | Chrome / Edge Web Speech API,辨識頁使用 webkitSpeechRecognition 持續送出 interim 與 final 結果。 |
|---|---|
| Bridge | Electron 在 127.0.0.1 開本機 HTTP API,port 依序嘗試 80 / 443 / 5999。 |
| HUD | 透明 Electron 視窗顯示字幕、狀態與設定結果,位置與樣式透過 electron-store 保存。 |
| 熱鍵 | uiohook-napi 偵測全域按鍵,提供 Shift + F2 與 Alt 移動模式。 |
cd nodejs_project npm install npm start # native hook 重編 npm run rebuild # portable 打包 npm run dist
第一次展示前建議先確認 Chrome / Edge 麥克風權限、uiohook-napi rebuild 狀態,以及本機 API port 是否被其他服務占用。
Shift + F2,建議設定化,避免和展示機上的其他軟體衝突。TXT 或 SRT。專案公開於 shadowjohn/115Desktop_sub,README 已補上展示圖、操作流程、打包與常見問題。
直播即時字幕、會議字幕、教學錄影、現場分享會 demo,以及 OBS 桌面擷取字幕疊圖。
作者:羽山秋人(3wa.tw)。目前 README 標示版本為 V0.0.1 Stable Beta。