MyAI Voice

115Desktop_sub:桌面即時字幕 HUD

一個 Windows 桌面即時字幕工具。透過 Chrome / Edge Web Speech API 辨識語音,再用 Electron 透明 HUD 把字幕直接浮在桌面上,適合直播、會議、錄影教學與現場展示。

零模型快速啟動 透明字幕 HUD Shift + F2 Alt 拖曳定位 字幕風格設定
桌面字幕實機示範 約 90 秒 Windows / Electron

產品定位

它不是要取代 Whisper 的高品質離線轉錄,而是補上「現場即時字幕」這一段:不用下載模型、不需要 GPU、打開 Chrome / Edge 授權麥克風後就能把字幕投到桌面上。

  • 直播時讓觀眾直接看到即時字幕,不必開另一個網頁視窗。
  • 線上會議或錄影教學時,把字幕疊在簡報、IDE、瀏覽器或任何桌面應用上。
  • 分享會 demo 時可以先展示低門檻即時字幕,再接 MyAI Voice 的高品質檔案轉錄。

核心能力

  • Web Speech API:用瀏覽器內建辨識能力換取低安裝門檻與低資源占用。
  • Local API Bridge:Electron 開本機 API,接收瀏覽器送出的字幕文字。
  • Transparent HUD:字幕視窗透明、可拖曳、可用於任意桌面畫面。
  • Style Presets:支援 Cyberpunk、Classic Dark、Modern Light、Anime Style 等風格預設。
操作流程
1

啟動 Electron

進入 nodejs_project 後執行 npm startrun.bat

2

開啟辨識頁

程式自動開 Chrome / Edge,使用者點擊開始語音辨識並授權麥克風。

3

切換字幕 HUD

Shift + F2 啟動或關閉桌面字幕顯示。

4

拖曳與調整

按住 Alt 進入移動模式,可拖動字幕或設定視窗。

5

現場疊字

字幕浮在桌面最前景,適合 OBS 擷取、會議共享或教學錄影。

輕量路線

不需要 faster-whisper、Breeze、CUDA 或模型下載,電腦能跑 Chrome / Edge 就能展示。

桌面友善

字幕不是藏在網頁裡,而是透明懸浮在桌面,可疊到簡報、IDE、瀏覽器、會議工具上。

視覺可調

支援多種字幕樣式與即時預覽,現場可以快速切換成直播感、簡報感或動漫感。

可接 MyAI Voice

後續可接 Agent API,提供 Web Speech 即時模式與 Whisper/Breeze 高品質模式的切換。

全域操作

Shift + F2 控制字幕啟停;Alt 拖曳定位,操作不被目前焦點視窗綁住。

可打包交付

Electron 專案可用 electron-builder 打 portable,適合快速發給測試者或展示機。

技術架構
辨識 Chrome / Edge Web Speech API,辨識頁使用 webkitSpeechRecognition 持續送出 interim 與 final 結果。
Bridge Electron 在 127.0.0.1 開本機 HTTP API,port 依序嘗試 80 / 443 / 5999
HUD 透明 Electron 視窗顯示字幕、狀態與設定結果,位置與樣式透過 electron-store 保存。
熱鍵 uiohook-napi 偵測全域按鍵,提供 Shift + F2Alt 移動模式。
快速啟動
cd nodejs_project
npm install
npm start

# native hook 重編
npm run rebuild

# portable 打包
npm run dist

第一次展示前建議先確認 Chrome / Edge 麥克風權限、uiohook-napi rebuild 狀態,以及本機 API port 是否被其他服務占用。

與 MyAI Voice 的分工

  • 115Desktop_sub:主打即時、低門檻、桌面疊字,適合現場講話與直播展示。
  • MyAI Voice:主打影音檔處理、Whisper/Breeze、字幕檔、講者、摘要與後製輸出。
  • Agent API:後續可把桌面字幕、語音輸入法、ASR/TTS/Clone Voice 串成同一套聲音工具鏈。

Demo 風險與補強

  • Web Speech API 依賴瀏覽器支援、網路與麥克風權限,現場應加一個狀態檢查頁。
  • 熱鍵目前固定 Shift + F2,建議設定化,避免和展示機上的其他軟體衝突。
  • 可保留最近 30-60 秒 transcript,支援複製、匯出 TXTSRT
  • 可加入 MyAI Voice Agent API provider,在即時 Web Speech 與高品質 Whisper/Breeze 間切換。

GitHub 狀態

專案公開於 shadowjohn/115Desktop_sub,README 已補上展示圖、操作流程、打包與常見問題。

適合場景

直播即時字幕、會議字幕、教學錄影、現場分享會 demo,以及 OBS 桌面擷取字幕疊圖。

作者與版本

作者:羽山秋人(3wa.tw)。目前 README 標示版本為 V0.0.1 Stable Beta