WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較
就在前一陣子(2023年初),OpenAI 推出的 Whisper AI 語音轉文字技術,透過 AI 辨識各國語言讓成果的正確性、通順度有很大幅度的提升,也因此又誕生新一波利用 Whisper 「將影片、錄音檔案中的語音轉成文字、字幕」的工具。
例如這一款名為「 Whisper Desktop 」的免費、單機(可離線使用)、免安裝的「影音檔案轉文字、字幕」桌面端軟體,可以在 Windows 上簡單執行,他會利用電腦當中的顯示卡 GPU 當作運算資源,在離線的本機端完成語音轉文字的功能。
「 WhisperDesktop 」這樣的工具可以拿來利用在像是我們先錄了一段錄音,或是拍下一段影片的情況,這時候不用上傳雲端,可以直接在本機電腦利用「 WhisperDesktop 」這個軟體將錄音檔案或影片檔案轉成字幕檔、文字稿。
而且因為背後使用了 OpenAI 的 Whisper 技術,由 AI 辨識出來的文字和字幕準確性也非常高。同時,它也支援中文。
只要我們的電腦有基本的顯示卡(或者顯示晶片),就可以利用這個軟體在本機電腦中進行語音轉文字的運算。當然,顯示卡越好,運算的速度會越快。
今天這篇文章,就來試試看「 WhisperDesktop 」這款免費軟體如何操作,以及如何在本機電腦中進行影片轉字幕、錄音檔案轉文字的功能。同時,也比較看看 AI 轉出來的文字效果跟其他工具有沒有差別。
2024/9/21 更新:Google 錄音 App 內建 AI 轉錄繁體中文語音逐字稿,可中英日切換
「 WhisperDesktop 」操作教學:
首先,我們來到「 WhisperDesktop 」的 GitHub 頁面,你可以在右方的「 Releases 」區域,找到最新版軟體的下載位址。
點進去後,我們可以下載「WhisperDesktop.zip」這個 Windows 上的免安裝軟體版本。
- 「 ggml-medium.bin 」:建議有獨立顯示卡的電腦使用。檔案大約 1.53 GB ,運算時會比較花費 GPU 資源,如果你的電腦沒有獨立顯示卡,可能要運算比較久。
- 「ggml-small.bin 」:建議沒有獨立顯示卡的輕薄筆電使用。檔案大約 488 MB ,相對來說適合沒有獨立顯示卡的輕薄筆電,運算時間會大幅縮短,但轉換出來的文字也依然不錯。
- 選擇要轉出的語言,中文可以輸出成繁體中文。
- 選擇來源檔案。
- 設定要輸出的檔案格式。
- 設定要輸出的文字檔案名稱。
下面就是「WhisperDesktop」轉換一段大約 6 分多鐘 MP4 影片的結果。(使用「 ggml-medium.bin 」比較大型的運算模型)
當然裡面不是 100% 正確,但是出錯的地方都可以接受,例如他理所當然不知道我的「 esor 」這個特殊字是什麼意思。
而整體上無論時間戳記、分段方式、語句通順度都不錯,甚至一段話中也會加上適度的標點符號,讓我們手動微調的時間減到最少。
如果你需要的不是字幕,而是逐字稿或正式報告,可以搭配這一篇文章的技巧一起使用:「用 ChatGPT 快速將會議語音逐字稿轉成完美文章表格的 5 個技巧」。
「 WhisperDesktop 」的運算時間快不快?
每次運算完成,「WhisperDesktop」會提供這次運算的時間給我們參考。下面這張圖,是我用一台有獨立顯示卡(GTX 1060)的筆電(6年前購買的,目前還在使用)來測試。
在擁有獨立顯示卡的電腦上,前述那段 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,轉成文字檔案的時間大約是 1 分鐘 25 秒,完全可以接受。而如果擁有更新、更好的獨立顯示卡的筆電、電腦的朋友,運算時間一定可以比我快上許多。
例如我去年購買了 Surface Pro 9 (這幾年喜歡這樣的觸控螢幕輕薄筆電),沒有獨立顯示卡,但是當然還是有顯示晶片可以運算,這時候的效能如何呢?
結果如下圖,雖然是更新的筆電,平常跑其他文書、網頁更快,但一旦碰上需要顯示卡運算時,就有明顯的速度差距。
在沒有獨立顯示卡的新筆電上,如果我上述 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,跑了 28 分鐘才產出結果。
雖然不夠快,但可以接受。
下面是「ggml-small.bin 」算出來的結果。
「 WhisperDesktop 」與其他語音轉文字工具比較:
首先,我之前轉這類影片、錄音檔案的字幕,通常使用「pyTranscriber 影片自動上字幕免費軟體」,下面是和「 WhisperDesktop 」比較的結果。圖左是「 WhisperDesktop 」的轉出結果,圖右是「 pyTranscriber 」的轉出結果,幾個可以比較的地方是:
- 兩者的轉出文字效果都不差,但很明顯「 WhisperDesktop 」效果更好。
- 「 WhisperDesktop 」一個的優點除了文字辨識、加上標點的效果更好外,還有一個關鍵是「懂得如何斷句」。
- 你可以看到「 pyTranscriber 」因為太頻繁斷句,所以導致很多時候語意的轉換變成不夠正確。
- 而「 WhisperDesktop 」會利用 AI 聰明斷句,每一段的時間長度其實都不一樣,但以保留完整語意為前提,所以他的轉換效果才更通順。
- 不過如果在設備比較沒那麼好的電腦上,或是沒有獨立顯示卡的筆電上,「 pyTranscriber 」的速度絕對是非常快的,上述影片可能一兩分鐘內就轉換完畢。
下圖是「 Good Tape 」轉出的結果,基本上效果差不多,甚至出錯的地方也很像。那麼他們的差別會在哪些地方呢?
- 主要在於「 WhisperDesktop 」是單機軟體,影片、錄音檔案不用上傳雲端。而且也是免費沒有使用限制。
- 相對的,「 Good Tape 」的「付費版本」可以讓沒有好設備的工作者,利用他們的雲端運算資源,來更快產出語音轉文字檔案。
即時語音轉文字,就是開啟麥克風,直接說話,直接轉入文字檔案。
不過我實際測試,可能要「有更好的獨立顯示卡」的電腦,才能把這個功能運作得很順暢,要不然在運算時就很容易漏掉很多內容。
因此,如果沒有前述條件,或許「用 Windows 11 語音輸入繁體中文,快速完成會議紀錄、思考筆記」是一個快速、不消耗效能、效果也非常好的解決方案。
以上,就是我對「 WhisperDesktop 」的測試心得,提供大家參考,也值得需要語音轉文字工作,無論是製作會議紀錄,還是製作影片、錄音檔案字幕的朋友試試看。
有興趣的朋友還可以進一步研究:
- ChatGPT 關鍵提示語技巧
- ChatGPT 提示語說明書:通用三層結構與 9 個技巧提高 AI 生產力
- 利用 ChatGPT 提示語突破字數限制教學,深入分析摘要2萬字資料
- 讓 ChatGPT 學會專業邏輯,成為自動完成報告文案草稿的真正助手
- 快速輸入 ChatGPT 常用提示語,減少重複打字,附實戰範例下載
- ChatGPT 聊天記錄快速找回,完整保存對話頻道分類隨時查閱教學
- ChatGPT 特殊功能
- ChatGPT Plugins 外掛功能開放,支援網路搜尋實測與 Bing 比較
- 活用這 4 種 ChatGPT Plugins 外掛,打造個人知識管理 AI 工作流程
- ChatGPT Shared Links 指南,不只是分享對話的 7 個工作應用案例
- ChatGPT 與 AI 工具的第二大腦與學習應用
- 用 ChatGPT 升級學習筆記整理技巧教學,如何有效輔助摘要文章?
- 活用你的第二大腦筆記範本,協作 ChatGPT 生成好內容的 6 個案例
- ChatDOC 中英文獻 PDF AI 摘要問答工具,可一次分析多份論文
- Elicit 與 Consensus: AI 論文搜尋引擎+摘要讓專業知識觸手可及
- 一鍵自動生成知識地圖,Heuristica 用AI心智圖工具輔助知識學習
- ChatGPT 與 Quiz Wizard 幫老師家長 AI 生成選擇題、抽認卡教學
- 我如何利用 ChatGPT 提高寫作效率,跟 AI 對話強化論點而不抄襲
- 擺脫資訊焦慮強化產出,利用防彈筆記法整理 ChatGPT 學習筆記
- ChatGPT 與 AI 工具的工作效率應用
- 讓 ChatGPT 教你如何利用 ChatGPT ,快速問對問題解決工作痛點
- ChatGPT 幫我不懂程式碼也能寫出番茄鐘待辦清單工具,實測心得
- 用 ChatGPT 快速將會議語音逐字稿轉成完美文章表格的 5 個技巧
- 如何用 ChatGPT 加速生成一份有圖有文的簡報,實戰案例教學
- 畫不出心智圖?讓 ChatGPT 和 Whimsical AI 來幫你,實戰案例教學
- 如何活用 ChatGPT 拆解目標計畫? 5 個提問技巧,實測旅行規劃
- 拯救紙本文書煩惱,如何利用 ChatGPT 整理摘要紙張文字資料?
- AI 繪圖工具應用
- 我如何訓練 ChatGPT 撰寫 Midjourney 提示語?AI 繪圖四個階段
- Recraft 免費 AI 繪圖工具快速生成獨特 ICON 圖示與向量插圖教學
- 微軟 Bing AI 繪圖工具 Image Creator 免費開放,30秒輕鬆生成圖片
- Microsoft Designer 免費試用中, AI 設計社群圖片、海報卡片幫手
- 利用 DALL.E 繪圖工具像 Photoshop AI 一樣自動生成延伸圖片內容
- AI 相關生產力工具
- Google Bard AI 聊天機器人全球開放, 9 種案例應用的測試筆記
- Notion AI 筆記實測:自動用中文寫報告大綱、會議待辦、行銷文案
- Perplexity 用 AI 整理網路資訊,旅遊規劃、新聞摘要、知識學習利器
- Reccap 把 YouTube 影片變成快速閱讀的完整文章!寫筆記也更快
- Podcast 節目:「高效人生商學院|EP.0151|兩人對談|EP.0042|ChatGPT 帶來的工作流程改變?我們的應用方式」。
大家好,我是電腦玩物站長 Esor ,我在 2023 年推出的「個人數位生產力」線上課程中,從如何寫出有效的防彈筆記出發,觸及工作、生活與自我管理問題,解析如何打造一套執行起來更有效率,也更有成就感的生產力系統,歡迎參考(可使用電腦玩物老讀者折扣碼 ESOR500 ,獲得 500 元折價喔!)。
(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較)
翻譯的那個好像僅限翻成英文,選其他語言沒有用處的樣子。
回覆刪除請問版主有遇到轉了幾次繁體中文字幕後,有時後自變成簡體中文,知道怎麼設定嗎?感謝🙏
回覆刪除我目前尚未遇過
刪除不過確實他的設定中沒有區分繁體、簡體中文,可能只能關閉後重新試試看了
你得把Translate那個給反勾選才可以
刪除站長您好,我照著這篇文章的方式做了,但是transcribe的進度條跑完後就卡住了,一直停在「transcribing the audio, please wait...」不會產出文件...
回覆刪除請問您有遇過這個狀況嗎?
按照我今天實際作業發現,那個language 指的是影片裏面的語音,
回覆刪除而不是翻譯成哪種文字。
我的影片檔是日文語音,一開始我選擇中文,結果解析出來的完全不行,後來改成日文,就正確解析出日文,內容對不對我就不知道了。
模型的連結失效了
回覆刪除我後來在這邊找到的
https://huggingface.co/ggerganov/whisper.cpp/tree/main
站長,
回覆刪除我剛買了新電腦並下載了WhisperDesktop,但是出現這句:「你必須為這項工作安裝應用程式」,然後叫我去Microsoft store 搜尋,但沒找到。請問如何解決 ?謝謝