Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁
來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。
我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。
透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!
- Google Docs:http://docs.google.com/
- 相關文章:
- Google Docs全新協作功能上線,即時多人編修與對話通訊窗口
- Gmail 內建Google Docs Viewer新增12種表格繪圖檔案格式預覽
- Google Docs 文件管理全新介面上線,優先權排序、更簡潔快速
- 實測 Google雲端列印直接從手機列印 Gmail 、Google Docs文件
- Google Cloud Connect 實測!幫老微軟Office新增雲端同步協作
我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。
但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!
至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!
還是沒有繁體... QQ
回覆刪除提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?
回覆刪除感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD
回覆刪除繁體殘念...
回覆刪除有看到繁體的選項了唷~
回覆刪除為什麼現在很多網站都指提供簡體中文的服務...
回覆刪除這樣看起來有點吃力
語言雖然沒有繁體可選
回覆刪除但是第二個選項有打勾的話
繁體的pdf檔還是可以ocr出來
我目前試了幾個繁體pdf都失敗(變成亂碼)
回覆刪除歡迎大家回報看看你們的試用結果^^
我也測試了一下
回覆刪除....都亂碼...
還不夠完善阿= = ...
簡體中文~我最希望的是...可以掃"宋體"
小說~大部分都宋體....
是不错的,不过格式会乱 :-)
回覆刪除http://www.pimcorechina.org
拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~
回覆刪除刚刚尝试了一下,似乎文件大小限制是25MB……
回覆刪除有繁了!
回覆刪除咩哈哈哈哈,有繁體了~
回覆刪除Morning
回覆刪除覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好
回覆刪除文件扫描后的图片怎么识别不出来呢
回覆刪除F
回覆刪除U
C
K
Y
O
U
hi
回覆刪除hello!
回覆刪除不太完善,kai kai 的!!!! ;)
回覆刪除^^ha ha....
chongdata.com的ocr也不错
回覆刪除