Google Gemini 圖片 AI 辨識的 6 種應用案例,用手繪圖寫出簡單網頁
Google Bard AI 助理昨天又有了許多的更新,其中一個很讓人期待的是支援「 Google 應用服務外掛」,讓 Bard 助理可以連結我們的 Gmail、雲端硬碟、地圖等等不同 Google 符合,產出像是找出文件並改寫、連結地圖與航班工具完成旅行規劃等等任務。不過,這個看起來很厲害的功能,目前只有英文版可以使用。但中文版的 Google Bard 用戶也有一個值得試試看的更新,就是支援中文的「上傳圖片進行 AI 分析處理」的功能。
今天這篇文章,就來試試看 Google Bard 中文版的「上傳圖片進行 AI 分析處理」功能,可以有哪些應用方式,有機會達成什麼樣的效果。
基本上,辨識圖片的功能其實就是行之有年的 Google Lens 智慧鏡頭,所以我們理所當然可以想像能辨識出圖片中的文字、圖像。而當跟 Bard AI 生成結合,這些辨識出的內容可以延伸做出哪些更進一步的整理呢?
如果想了解 Google Bard 幾種關鍵功能與應用方式的朋友,歡迎參考:
(2023/10/15 更新,ChatGPT 現在還可以圖片、文字混合提問,而且效果更好:ChatGPT 圖文混合提問 9 種超能力:程式、教育、學習到行銷應用)
2024/2/6 更新,還具備了免費圖像生成功能:Google Bard 免費升級 Gemini Pro 好用嗎?實測生成圖片、分析長文、內容查證
2024/5/4 更新:Gemini App 取代 Google 語音助理,摘要網頁、總結郵件、從文件找資料實測
1. 圖片文字 OCR,中文手寫也能辨識
之前 Google Bard 圖片上傳功能只支援英文版,現在開始中文版也能使用,理所當然的,就能用 OCR 去辨識圖片內的中文文字內容。
例如我可以上傳一張公告圖檔,請 Bard:「整理現在上傳的這張圖片中的文字內容。」
如果這張圖片內的文字沒有太多變化的版面,基本上可以很快速完整的辨識出來。(這樣的 OCR 工具也很多,例如:節省從影片圖表複製翻譯資料時間,桌面端 Google 智慧鏡頭超活用)
先單純辨識文字:「辨識下面這張流程圖圖片中的所有文字內容,並列出所有文字。」
不過太複雜的流程圖,辨識文字有一定難度外,也很難整理成有條理的大綱。
3. 看圖說故事,用照片寫出文章
Google Bard 目前似乎不允許上傳有人物的照片去做分析,但其他內容可以。
這時候,我們可以試試看請 Bard 根據圖片來寫出一段介紹:「根據這張圖片,撰寫一篇旅行文章。」
4. 根據手繪圖片,設計簡單網頁程式碼
還有一個有趣的利用,我們可以試試看手繪出一個簡單的網頁版面,請 Google Bard 分析圖片後,寫出網頁程式碼。
當然,目前 Bard 還無法進行很複雜的版面分析與設計,但像是下圖這樣的結果,是可以順利產出的。
5. 照片內容分析,介紹動植物或產品
原本的 Google Lens 智慧鏡頭就可以一定程度的辨識照片中的動物、植物、產品,現在這個功能結合到 Google Bard ,我們就可以在辨識出照片內容後,再請 AI 進行進一步的分析與介紹。
不過實際使用上, Bard 在提問與回答上相較於 ChatGPT ,還是比較無法處理一些複雜有邏輯的任務生成。所以基本上我還是主要使用 ChatGPT 作為 AI 助理,特別情況下才會 Google Bard 獨有功能來解決問題,就像這篇文章提到的圖片辨識與延伸內容生成需求時。
大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:
- 「個人數位生產力」線上課程(可使用電腦玩物老讀者折扣碼 ESOR500 ,獲得 500 元折價喔!)。
- 時間管理、筆記系統、AI 工具相關課程:「課程介紹連結」
- 目前最新著作:《防彈筆記法》
- 訂閱追蹤 podcast 節目:「高效人生商學院」(Apple podcast 訂閱、 Google Podcast 訂閱)
- 訂閱「電腦玩物電子報」,不定期出刊。
我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。
(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:Google Bard 圖片 AI 辨識的 6 種應用案例,用手繪圖寫出簡單網頁)
以一樣的做法上傳圖片要求擷取文字,只得到「我是語言模型,沒有能力幫這個忙。」不知道是否為選擇性開放試用新功能
回覆刪除可以用簡單的圖片, 用AI轉換成網頁程式碼,很方便!謝謝分享!
回覆刪除也歡迎逛逛我的網站:
https://hk-computer-repair.com/