Google Gemini 圖片 AI 辨識的 6 種應用案例，用手繪圖寫出簡單網頁

作者： Esor Huang 9月 20, 2023

Google Bard AI 助理昨天又有了許多的更新，其中一個很讓人期待的是支援「 Google 應用服務外掛」，讓 Bard 助理可以連結我們的 Gmail、雲端硬碟、地圖等等不同 Google 符合，產出像是找出文件並改寫、連結地圖與航班工具完成旅行規劃等等任務。不過，這個看起來很厲害的功能，目前只有英文版可以使用。但中文版的 Google Bard 用戶也有一個值得試試看的更新，就是支援中文的「上傳圖片進行 AI 分析處理」的功能。

今天這篇文章，就來試試看 Google Bard 中文版的「上傳圖片進行 AI 分析處理」功能，可以有哪些應用方式，有機會達成什麼樣的效果。

基本上，辨識圖片的功能其實就是行之有年的 Google Lens 智慧鏡頭，所以我們理所當然可以想像能辨識出圖片中的文字、圖像。而當跟 Bard AI 生成結合，這些辨識出的內容可以延伸做出哪些更進一步的整理呢？

如果想了解 Google Bard 幾種關鍵功能與應用方式的朋友，歡迎參考：

（2023/10/15 更新，ChatGPT 現在還可以圖片、文字混合提問，而且效果更好：ChatGPT 圖文混合提問 9 種超能力：程式、教育、學習到行銷應用）

2024/2/6 更新，還具備了免費圖像生成功能：Google Bard 免費升級 Gemini Pro 好用嗎？實測生成圖片、分析長文、內容查證

2024/5/4 更新：Gemini App 取代 Google 語音助理，摘要網頁、總結郵件、從文件找資料實測

1. 圖片文字 OCR，中文手寫也能辨識

之前 Google Bard 圖片上傳功能只支援英文版，現在開始中文版也能使用，理所當然的，就能用 OCR 去辨識圖片內的中文文字內容。

例如我可以上傳一張公告圖檔，請 Bard：「整理現在上傳的這張圖片中的文字內容。」

如果這張圖片內的文字沒有太多變化的版面，基本上可以很快速完整的辨識出來。（這樣的 OCR 工具也很多，例如：節省從影片圖表複製翻譯資料時間，桌面端 Google 智慧鏡頭超活用）

而簡單的中文手寫筆記，只要夠清晰、結構不複雜，也能順利辨識出內容，還能請 AI 幫忙直接整理。

2. 把流程圖圖片整理成文字大綱

如果是比較複雜的流程圖「圖片」，有辦法利用 Google Bard 進行辨識嗎？這邊如果要 Bard 直接整理圖片上的流程圖，會很容易失敗，但可以分成兩步驟來做。

先單純辨識文字：「辨識下面這張流程圖圖片中的所有文字內容，並列出所有文字。」

然後請 Bard 用 AI 把散亂的文字重新整理成大綱：「根據流程圖把上述文字整理成大綱清單。」

不過太複雜的流程圖，辨識文字有一定難度外，也很難整理成有條理的大綱。

3. 看圖說故事，用照片寫出文章

Google Bard 目前似乎不允許上傳有人物的照片去做分析，但其他內容可以。

這時候，我們可以試試看請 Bard 根據圖片來寫出一段介紹：「根據這張圖片，撰寫一篇旅行文章。」

4. 根據手繪圖片，設計簡單網頁程式碼

還有一個有趣的利用，我們可以試試看手繪出一個簡單的網頁版面，請 Google Bard 分析圖片後，寫出網頁程式碼。

當然，目前 Bard 還無法進行很複雜的版面分析與設計，但像是下圖這樣的結果，是可以順利產出的。

5. 照片內容分析，介紹動植物或產品

原本的 Google Lens 智慧鏡頭就可以一定程度的辨識照片中的動物、植物、產品，現在這個功能結合到 Google Bard ，我們就可以在辨識出照片內容後，再請 AI 進行進一步的分析與介紹。

6. 描述需要的圖片情境，讓 Bard 幫你找出來

而且現在 Google Bard 除了可以上傳圖片進行 AI 辨識分析，也可以在回答時顯示圖片。

所以或許我們可以這樣問：「我需要一張可以呈現"在辦公桌上專注工作"的圖片。」

這時候 Bard 就會根據這個邏輯去找到有適合內容情境的圖片檔案，這背後也是包含了圖片內容分析的技術。

Google Bard 這一系列更新，確實有不少特別的功能，而且目前都是免費帳號即可應用。

不過實際使用上， Bard 在提問與回答上相較於 ChatGPT ，還是比較無法處理一些複雜有邏輯的任務生成。所以基本上我還是主要使用 ChatGPT 作為 AI 助理，特別情況下才會 Google Bard 獨有功能來解決問題，就像這篇文章提到的圖片辨識與延伸內容生成需求時。

大家好，我是電腦玩物站長 Esor ，歡迎參考我的系列課程與書籍：

「個人數位生產力」線上課程（可使用電腦玩物老讀者折扣碼 ESOR500 ，獲得 500 元折價喔！）。
時間管理、筆記系統、AI 工具相關課程：「課程介紹連結」
目前最新著作：《防彈筆記法》
訂閱追蹤 podcast 節目：「高效人生商學院」（Apple podcast 訂閱、 Google Podcast 訂閱）
訂閱「電腦玩物電子報」，不定期出刊。

我的電子郵件是 esorhjy@gmail.com ，如果你有任何關於筆記術、時間管理、提升工作效率的問題，歡迎寫信跟我討論。

（歡迎社群分享。但全文轉載請來信詢問，禁止修改上述內文，禁止商業使用，並且必須註明來自電腦玩物原創作者 esor huang 異塵行者，及附上原文連結：Google Bard 圖片 AI 辨識的 6 種應用案例，用手繪圖寫出簡單網頁）

Esor Huang

電腦玩物站長 Esor （異塵行者），在電腦玩物上的文章有別於單純的軟體和服務介紹，而是更強調軟體和服務背後的數位工作思維及方法，並說明實際應用後帶來的生活改變。著有《電腦玩物站長的筆記思考術》、《大腦減壓的子彈筆記術：用Evernote打造快狠準系統》、《比別人快一步的Google工作術：從職場到人生的100個聰明改造提案》等暢銷書籍。

留言

harmonica2nd2023年9月21日下午3:46
以一樣的做法上傳圖片要求擷取文字，只得到「我是語言模型，沒有能力幫這個忙。」不知道是否為選擇性開放試用新功能
回覆刪除
回覆
匿名2023年9月27日下午3:56
可以用簡單的圖片, 用AI轉換成網頁程式碼,很方便!謝謝分享!

也歡迎逛逛我的網站:
https://hk-computer-repair.com/
回覆刪除
回覆

新增留言

張貼留言

為了避免垃圾廣告留言過多，開始測試「留言管理」機制，讓我可以更容易回應讀者留言，並更簡單過濾掉廣告，但只要不是廣告留言都會通過審核。

搜尋此網誌

電腦玩物