ChatGPT o1 會思考的 AI 新舊版實測比較表格:翻譯、摘要、企劃、文案與寫程式



OpenAI 今天發布「 ChatGPT o1-preview」,是會嘗試主動思考的 AI 語言模型, ChatGPT Plus 訂閱用戶現在就可使用。根據 OpenAI 的說法:「我們訓練這些模型(ChatGPT o1-preview)在回應前花更多時間思考問題,就像人類一樣。透過訓練,它們學會精煉思考過程、嘗試不同策略,並能察覺自己的錯誤。」「如果您正在解決科學、程式設計、數學和相關領域的複雜問題,這些增強的推理能力可能特別有用。」

我自己在講 ChatGPT 提升工作效率的相關課程時,常常強調一個設計指令的重點:「如果我們寫 AI 指令( prompt、提示語)時,可以讓 AI 寫出自己在想什麼、怎麼處理任務,通常生成的內容結果會相對更好。

關於我的指令設計方式,可參考:

從使用者端的角度來看「 ChatGPT o1-preview」,就是在 AI 生成內容前,會先展開一步一步的思考流程,它可能會選擇思考的策略與切入點,有時會提出一些批判思考,也會更仔細的分析資料細節來做深入處理。


在這個過程中,「 ChatGPT o1-preview」生成內容的速度其實比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考時間(或者更久),才會開始一步一步的生成內容。

也因為這樣的「思考」過程需要耗費更多運算資源,所以即使是 ChatGPT Plus 用戶,在使用「 ChatGPT o1-preview」時也有一些限制:

  • 目前無法上傳文件、圖片進行分析。(2024/9/13)
  • 目前無法搜尋網路資料。(2024/9/13)
    • 但 OpenAI 有預告上述功能之後都會補上。
  • o1-preview 和 o1-mini 都可以在模型選擇器中手動選擇,目前訊息限制為 o1-preview 的每週 50 則訊息,o1-mini 的每天 50 則訊息。

也就是說,目前「 ChatGPT o1-preview」比較像是「 GPT-4o 」的輔助,在進行一些需要深入分析資料、產出有邏輯結果的任務,或者像是科學、數學、程式碼相關領域時,可以運用。

今天這篇文章,我就從自己日常慣用的幾個 AI 輔助需求:翻譯、摘要、企劃思考、文案,以及有時用程式碼寫個小工具的角度,以實際案例測試看看,「 ChatGPT o1-preview」的效果如何,並和「 GPT-4o 」同樣指令下的結果作比較。

當然,如果能從科學、數學與程式碼的角度來驗證更好,不過從我個人常用角度出發,也想驗證看看 ChatGPT o1-preview 是否能滿足我的日常工作需求,也提供大家參考。

下面,先提供大家下面測試案例的快速心得比較表格。

任務ChatGPT o1-previewGPT-4o差異與結論
翻譯
花費約 57 秒完成整篇文章翻譯。

翻譯結果更簡潔有力,文句白話流暢。

用語更符合台灣慣用詞彙。

在「白話流暢度」與「專業用語」間平衡得更好。
翻譯速度較快。

翻譯結果相對較弱,文句不如 o1-preview 流暢。
ChatGPT o1-preview 在翻譯質量上優於 GPT-4o,雖然速度較慢,但結果更佳。
程式碼生成(九九乘法小遊戲)
第一次生成的程式碼正確性高,介面美觀,操作流暢。

能計算分數並回饋對錯。

無需修改即可使用。
初次生成的程式碼有明顯錯誤。

需要多次反覆調整才能達到可用程度。
ChatGPT o1-preview 在程式碼生成方面更準確、完善。
企劃報告制定
主動進行反向思考,探索不同呈現方式。

提供具體、邏輯分明的建議步驟和文章架構。

深入分析資料細節。
建議較為一般化。

缺乏深入的分析和明確的建議。
ChatGPT o1-preview 在企劃思考上更深入、具體。
文章摘要
摘要更深入完整,有條理。

能整理出詳細的步驟和操作要點。
基本架構相似。

細節完整程度略有不足。
ChatGPT o1-preview 在摘要上提供更詳細的內容。
社群貼文與文案撰寫
生成內容較為結構化,像是分析整理。

缺乏社群貼文所需的流暢性和吸引力。

更注重安全性和準確性,避免使用版權材料。
文案較為流暢,適合社群貼文風格。

可能在細節上不夠精準。
GPT-4o 在文案撰寫上表現較佳,更適合社群貼文。




翻譯文章案例實測:

我分享過自己慣用的翻譯、摘要等等指令,我就用同樣的指令,來測試看看 ChatGPT 新舊版 AI 模型的效果。(參考:讓 AI 成為閱讀助手, ChatGPT 摘要、翻譯與學習筆記提示語分享

首先來試試看翻譯(英翻中),我通常會用下面指令來要求 ChatGPT 翻譯文章:「把下面這篇XXX主題的文章,翻譯成台灣繁體中文,請一段一段翻譯,盡量在維持原文語意,主題風格的情況下,讓上下文的語句更自然通順,遇到專有名詞時附註英文原文,並在第一遍基本翻譯後,用台灣慣用詞彙與語氣進行最後修飾。

下圖「左方」,是「 ChatGPT o1-preview」翻譯的結果。下圖「右方」,是「 GPT-4o」翻譯的結果。

結論是,「 ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻譯(文章是 OpenAI 「 ChatGPT o1-preview」官方公告),但是翻譯的結果比「 GPT-4o」優異不少。

例如,大多數時候,「 ChatGPT o1-preview」翻譯的文句更加簡潔有力(相對「 GPT-4o」),可以在許多段落看到這樣的差別。


「 ChatGPT o1-preview」翻譯的結果也更白話,相對流暢,用語更符合我指定的台灣用語。


「 ChatGPT o1-preview」在「白話的流暢度」與「專業用語」之間也相對更能拿捏得當,會讓人更容易看懂,但又保持專業用語的明確性。





製作99乘法小遊戲案例實測:

我之前曾經測試讓 ChatGPT-4o、 Claude 3.5 sonnet 來撰寫一些學習小遊戲,利用 AI 寫程式的能力,製作我和小孩之間的練習功課工具。


我也讓「 ChatGPT o1-preview」測試看看,這次我讓他直接寫一個九九乘法表小工具。 o1 同樣會先思考撰寫工具的邏輯,然後才開始寫出程式碼。

我提供的指令是:「我的小孩正在練習記憶數學的 99乘法表 ,你可以設計一個協助她練習的小遊戲嗎?
請一步一步分析,從簡單的 2 與 5 的乘法表開始,然後練習 3、4、6、7、8、9 的乘法表,根據每一個乘法表設計一個記憶遊戲,遊戲一開始可以選擇要練習哪一個乘法表,進入後可以隨機考驗該乘法表的熟練度,最好設計有遊戲機制。


下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小遊戲,我沒有做任何的修改,但是正確性、介面美化、操作流暢度都已經達到可用的程度,還會計算分數與回饋對錯。


下面是舊版 GPT-4o 第一次生成的小遊戲,基本介面可操作,但有一些明顯錯誤(如下圖),可能還需要多幾次的反覆問答,才能調整正確。





制定企劃報告案例實測:

我也很常跟 ChatGPT 一起討論溝通企劃案,下面是新舊版本生成的結果比較。

我提供了許多參考資料,請 AI 幫我做產品的企劃報告。

「 ChatGPT o1-preview」在生成過程中,會主動做一些反向思考,與探索不同的報告呈現方式,並且提供一些具體的、邏輯分明的建議步驟,這些不一定有出現在我的指令中。


下面是 ChatGPT o1-preview 生成的版本,我舉出其中一部分,它提出了一個撰寫初稿的建議方案,並指出了一些明確的試寫步驟、文章架構方向。


下面是 GPT-4o 類似段落的版本,雖然也提出了撰寫初稿的建議,但整體的說明就比較一般,少了一些明確的、深入的分析與建議。





摘要文章案例實測:


我也測試了用兩個版本去摘要同一篇文章。

下面是  ChatGPT o1-preview 的版本,可以看到文章細節整理得更深入、完整、有條理。


下面是 GPT-4o 版本摘要的結果,基本架構也相似,但細節的完整程度就有一點落差





撰寫社群貼文、文案案例實測:

不過,ChatGPT o1-preview 也有他不擅長的內容,目前看起來它撰寫流暢文案的效果,反而沒有 GPT-4o 好(現在寫文案相對效果最好的可能是 Claude 3.5 Sonnet )。

下面我請 AI 根據參考資料寫出社群貼文上的文案。

ChatGPT o1-preview 版本,AI 會思考撰寫過程,撰寫時會進行更多安全性、準確性的思考,例如避免使用版權材料


但是多次嘗試後,發現 ChatGPT o1-preview 版本目前的結果,比較像是把參考資料更有結構、更有邏輯的分析整理,不太像是社群貼文。


相較之下, GPT 4o 的版本,可能細節沒有那麼精準,但文案比較流暢。(如下圖)


以上就是我的初步測試案例與心得,提供大家參考。

有興趣的朋友可以進一步研究:




大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:ChatGPT o1 會思考的 AI 新舊版實測比較表格:翻譯、摘要、企劃、文案與寫程式

留言

這個網誌中的熱門文章

畫張圖說得更清楚! Napkin 用 AI 幫你的簡報文章手繪視覺思考圖

Google NotebookLM 免費中文 AI 筆記實例教學,老師、學生、創作者利器

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

Google Maps 我的地圖完全教學!規劃自助旅行攻略

Slack 完整教學與上手心得:找到正確的團隊溝通之道

Plurk官方:中國微軟的MSN聚酷疑似剽竊噗浪程式碼(更新:微軟承認抄襲噗浪)

為什麼大家愛用 Trello ?最佳整理教學讓事情井然有序