OpenAI發布超越博士生推理能力的 O1 (代號:草莓) 模型

ChatGPT製造商 OpenAI宣布了其下一個主要產品版本:代號為 Strawberry 的生成式 AI 模型,正式名稱為 OpenAI o1。這長期以來謎一樣的“草莓計畫”,推出了最新的 AI 模型系列——o1。此模型被譽為向具備類人通用智能(AGI)發展的一大步,甚而於各項專業測試中取得了驚人成績。

OpenAI於公司 Blog 指出,OpenAI o1在國際數學奧林匹亞競賽中能正確解答83%的題目,相較之下,今年5月上線的GPT-4o只能正確解答13%的題目。

正式名稱: OpenAI o1

更準確地說,o1實際上是一個模型的集合。今天,ChatGPT 和 OpenAI 的 API 中提供了兩個版本:o1-preview 和 o1 mini,這是一個更小、更便宜的模型。您必須訂閱 ChatGPT Plus 或 Team 才能在 ChatGP 用戶端中看到它們;企業和教育用戶可於下周初獲得存取權限。

請注意,o1 聊天機器人體驗與 ChatGPT 不同,o1 還不能瀏覽網頁或分析文件。它有速率限制——目前 o1-preview 的每週限制為 30 條訊息,o1-mini 的每週限制為 50 條。而且 o1 型號價格昂貴。在 API 中,o1-preview 的價格為每 100 萬個輸入Token 15 美元(GPT-4o 成本的 3 倍),每 100 萬個輸出Token 60 美元(GPT-4o 成本的 4 倍)。 (100 萬個Token相當於大約 75 萬個單字。)

OpenAI 表示,計劃向 ChatGPT 的所有免費用戶提供 o1-mini 存取權限,但尚未確定發布日期。

OpenAI o1 的特色

o1 模型不僅在數學資料比賽中名列前茅,更是在許多科學指標上超越人類 PhD 所達成的準確度。此模式在 GPQA 的硬科學問題基準上超越了前所未有的成績,其成就之上均勝過過去最優異的 Claude 3.5 Sonnet。值得注意的是,這樣的創舉同時體現在影像識別基準 MMMU 評測上,使 o1 成為首個在人類專家儀器中具備競爭力的 AI 模型。

o1的卓越性能之所以能達至如此,主要歸功於其使用了完備的「思維鏈」策略。簡單來說,這是一種模仿人類分析問題的思路,透過強化學習的方式進一步精進其思維鏈能力,解決問題步驟化繁為簡,強化不同步驟的嘗試及優化策略,進而做到修正自身錯誤。

儘管如此,OpenAI並未完整公佈該“思維鏈”運作的全部細節,這不禁讓外界質疑其策略是否出於商業考量,但官方則表示這是為了保護用戶而不會將未對齊的思維鏈直接展示給用戶,以避免潛在不良影響。讓人期待的是,o1 模型已經可以即時應用於 ChatGPT 與部分“信任的 API 使用者”手中,這不僅標誌著技術的重大突破,也為開源社區帶來了一些新希望。

OpenAI o1 的由來

o1 避免了一些通常會導致生成式 AI 模型出錯的推理陷阱,至少根據 OpenAI 的說法是如此。這是因為 o1 可以透過花更多時間考慮命令或問題的所有部分來有效地進行事實檢查。

OpenAI 表示,o1 源自於一個名為Q*的公司內部項目,特別擅長解決數學和程式設計相關的挑戰。但純文字 o1「感覺」與其他生成式人工智慧模型有質的不同之處在於它在回應查詢之前「思考」的能力。

當給予額外的時間「思考」時,o1 可以從整體上推理任務——提前計劃並在較長時間內執行一系列行動,以幫助它得出答案。這使得 o1 非常適合需要綜合多個子任務結果的任務,例如偵測律師收件匣中的特權電子郵件或集思廣益產品行銷策略。

A screenshot of OpenAI's new advanced reasoning engine, code-named Strawberry, in action.
 圖片來源:OpenAI

OpenAI 的研究科學家 Noam Brown 在一系列推文中表示:“o1 經過強化學習訓練,能夠在通過私人思維鏈做出反應之前進行‘思考’。” “它思考的時間越長,它在推理任務上的表現就越好。”

據一位有權訪問的人士(路透副總裁Pablo Arredondo)表示,o1 在分析法律摘要和確定LSAT 邏輯遊戲中問題的解決方案等方面比OpenAI 之前的模型(例如GPT-4o)更好。

「我們看到它處理了更實質、多方面的分析,」自動化測試還顯示出針對各種簡單任務的優勢。

OpenAI 聲稱,在高中數學競賽國際數學奧林匹克資格考試中,o1 正確解決了 83% 的問題,而 GPT-4o 僅解決了 13%。該公司還表示,o1 在科學和編碼問題上應該會表現得更好。

現在,有一個缺點。 o1可能比其他型號慢,具體取決於查詢;阿雷東多告訴我們,模型可能需要十多秒鐘才能回答一些問題。 (因此,o1 的聊天機器人版本會顯示目前正在執行的子任務的標籤來顯示其進度。)

考慮到產生人工智慧模型的不可預測性,o1 可能還有其他缺陷和限制(例如,發現 o1 也會在井字棋遊戲中出錯)。

OpenAI 的最新模型 - 代號為 Strawberry - OpenAI o1 System Card
Tenten™ - AI & Generative Future (@tenten.co) on Threads
據說OpenAI正準備加速推出他們的AI 模型Strawberry「草莓」,消息走漏得太快,比原本的秋季計劃更早兩週登場!下面是統整目前網上所有的資訊: 👉OpenAI 計劃在接下來的兩週內發布一個「草莓」模型的文本限定版本,根據兩位參與該模型的測試者的說法。 👉 回應時間需要 10 到 20 秒,速度比預期慢。 👉測試者發現其性能略優於 GPT-4o,但「草莓」在處理簡短、簡單的查詢時表現不佳,而且在記憶整合方面存在問題。 👉目前該模型缺乏圖像整合功能,是一個純文本的模型。 👉 預計「草莓」將設置速率限制,並可能引入一個高價位層級,以滿足尋求更快響應時間的用戶,這將與現有的 ChatGPT 定價結構有所不同。傳最高訂閱費竟然高達2000美元!OpenAI

OpenAI o1 的推理能力為什麼重要:除了能夠更好地解決複雜的數學、科學和編碼問題之外,OpenAI 表示這種方法更易於解釋,並且更符合預期的安全護欄。

產品體驗方式

  • 它將添加到 ChatGPT,但將與現有模型(包括Chat-GPT 4o)共存,並且不會取代它們。
  • 該模型還有一個輕量級版本,稱為 o1-mini,專門針對程式碼產生。
  • OpenAI 正在分階段推出 o1。從今天開始,ChatGPT Plus 和 Team 用戶將獲得對 o1-preview 和 o1-mini 的有限存取。教育和企業客戶下週即可獲得存取權限。
雖然 OpenAI o1 有其優點,但它也有一些限制。
  • 回答可能需要更長的時間,目前它是純文字模型,目前缺乏針對特定文件進行推理或從網路收集即時資訊的能力。
  • OpenAI 表示,即使是有存取權限的人也將受到每週 30 則訊息(o1-preview)和 50 則訊息(o1-mini)的限制。
工作原理:新模型的運作方式與先前版本不同,因為它在嘗試回應查詢之前會考慮不同的路徑。
  • OpenAI 在宣布新模型的文章中表示:“我們訓練這些模型在做出反應之前花更多時間思考問題,就像人類一樣。” 「透過培訓,他們學會完善自己的思考過程,嘗試不同的策略,並認識到自己的錯誤。」
  • OpenAI 表示,在測試中,新模型“在物理、化學和生物學方面具有挑戰性的基準任務上的表現與博士生類似”,並且在數學和編碼方面比過去的模型更有能力。
  • OpenAI 表示:“在國際數學奧林匹克(IMO)資格考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型的得分為 83%。”
  • 至於與這些新增功能相關的風險,OpenAI 表示,其評估發現 o1 在該公司的準備評級系統中被評為“中等風險”,“因為它無法促進評估超出現有資源已經可能出現的風險。”
  • 此外,OpenAI 補充說,其安全測試發現 o1 比之前的模型能夠更好地遵守其安全準則,並且更能抵抗生成有害內容。
言這個模型可能是 Mira Murati 在 5 月宣布今年發布的重大版本
  • 然而,正如 OpenAI 在之前社群討論那樣,OpenAI 也在開發新的、更大的 GPT-4 版本。 “除了新的 OpenAI o1 系列之外,OpenAI 還計劃繼續開發和發布 GPT 系列的模型。”
  • 微軟CTO Kevin Scott 在5 月的公司Build 大會上表示,OpenAI 已經開始訓練一個更強大的模型,將其比作巨鯨,而GPT-4 則比作逆戟鯨,先前的模型則類似於鯊魚和其他較小的海洋生物。
  • 在 Build 大會結束後,OpenAI 稍後表示,它已經開始訓練其下一個前沿模型,但該公司當時並沒有透露——現在也沒有透露——預計發佈時間。

總言之,OpenAI o1 的推出無疑再次震撼了 AI 領域,其憑藉超越同類型模型的能力與性能,不僅在理論上重新定義了 AI 的潛力,更使我們看到未來運用這類技術的廣闊前景。毋庸置疑,我們已經距離 AGI 又更近一步了.

OpenAI-o1 常見問題

常見問答1. OpenAI o1 是什麼?

OpenAI o1 是 OpenAI 最新的生成式 AI 模型,代號為“草莓”,專為提升推理能力而設計。它可以在回應查詢之前進行“思考”,從而提供更準確的答案。

2. OpenAI o1 的主要特點有哪些?

OpenAI o1 具有強大的推理能力,更擅長處理複雜的數學、科學和編碼問題。它可以透過花時間考慮問題的各個方面來有效地進行事實檢查。

3. OpenAI o1 的可用性如何?

目前 o1 可供 ChatGPT Plus 和 Team 用戶使用,並將在下週向教育和企業客戶提供存取權限。OpenAI 計劃將來向所有免費用戶提供 o1-mini 的存取。

4. OpenAI o1 有哪些限制?

OpenAI o1 目前只能處理純文字,沒有能力針對特定文件進行推理或從網路收集即時資訊。它也有速率限制,每週訊息數量受限。

5. OpenAI o1 如何與先前的模型不同?

與先前的模型相比,OpenAI o1 能夠在做出反應之前進行更深入的思考。這種策略使其在數學和編碼等領域的複雜任務中表現得更好。

Learn more about OpenAI o1

Share this post
Klara

An enthusiastic learner supporting our marketing teams across SEO, social media, and content creation. Helps brands discover their unique voice, positioning, and narrative in a crowded marketplace.

Loading...