• OpenAI 最近推出了 Responses API,這是一個重要的更新,旨在統一並增強其開發者工具的功能。
  • 它支持多輪任務和工具使用,適合構建複雜的 AI 應用程序。
  • 新的工具包括 Web 搜索工具、文件搜索工具和計算機使用工具,這些工具與 Responses API 集成,提供實時數據訪問和操作能力。
  • 此外,OpenAI 還升級了 Agents SDK - 這是一個開源框架,支持多代理協作,特別適合需要代理交接和追蹤的應用場景。

建築 Agent 的新工具 | OpenAI — New tools for building agents | OpenAI

什麼是 OpenAI Responses API?

OpenAI Responses API 是 OpenAI 的一個新 API,取代並統一了之前的 Chat Completions 和 Assistants API。它為開發者提供了一個集成的平台,支持多輪任務和工具使用,特別適合需要處理複雜、長期的任務的應用程序。這個 API 提供狀態和無狀態模式,狀態模式免費存儲聊天狀態 30 天,方便調試和觀察。

新工具的介紹

OpenAI 還推出了三個新的內置工具,與 Responses API 一起使用:

  • Web 搜索工具:允許實時網絡搜索,類似於 ChatGPT 的功能,使用 GPT-4.0 Search Preview 模型,簡單問答準確率高達 90%。
  • 文件搜索工具:開發者可以上傳數據,OpenAI 會處理並嵌入到可搜索的向量存儲中,適合處理私有文件和用戶偏好。
  • 計算機使用工具:能控制計算機操作,如點擊和輸入,現在開發者也可以用於自己的項目。

Agents SDK 的升級

OpenAI 將實驗性的 Swarm SDK 升級為 Agents SDK,新增了類型支持、保護欄和 OpenAI 儀表板上的追蹤功能,幫助管理多代理系統,特別適合需要代理協作的複雜應用。

為什麼這些更新重要?

這些更新滿足了對能與實時數據交互並執行複雜任務的 AI 應用程序的需求。例如,Web 搜索工具解決了傳統語言模型無法訪問最新信息的問題,而文件搜索工具簡化了使用專有數據的過程。計算機使用工具則開啟了 AI 代理與數字環境交互的新可能性,如自動預訂航班或管理日曆。


了解更多

Responses API 的發布,標誌著 AI 應用開發進入一個新階段。以下是對這些更新的詳細分析,涵蓋其功能、工具和對開發者的影響。

OpenAI 在其“Latent Space Lightning”播客中討論了這些更新,主持人包括 Decibel 的合伙人兼 CTO Alessio 和 SmallAI 的創始人 Spix,與會者還有 OpenAI 的 Roman 和 Nikunj。討論重點是 OpenAI 的新 API 發布和工具,旨在增強開發者構建高級代理式工作流程的能力。這些更新被視為 2025 年“Agent之年”的重要組成部分,反映了 OpenAI 對開發者反饋的承諾和持續改進。

Responses API 的詳細功能

Responses API 是本次更新的核心,取代並統一了之前的 Chat Completions 和 Assistants API。它提供了一個單一的端點,支持多輪任務和工具使用,特別適合需要多步操作的代理式工作流程。這個 API 提供兩種模式:

  • 狀態模式:免費存儲聊天狀態 30 天,方便調試和觀察,特別適合需要長期跟蹤的應用。
  • 無狀態模式:類似於傳統的 Chat Completions API,適合單次請求的場景。

開發者可以輕鬆遷移到 Responses API,OpenAI 承諾提供一年的遷移期,並確保功能和數據的平滑過渡。Assistants API 計劃在 2026 年中期停止支持,但遷移路徑將保持順暢。

新工具的深入分析

與 Responses API 一起發布的三個新工具進一步增強了其功能:

工具名稱 功能描述 應用場景
Web Search Tool 實時網絡搜索,集成到 API 中,使用 GPT-4.0 Search Preview 模型,簡單問答準確率 90% 需要最新網絡信息的應用,如新聞聚合
File Search Tool 處理上傳數據,嵌入到可搜索的向量存儲中,適合私有文件和用戶偏好 企業內部文件搜索,個性化推薦系統
Computer Use Tool 控制計算機操作,如點擊、滾動和輸入,基於 Operator 產品技術 自動化任務,如預訂航班、管理日曆

這些工具的集成使得 Responses API 成為一個強大的平台,特別是在需要實時數據訪問和操作能力的場景中。例如,Web Search Tool 的性能提升顯著,與標準 GPT-4.0 相比,簡單問答準確率從 38% 提高到 90%,這得益於搜索研究團隊的合成數據技術和模型蒸餾。

新內建工具

  1. 網絡搜索工具
    • 這個工具讓 AI 代理能即時訪問互聯網信息,類似於 chat GPD for search。它可在 Responses API 中作為工具使用,也可在聊天完成 API 中作為 GPD 4.0 search preview 模型使用。
    • GPD 4.0 search preview 模型經過專門優化,準確率從 38% 提升至 90% 在簡單問答任務中,顯示出顯著的性能提升。搜索研究團隊使用合成數據技術和模型蒸餾,確保模型能保持事實性,準確引用來源。
    • 當與 Responses API 結合時,開發者能通過函數調用和結構化輸出即時按特定 JSON 模式組織網絡數據,這對於應用集成非常有用。例如,開發者可以創建一個 AI 代理,根據用戶需求從網絡獲取結構化數據,適合即時信息應用。
    • 網站發布者可以控制是否出現在網絡搜索工具中,相關文檔可參考 OpenAI Web Search Documentation
  2. 文件搜索工具
    • 改進後更高效地處理用戶數據,提供即用型向量儲存,方便搜索上傳的文件。新增元數據過濾功能,特別適合管理大型數據集,當數據記錄超過 5000 至 10000 時尤為關鍵。
    • 例如,開發者可檢索用戶偏好或歷史數據,與網絡搜索工具結合,找到相關的即時信息或產品,實現更個性化和動態的 AI 代理回應。這一功能特別適合需要記憶和偏好管理的應用,如旅遊政策 FAQ 或用戶推薦系統。
    • 對於不想內部重建嵌入和分塊能力的公司,這是一個管理型 RAG 服務,適合快速啟動。相關案例包括 Navant,利用文件搜索工具整合 FAQ 和政策,使助理更了解文件內容。
  3. 計算機使用工具
    • 受 Operator 產品啟發,允許 AI 代理在計算機或瀏覽器上執行任務,如點擊、滾動和輸入。這個工具仍處於早期階段,類似於 GPT-1 或 GPT-2 的計算機使用模型,輸出通常是工具調用。
    • 它適合自動化需要多步操作的任務,例如為產品或客戶自動化計算機任務。雖然目前功能有限,但顯示出自動化複雜任務的巨大潛力,例如模擬用戶在瀏覽器上的交互。
評估細節描述如下

Agents SDK 的升級與功能

OpenAI 將實驗性的 Swarm SDK 升級為 Agents SDK,新增了以下功能:

  • 類型支持:確保代理間的數據交互更加結構化。
  • 保護欄:允許並行執行,阻止不當操作,類似於樂觀生成模式。
  • 追蹤功能:在 OpenAI 儀表板中可視化代理操作,方便調試和監控。

Agents SDK 特別適合多代理協作和交接,解決了生產環境中代理編排的複雜性問題。它的靈活性允許與任何支持 Chat Completions API 格式的提供者集成,並支持多個追蹤提供者,預設指向 OpenAI 儀表板。

行業趨勢與比較

這些更新與行業趨勢相符,例如 Perplexity 和 Gemini 的搜索集成 API。OpenAI 的 Web Search Tool 提供詳細的引用,包括匹配的子段落,這成為當前標準。與其他 RAG(檢索增強生成)解決方案相比,OpenAI 的 File Search Tool 提供了一個托管服務,減少了開發者需要自建向量數據庫的負擔,但對於需要完全定制的場景,可能需要其他開源框架。

開發者的選擇與建議

對於新開發者,建議直接使用 Responses API,因為它涵蓋了 Chat Completions 和 Assistants API 的所有功能,並提供更多能力。對於現有用戶,如果需要使用內置工具或遷移到更靈活的平台,Responses API 是一個理想選擇。OpenAI 鼓勵開發者從其托管服務開始,隨後根據需求調整定制化程度。


OpenAI Agents API 安裝與基本使用

OpenAI Agents SDK 的安裝非常簡單,只需在終端輸入 pip install OpenAI-agents 即可。
例如,您可以創建一個簡單的代理來猜測城市的天氣,並讓它以戲劇性的方式回應,例如描述台北的天氣為“陽光普照”。

進階功能與限制

該 SDK 支持代理之間的任務交接,例如一個分類代理可以根據用戶問題將任務路由到數學或歷史導師代理。
它還提供網絡搜索工具,允許代理搜索互聯網信息,並支持實時響應流式傳輸。
然而,研究表明,OpenAI Agents SDK 與 OpenAI 模型綁定,可能導致供應商鎖定,且缺乏內置的上下文管理和長期記憶功能,這可能需要額外配置。

安裝過程

安裝 OpenAI Agents SDK 的第一步非常簡單,只需在終端執行以下命令:

pip install OpenAI-agents

這一過程通常快速完成,無需複雜配置,適合初學者和專業開發者。

基本示例:天氣猜測代理

為了展示 OpenAI Agents SDK 的基本使用,我們可以創建一個簡單的代理來猜測城市天氣。具體步驟包括:

  1. 從 agents 模組中導入 AgentRunner 和 FunctionTool。
  2. 定義一個簡單函數 getWeather,接受城市名稱作為輸入,返回一個靜態句子,例如“該城市的天氣是陽光普照”。
  3. 創建一個代理,設定名稱、指示(系統提示)以戲劇性方式回應,指定模型,並提供 getWeather 工具,通過 FunctionTool 包裝。
  4. 使用 await runner.run 執行代理,輸入如“坦帕灣”,觀察其戲劇性的回應,例如“見證坦帕灣的輝煌,陽光主宰一切”。

這種簡單示例展示了 OpenAI Agents SDK 如何輕鬆實現基本代理功能,特別適合初學者快速上手。

Responses API 的角色

OpenAI 的 Responses API 是一個新端點,取代了傳統的聊天完成 API(Chat Completions API)。該 API 被推薦用於新應用,並且是聊天完成 API 的超集,意味著它提供了更多功能,同時仍支持舊功能。根據相關文檔,Responses API 似乎不會很快被取代,但由於其與 OpenAI 模型的緊密整合,可能存在供應商鎖定風險。

此外,OpenAI 計劃在 2026 年中期淘汰 Assistance API,這表明 Responses API 是對先前反饋的改進,重新包裝後提供給用戶,旨在提升性能和易用性。

代理交接與路由

OpenAI Agents SDK 的一個強大功能是支持代理之間的任務交接,特別是通過分類代理(Triage Agent)實現問題路由。例如:

  • 首先,定義專門的代理,如 MathTutorAgent(數學導師代理)和 HistoryTutorAgent(歷史導師代理),每個代理有其特定指示。
  • 然後,創建一個 TriageAgent,包含這些代理的列表,根據用戶問題決定將任務轉移給適當的代理,例如數學問題路由到 MathTutorAgent,歷史問題路由到 HistoryTutorAgent。
  • 通過啟用詳細日誌記錄(verbose logging),可以觀察 TriageAgent 的決策過程,例如如何選擇數學導師代理來解決“5 乘以 5 加上 4”的問題,並最終得到 29 作為答案。

這種路由模式特別有效,適用於需要多代理協作的場景,但如果問題不涉及數學或歷史,則需要額外的保護措施(如 guardrails),目前該功能可能仍需進一步完善。

監控與追蹤

OpenAI 提供了自己的追蹤儀表板,用於監控代理交互,開發者可以點擊查看具體的 API 調用和代理交接過程,例如從 TriageAgent 交接到 MathTutorAgent 的詳細記錄。此外,第三方工具如 AgentOps 已經與新 OpenAI SDK 集成,提供了更詳細的洞察,包括代理流程、提示標記數(prompt tokens)、完成標記數(completion tokens)以及工具執行時間和結果。

使用 AgentOps 的步驟包括:

  1. 通過 pip 安裝:pip install AgentOps
  2. 登錄或創建免費帳戶,進入儀表板,創建新項目(如“OpenAI 新 SDK”)。
  3. 初始化會話,輸入 API 鍵,執行代理代碼,結束會話並記錄活動。
  4. 在儀表板中查看詳細數據,例如聊天記錄、標記數統計以及工具使用情況。

這種監控功能特別適合需要深入分析代理行為的開發者,尤其在與 Crew AI 等其他框架結合使用時。

內置工具:網絡搜索示例

OpenAI Agents SDK 包括多個內置工具,如文件搜索、計算機搜索和網絡搜索。其中,網絡搜索工具特別簡單且強大。例如:

  • 從 agent.tool 模組導入 WebSearchTool 和 UserLocation 類型。
  • 創建一個代理,設定網絡搜索工具和用戶位置(如坦帕灣城市範圍)。
  • 執行代理,搜索本地體育新聞,並返回一個有趣的更新,例如“坦帕灣海盜隊(Tampa Bay Buccaneers)與其外接手續約三年,總額 6600 萬美元”。

這種工具使代理能夠動態獲取實時信息,特別適合新聞或本地化應用的開發。

傳輸響應

為了實現實時輸出,OpenAI Agents SDK 提供了流式傳輸功能。與基本 runner.run 不同,使用 runner.run_streamed 可以逐行打印事件,適合需要即時反饋的場景。例如,執行一個代理生成五個笑話,並觀察其逐行流式輸出的過程,可能聽到新的笑話,增強用戶體驗。

代理克隆功能

另一個方便的功能是代理克隆,允許基於現有代理創建新代理,僅需最小配置更改。例如:

  • 克隆一個戲劇性天氣代理,創建一個較不戲劇性的版本,通過更新指示和模型實現。
  • 如果不更新模型,則默認使用現有模型,但工具和輸出類型會從原始代理繼承,方便快速迭代。

這種功能特別適合需要多版本代理的場景,減少重複工作。

Demo:個人造型助理

為了展示 Responses API 和新工具的能力,OpenAI 示範了一個個人造型助理,這是一個 AI 代理。這個 AI 代理使用文件搜索工具來理解用戶從儲存數據中的偏好,並使用網絡搜索工具根據實時網絡信息找到相關產品或商店。這種組合使 AI 代理能夠為用戶提供個性化和最新的推薦。

例如,助理可以檢索用戶的穿衣偏好,然後搜索東京附近的 Patagonia 商店,根據用戶的喜好推薦外套。這一示範展示了如何將文件搜索和網絡搜索工具結合使用,創造一個功能強大的 AI 代理。

限制與思考

雖然 OpenAI Agents SDK 是開源的且易於使用,但存在一些限制:

  • 該 SDK 與 OpenAI 模型緊密整合,可能導致供應商鎖定,限制了與其他 AI 模型的兼容性。
  • 目前未見內置上下文管理和長期記憶功能,這意味著開發者可能需要額外配置這些功能,增加複雜性。
  • 路由模式(如交接功能)非常有效,特別適合某些用例,但並非萬能,可能不適合所有應用場景。

儘管如此,OpenAI Agents SDK 仍被認為是創建和管理多代理系統的重要進步,特別是其輕量級和易用性。開發者應注意其局限性,根據具體需求選擇是否採用。

數據總結

以下表格總結了 OpenAI Agents SDK 的主要特點和限制:

功能 描述
安裝 簡單,使用 pip install OpenAI-agents
基本示例 支持創建簡單代理,如天氣猜測,戲劇性回應
代理交接 支持任務路由,如分類代理決定數學或歷史問題處理
監控工具 提供追蹤儀表板和第三方工具(如 AgentOps)分析代理行為
內置工具 包括網絡搜索、文件搜索等,動態獲取信息
流式傳輸 支持實時輸出,增強用戶體驗
代理克隆 基於現有代理快速創建新版本,減少配置工作
限制 供應商鎖定,缺乏上下文管理和長期記憶,需要額外配置

未來

OpenAI 計劃將這些預覽模型(如搜索和計算機使用)集成到核心模型中,類似於去年的視覺能力從預覽模型融入 GPT-4。Agents SDK 也可能與強化細調 API 連接,通過存儲追蹤數據生成評估和改進代理性能,這一願景正在積極探索中。

結論

OpenAI Responses API 的發布及其相關工具和 Agents SDK 的升級,標誌著 AI 開發進入一個更強大、更集成的階段。這些更新不僅簡化了開發過程,還擴展了 AI 應用可能的範圍,特別是在實時數據交互和複雜任務執行方面。開發者可以期待一個更靈活、更強大的平台,推動創新的同時,OpenAI 也承諾根據反饋持續優化。

引用

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...