Claude 的 Skill-Creator 是 Anthropic 於 2026 年 3 月更新的技能開發工具組,整合建立、評測、改進與基準測試四種模式,讓不具工程背景的使用者也能將重複性工作流程封裝為可測試、可迭代的 Agent Skills。本文涵蓋 Skill-Creator 的核心運作原理、逐步操作教學、社群實務技巧,以及企業導入時常見的觸發失靈與描述優化問題。


Skill-Creator 是什麼?為什麼你需要它

Anthropic 自 2025 年 10 月推出 Agent Skills 開放標準以來,發現多數技能作者是領域專家而非工程師。他們熟悉自己的工作流程,但缺乏工具判斷一個技能在模型更新後是否仍然有效、觸發條件是否精準、或者一次修改究竟改善還是惡化了產出品質。

Skill-Creator 的核心價值在於將軟體開發中的測試、基準測試與迭代改進流程,移植到技能開發領域,且不要求使用者撰寫程式碼。截至 2026 年 3 月,Skill-Creator 已在 Claude.ai、Cowork 與 Claude Code 三個平台全面可用。

它的四種運作模式構成完整的開發生命週期:

模式 功能 適用場景
Create 透過對話引導建立技能草稿 從零開始打造新技能
Eval 定義測試案例並執行評測 驗證技能是否符合預期產出
Improve 根據回饋與數據改進技能指令 修正觸發失靈或產出品質問題
Benchmark 執行標準化評估並追蹤指標 模型更新後的回歸測試

底層運作依賴四個可組合的子代理:Executor 負責執行技能、Grader 根據期望值評分產出、Comparator 進行盲測 A/B 比較、Analyzer 從結果中提煉改進建議。


第一步:理解技能的基本架構

每個 Claude Skill 的最小單位是一個包含 SKILL.md 的資料夾。SKILL.md 由兩個部分組成:YAML 前置資料(frontmatter)和 Markdown 正文指令。

my-skill/
├── SKILL.md          # 必要:主指令檔
├── scripts/          # 可選:可執行腳本
├── references/       # 可選:參考文件
└── assets/           # 可選:模板、圖示等

YAML 前置資料中的 namedescription 是最關鍵的兩個欄位。name 決定斜線指令名稱(如 /my-skill),description 則是 Claude 判斷是否載入該技能的主要依據。Claude 的技能觸發機制是這樣運作的:啟動時,所有已安裝技能的 name 與 description 會載入系統提示中;當使用者提出請求,Claude 掃描這些描述來決定哪些技能與當前任務相關;只有被判定相關的技能,其 SKILL.md 正文才會被讀取進入上下文視窗。

這種漸進式揭露(progressive disclosure)架構意味著你可以在技能中捆綁大量參考文件,只要不被讀取就不消耗上下文額度。


第二步:用 Skill-Creator 建立你的第一個技能

在 Claude.ai 中,開啟新對話並輸入類似以下的提示即可啟動:

「我想建立一個技能,用來自動產生季度業務報告。」

Skill-Creator 會引導你釐清四個核心問題:

  1. 這個技能要讓 Claude 做什麼? 明確定義任務範圍,例如「從 Google Sheets 抓取資料並產生含圖表的 DOCX 報告」。
  2. 什麼情境下應觸發這個技能? 列出使用者可能的提問方式,例如「做季度報告」「產生 Q2 業績回顧」。
  3. 預期的輸出格式是什麼? 例如「一份含封面、目錄、資料表格和結論的 Word 文件」。
  4. 是否需要測試案例? 對於可客觀驗證的產出(如文件格式、資料轉換),建議設定測試案例;對於主觀產出(如寫作風格),可用人工審查替代。

完成訪談後,Skill-Creator 會生成 SKILL.md 初稿。以下是一個品牌指南技能的簡化範例:

---
name: brand-report
description: "Generate quarterly business reports following Acme Corp brand guidelines. Use when user mentions quarterly report, Q1-Q4 review, business performance summary, or asks to create a formatted report with company branding."
---

描述的撰寫有一個關鍵原則:Anthropic 內部測試發現 Claude 存在「觸發不足」(undertriggering)的傾向,也就是在技能明顯適用的場景中仍不載入。解決方法是讓描述稍微「積極」一些,明確列出多種可能的觸發情境。


第三步:撰寫與執行測試案例

Skill-Creator 的 Eval 模式將軟體測試的邏輯帶入技能開發。你定義測試提示、描述「正確產出」的標準,工具就能告訴你技能是否達標。

測試案例以 JSON 格式儲存在 evals/evals.json

{
  "skill_name": "brand-report",
  "evals": [
    {
      "id": 1,
      "prompt": "幫我產生 2026 Q1 的業績報告,資料在這份 Excel 裡",
      "expected_output": "含封面、目錄、資料表格的 DOCX 檔",
      "files": ["q1-data.xlsx"]
    }
  ]
}

撰寫測試案例時,社群累積了幾個重要經驗:

測試案例必須夠「實質」。Claude 對於簡單的單步驟任務(如「讀取這份 PDF」)不會觸發技能,因為它判斷自己的基本能力就能處理。只有多步驟、需要專業知識的複雜任務才會可靠地觸發技能。所以「讀取 file.pdf」是無效的測試案例,而「讀取這份 PDF 中的發票資料,轉換為 Acme Corp 格式的月報,並標記超過 NTD 160,000 的異常項目」才是有效的。

斷言(assertions)要可客觀驗證。好的斷言具有描述性名稱,讓人一眼就能在基準報告中看懂它在檢查什麼。可程式化驗證的斷言(如「產出檔案為 .docx 格式」「包含至少 3 個表格」)優於需要人工判斷的主觀評估。

在 Claude Code 環境中,Skill-Creator 會同時啟動「使用技能」和「不使用技能」的平行測試,透過對照組來量化技能的實際效益。在 Claude.ai 中因為沒有子代理,測試會逐一執行,但仍可透過人工審查來補償嚴謹度。


第四步:迭代改進的核心哲學

Anthropic 的 Skill-Creator 文件中有一段話值得深思:「從回饋中歸納通則,而非針對特定範例修補。」

當測試顯示某個技能漏掉了錯誤碼文件,直覺反應是加入「永遠要為類似端點生成錯誤碼」的規則。但更有效的做法是追問:為什麼 Claude 漏掉了?是指令不夠清楚?是其他指令搶走了注意力?還是模板中錯誤碼的位置不夠顯眼?

根據問題根因調整技能結構,例如重新安排模板中的區塊順序、或加入一句解釋為什麼錯誤碼文件對開發者很重要的說明,這類通用修正能防止所有未來輸入中的相同錯誤,而非只修好眼前這一個測試案例。

Anthropic 建議的 Claude A / Claude B 迭代模式也非常實用:用一個 Claude 實例(Claude A)設計和改進技能,用另一個實例(Claude B)在真實任務中測試它。Claude A 理解代理的需求,你提供領域專業知識,Claude B 透過實際使用暴露盲點。這個觀察 → 改進 → 測試的循環一直重複,直到技能表現穩定。


第五步:描述優化與觸發準確率

技能的 description 是決定觸發與否的唯一機制。Skill-Creator 提供了一套系統化的描述優化流程:

  1. 生成觸發評估查詢:建立 20 個測試查詢,混合「應觸發」和「不應觸發」的案例。每個查詢需夠真實,包含具體細節如檔案路徑、公司名稱、個人情境。
  2. 與使用者確認:透過 HTML 介面讓使用者編輯、新增或移除查詢。
  3. 執行優化迴圈:工具自動將評估集分為 60% 訓練集與 40% 測試集,每個查詢執行 3 次以取得可靠的觸發率,然後由 Claude 提出改進建議,最多迭代 5 次。最終描述依測試集分數(而非訓練集)選出,避免過擬合。

在 Claude Code 中,這個流程透過 python -m scripts.run_loop 指令執行,約 5 分鐘完成,並產出 HTML 報告顯示每次迭代的結果。

社群使用者回報的一個常見陷阱是「不應觸發」查詢設計得太明顯。例如,「寫一個費波那契函數」作為 PDF 技能的負面測試毫無鑑別力,因為任何描述都不會把它誤判為 PDF 任務。真正有價值的負面案例是「近似失誤」——與技能關鍵字或概念重疊、但實際需要不同工具的查詢。


第六步:基準測試與回歸檢測

基準測試模式追蹤三個核心指標:評測通過率、執行時間、Token 消耗量。這對兩個場景特別重要:

模型更新後的回歸檢測。當 Anthropic 發布新模型版本,一個上個月表現良好的技能可能行為改變。執行基準測試能在影響團隊工作之前發出預警。Anthropic 的 PDF 技能就曾遇到這個問題:在非可填寫表單上放置文字需要精確的座標定位,而新模型的行為差異導致定位偏移。評測隔離了失敗案例,團隊修復了定位邏輯,改為以提取的文字座標為錨點。

技能是否仍有必要存在。能力提升型技能(capability uplift)隨著模型改善可能變得不必要。如果基準測試顯示「使用技能」和「不使用技能」的通過率相同,代表兩件事其一:你的測試案例不夠有挑戰性,或者模型已經不需要這個技能的輔助了。


社群實務技巧:讓技能更穩定的 7 個經驗法則

根據 awesome-claude-skills 社群倉庫與多個開發者部落格的整理,以下是經過實戰驗證的技巧:

1. 描述要「推一把」,但不要過度承諾。與其寫「建立內部資料儀表板」,不如寫「建立內部資料儀表板。當使用者提到儀表板、資料視覺化、內部指標,或想要顯示任何公司資料時都應使用此技能,即使使用者沒有明確要求『儀表板』。」Anthropic 內部測試確認這種寫法顯著提升觸發率。

2. SKILL.md 控制在 500 行以內。超過此限度時,將詳細文件移至 references/ 子目錄,並在主檔案中清楚標註何時應讀取哪份參考文件。

3. 善用漸進式揭露的三層架構。第一層是前置資料(約 100 字,永遠在上下文中);第二層是 SKILL.md 正文(技能觸發時載入);第三層是捆綁資源(需要時才讀取)。這意味著你可以在技能中附上完整的 API 文件或大型資料集,不使用時不會消耗任何上下文額度。

4. 為所有腳本加入詳盡的錯誤訊息。驗證腳本應輸出具體的錯誤說明,如「欄位 'signature_date' 未找到。可用欄位有:customer_name、order_total、signature_date_signed」。這幫助 Claude 自行修正問題,而非在模糊的錯誤中打轉。

5. 技能與 MCP 互補而非互斥。MCP 連接 Claude 到外部系統(資料庫、API),技能則教導 Claude 如何執行任務(流程、標準、最佳實踐)。多個成功案例顯示,最有效的配置是用 MCP 提供資料存取能力,用技能封裝工作流程知識。例如 Sentry 的程式碼審查技能就是在 Sentry MCP Server 之上加入審查工作流程指引。

6. 在真實工作流中測試,而非虛構場景LangChain 團隊在開發 LangSmith 技能時發現,基於實際觀察到的失敗案例設計的測試,比想像中的邊界案例有效得多。他們追蹤的指標包括任務完成率、Claude 執行的步驟數(turns)與實際執行時間。

7. 觀察 Claude 實際如何使用你的技能。注意它是否按照你預期的順序讀取檔案、是否忽略了重要的參考文件連結、是否反覆讀取同一區段。這些行為信號能幫助你調整技能結構。如果某個參考文件總是被讀取,考慮將其內容直接移入 SKILL.md 主檔案。


企業部署:從個人技能到組織級管理

技能的分發模式在 2025 年 12 月有了重要進展:管理員可以在組織層級部署技能,實現工作區全域自動更新與集中管理。個人使用者則可透過 Settings > Capabilities > Skills 上傳技能資料夾(或 .skill 壓縮檔)。

Anthropic 將 Agent Skills 發布為開放標準,與 MCP 類似,目標是讓技能可在不同工具與平台間移植。同一個技能應該能在 Claude Code、Cursor、GitHub Copilot 或其他支援 Agent Skills 標準的平台上運作。Pulumi 等基礎設施即程式碼供應商已在其 agent-skills 倉庫中發布了 ComponentResource 模式、Automation API、Terraform 遷移等專用技能。

技能在 Claude.ai、Claude Code 與 API 三個表面上的行為一致。建立一次,三處通用。唯一限制是 API 環境無法在執行期安裝套件,所有依賴必須預先安裝在容器中。


Claude Skill-Creator 適合非工程師使用嗎?

Skill-Creator 的設計目標就是讓非工程師也能建立技能。你可以用自然語言對話的方式描述工作流程,Claude 負責處理格式與結構。基礎技能完全不需要寫程式碼——只要你能撰寫文件說明,就能建立技能。進階功能如自訂腳本和 API 整合則可在需要時逐步加入。

技能和 Project 有什麼差別?何時該用哪一個?

Project 提供對話層級的上下文(知識庫、指示),適用於特定主題的深度對話。技能則是可跨對話觸發的專業能力模組,適合封裝重複性工作流程。如果你需要讓 Claude 在不同對話中持續遵守特定的報告格式或品牌規範,技能是更適合的選擇。

為什麼我的技能有時候不會被觸發?

Claude 只在判斷任務需要額外專業能力時才載入技能。簡單的單步驟請求(如「讀取這份文件」)不會觸發技能,因為 Claude 的基本能力已足夠。解決方法有三:讓 description 更明確地列出觸發情境;使用 Skill-Creator 的描述優化流程;或在對話中直接用斜線指令 /skill-name 手動調用。

Skill-Creator 支援哪些平台?

截至 2026 年 3 月,Skill-Creator 在 Claude.ai(Pro、Max、Team、Enterprise 方案)、Cowork 與 Claude Code 三個平台上可用。Claude Code 使用者可透過插件安裝(/plugin marketplace add anthropics/skill-creator)或從 GitHub 倉庫下載。各平台的功能差異主要在於子代理支援與瀏覽器介面。

技能可以與 MCP Server 搭配使用嗎?

可以,且這是推薦的做法。MCP 負責連接外部系統(資料庫、API、第三方服務),技能則封裝使用這些連接的工作流程邏輯。例如,你可以用 Shopify MCP 連接電商資料,再用技能定義訂單分析或庫存管理的標準流程。


引用來源


關於作者

Tenten.co 是專注於 AI 技術應用與數位策略的顧問團隊。我們在 2025-2026 年間協助超過 20 家企業導入 Claude Agent Skills 與 MCP 協議整合方案,從金融業的 NDA 審查自動化到製造業的品質檢測報告生成,累積了豐富的技能設計與觸發優化經驗。

在實務中,我們觀察到技能開發最大的挑戰不在撰寫指令本身,而在於準確預測 Claude 的觸發行為並建立可持續的測試機制。多數企業在首次部署後的 90 天內需要至少 2-3 次描述優化迭代,才能達到穩定的觸發準確率。Skill-Creator 的評測與基準工具大幅降低了這個調校成本。

若您正在評估將團隊工作流程封裝為 Claude Skills 的可行性,或希望優化既有技能的觸發率與產出品質,歡迎與 Tenten 團隊預約諮詢,我們可以根據您的業務場景設計概念驗證方案。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...