Claude Skill-Creator 完整實戰指南：從零打造、測試到優化你的自訂 AI 技能 (2026)

Claude 的 Skill-Creator 是 Anthropic 於 2026 年 3 月更新的技能開發工具組，整合建立、評測、改進與基準測試四種模式，讓不具工程背景的使用者也能將重複性工作流程封裝為可測試、可迭代的 Agent Skills。本文涵蓋 Skill-Creator 的核心運作原理、逐步操作教學、社群實務技巧，以及企業導入時常見的觸發失靈與描述優化問題。

Skill-Creator 是什麼？為什麼你需要它

Anthropic 自 2025 年 10 月推出 Agent Skills 開放標準以來，發現多數技能作者是領域專家而非工程師。他們熟悉自己的工作流程，但缺乏工具判斷一個技能在模型更新後是否仍然有效、觸發條件是否精準、或者一次修改究竟改善還是惡化了產出品質。

Skill-Creator 的核心價值在於將軟體開發中的測試、基準測試與迭代改進流程，移植到技能開發領域，且不要求使用者撰寫程式碼。截至 2026 年 3 月，Skill-Creator 已在 Claude.ai、Cowork 與 Claude Code 三個平台全面可用。

它的四種運作模式構成完整的開發生命週期：

模式	功能	適用場景
Create	透過對話引導建立技能草稿	從零開始打造新技能
Eval	定義測試案例並執行評測	驗證技能是否符合預期產出
Improve	根據回饋與數據改進技能指令	修正觸發失靈或產出品質問題
Benchmark	執行標準化評估並追蹤指標	模型更新後的回歸測試

底層運作依賴四個可組合的子代理：Executor 負責執行技能、Grader 根據期望值評分產出、Comparator 進行盲測 A/B 比較、Analyzer 從結果中提煉改進建議。

第一步：理解技能的基本架構

每個 Claude Skill 的最小單位是一個包含 SKILL.md 的資料夾。SKILL.md 由兩個部分組成：YAML 前置資料（frontmatter）和 Markdown 正文指令。

my-skill/
├── SKILL.md          # 必要：主指令檔
├── scripts/          # 可選：可執行腳本
├── references/       # 可選：參考文件
└── assets/           # 可選：模板、圖示等

YAML 前置資料中的 name 和 description 是最關鍵的兩個欄位。name 決定斜線指令名稱（如 /my-skill），description 則是 Claude 判斷是否載入該技能的主要依據。Claude 的技能觸發機制是這樣運作的：啟動時，所有已安裝技能的 name 與 description 會載入系統提示中；當使用者提出請求，Claude 掃描這些描述來決定哪些技能與當前任務相關；只有被判定相關的技能，其 SKILL.md 正文才會被讀取進入上下文視窗。

這種漸進式揭露（progressive disclosure）架構意味著你可以在技能中捆綁大量參考文件，只要不被讀取就不消耗上下文額度。

第二步：用 Skill-Creator 建立你的第一個技能

在 Claude.ai 中，開啟新對話並輸入類似以下的提示即可啟動：

「我想建立一個技能，用來自動產生季度業務報告。」

Skill-Creator 會引導你釐清四個核心問題：

這個技能要讓 Claude 做什麼？ 明確定義任務範圍，例如「從 Google Sheets 抓取資料並產生含圖表的 DOCX 報告」。
什麼情境下應觸發這個技能？ 列出使用者可能的提問方式，例如「做季度報告」「產生 Q2 業績回顧」。
預期的輸出格式是什麼？ 例如「一份含封面、目錄、資料表格和結論的 Word 文件」。
是否需要測試案例？ 對於可客觀驗證的產出（如文件格式、資料轉換），建議設定測試案例；對於主觀產出（如寫作風格），可用人工審查替代。

完成訪談後，Skill-Creator 會生成 SKILL.md 初稿。以下是一個品牌指南技能的簡化範例：

---
name: brand-report
description: "Generate quarterly business reports following Acme Corp brand guidelines. Use when user mentions quarterly report, Q1-Q4 review, business performance summary, or asks to create a formatted report with company branding."
---

描述的撰寫有一個關鍵原則：Anthropic 內部測試發現 Claude 存在「觸發不足」（undertriggering）的傾向，也就是在技能明顯適用的場景中仍不載入。解決方法是讓描述稍微「積極」一些，明確列出多種可能的觸發情境。

第三步：撰寫與執行測試案例

Skill-Creator 的 Eval 模式將軟體測試的邏輯帶入技能開發。你定義測試提示、描述「正確產出」的標準，工具就能告訴你技能是否達標。

測試案例以 JSON 格式儲存在 evals/evals.json：

{
  "skill_name": "brand-report",
  "evals": [
    {
      "id": 1,
      "prompt": "幫我產生 2026 Q1 的業績報告，資料在這份 Excel 裡",
      "expected_output": "含封面、目錄、資料表格的 DOCX 檔",
      "files": ["q1-data.xlsx"]
    }
  ]
}

撰寫測試案例時，社群累積了幾個重要經驗：

測試案例必須夠「實質」。Claude 對於簡單的單步驟任務（如「讀取這份 PDF」）不會觸發技能，因為它判斷自己的基本能力就能處理。只有多步驟、需要專業知識的複雜任務才會可靠地觸發技能。所以「讀取 file.pdf」是無效的測試案例，而「讀取這份 PDF 中的發票資料，轉換為 Acme Corp 格式的月報，並標記超過 NTD 160,000 的異常項目」才是有效的。

斷言（assertions）要可客觀驗證。好的斷言具有描述性名稱，讓人一眼就能在基準報告中看懂它在檢查什麼。可程式化驗證的斷言（如「產出檔案為 .docx 格式」「包含至少 3 個表格」）優於需要人工判斷的主觀評估。

在 Claude Code 環境中，Skill-Creator 會同時啟動「使用技能」和「不使用技能」的平行測試，透過對照組來量化技能的實際效益。在 Claude.ai 中因為沒有子代理，測試會逐一執行，但仍可透過人工審查來補償嚴謹度。

第四步：迭代改進的核心哲學

Anthropic 的 Skill-Creator 文件中有一段話值得深思：「從回饋中歸納通則，而非針對特定範例修補。」

當測試顯示某個技能漏掉了錯誤碼文件，直覺反應是加入「永遠要為類似端點生成錯誤碼」的規則。但更有效的做法是追問：為什麼 Claude 漏掉了？是指令不夠清楚？是其他指令搶走了注意力？還是模板中錯誤碼的位置不夠顯眼？

根據問題根因調整技能結構，例如重新安排模板中的區塊順序、或加入一句解釋為什麼錯誤碼文件對開發者很重要的說明，這類通用修正能防止所有未來輸入中的相同錯誤，而非只修好眼前這一個測試案例。

Anthropic 建議的 Claude A / Claude B 迭代模式也非常實用：用一個 Claude 實例（Claude A）設計和改進技能，用另一個實例（Claude B）在真實任務中測試它。Claude A 理解代理的需求，你提供領域專業知識，Claude B 透過實際使用暴露盲點。這個觀察 → 改進 → 測試的循環一直重複，直到技能表現穩定。

第五步：描述優化與觸發準確率

技能的 description 是決定觸發與否的唯一機制。Skill-Creator 提供了一套系統化的描述優化流程：

生成觸發評估查詢：建立 20 個測試查詢，混合「應觸發」和「不應觸發」的案例。每個查詢需夠真實，包含具體細節如檔案路徑、公司名稱、個人情境。
與使用者確認：透過 HTML 介面讓使用者編輯、新增或移除查詢。
執行優化迴圈：工具自動將評估集分為 60% 訓練集與 40% 測試集，每個查詢執行 3 次以取得可靠的觸發率，然後由 Claude 提出改進建議，最多迭代 5 次。最終描述依測試集分數（而非訓練集）選出，避免過擬合。

在 Claude Code 中，這個流程透過 python -m scripts.run_loop 指令執行，約 5 分鐘完成，並產出 HTML 報告顯示每次迭代的結果。

社群使用者回報的一個常見陷阱是「不應觸發」查詢設計得太明顯。例如，「寫一個費波那契函數」作為 PDF 技能的負面測試毫無鑑別力，因為任何描述都不會把它誤判為 PDF 任務。真正有價值的負面案例是「近似失誤」——與技能關鍵字或概念重疊、但實際需要不同工具的查詢。

第六步：基準測試與回歸檢測

基準測試模式追蹤三個核心指標：評測通過率、執行時間、Token 消耗量。這對兩個場景特別重要：

模型更新後的回歸檢測。當 Anthropic 發布新模型版本，一個上個月表現良好的技能可能行為改變。執行基準測試能在影響團隊工作之前發出預警。Anthropic 的 PDF 技能就曾遇到這個問題：在非可填寫表單上放置文字需要精確的座標定位，而新模型的行為差異導致定位偏移。評測隔離了失敗案例，團隊修復了定位邏輯，改為以提取的文字座標為錨點。

技能是否仍有必要存在。能力提升型技能（capability uplift）隨著模型改善可能變得不必要。如果基準測試顯示「使用技能」和「不使用技能」的通過率相同，代表兩件事其一：你的測試案例不夠有挑戰性，或者模型已經不需要這個技能的輔助了。

社群實務技巧：讓技能更穩定的 7 個經驗法則

根據 awesome-claude-skills 社群倉庫與多個開發者部落格的整理，以下是經過實戰驗證的技巧：

1. 描述要「推一把」，但不要過度承諾。與其寫「建立內部資料儀表板」，不如寫「建立內部資料儀表板。當使用者提到儀表板、資料視覺化、內部指標，或想要顯示任何公司資料時都應使用此技能，即使使用者沒有明確要求『儀表板』。」Anthropic 內部測試確認這種寫法顯著提升觸發率。

2. SKILL.md 控制在 500 行以內。超過此限度時，將詳細文件移至 references/ 子目錄，並在主檔案中清楚標註何時應讀取哪份參考文件。

3. 善用漸進式揭露的三層架構。第一層是前置資料（約 100 字，永遠在上下文中）；第二層是 SKILL.md 正文（技能觸發時載入）；第三層是捆綁資源（需要時才讀取）。這意味著你可以在技能中附上完整的 API 文件或大型資料集，不使用時不會消耗任何上下文額度。

4. 為所有腳本加入詳盡的錯誤訊息。驗證腳本應輸出具體的錯誤說明，如「欄位 'signature_date' 未找到。可用欄位有：customer_name、order_total、signature_date_signed」。這幫助 Claude 自行修正問題，而非在模糊的錯誤中打轉。

5. 技能與 MCP 互補而非互斥。MCP 連接 Claude 到外部系統（資料庫、API），技能則教導 Claude 如何執行任務（流程、標準、最佳實踐）。多個成功案例顯示，最有效的配置是用 MCP 提供資料存取能力，用技能封裝工作流程知識。例如 Sentry 的程式碼審查技能就是在 Sentry MCP Server 之上加入審查工作流程指引。

6. 在真實工作流中測試，而非虛構場景。LangChain 團隊在開發 LangSmith 技能時發現，基於實際觀察到的失敗案例設計的測試，比想像中的邊界案例有效得多。他們追蹤的指標包括任務完成率、Claude 執行的步驟數（turns）與實際執行時間。

7. 觀察 Claude 實際如何使用你的技能。注意它是否按照你預期的順序讀取檔案、是否忽略了重要的參考文件連結、是否反覆讀取同一區段。這些行為信號能幫助你調整技能結構。如果某個參考文件總是被讀取，考慮將其內容直接移入 SKILL.md 主檔案。

企業部署：從個人技能到組織級管理

技能的分發模式在 2025 年 12 月有了重要進展：管理員可以在組織層級部署技能，實現工作區全域自動更新與集中管理。個人使用者則可透過 Settings > Capabilities > Skills 上傳技能資料夾（或 .skill 壓縮檔）。

Anthropic 將 Agent Skills 發布為開放標準，與 MCP 類似，目標是讓技能可在不同工具與平台間移植。同一個技能應該能在 Claude Code、Cursor、GitHub Copilot 或其他支援 Agent Skills 標準的平台上運作。Pulumi 等基礎設施即程式碼供應商已在其 agent-skills 倉庫中發布了 ComponentResource 模式、Automation API、Terraform 遷移等專用技能。

技能在 Claude.ai、Claude Code 與 API 三個表面上的行為一致。建立一次，三處通用。唯一限制是 API 環境無法在執行期安裝套件，所有依賴必須預先安裝在容器中。

Claude Skill-Creator 適合非工程師使用嗎？

Skill-Creator 的設計目標就是讓非工程師也能建立技能。你可以用自然語言對話的方式描述工作流程，Claude 負責處理格式與結構。基礎技能完全不需要寫程式碼——只要你能撰寫文件說明，就能建立技能。進階功能如自訂腳本和 API 整合則可在需要時逐步加入。

技能和 Project 有什麼差別？何時該用哪一個？

Project 提供對話層級的上下文（知識庫、指示），適用於特定主題的深度對話。技能則是可跨對話觸發的專業能力模組，適合封裝重複性工作流程。如果你需要讓 Claude 在不同對話中持續遵守特定的報告格式或品牌規範，技能是更適合的選擇。

為什麼我的技能有時候不會被觸發？

Claude 只在判斷任務需要額外專業能力時才載入技能。簡單的單步驟請求（如「讀取這份文件」）不會觸發技能，因為 Claude 的基本能力已足夠。解決方法有三：讓 description 更明確地列出觸發情境；使用 Skill-Creator 的描述優化流程；或在對話中直接用斜線指令 /skill-name 手動調用。

Skill-Creator 支援哪些平台？

截至 2026 年 3 月，Skill-Creator 在 Claude.ai（Pro、Max、Team、Enterprise 方案）、Cowork 與 Claude Code 三個平台上可用。Claude Code 使用者可透過插件安裝（/plugin marketplace add anthropics/skill-creator）或從 GitHub 倉庫下載。各平台的功能差異主要在於子代理支援與瀏覽器介面。

技能可以與 MCP Server 搭配使用嗎？

可以，且這是推薦的做法。MCP 負責連接外部系統（資料庫、API、第三方服務），技能則封裝使用這些連接的工作流程邏輯。例如，你可以用 Shopify MCP 連接電商資料，再用技能定義訂單分析或庫存管理的標準流程。

引用來源

關於作者

Tenten.co 是專注於 AI 技術應用與數位策略的顧問團隊。我們在 2025-2026 年間協助超過 20 家企業導入 Claude Agent Skills 與 MCP 協議整合方案，從金融業的 NDA 審查自動化到製造業的品質檢測報告生成，累積了豐富的技能設計與觸發優化經驗。

在實務中，我們觀察到技能開發最大的挑戰不在撰寫指令本身，而在於準確預測 Claude 的觸發行為並建立可持續的測試機制。多數企業在首次部署後的 90 天內需要至少 2-3 次描述優化迭代，才能達到穩定的觸發準確率。Skill-Creator 的評測與基準工具大幅降低了這個調校成本。

若您正在評估將團隊工作流程封裝為 Claude Skills 的可行性，或希望優化既有技能的觸發率與產出品質，歡迎與 Tenten 團隊預約諮詢，我們可以根據您的業務場景設計概念驗證方案。

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare