Anthropic 分析約 40 萬場 Claude Code 互動 session、約 23.5 萬名用戶後發現:決定 AI coding 成敗的關鍵,不是會不會寫程式,而是對所解決問題的領域理解深度。
(前情提要:Anthropic 發布 Claude Code 經濟研究!AI 代理省錢潛力達 40 億)
(背景補充:Anthropic 上線 AI 衝擊儀錶板:輸入職業,秒查你的工作被 AI 吃掉多少?)
本文目錄
- 一個會計師,如何成為 Claude 眼中的「專家」
- 出錯後,誰能把 agent 拉回正軌
- 管理職贏過軟體工程師,職業差異幾乎消失
Anthropic 在最新研究報告中,分析了約 23.5 萬名用戶的樣本後發現,真正決定 AI 效果成敗的,是那個「下指令的人」有多懂自己在解決什麼問題。
一個會計師,如何成為 Claude 眼中的「專家」
Anthropic 這份研究的樣本涵蓋 2025 年 10 月到 2026 年 4 月,共約 40 萬筆 Claude Code session。
報告建立了一套「任務專屬五級專業度量表」,從新手到專家。關鍵在於這個「專業度」的定義和你想的不一樣。簡單來說就是:你有多懂你要解的那個問題,而不是你有多會寫程式。
報告舉的例子很直白:一個資深工程師第一次寫 Rust,在那個任務上就算新手;反過來,一個從沒用過 Python 的會計師,只要能精確告訴 Claude 對帳規則必須滿足哪些條件、並在月結邊界抓出邏輯錯誤,在那個任務上就是專家。
數字差距直接說明了問題的嚴重程度。新手 session 每個 prompt 平均觸發約 5 個 Claude 動作、約 600 字產出;專家 session 觸發約 12 個動作、約 3,200 字產出,後者是前者動作的 2 倍多、輸出的 5 倍。
Anthropic 的回歸分析顯示,每提升一個專業等級,Claude 的動作量增加約 9%,輸出增加約 13%,控制工作型別、任務價值、月份、職業與模型版本後這個關係依然成立。
出錯後,誰能把 agent 拉回正軌
成功率的數字更能說明問題。Anthropic 定義了兩層成功標準:「判定成功」(分類器讀完對話後判斷是否達標)與「驗證成功」(需要有可查核的硬性證據,例如透過測試、git commit、用戶明確確認)。
整體而言,用戶展現的專業度越高,session 成功的機率就越高,而且大部分增幅集中在量表低端,從新手到中階的落差,比中階再爬到專家的落差更大。Anthropic 發現,專家等級 session 的驗證成功率,是新手的兩倍以上。
更有意思的是「出錯後的修復率」。Anthropic 追蹤了那些遭遇麻煩的 session,也就是出現失敗訊號的對話。在這批 session 中,驗證成功率從新手的 4% 升到專家的 15%;至少部分成功的比例,新手為 60%,中階到專家為 80-81%。
放棄率的差距也很明顯。當 session 遭遇困境時,新手有 19% 的機率直接放棄(判定失敗且零行程式碼),而其他等級僅有 5-7%。Anthropic 的解讀是:領域專業的價值之一,在於當 agent 走偏時有能力把它導回正確方向。
這個發現指向一個反直覺的結論:「懂問題」比「懂工具」更重要。因為懂問題,才能在 Claude 給出錯誤答案時知道哪裡錯了;才能精確說明邊界條件;才能在 agent 做出奇怪決策時立刻出聲糾正。
管理職贏過軟體工程師,職業差異幾乎消失
Anthropic 的資料打破了另一個預期:職業背景並不像想像中重要。
軟體相關職業整體驗證成功率約 30%,其他職業約 26%。只看「有實際產出程式碼」的 session,差距拉開到 34% vs 29%,但如果放寬到「至少部分成功」,兩組幾乎並列:89% vs 88%。
更值得注意的是,前十大職業中,每一個都落在軟體工程師驗證成功率的 7 個百分點以內。管理職的驗證成功率甚至略高於軟體工程師,Anthropic 的推測是:管理職擅長指派任務和設定規格的習慣,恰好遷移到了指揮 agent 上。
工作型態本身也在七個月內快速演變。修 Bug 的 session 佔比從 33% 降到 19%,幾乎砍半;操作軟體(部署、設定、執行 pipeline)從 14% 升到 21%;寫作與資料分析約從 10% 翻倍到 20%。
換句話說,用戶在把 Claude Code 用於越來越多「程式周邊的工作」,而不只是寫程式本身。
任務的經濟價值也同步上升。Anthropic 以 freelance 接案行情估算每場 session 的市場價值,七個月內平均上升約 27%;建構型任務上升約 43%,操作型約 34%,修復型約 32%。
對一個領域有基本到中等的理解,就能拿到大部分的好處;從中階再往專家爬,成功率的斜率明顯變平。
隨著 AI 工具的持續擴張,它放大的不是程式技能,而是你對問題的理解深度。不懂自己要解什麼問題的人,用更強的模型也只是在更快速地迷路。
📍相關報導📍
OpenRouter 分析 100 兆 Token 研報:人類到底用 AI 做什麼、中國模型崛起與用戶留存秘密
Anthropic 臨時喊卡 Agent SDK 計費新制,訂閱補貼上看 30 倍
Google「Gemini 2.0」來了!推出三種AI代理:複雜任務、遊戲、程式設計







