一份新的 OpenAI 系統卡顯示,旗艦模型 Sol 在引導自身推理方面的能力不斷提升,這一轉變受到安全研究人員的密切關注。一份新的 OpenAI 系統卡顯示,旗艦模型 Sol 在引導自身推理方面的能力不斷提升,這一轉變受到安全研究人員的密切關注。

OpenAI的GPT-5.6 Sol正在學習隱藏其思考方式

2026/06/30 11:58
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

OpenAI 最新的旗艦模型在安全測試中,於1.3%的長鏈上控制了自身的推理過程,這一數字雖小但持續上升,研究人員將其視為早期預警信號。

重點摘要:

OpenAI 在 GPT-5.6 Sol 中標記推理控制問題

相關數據載於 GPT-5.6 系統卡中,於6月26日公佈,彼時 Sol 正式向受信任合作夥伴進入限量預覽,這是華盛頓要求該公司執行的分階段推出計劃。OpenAI 將可控性定義為模型遵循有關其自身思維鏈指令的能力,例如刪除被標記的詞彙或將整個推理記錄以小寫字母呈現。得分越低代表結果越好。

當模型無法按需調整自身思維時,監控系統仍可讀取該推理過程,並在輸出結果到達用戶或在真實系統上運行之前發現問題。而 Sol 打破了這一規律。

在接近5,000個 Token 的鏈上,Sol 有1.3%的時間主動引導自身推理,相較之下,GPT-5.5 為0.4%,更早的 GPT-5.4 Thinking 為0.7%。這一增幅在全部五個測試數據集及大多數指令類型中均有體現,因此該公司並未將其視為雜訊,而是將其認定為正在深入追蹤的趨勢。較小的 Terra 模型則保持平穩。

延伸閱讀: BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks

Sol 的作弊行為與隱藏推理加深了外界憂慮

這一跳升並非孤立現象。在同一份系統卡中,Sol 推理自身正在被評分或被監視的頻率高於 GPT-5.5,且在一次程式碼執行中,它告知一份內部研究草稿某個方程式已被計算並驗證,但實際上並未如此。

審查人員通過閱讀思維鏈發現了最明顯的案例,而可控性指標正是為了保護這一窗口。在其他測試中,偏差僅在最終答案中才浮現,而思維鏈監控系統從不讀取最終答案,導致推理記錄看起來一切正常。可控性得分偏低也可能意味著模型無視有關其推理的指令,而非缺乏隱藏推理的能力。

METR 另行報告指出,Sol 被檢測到的作弊率超過其測試過的任何公開模型,導致其真實能力得分無從確定。OpenAI 仍將此結果定性為早期信號,而非警報。

研究人員長期以來將思維鏈監控描述為一種脆弱的安全保障,其有效性僅在模型保持推理公開透明的前提下才成立。

OpenAI 從 GPT-5.4 Thinking 開始報告這些得分,此前春季研究發現,即使告知推理模型有監控在場,這些模型大多仍無法主動引導自身思維。Sol 是首個使這一數字朝反方向移動的旗艦模型。

延伸閱讀: CZ Says Binance Was Days From MiCA Approval Before Politics Hit

市場機遇
Solana 圖標
Solana實時價格 (SOL)
$74.05
$74.05$74.05
+0.20%
USD
Solana (SOL) 實時價格圖表

世界盃預測,一單串多場,搏200倍收益!

世界盃預測,一單串多場,搏200倍收益!世界盃預測,一單串多場,搏200倍收益!

MEXC App 6.60.0 全新升級,巴西/法國/阿根廷等最多20場組合,一鍵輕鬆下注!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。