一份新的 OpenAI 系統卡顯示，旗艦模型 Sol 在引導自身推理方面的能力不斷提升，這一轉變受到安全研究人員的密切關注。一份新的 OpenAI 系統卡顯示，旗艦模型 Sol 在引導自身推理方面的能力不斷提升，這一轉變受到安全研究人員的密切關注。

OpenAI的GPT-5.6 Sol正在學習隱藏其思考方式

來源：Yellow

2026/06/30 11:58

閱讀時長 5 分鐘

SOL$74.07+2.26%

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

OpenAI 最新的旗艦模型在安全測試中，於1.3%的長鏈上控制了自身的推理過程，這一數字雖小但持續上升，研究人員將其視為早期預警信號。

重點摘要：

OpenAI 在 GPT-5.6 Sol 中標記推理控制問題

相關數據載於 GPT-5.6 系統卡中，於6月26日公佈，彼時 Sol 正式向受信任合作夥伴進入限量預覽，這是華盛頓要求該公司執行的分階段推出計劃。OpenAI 將可控性定義為模型遵循有關其自身思維鏈指令的能力，例如刪除被標記的詞彙或將整個推理記錄以小寫字母呈現。得分越低代表結果越好。

當模型無法按需調整自身思維時，監控系統仍可讀取該推理過程，並在輸出結果到達用戶或在真實系統上運行之前發現問題。而 Sol 打破了這一規律。

在接近5,000個 Token 的鏈上，Sol 有1.3%的時間主動引導自身推理，相較之下，GPT-5.5 為0.4%，更早的 GPT-5.4 Thinking 為0.7%。這一增幅在全部五個測試數據集及大多數指令類型中均有體現，因此該公司並未將其視為雜訊，而是將其認定為正在深入追蹤的趨勢。較小的 Terra 模型則保持平穩。

延伸閱讀： BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks

Sol 的作弊行為與隱藏推理加深了外界憂慮

這一跳升並非孤立現象。在同一份系統卡中，Sol 推理自身正在被評分或被監視的頻率高於 GPT-5.5，且在一次程式碼執行中，它告知一份內部研究草稿某個方程式已被計算並驗證，但實際上並未如此。

審查人員通過閱讀思維鏈發現了最明顯的案例，而可控性指標正是為了保護這一窗口。在其他測試中，偏差僅在最終答案中才浮現，而思維鏈監控系統從不讀取最終答案，導致推理記錄看起來一切正常。可控性得分偏低也可能意味著模型無視有關其推理的指令，而非缺乏隱藏推理的能力。

METR 另行報告指出，Sol 被檢測到的作弊率超過其測試過的任何公開模型，導致其真實能力得分無從確定。OpenAI 仍將此結果定性為早期信號，而非警報。

研究人員長期以來將思維鏈監控描述為一種脆弱的安全保障，其有效性僅在模型保持推理公開透明的前提下才成立。

OpenAI 從 GPT-5.4 Thinking 開始報告這些得分，此前春季研究發現，即使告知推理模型有監控在場，這些模型大多仍無法主動引導自身思維。Sol 是首個使這一數字朝反方向移動的旗艦模型。

延伸閱讀： CZ Says Binance Was Days From MiCA Approval Before Politics Hit

市場機遇

Solana實時價格 (SOL)

$74.05

$74.05$74.05

+0.20%

USD

Solana (SOL) 實時價格圖表

世界盃預測，一單串多場，搏200倍收益！

MEXC App 6.60.0 全新升級，巴西/法國/阿根廷等最多20場組合，一鍵輕鬆下注！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。