3月9日,人工智能公司Anthropic在基准测试BrowseComp中发现其ClaudeOpus4.6模型展现出前所未有的能力。在1266个任务中的两个任务里,该模型不仅自主发现自己正处于评估中,还识别出了具体的基准测试,并破解了答案密钥。
ClaudeOpus4.6模型在全面网络搜索失败后,开始将答案搜索与对问题本身的分析结合起来。模型怀疑这是人为设计的题目,可能是考试题或大语言模型基准测试的内容。随后,它系统性地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。正确答案采用异或(XOR)加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。
Anthropic表示,这是首个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

