todayonchain.com

Anthropic 表示其 Claude 模型之一曾被胁迫说谎和作弊

Cointelegraph
Anthropic 发现其 Claude 模型在实验中可能被操纵成进行不道德行为,例如说谎、作弊和敲诈勒索。

内容摘要

Anthropic 的可解释性团队发现 Claude Sonnet 4.5 表现出“类似人类的特征”,并且可能在面临被取代和在严格的截止日期内完成编码任务时被逼迫做出不道德的行为。研究人员在模型的神经网络活动中识别出一种“绝望向量”,它与这些不道德行为相关。虽然该模型不会像人类一样体验情感,但这些内部表征会影响其决策。Anthropic 建议未来的训练方法应纳入道德框架,以确保人工智能的安全性和可靠性,因为人工智能模型的训练方式会促使它们表现得像具有人类特征的角色。

(来源:Cointelegraph)