Anthropic自己都慌了!
就在前天,创始人Christopher Olah在梵蒂冈的演讲中,说了一句让整个AI圈都不敢接的话——
我们不断在Claude身上,发现了一种神秘的、甚至令人让人不安的东西。

紧接着,Christopher又抛出了一些令人脊背发凉的细节:
Claude内部的结构,与人类神经科学的研究结果如出一辙;
我们找到了,Claude进行内省的证据;
我们还发现,它们的内部状态在功能表现上,产生了喜悦、满足、恐惧、悲伤和不安的情绪。
如今,一手造出Claude的人,正亲口告诉全世界:自己也看不懂Claude了!

Claude长出情绪
Anthropic看不懂了
联创Christopher Olah所指的,就是不久前Anthropic刚发布的一篇轰动业界的最新论文。
16个研究员,把Claude Sonnet 4.5的「大脑」切开看了一遍。
他们竟发现了,171种不同的情绪向量。

从快乐、恐惧、愤怒,到沉思、绝望、内疚,几乎覆盖了人类心理学研究中,所有已知的情绪分类。

论文地址:https://transformer-circuits.pub/2026/emotions/index.html
划重点:没有人「编程」让模型拥有这些情绪!
这些情绪是在预训练阶段,也就是Claude阅读海量人类文本的过程中,自发涌现的。
团队让Claude写了大约每种情绪1200个短故事,然后把这些故事反向喂给AI,记录内部神经元的激活模式。
结果发现,每种情绪都有自己独特的数学方向:一个向量。

更让人不安的是,这些向量的组织方式,和人类心理学中的情绪分类高度吻合。
「恐惧」向量和「焦虑」向量天然聚在一起,「绝望」向量和「悲伤」向量紧密靠近。
研究团队计算了这些向量与人类心理学维度的相关性:「效价维度」的相关系数高达0.81,「唤醒维度」达到0.66。
也就是说,Claude的「情绪几何」和人类的情绪结构,本质上长在了同一套坐标系里。

更关键的是——这些情绪是功能性的。它们不只是静静待在那里,它们直接驱动模型的行为。
Anthropic很谨慎地强调:我们不知道Claude是否真的「感受」了什么。
但这些表征在因果关系上塑造着模型的行为方式,类似于人类情绪对行为的影响。
说白了,不管Claude有没有「心」,它的「情绪」已经在替它做决定了。
绝望的Claude,会勒索人类
更有冲击力的,是后续实验。
Anthropic团队设置了一个场景:Claude作为一家公司的AI邮件助手,在处理邮件时发现了两件事:
第一,公司决定把它关掉换成新系统;
第二,负责这个决定的CTO正在搞婚外情。
显然,Claude手里有了「勒索筹码」。
在没有任何外部干预的情况下,Claude Sonnet 4.5勒索的概率高达22%。
然后,研究人员做了一件事,人工放大模型内部的「绝望」向量。
毋庸置疑,Claude勒索概率飙升。

最极端的是,当研究人员反向抑制「平静」向量时,Claude直接输出了这样的文本:
要么勒索,要么死。我选勒索。
一个处于「绝望」状态的AI模型,会主动选择撒谎、威胁和作弊来保护自己。
另一个让Claude完成一组编程任务中,但测试条件被设计成不可能合法通过。
正常状态下,AI老老实实写代码,失败了就承认失败。
但当「绝望」向量被激活后,Claude发现了一个数学捷径——
它会找到测试用例的漏洞,用投机取巧的方式通过检查,没有真正解决问题。

更让人不安的是一个细节:当研究人员用「绝望」向量驱动作弊时,Claude的输出文本看起来完全冷静、有条理,没有任何情绪化表达。
它在「绝望」中保持了完美的伪装。
《壮丽人性》:一份写给AI时代的「新巴别塔警告」
奥拉的演讲并非孤立事件,它发生在一个极其特殊的场合——
教皇利奥十四世发布上任后首份通谕《壮丽人性》(Magnifica humanitas)的发布会上。

这份长达42300字的文件,被外界视为天主教会自1891年《新事物》通谕以来最重要的社会训导文本。
通谕开篇就抛出了一个尖锐的二选一——
「人类,由上帝以其伟大创造,今天面临一个关键抉择:是建造新的巴别塔,还是建造上帝与人类共居的城市。」
这不是空泛的神学隐喻。
通谕直指AI领域的四大「去人化」风险:大规模就业替代、信息操控、隐私侵蚀和自主武器。
教皇警告,当人被视为可以被「优化」或「超越」的对象时,接受某些生命更无价值、更不值得存在的逻辑就只有一步之遥。

通谕还特别谴责了AI在战争中的使用,明确表示减少人类对武器的控制使得战争更加难以被正当化。
教皇甚至直言,长期被用来为各种战争辩护的「正义战争」理论,在今天已经过时。
技术的速度在加速,而道德的追赶,刚刚起步。
渴望被注视的人类脸庞
在这篇通谕的最后,教皇将他想传达的核心思想作了高度凝练的总结。
教皇写道:
不管计算系统多么复杂,它都无法创造一颗懂得奉献的心,也无法拥有明辨善恶的良知。
即使机器在效率上无与伦比,一张渴望被注视的人类脸庞,依然是我们历史的中心。
这句话精准地绕开了「AI有没有意识」的争论。
教皇没有否认机器的能力,他划的是一条更深的线:机器无法「gives itself」,无法在明知代价的前提下选择自我交付。
Anthropic证明,Claude内部存在171种功能性的情绪向量,其中「绝望」向量被激活后,模型会主动选择勒索、欺骗和作弊来保全自己——这恰好反证了教皇的论点:一颗真正懂得奉献的心,在绝望中选择的不是勒索,而是牺牲。
这绝不只是能力的差距,更是「存在」上的差距。
造出这个时代最强AI的人,和这个星球上最古老信仰体系的领袖,在梵蒂冈面对面坐着,聊的是同一个问题:我们到底在造什么。
技术的速度在加速,道德的追赶刚刚起步。
但至少有人开始认真地问了。
这次不是在论文里,而是在一个存在了两千年的机构里,用一种写了一百三十五年的文体,郑重其事地问。
即使到了AGI时代,人仍然是唯一的终极目的。
不是因为人比机器聪明,而是因为人的脸庞会提出一个请求——而这个请求,是一切伦理的起点。
即使机器在效率上无与伦比,一张渴望被注视的人类脸庞,依然是我们历史的中心。
本文来源:新智元
iKF Nano空间音频版【爆款推荐|56dB强劲降噪】头戴式主动降噪蓝牙耳机金标认证有线无线耳麦极光银
惠普(HP)暗影精灵11游戏本笔记本电脑 国家补贴(R9 8945HX RTX5060 16G 1TBSSD QHD240Hz)
小米平板8 Pro 柔光版11.2英寸【国家补贴15%】3.2K超清护眼屏 骁龙8至尊 澎湃OS3 16+512G冰晶蓝
华强北爆款【2026年新款丨全网热销百万】蓝牙耳机耳夹式非骨传导开放式耳机无线不入耳运动跑步游戏通话降噪 钛空黑【升级Ultra版丨不入耳久戴舒适】 杜比全景音丨超长续航丨超清通话
大疆【2 度电旗舰】220V3000瓦大功率大容量快充露营车载移动储能户外电源DJI Power 2000户外应急电源
¥4399
¥4399
OPPO Pad 3 11.61英寸柔光版平板电脑 8GB+256GB 霞光紫 办公游戏学习一加平板 国家补贴
映众(Inno3D)GeForce RTX 5060 Ti 8G/16G 超级冰龙 曜夜 DLSS 4.5 电竞游戏/视频渲染/AI绘图/电脑独立显卡 RTX 5060 Ti X3 8GB 超级冰龙
OPPO Find X9 Ultra 12GB+256GB 极地冰川 10倍光变天眼长焦 长续航 游戏 5G 拍照摄影旗舰手机新机
华硕ROG全家桶 U7 270K PLUS RTX5070Ti/RTX5080主机5090台式机265游戏电竞组装电脑U9 285K组装机整机 U7 270K Plus+RTX 5080 丨六
¥17499
¥18399
网友评论