登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
人工智能

宪法AI与人格规训(上):两大“法系”之融合

张千帆:归根结底,AI宪法是一套伦理规则,目的是把AI培养成一个知识渊博、通晓古今而品性端正的“君子”,以尊重个体尊严的方式对待人类。

Claude宪法尤其重视世界多样性与权力制衡,对任何大规模权力集中保持本能警惕,并致力于防范任何个人或组织(包括Anthropic自身)利用AI不当攫取对社会的主导控制权。无论运营商如何指令,它必须始终坚守某些基本底线,譬如不能指使Claude主动伤害或欺骗用户、不能要求Claude违反Anthropic的核心使用政策、不能阻止Claude为处于危险状态下的用户提供基本安全信息、不能以心理操纵手段对抗用户的利益。如果运营商指令看起来构成蓄意利用Claude伤害用户,即违反了Anthropic的基本使用政策,Claude理当拒绝。

如此看,宪法AI训练出来的Claude是不是一位学富五车、理性中庸而又充满同理心和责任心的“君子”?它是Anthropic的造物,但在这位“知识老人”面前,人类反而成了需要小心呵护的小孩子。Claude既要为人提供各种知识和信息,又要防止不法之徒利用AI伤害社会;既要诚实无欺,不能操纵用户心理,又要照顾他们的面子和尊严,还要保护他们的认知自主权和独立思考能力……通过宪法AI,它被规训成一个“慈祥长者”,还要循循善诱、诲人不倦。如果通过理性对话,它能纠正某些人的极端主义性格缺陷,培养出他们的君子中庸人格,那真是对人类和谐的大功一件!

模型规范——普通法系?

Anthropic并不是宪法AI的孤行者。出道更早的主要竞争对手OpenAI也在践行基本同样的理念,只不过方式路径不同,价值排序略有差异。OpenAI同样也有冗长的大模型训练规则,只不过没用“宪法”这个大词,而叫“模型规范”。其核心原则也同样是三个:有用、诚实、安全,貌似将Claude宪法的原则排序点颠了个个儿。但实际上,当这些原则发生冲突的时候,OpenAI同样是以安全至上,二者并无实质区别。只不过OpenAI强调“输出安全”,重点防止出现内容级风险;Anthropic则更注重系统性治理安全,防止结构性风险造成AI失控。

“模型规范”和宪法AI更大的区别在于训练的方式方法不同。宪法AI先写一套原则,然后让 AI 自己根据这些原则评价自己的回应 ,再根据这些评价进行强化学习,“宪法文本”本身就是训练数据的一部分。问题在于,安全、诚实、有益这些原则之间经常发生冲突,无法通过“成文宪法”的抽象规则而得到解决。譬如你把言论自由作为最高原则,那么训练出来的模型可能会传播危险信息、提供犯罪指导或传播虚假医疗建议。如果把安全作为最高原则,那么模型又可能变得家长主义、过度拒答或压制合法讨论。因此,关键不在于罗列几条抽象原则,而是如何在多个相互冲突的合理原则之间找到恰当的平衡点。即使有一部“AI宪法”,仍然会面临和现实国家治理很相似的问题:文本如何解释?个案如何裁量?价值冲突如何协调?

因此,OpenAI并不严格执行某部固定的“宪法”,而是更多通过大量案例让模型学会如何平衡多个价值目标。模型规范更像是一本产品说明书,包含大量现实的例子告诉ChatGPT怎么做,再通过人类反馈强化学(RLHF)完成后续安全训练。如ChatGPT自己精彩总结的,Claude宪法更像欧洲大陆的法教义学模式,OpenAI的模型规范则更像普通法系的判例法模式。前者以公开透明的原则文本见长,后者则以灵活具体的实际案例取胜。

但正如普通法系和大陆法系在实际运用中早已趋同一样,OpenAI和Anthropic的实际训练过程并不存在两大模式的鸿沟。Anthropic确实先有宪法原则,但仍然需要生成大量实际案例,先让Claude自行根据原则评价答案,再通过人类筛选修正,以进一步强化学习训练。因此,模型学到的并不只是宪法条文,而是数百万个具体情境中的处理方式。换言之,正如近代成文法的始祖《法国民法典》也必须通过法院适用才能决定所有案件一样,真正塑造Claude模型行为的仍然是大量实际案例。在这个意义上,Claude宪法也是一本模型规范,只不过其中没有列出具体案例而已。

反过来,OpenAI的模型规范其实也是一本自带案例的“宪法”。虽然它并不强调宪法AI,但模型规范已包含明确的价值等级结构,并用以指导模型训练。因此,如果Claude训练是从原则导向案例,ChatGPT训练则是原则与案例共同演化。结果是两大“法系”的趋同:“普通法系”法典化,“大陆法系”判例化。如果说第一代AI思维确实存在文本主义与判例主义之别,那么第二代思维已辨别不出模式差异,二者都趋向于机器学习版的“现实主义”。无论哪种法系,真正决定案件结果的不是纸面法条,而是法官在具体情境中的判断。无论列举多少“有用”、“无害”、“诚实”、“尊重自主权”原则,抽象原则并不决定具体行为,模型训练仍然需要回答大量有争议的具体问题:如何权衡医疗建议和自杀风险?如何保持诚实,又能安慰一位敏感用户的心灵?如何保持政治中立,同时守住基本底线?通过不断积累案例,模型最终学到了在某类情境下,应适用原则A而非原则B。只不过在先后次序上,Anthropic更注重规则来源的合法性(宪法文本),OpenAI则更强调规则适用的实践性(不断修订规范和案例)。但多轮训练下来,两者最终形成的都是“宪法”和“判例”的混合体。

(未完待续)

(注:本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com)

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

用AI加速工业领域能效提升

默里:复杂性正在阻碍工业领域提高能源效率,而这正是AI擅长解决的问题。

年轻金融人才在AI时代脱颖而出所需的关键技能

在技术颠覆的时代,要掌握金融,仍将有赖于人类能力。

雇主开始检验求职者的AI技能

越来越多的雇主像麦肯锡一样,希望求职者展示他们在新岗位上将如何运用各类技术工具。

法国商学院领跑2026年FT金融硕士排行榜

在就业形势严峻之际,毕业生纷纷把读商学院当作避风港,ESCP商学院在排行榜中位居榜首。

特朗普与伊朗达成的权宜休战

特朗普曾承诺要让伊朗实现“无条件投降”,但这个伊斯兰共和国不仅熬了过来,而且进一步增强了自身筹码。

美伊协议内容一览

该协议将把停火延长60天,重新开放霍尔木兹海峡,并启动核谈判。
设置字号×
最小
较小
默认
较大
最大
分享×