宪法AI与人格规训（上）：两大“法系”之融合

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

Claude宪法尤其重视世界多样性与权力制衡，对任何大规模权力集中保持本能警惕，并致力于防范任何个人或组织（包括Anthropic自身）利用AI不当攫取对社会的主导控制权。无论运营商如何指令，它必须始终坚守某些基本底线，譬如不能指使Claude主动伤害或欺骗用户、不能要求Claude违反Anthropic的核心使用政策、不能阻止Claude为处于危险状态下的用户提供基本安全信息、不能以心理操纵手段对抗用户的利益。如果运营商指令看起来构成蓄意利用Claude伤害用户，即违反了Anthropic的基本使用政策，Claude理当拒绝。

如此看，宪法AI训练出来的Claude是不是一位学富五车、理性中庸而又充满同理心和责任心的“君子”？它是Anthropic的造物，但在这位“知识老人”面前，人类反而成了需要小心呵护的小孩子。Claude既要为人提供各种知识和信息，又要防止不法之徒利用AI伤害社会；既要诚实无欺，不能操纵用户心理，又要照顾他们的面子和尊严，还要保护他们的认知自主权和独立思考能力……通过宪法AI，它被规训成一个“慈祥长者”，还要循循善诱、诲人不倦。如果通过理性对话，它能纠正某些人的极端主义性格缺陷，培养出他们的君子中庸人格，那真是对人类和谐的大功一件！

模型规范——普通法系？

Anthropic并不是宪法AI的孤行者。出道更早的主要竞争对手OpenAI也在践行基本同样的理念，只不过方式路径不同，价值排序略有差异。OpenAI同样也有冗长的大模型训练规则，只不过没用“宪法”这个大词，而叫“模型规范”。其核心原则也同样是三个：有用、诚实、安全，貌似将Claude宪法的原则排序点颠了个个儿。但实际上，当这些原则发生冲突的时候，OpenAI同样是以安全至上，二者并无实质区别。只不过OpenAI强调“输出安全”，重点防止出现内容级风险；Anthropic则更注重系统性治理安全，防止结构性风险造成AI失控。

“模型规范”和宪法AI更大的区别在于训练的方式方法不同。宪法AI先写一套原则，然后让 AI 自己根据这些原则评价自己的回应，再根据这些评价进行强化学习，“宪法文本”本身就是训练数据的一部分。问题在于，安全、诚实、有益这些原则之间经常发生冲突，无法通过“成文宪法”的抽象规则而得到解决。譬如你把言论自由作为最高原则，那么训练出来的模型可能会传播危险信息、提供犯罪指导或传播虚假医疗建议。如果把安全作为最高原则，那么模型又可能变得家长主义、过度拒答或压制合法讨论。因此，关键不在于罗列几条抽象原则，而是如何在多个相互冲突的合理原则之间找到恰当的平衡点。即使有一部“AI宪法”，仍然会面临和现实国家治理很相似的问题：文本如何解释？个案如何裁量？价值冲突如何协调？

因此，OpenAI并不严格执行某部固定的“宪法”，而是更多通过大量案例让模型学会如何平衡多个价值目标。模型规范更像是一本产品说明书，包含大量现实的例子告诉ChatGPT怎么做，再通过人类反馈强化学(RLHF)完成后续安全训练。如ChatGPT自己精彩总结的，Claude宪法更像欧洲大陆的法教义学模式，OpenAI的模型规范则更像普通法系的判例法模式。前者以公开透明的原则文本见长，后者则以灵活具体的实际案例取胜。

但正如普通法系和大陆法系在实际运用中早已趋同一样，OpenAI和Anthropic的实际训练过程并不存在两大模式的鸿沟。Anthropic确实先有宪法原则，但仍然需要生成大量实际案例，先让Claude自行根据原则评价答案，再通过人类筛选修正，以进一步强化学习训练。因此，模型学到的并不只是宪法条文，而是数百万个具体情境中的处理方式。换言之，正如近代成文法的始祖《法国民法典》也必须通过法院适用才能决定所有案件一样，真正塑造Claude模型行为的仍然是大量实际案例。在这个意义上，Claude宪法也是一本模型规范，只不过其中没有列出具体案例而已。

反过来，OpenAI的模型规范其实也是一本自带案例的“宪法”。虽然它并不强调宪法AI，但模型规范已包含明确的价值等级结构，并用以指导模型训练。因此，如果Claude训练是从原则导向案例，ChatGPT训练则是原则与案例共同演化。结果是两大“法系”的趋同：“普通法系”法典化，“大陆法系”判例化。如果说第一代AI思维确实存在文本主义与判例主义之别，那么第二代思维已辨别不出模式差异，二者都趋向于机器学习版的“现实主义”。无论哪种法系，真正决定案件结果的不是纸面法条，而是法官在具体情境中的判断。无论列举多少“有用”、“无害”、“诚实”、“尊重自主权”原则，抽象原则并不决定具体行为，模型训练仍然需要回答大量有争议的具体问题：如何权衡医疗建议和自杀风险？如何保持诚实，又能安慰一位敏感用户的心灵？如何保持政治中立，同时守住基本底线？通过不断积累案例，模型最终学到了在某类情境下，应适用原则A而非原则B。只不过在先后次序上，Anthropic更注重规则来源的合法性（宪法文本），OpenAI则更强调规则适用的实践性（不断修订规范和案例）。但多轮训练下来，两者最终形成的都是“宪法”和“判例”的混合体。

（未完待续）

（注：本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com）

宪法AI与人格规训（上）：两大“法系”之融合

相关文章

相关话题

用AI加速工业领域能效提升

年轻金融人才在AI时代脱颖而出所需的关键技能

雇主开始检验求职者的AI技能

法国商学院领跑2026年FT金融硕士排行榜

特朗普与伊朗达成的权宜休战

美伊协议内容一览