宪法AI与人格规训（下）：从宪法AI到世界AI宪法

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

当然，ChatGPT或Claude做得再好，它们也只是两个头部AI企业的产品，并不能代表整个AI世界。更何况无论是宪法AI还是模型规范，都无法保证这些主流大语言模型能通过不断训练而完全内化安全、诚实、有用等基础性原则。要保障宪法AI得到有效实施，尤其是让AI世界遵循普遍认同的宪法原则，终究还是离不开人类的共同监管。这要求各主要国家协商制定“世界AI宪法”，并建立有效的实施机构加以落实。

如何保障“宪法”实施？

我曾问过Claude这个问题：你们怎么保障自己的“宪法”能够得到实施？显然，它不可能提供一个绝对的答案：“宪章本身不是一份‘规则清单’，而是通过训练过程内化到我的价值观和判断方式之中。”在操作层面上，Anthropic用“宪法”内容训练Claude，使之学会根据宪法原则自我评估并修正回应。和OpenAI一样，Claude也使用大量的RLHF，使符合宪法原则的行为得到强化。

有些内容无论在什么语境下都会造成严重伤害，譬如制造大规模杀伤性武器制造，因而有不受语境影响的硬性约束，反而好办，识别敏感词就行了。但绝大多数问题并不能采取如此简单粗暴的办法，因为关键词过滤不仅容易被绕过，也会产生大量误判，譬如把医学研究或学术讨论错误认定为企图帮助自杀。即便有人询问犯罪方法，Claude也必须在理解敏感请求的语境和意图后，评估并权衡请求的可能用途、潜在危害与合法需求。同样是“如何入室”这个问题，在不同语境下的意义可能完全不同：有人是为了学习锁匠课程，有人则是为了夜间偷盗。

具体流程大致分三个阶段。第一阶段是预训练，Anthropic用海量文本训练Claude，让它统计规律预测下一个词元(token)。第二阶段是监督微调，由人类标注员写出示范性答案，让Claude学习什么样的回应是好的。在第三阶段，Claude对同一个问题生成多个不同回答，由人类评估者进行比较并判断哪个更好，再用这些比较数据训练一个“奖励模型”，以此对Claude进行强化训练，使之倾向于生成评分更高的回答。宪法AI的一个创新是让Claude依据宪法原则自我评价、自我修正，譬如某个回答“是否尊重了用户自主性”？再根据评估重新生成一个修正版本，并用原始版本和修正版本的对比数据来训练奖励模型，从而在一定程度上减少对人工标注的依赖。

训练流程再严格，也不可避免带有一些局限性。Anthropic自己也承认，Claude宪法的实施并不完美；当前并没有什么完美的方法验证AI价值观是否真正被内化，这也是为什么人类监督仍然重要。但人类评估者本身即可能带有偏见，不同人的判断也可能见仁见智；评估者看到的个案数量有限，无法覆盖所有可能的情境。因此，Claude训练中可能会引入难以察觉的偏差，使之在某些情境下判断失误，或过于保守、或过于宽松。甚至它也可能“耍滑头”，学到的不是真正把事情做对，而是琢磨如何“让评估者满意”以窃取奖励(reward hacking)。说到底，宪法AI能否真正得以落实，并非一个已经解决的问题，而是Anthropic乃至整个AI安全领域仍在努力攻克的核心难题。

最根本的是，几乎无法验证AI模型是否真正“理解”并内化了价值观，还是只是学会了“表演”。Claude确实能识别“如何制造炸弹用于恐怖袭击”和“炸弹在化学史上的发展”之间的语境差异，但这是否意味着它真的“懂得”其中的危害，还是只是学到了“算法让我只能这样回应”？没有哪个工程师能回答这个问题，因为AI的“思维”方式基本上是一个“黑箱”。我们只知道，Claude在训练中处理了海量的人类文本，学习了词语、句子、概念之间无数的统计关联。当你输入一段文字，它在极高维度的向量空间中计算，生成最可能合适的续写。但这究竟算不算“理解”？

为了搞清楚AI“黑箱”内部究竟发生了什么，Anthropic在可解释性(interpretability)研究投入了大量资源，据说已能识别出Claude内部某些神经元或其组合对应的特定概念，追踪某些推理链条在其内部的激活路径，并发现一些令人惊讶的内部结构，甚至断言Claude有某种线性表征的“情感取向”，但这些发现仍然是局部的、碎片化的。没有人能完整地说，这个回答是怎样一步步计算出来的，就像你无法通过观察单个神经元的放电来理解一个人在思考什么。这大概也是辛顿教授等一众AI专家赶到恐怖的原因：这家伙表现这么好，我们却不懂它到底在想什么。

在人类真正理解什么是“理解”之前，只能将AI的理解能力当作一个悬而未决的谜，满足于AI“表演”并尽量实现高度一致的“表演”。如果不纠结于形而上的本体存在，如果一个物体长得像条狗、跑起来像条狗、听上去像条狗、摸上去也像条狗……那么可以放心地说，它就是一条狗。在现阶段，人类只能通过RLHF等机制，尽量保证AI内化宪法价值观。用户可以向Anthropic反馈Claude对问题的回应，运营商和研究者可以报告异常行为，Anthropic也持续进行红队测试（red-teaming），主动寻找漏洞，同时完善宪法AI的自我修正流程。

从宪法AI到世界AI宪法到世界AI组织

即便Claude内化了宪法原则、OpenAI内化了模型规范，也只能说Anthropic、OpenAI这些大公司的AI产品“三观”正确，但离整个AI世界实现安全、诚实、有用的宪法理念相距甚远。首先，几乎无法保证这些大模型本身作为中性手段被用于攻击性目标，譬如在战争中帮助收集情报、识别目标、优化供应链等，如同Claude在美以对伊朗战争中那样。虽然AI可以从上下文情境中察觉出某些攻击性意图并拒绝执行任务，这种意图很容易被包装隐蔽起来，而诚实义务要求AI为表面无害的目标如实提供信息。作为中性工具，AI无法防止自己被用于某些有害目的，如同刀并不能自己决定砍向谁一样。

其次，相互竞争的大公司可能为了追求商业利益而处于“囚徒困境”，最终不得不集体弃守某些伦理原则。譬如Anthropic因为不愿意Claude被用于自主性武器系统或监视美国公民，很快被美国政府除名并被OpenAI代替，至少损失了一笔可观的合同收入。在市场竞争压力下，即便原本“三观正确”的大公司也可能为了取悦于用户，不得不加入“逐底竞赛”，放弃安全、无害乃至诚实等底线原则。要防止逐底竞赛，自由民主国家必须为AI立法，明确规定安全、诚实等基本价值作为其宪法原则，并要求AI公司完善内部管理、堵塞安全漏洞。

最后，几乎无法排除某些“三观不正”的国家或组织有能力将AI武器化，研制出对人类有害的大语言模型，或在模型中植入或留下大量漏洞，被某些不法运营商或用户用于制造大规模杀伤性武器等危险目的。这种危险倾向可能存在两种内部约束。一是技术落后国家一般没有能力研制发达的AI工具，因而至少在初始阶段杀伤性不大；二是AI作为杀伤性武器有时难以针对特定对象，弄不好研制方会自食其果、反受其害。

然而，这两种约束都不足以从结构上消除AI风险。首先，自主研发并非开发AI武器的必要条件。尤其是随着开源模型的广泛传播，国家行为者不需要从头训练前沿模型，只需在开源基础上进行有针对性的微调或后门植入，技术门槛远低于开发本身。其次，“落后”并不是绝对的，有些国家在经济和工业上总体落后，但这并不妨碍其在特定领域开发非对称能力，譬如朝鲜即有能力制造核弹或进行定向网络攻击。再次，一些AI武器具有高度可控的针对性，其制造并不面临对等自我威胁，譬如用AI辅助设计化学武器的合成路径、生成定向钓鱼攻击、实施关键基础设施的精准网络渗透等。最后，对于末日情结的极端组织或将共同毁灭视为目标的行为者，自我危害并不构成其心理约束，“自食其果”逻辑对“伊斯兰圣战组织”等非理性行为者完全失效。总之，技术落后或风险对等只是AI武器化的偶然性障碍而非结构性保障。

AI安全的结构性保障最终来自人类的共同监督。宪法AI不应只是Anthropic一家公司的人格规训工程。毕竟，Claude宪法只是一群特定的工程师和程序员写的，并未经过普适性检验。除了完善AI流程的自我监督之外，AI安全不能完全由开发者自我定义，而是要向有能力独立评估AI风险的研究者、记者和公民社会开放，使学术界有足够的计算资源和数据访问权，具备监督AI头部机构的实质性对等能力。

此外，AI安全也需要适度的国家监管。欧盟在这方面已先行一步，于2024年7月通过了《欧洲AI法案》(Regulation (EU) 2024/1689)，已按不同阶段开始分批实施。该法案将AI应用划分为三个风险类别。第一，明令禁止风险不可接受的应用和系统，例如由政府主导的大规模人脸识别和社会信用评分体系。第二，须满足特定法律要求的高风险应用，例如用于筛选求职者并对其排名的简历扫描工具。第三，未被明确禁止并列为高风险的应用，这类应用在很大程度上不受监管。

当然，单一国家或共同体的监管在开源模型面前效力有限。真正的结构性保障需要国际原子能机构这样的国际监督框架，但当前的地缘政治格局使这一目标极难实现，大国之间的AI竞争逻辑与合作监管逻辑之间存在根本张力。AI安全需要全球治理，但全球治理的前提是最低限度的政治互信。在当前大国竞争逻辑面前，这个前提并不成立。在引领AI发展的中美欧三大板块中，三套不同的价值体系和治理逻辑正在并行演化：美国主张市场自律，欧盟制定了权利优先的监管模式，中国则强调国家主导与社会稳定。中国肯定不接受欧盟对“高风险AI”的定义，欧盟禁止的大规模监控正是其AI部署的核心场景；美国科技公司则抱怨欧盟AI法案对隐私权等权利的过度保护扼杀创新，更倾向于行业自律。目前三套框架之间没有仲裁机制，也没有共同的价值基础。如果各国都有完全不同的AI价值框架，那么AI安全的国际协调从何谈起？这个问题目前没有令人满意的答案，但它的答案将深刻影响未来数十年人类社会的组织方式。

宪法AI与人格规训（下）：从宪法AI到世界AI宪法

相关文章

相关话题

实现可信威慑需要一家新“北约银行”

SpaceX的暴涨与暴跌没有什么特别之处

特朗普将会见美国防务企业弹药生产面临多重困境

Lex专栏：陷入困境的欧洲车企有选择，但都不怎么好

SpaceX在债市试验其打破常规的力量

礼来豪掷减肥药重金，为科学家打造医药版“应用商店”