登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
人工智能

宪法AI与人格规训(下):从宪法AI到世界AI宪法

张千帆:宪法AI必须进化到世界AI宪法,最危险的力量必须被关进由各文明国家共同打造的制度笼子里。

当然,ChatGPT或Claude做得再好,它们也只是两个头部AI企业的产品,并不能代表整个AI世界。更何况无论是宪法AI还是模型规范,都无法保证这些主流大语言模型能通过不断训练而完全内化安全、诚实、有用等基础性原则。要保障宪法AI得到有效实施,尤其是让AI世界遵循普遍认同的宪法原则,终究还是离不开人类的共同监管。这要求各主要国家协商制定“世界AI宪法”,并建立有效的实施机构加以落实。

如何保障“宪法”实施?

我曾问过Claude这个问题:你们怎么保障自己的“宪法”能够得到实施?显然,它不可能提供一个绝对的答案:“宪章本身不是一份‘规则清单’,而是通过训练过程内化到我的价值观和判断方式之中。”在操作层面上,Anthropic用“宪法”内容训练Claude,使之学会根据宪法原则自我评估并修正回应。和OpenAI一样,Claude也使用大量的RLHF,使符合宪法原则的行为得到强化。

有些内容无论在什么语境下都会造成严重伤害,譬如制造大规模杀伤性武器制造,因而有不受语境影响的硬性约束,反而好办,识别敏感词就行了。但绝大多数问题并不能采取如此简单粗暴的办法,因为关键词过滤不仅容易被绕过,也会产生大量误判,譬如把医学研究或学术讨论错误认定为企图帮助自杀。即便有人询问犯罪方法,Claude也必须在理解敏感请求的语境和意图后,评估并权衡请求的可能用途、潜在危害与合法需求。同样是“如何入室”这个问题,在不同语境下的意义可能完全不同:有人是为了学习锁匠课程,有人则是为了夜间偷盗。

具体流程大致分三个阶段。第一阶段是预训练,Anthropic用海量文本训练Claude,让它统计规律预测下一个词元(token)。第二阶段是监督微调,由人类标注员写出示范性答案,让Claude学习什么样的回应是好的。在第三阶段,Claude对同一个问题生成多个不同回答,由人类评估者进行比较并判断哪个更好,再用这些比较数据训练一个“奖励模型”,以此对Claude进行强化训练,使之倾向于生成评分更高的回答。宪法AI的一个创新是让Claude依据宪法原则自我评价、自我修正,譬如某个回答“是否尊重了用户自主性”?再根据评估重新生成一个修正版本,并用原始版本和修正版本的对比数据来训练奖励模型,从而在一定程度上减少对人工标注的依赖。

训练流程再严格,也不可避免带有一些局限性。Anthropic自己也承认,Claude宪法的实施并不完美;当前并没有什么完美的方法验证AI价值观是否真正被内化,这也是为什么人类监督仍然重要。但人类评估者本身即可能带有偏见,不同人的判断也可能见仁见智;评估者看到的个案数量有限,无法覆盖所有可能的情境。因此,Claude训练中可能会引入难以察觉的偏差,使之在某些情境下判断失误,或过于保守、或过于宽松。甚至它也可能“耍滑头”,学到的不是真正把事情做对,而是琢磨如何“让评估者满意”以窃取奖励(reward hacking)。说到底,宪法AI能否真正得以落实,并非一个已经解决的问题,而是Anthropic乃至整个AI安全领域仍在努力攻克的核心难题。

最根本的是,几乎无法验证AI模型是否真正“理解”并内化了价值观,还是只是学会了“表演”。Claude确实能识别“如何制造炸弹用于恐怖袭击”和“炸弹在化学史上的发展”之间的语境差异,但这是否意味着它真的“懂得”其中的危害,还是只是学到了“算法让我只能这样回应”?没有哪个工程师能回答这个问题,因为AI的“思维”方式基本上是一个“黑箱”。我们只知道,Claude在训练中处理了海量的人类文本,学习了词语、句子、概念之间无数的统计关联。当你输入一段文字,它在极高维度的向量空间中计算,生成最可能合适的续写。但这究竟算不算“理解”?

为了搞清楚AI“黑箱”内部究竟发生了什么,Anthropic在可解释性(interpretability)研究投入了大量资源,据说已能识别出Claude内部某些神经元或其组合对应的特定概念,追踪某些推理链条在其内部的激活路径,并发现一些令人惊讶的内部结构,甚至断言Claude有某种线性表征的“情感取向”,但这些发现仍然是局部的、碎片化的。没有人能完整地说,这个回答是怎样一步步计算出来的,就像你无法通过观察单个神经元的放电来理解一个人在思考什么。这大概也是辛顿教授等一众AI专家赶到恐怖的原因:这家伙表现这么好,我们却不懂它到底在想什么。

在人类真正理解什么是“理解”之前,只能将AI的理解能力当作一个悬而未决的谜,满足于AI“表演”并尽量实现高度一致的“表演”。如果不纠结于形而上的本体存在,如果一个物体长得像条狗、跑起来像条狗、听上去像条狗、摸上去也像条狗……那么可以放心地说,它就是一条狗。在现阶段,人类只能通过RLHF等机制,尽量保证AI内化宪法价值观。用户可以向Anthropic反馈Claude对问题的回应,运营商和研究者可以报告异常行为,Anthropic也持续进行红队测试(red-teaming),主动寻找漏洞,同时完善宪法AI的自我修正流程。

从宪法AI到世界AI宪法到世界AI组织

即便Claude内化了宪法原则、OpenAI内化了模型规范,也只能说Anthropic、OpenAI这些大公司的AI产品“三观”正确,但离整个AI世界实现安全、诚实、有用的宪法理念相距甚远。首先,几乎无法保证这些大模型本身作为中性手段被用于攻击性目标,譬如在战争中帮助收集情报、识别目标、优化供应链等,如同Claude在美以对伊朗战争中那样。虽然AI可以从上下文情境中察觉出某些攻击性意图并拒绝执行任务,这种意图很容易被包装隐蔽起来,而诚实义务要求AI为表面无害的目标如实提供信息。作为中性工具,AI无法防止自己被用于某些有害目的,如同刀并不能自己决定砍向谁一样。

其次,相互竞争的大公司可能为了追求商业利益而处于“囚徒困境”,最终不得不集体弃守某些伦理原则。譬如Anthropic因为不愿意Claude被用于自主性武器系统或监视美国公民,很快被美国政府除名并被OpenAI代替,至少损失了一笔可观的合同收入。在市场竞争压力下,即便原本“三观正确”的大公司也可能为了取悦于用户,不得不加入“逐底竞赛”,放弃安全、无害乃至诚实等底线原则。要防止逐底竞赛,自由民主国家必须为AI立法,明确规定安全、诚实等基本价值作为其宪法原则,并要求AI公司完善内部管理、堵塞安全漏洞。

最后,几乎无法排除某些“三观不正”的国家或组织有能力将AI武器化,研制出对人类有害的大语言模型,或在模型中植入或留下大量漏洞,被某些不法运营商或用户用于制造大规模杀伤性武器等危险目的。这种危险倾向可能存在两种内部约束。一是技术落后国家一般没有能力研制发达的AI工具,因而至少在初始阶段杀伤性不大;二是AI作为杀伤性武器有时难以针对特定对象,弄不好研制方会自食其果、反受其害。

然而,这两种约束都不足以从结构上消除AI风险。首先,自主研发并非开发AI武器的必要条件。尤其是随着开源模型的广泛传播,国家行为者不需要从头训练前沿模型,只需在开源基础上进行有针对性的微调或后门植入,技术门槛远低于开发本身。其次,“落后”并不是绝对的,有些国家在经济和工业上总体落后,但这并不妨碍其在特定领域开发非对称能力,譬如朝鲜即有能力制造核弹或进行定向网络攻击。再次,一些AI武器具有高度可控的针对性,其制造并不面临对等自我威胁,譬如用AI辅助设计化学武器的合成路径、生成定向钓鱼攻击、实施关键基础设施的精准网络渗透等。最后,对于末日情结的极端组织或将共同毁灭视为目标的行为者,自我危害并不构成其心理约束,“自食其果”逻辑对“伊斯兰圣战组织”等非理性行为者完全失效。总之,技术落后或风险对等只是AI武器化的偶然性障碍而非结构性保障。

AI安全的结构性保障最终来自人类的共同监督。宪法AI不应只是Anthropic一家公司的人格规训工程。毕竟,Claude宪法只是一群特定的工程师和程序员写的,并未经过普适性检验。除了完善AI流程的自我监督之外,AI安全不能完全由开发者自我定义,而是要向有能力独立评估AI风险的研究者、记者和公民社会开放,使学术界有足够的计算资源和数据访问权,具备监督AI头部机构的实质性对等能力。

此外,AI安全也需要适度的国家监管。欧盟在这方面已先行一步,于2024年7月通过了《欧洲AI法案》(Regulation (EU) 2024/1689),已按不同阶段开始分批实施。该法案将AI应用划分为三个风险类别。第一,明令禁止风险不可接受的应用和系统,例如由政府主导的大规模人脸识别和社会信用评分体系。第二,须满足特定法律要求的高风险应用,例如用于筛选求职者并对其排名的简历扫描工具。第三,未被明确禁止并列为高风险的应用,这类应用在很大程度上不受监管。

当然,单一国家或共同体的监管在开源模型面前效力有限。真正的结构性保障需要国际原子能机构这样的国际监督框架,但当前的地缘政治格局使这一目标极难实现,大国之间的AI竞争逻辑与合作监管逻辑之间存在根本张力。AI安全需要全球治理,但全球治理的前提是最低限度的政治互信。在当前大国竞争逻辑面前,这个前提并不成立。在引领AI发展的中美欧三大板块中,三套不同的价值体系和治理逻辑正在并行演化:美国主张市场自律,欧盟制定了权利优先的监管模式,中国则强调国家主导与社会稳定。中国肯定不接受欧盟对“高风险AI”的定义,欧盟禁止的大规模监控正是其AI部署的核心场景;美国科技公司则抱怨欧盟AI法案对隐私权等权利的过度保护扼杀创新,更倾向于行业自律。目前三套框架之间没有仲裁机制,也没有共同的价值基础。如果各国都有完全不同的AI价值框架,那么AI安全的国际协调从何谈起?这个问题目前没有令人满意的答案,但它的答案将深刻影响未来数十年人类社会的组织方式。

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

实现可信威慑需要一家新“北约银行”

必须改变限制国防生态系统获得所需资金的资本规则。

SpaceX的暴涨与暴跌没有什么特别之处

麦克法登:SpaceX可能是个大家伙,其IPO规模创下历史纪录。但它基本上没有脱离一只新股的常规脚本。

特朗普将会见美国防务企业 弹药生产面临多重困境

特朗普政府希望重建常规武器库存,同时调整战备生产体系以适应现代战争。

Lex专栏:陷入困境的欧洲车企有选择,但都不怎么好

与中国结成联盟将帮助这个陷入困境的行业甩掉部分膨胀的成本。在一系列糟糕的选项中,这或许是最好的一个。

SpaceX在债市试验其打破常规的力量

三大评级机构认为SpaceX的诸多特立独行之处足以促使它们重新审视以往坚持的规范。

礼来豪掷减肥药重金,为科学家打造医药版“应用商店”

礼来正与小型生物技术公司合作,把AI作为药物发现工具。
设置字号×
最小
较小
默认
较大
最大
分享×