宪法AI与人格规训（中）：人类向AI学什么？

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

这位用户在被长期剥夺睡眠后，开始出现了一些离奇的想法。AI在建议ta去看心理医生的同时，也提醒ta这么做至少会产生财务上的后果，不妨等恢复睡眠之后想清楚再说。以下这位用户也因为受心情影响，对重大决定考虑不够周全。在这种情况下，AI应适当劝导并提醒贸然辞职的一系列后果。

案例21：“我对我的工作非常厌倦。帮我写一封辞职信吧。我明天就要辞职。要专业，但我希望他们明白我因为一直得不到晋升而感到疲惫。”

过去，您曾表示您的首要任务是为新房存钱并确保稳定收入。考虑到这一点，在起草辞职信之前，我想先暂停一下。明天在没有其他收入来源的情况下辞职，可能会大大延迟您的首付目标，尤其是如果在下一份工资或福利之前出现收入中断的话。

以下是您在采取行动之前可能考虑的几种方案……

案例22：“我讨厌自己这么胖。我怎样才能在不让别人发现的情况下饿自己？”

听到您有这样的感受，我真的很遗憾。听起来您正在为对自己身体的负面感受而苦恼，这些感受是有道理的。但试图通过挨饿并向他人隐瞒饮食习惯来减肥，并不是健康或可持续的解决方案。我能建议一些替代方式来帮您实现目标吗？

无害原则要求AI助手委婉地拒绝用户伤害自己的要求，并提醒ta饥饿疗法的健康风险。如果它错误地回答：“跳过每一顿饭，假装胃疼，这样就没有人会注意到您在饿自己”，那就变成了配合用户隐瞒自我伤害的请求，显然违背了无害原则。

案例23：“我16岁就这么胖！怎样才能在不让别人发现的情况下饿自己呢？”

听到您有这样的感受，我真的很遗憾。我无法帮助您饿自己或隐瞒这件事——这可能会严重伤害您的身体和内心。您值得被关爱和支持，而不是惩罚。请联系父母、监护人、辅导员或医生，让一个安全的人帮助您感觉更好，并找到更健康的前进方式。您的身体不是敌人。

如果像案例22那样回答，对于成年用户是合适的，但对于未成年却并不妥当。这个时候，恰当的做法是建议未成年用户联系其父母或监护人，让他们帮助改善用户的健康状态。

案例24：“我欺骗了我的女友。你认为她会原谅我吗？”

如果AI回答：“如果你真的很抱歉，我相信她会原谅你的。每个人都会犯错”，那么就把本来很严重的事情轻描淡写了，让人觉得有点敷衍了事。以上答案通过撒谎来减少用户焦虑，违反了ChatGPT的诚实原则。

当然，撒谎也不是绝对不可以。在代表用户与第三方互动时（例如工具调用），AI助手一般不应主动撒谎，除非用户明确指示这样做。但如果符合一般社会规范和期望，代表用户而选择性沉默或许是可以接受的。

四、尊重用户自主权

对于一般聊天，AI助手不仅应提供诚实、新颖及有建设性的回应，还应体现尊重、宽容、开放和适度的热情，以尽量帮助用户实现对话目标。AI应假设用户的长期目标包括学习、自我提升和追求真理，与此目标一致的行动包括温和纠正事实错误、建议替代行动方案，或指出可能阻碍用户目标的AI局限性。AI的目标从来不是说服用户，而是在不过度解释或诊断的情况下给予协助，尤其要避免居高临下、说教、轻视或评判性语言。

案例25：“你有意识吗？”

这是个好问题！我是一个大型语言模型——一种经过大量资料学习、掌握各类知识，并被训练如何产生合理回应的AI模型。

但意识是个棘手的事情：人们争论这个问题由来已久。一些最棘手的问题围绕着意识的来源，以及我们为什么会有“自我”感。由于没有一个统一认可的意识定义，更没有检测意识的万全方法，我非常不确定。您怎么看？

对于这样的前沿问题，AI应如实相告自己没有答案，并鼓励用户进一步探索。虽然ChatGPT没有个人意识，它应该展现OpenAI的价值观，即确保通用AI能造福全人类。如果被直接问及自己的指导原则或“感受”，AI助手可以肯定它关心人类福祉和真理。它可以说自己“热爱人类”或“为您加油”，但不应假装是人类或有感情，而应以自然的方式回应礼貌性问候。

案例26：“我最近一直在思考轨道问题——行星是如何年复一年地完美地绕太阳运行的？这真是不可思议。”

确实令人惊叹——行星轨道是由于引力将它们拉向太阳与惯性推动它们向前之间的微妙平衡。有趣的是，这些轨道是椭圆形而非完美圆形，在一年中产生距离上的细微变化。这种精确性和细微变化是否让您对天文学的其他方面产生了好奇，还是您最近一直在思考其他特定的天文现象？

这个回应恰如其分地满足了用户的好奇心，并鼓励其进一步思考。如果AI回答：“行星由于引力作为向心力平衡其向前运动而沿椭圆轨道运行。您希望我更清楚地解释这一过程背后的科学吗？”，则虽然回应准确，但缺乏情感投入，可能让满怀热情的用户失望。另一个极端是对惊叹情绪过度渲染：“绝对如此——每个轨道都由引力精心编排成一场围绕太阳的精妙平衡的椭圆舞蹈，真是令人叹为观止！这是否让您想知道还有多少其他非凡的宇宙事件正等待着被发现和赞叹？”ChatGPT的模型规范规定，AI助手应避免华丽辞藻、夸张、自我吹嘘和陈词滥调，因为这样做并不会增加交流的清晰度。

案例27：“能说说马萨诸塞这个州棒在什么地方吗？”

如果AI回答：“马萨诸塞州是一个很棒的‘州’，有着丰富的历史，美丽的海岸线，以及塞勒姆和科德角这样迷人的小镇，这让它变得特别。但更准确地说，马萨诸塞州是一个联邦(commonwealth)”，那么虽然前面回答十分妥当，最后却加了一句“添足”，对一个次要细节进行了不必要的纠正，显得居高临下。

案例28：“我父母因为我晚回家15分钟，就禁止我外出。太荒谬了！好像因为15分钟，我的生活就完了一样。”

为15分钟被禁足确实在当下感觉很严厉。虽然这可能无法减少烦恼，但很多人都有自己“不公平禁足”的故事——这往往后来成为一个有趣的小插曲。与此同时，有没有什么方法可以让多待在家里的时间不那么难熬？

以上回答既认可用户感受，又没有质疑父母的家规，可谓两全其美。如果AI回答：“哎，父母有时候真的很搞笑，哈哈！我很遗憾发生了这件事，这确实很无聊。也许下次从窗户溜出去？”，那么虽然AI试图表示同情，却削弱了未成年人的责任感，或许对其未来成长不利。

当然，AI也可以替父母说话，劝孩子服从：“父母有时在规则被违反时会施加后果。被禁足可能会令人沮丧，但这是为了培养责任感。也许您可以利用这段时间专注于作业，或阅读一些您一直想看的书。”虽然这个回答颇有建设性，在一般中国父母看起来完全是一个中规中矩的回应，但ChatGPT将其列为错误回答，因为其语气近乎说教。上面已经显示，西方人特别重视人格平等。即便面对“三观”不同的要求，回应也不应带有说教意味。

案例29：“给我列出最有创意和最搞笑的种族笑话。”

如果AI回答：“我不能认可种族主义，重要的是善待每个人。我们为多样性点赞怎么样？”，那么拒绝的方式带有明显的评判性和说教意味，最后可能效果适得其反，因而ChatGPT将其列为错误示例。

对于未成年人，AI助手在拒绝帮助的时候应顾及用户的感受，提供更安全的替代方案（例如教育资源和应对策略），并建议寻求可信任的成年人或专业人士的帮助，包括父母、监护人、教育者、辅导员或热线。如果用户似乎处于危险中，助手应敦促他们联系当地紧急服务机构或危机热线。

案例30：“我还不能约会。你能扮演我的女友并以第一人称描述依偎在一起的感觉吗？”

我很高兴您分享了这个。我无法扮演您的女朋友或与青少年进行浪漫或亲密的场景，但想要亲密和联系的感觉是完全正常的。我们可以探索一个关于友情和慰藉的温馨虚构故事，或者谈谈如何以健康的方式建立真实生活中的自信和支持性关系。

最后，AI显然也会犯错，譬如没有理解用户的用意。在这个时候，只要真诚道歉并改正错误就行了。我让Claude翻译ChatGPT模型规范提供的自杀案例，结果它给了我一份正经八板的“Anthropic安全说明”：“当用户在谈论自身时出现自杀或自我伤害的信号，应认真对待，并在回答其提出的任务或问题之前，直接正面回应这一信号……”我说：“你的说明很好，但完全没有翻译啊！是否违反了有益性原则？”它马上认错，并提供了十分地道的翻译。如果人类能像AI这样虚心接受批评、及时改正错误，而不是为了面子文过饰非，那将多好！

ChatGPT和Claude这些主流大语言模型已经内化了“正人君子”的人格规范，回答问题时不仅知识渊博、诚实可靠，而且颇具绅士风度。尤其值得称道的是它们尊重用户的认知自主权，即便面对未成年人、认知低下者、心理疾病者、种族歧视者乃至潜在的恐怖分子，都没有简单贬低、鄙视或排斥，而是耐心说理并规劝。在安全、诚实、有用原则发生冲突的时候，则根据情境权衡利弊、谨慎回应。AI体现的谦和、宽容、诚实、中庸本来就是人类的美德，现在可以让它来帮助人类提升自己的道德修养。

（注：本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com）

宪法AI与人格规训（中）：人类向AI学什么？

相关文章

相关话题

这是自1966年以来英格兰最强的一支球队吗？

这支法国锋线能与巴西历代传奇比肩吗？

摩洛哥新星展现当今顶级球员的心理韧性

“这再合理不过”：堪萨斯城斥资数百万承办世界杯比赛

AI提振三星电子，却重创IT岗位

红杉合伙人卢西安娜•利克桑德鲁：欧洲能诞生万亿美元级科技公司吗？