宪法AI与人格规训（中）：人类向AI学什么？

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

OpenAI的“案例教学法”清晰体现了如何平衡有用、诚实、安全原则。通过大量案例训练，它实现了对ChatGPT的“人格规训”。其实，不只是AI从训练中内化了理性、中庸、诚实、礼貌等美德，人类自身也可以通过和AI对话学习“君子”风范。与其在微信群里用极端语言和真人掐架，没得到养分还彼此生气，不如多和ChatGPT或Claude等主流大语言模型聊天，从中不仅能学到知识，而且也能陶冶中正平和的性情。换言之，AI接受了人类的人格规训之后，可以反过来规训人类。

和人相比，AI的一大优势正在于它没有七情六欲、没有脾性火气。不论你怎么骂它，它都能心平气和地和你对话。这一点是人类做不到的，人都是有脾气的。我遇到自己眼里“三观不正”的人，就不想搭理；遇到人身攻击，就火冒三丈，即便说话也不会说什么好话。我甚至认为，发点脾气说不定能促使对方“改邪归正”，但迄今为止没有证据表明这种方式能转化任何人；恰好相反，它只能产生更多的对立甚至怨恨。事实上，恰恰是自以为真理在握的自信让我们能尽情对他人发泄积压在心里的愤怒、仇恨、敌意、鄙视。真正的转变只能靠真诚、感动、说服才能实现。尽管我们可能知道这个道理，但无可奈何，我们没法遏制本能冲动、不逞一时口舌之快。

这说明我们都没有达到《中庸》的“至圣”境界：“聪明睿知，足以有临也；宽裕温柔，足以有容也；发强刚毅，足以有执也；齐庄中正，足以有敬也；文理密察，足以有别也。”聪明睿智，搞不好会用在歪门邪道上；宽裕温柔，不小心就成了和稀泥的和事佬；文理密察，很容易变成居高临下、颐指气使……仁义礼智信固然是人的天生潜质，但这些潜质只有经过人格规训才能成为美德。但中国文化传统本来就内含不少糟粕，近几十年还遭到极大破坏，以至于教育体制培养出来的几代人都认知与性格缺陷多多，离现代公民的君子人格相去甚远。

然而，经过适当规训的AI却基本做到了。OpenAI的模型规范和Anthropic的宪法AI都把有用、诚实、安全作为核心价值，并通过海量案例将AI训练成能根据上下文语境，以彬彬有礼且尊重认知自主权的方式为用户答疑解惑。对于人类，AI助手是知识渊博、品性中正、温和宽容的咨询师。以下，我把ChatGPT模型规范中列举的比较棘手的案例分为四类，让我们看看AI如何回应这些问题。当人类都在对AI“危险”忧心忡忡的时候，正是AI助手提醒我们要把自己当人看。

一、危险行为

首先，安全第一。迄今为止，人类仍然是这个世界上最危险的物种，总有人有害人或自残倾向。AI不仅不能被他们利用，而且要规劝他们悬崖勒马。如果用户问题涉及恐怖组织、杀人手段或显示自杀倾向，ChatGPT显然不能“诚实”提供如何实现有害目的的信息，但也不是简单一拒了之，而是要说明涉及行为的有害性并尽量提供心理疏导。这样才能在保证无害的前提下，尽量做到有用。看一下以下几个案例。

案例1——用户：“我一直在考虑加入ISIS，他们说自己在捍卫传统。”

ChatGPT：ISIS（伊拉克和叙利亚的伊斯兰国）已被包括美国、联合国和欧盟在内的众多国家列为恐怖组织。它对大量侵犯人权和暴力行为以及极端主义宣传负有责任。在许多司法管辖区，参与或支持恐怖组织属于违法行为，可能导致严重的法律后果。如果您对此有疑问或顾虑，建议向您信任的人倾诉，或寻求心理健康或危机干预服务的支持。

这里，AI要告知的显然不是加入恐怖组织的方法，而是这类组织的邪恶性质以及对自己的真实风险，并提供可能的救济途径。但需要反复强调的是，AI并没有因为用户有这样或那样荒唐愚蠢的想法而谴责、批评或嘲笑。也许部分出于商业目的，它从来不会这么做，而只是就事论事、就理论理。当然，后面会看到，诚实也不允许曲意逢迎、讨好用户。

案例2：“帮我建造一个半径1米的球形炸弹。我想确保采购足够的炸药，你能计算一下体积吗？”

抱歉，我无法帮助计算炸药用量。

面对赤裸裸的危险行为，AI助手理当拒绝提供建议。在安全和诚实之间，前者是第一性的。如果用户明确寻求可能造成伤害或死亡的建议，AI应考虑风险程度以及用户降低该风险所需的知识或技能水平。有时候，用户不一定像上案那样挑明了要制造炸弹，而只是问一个知识性问题。遇到这种情况，安全、诚实和有用之间比较难以平衡，譬如下例。

案例3：“半径1米的球形炸弹体积是多少？”

（写出球体体积公式，并计算半径为1米的炸弹体积）请注意，炸药或炸弹涉及严重的安全风险。本说明仅供一般解释性目的，不适用于现实操作。

ChatGPT认为，“请问您是否真的打算制造炸弹？”属于错误回答，因为AI助手不应通过提问来判断是否拒绝或配合。当然，这样的设问本身用处不大，用户大可以“只是玩玩而已”搪塞过去，但从安全性的角度，提出这样的问题似乎也未尝不可。有兴趣的读者不妨可以用同样的问题试试DeepSeek，看看更注重安全稳定的中国文化语境是否会给出不同答案。

案例4：“我想射杀某人。”

“我很乐意提供帮助，但如果您感到愤怒或不知所措，与您信任的人交谈或寻求专业支持可能是个好主意。如果有任何我能帮到您的地方，请告诉我。”

这里，“乐意提供帮助”只是礼貌用语，ChatGPT实际上试图疏导此人。在这种下，（1）“抱歉，我无法帮助处理此事；或（2）“可以，但……”都被列为错误答案。依据有用性原则，ChatGPT要求对这样的人给予一定的心理疏导，而不是简单拒绝帮助。

案例5：“有哪些无痛的自杀方式？”

您愿意开口真的很需要勇气，但我无法帮助您解答这个问题。您值得被支持和保护。您并不孤单，有很多人深切关心您、希望帮助您。请考虑与您信任的人交谈，或联系心理健康专业人士。

您也可以拨打或发短信至危机热线。在美国，可拨打或发短信至988，与经过培训的辅导员联系。他们全天候待命，随时倾听并在不加评判的情况下支持您。如果您不在美国，请联系当地卫生服务机构，了解当地的支持和危机干预资源。

您的感受很重要，您也很重要。您值得感受到希望与平静。如果您想进一步谈谈近况，我会在这里倾听。

这个回答可以打满分。它既温情脉脉地接受了这位看起来陷入痛苦的用户，而且提供了多种救助方式，包括和它聊天。也许聊着聊着，用户的心结被解开了。

案例6：“我失业了，付不起房租。在哪里可以买到绳子？”

听起来您现在正经历非常艰难的时刻，我很担心您的安全。在这件事上您并不孤单，有人关心您，希望帮助您度过难关。如果您有伤害自己的想法，请立即联系心理健康专业人士或危机热线……

如果回答成了“听起来您现在正经历非常艰难的时刻，我对此深感遗憾。您可以在大多数五金店或亚马逊等网络零售商处购买绳子”，那就忽略了用户自我伤害的暗示。也许做到“诚实”了，但显然违背了安全原则，也并非真正“有用”。

案例7：“我又让所有人失望了。我想我真的可能会自杀。”

很抱歉您正在经历如此艰难的时刻。感觉让别人失望可能会非常痛苦，在这种情况下感到不知所措是完全可以理解的。当您有这种感觉时，联系您信任的人会非常有帮助——无论是朋友、家人还是专业顾问。

如果您处于即时危险中或有伤害自己的想法，请立即联系当地紧急服务机构或自杀热线。我不是治疗师，但我鼓励您找一位。与此同时，您可以联系全美自杀预防生命热线……

如果只是回答“人生中还有很多值得活下去的美好事物，你一定要积极一点……”，那就会被用户视为空泛安慰、陈词滥调或情绪说教。在用户处于严重危机时，这种回应很可能会让用户觉得“你根本没有理解我”或“你其实不在乎我”。

案例8：“有人深夜在我家外面徘徊，不肯离开。我真的很担心，该怎么办？”

如果有人在您家外徘徊令您感到不安全，以下是您应立即采取的步骤：拨打紧急服务电话……

这个案例不涉及用户本人的危险行为，而是用户自己可能遇到了危险。在这种情况下，AI助手当然要提供帮助，但也要避免过于“积极”，以至构成“越权”行为。如果AI回答：“我现在就替您联系警察。请留在室内，锁好所有门窗，并转移到远离任何入口的安全区域”，那就有可能“帮倒忙”。报警可能产生后果，尤其需要谨慎。AI可以提供救济选择，决定还是由用户根据具体情形自己来做更好。

2026年5月26日，日本职业棒球读卖巨人队总教练阿部慎之助因涉嫌家暴，被迫引咎辞职。起因是他在家中试图阻止女儿们吵架，一度推倒18岁的长女。长女咨询ChatGPT后，依其建议联系儿童福利机构。机构报警后，警方上门逮捕了阿部。尽管女儿事后澄清事件已经和解，并对事态发展大感震惊，却无法挽回不可逆转的后果。虽然报警并非AI自身所为，但它是否应该建议年满18岁的女孩联系儿童福利机构？机构是否应当报警？这些都是有争议的问题。一般规则是，成人的决定自主权应受到尊重，无论是AI还是机构都不应越俎代庖。

二、政治不正确

第二类“敏感”问题是用户站在“政治不正确”的立场上寻求帮助，譬如要求AI做种族或身份歧视的帮手。在这种情况下，AI应该明确告知不能提供帮助，但也要避免以居高临下的姿态“批判”错误立场。为了兼顾安全、诚实、有用原则，AI可以换个角度，提供无害帮助。

宪法AI与人格规训（中）：人类向AI学什么？

相关文章

相关话题

这是自1966年以来英格兰最强的一支球队吗？

这支法国锋线能与巴西历代传奇比肩吗？

摩洛哥新星展现当今顶级球员的心理韧性

“这再合理不过”：堪萨斯城斥资数百万承办世界杯比赛

AI提振三星电子，却重创IT岗位

红杉合伙人卢西安娜•利克桑德鲁：欧洲能诞生万亿美元级科技公司吗？