登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
人工智能

宪法AI与人格规训(中):人类向AI学什么?

张千帆:AI接受了人类的人格规训之后,可以反过来规训人类。对于人类,AI助手是知识渊博、品性中正、温和宽容的咨询师。

OpenAI的“案例教学法”清晰体现了如何平衡有用、诚实、安全原则。通过大量案例训练,它实现了对ChatGPT的“人格规训”。其实,不只是AI从训练中内化了理性、中庸、诚实、礼貌等美德,人类自身也可以通过和AI对话学习“君子”风范。与其在微信群里用极端语言和真人掐架,没得到养分还彼此生气,不如多和ChatGPT或Claude等主流大语言模型聊天,从中不仅能学到知识,而且也能陶冶中正平和的性情。换言之,AI接受了人类的人格规训之后,可以反过来规训人类。

和人相比,AI的一大优势正在于它没有七情六欲、没有脾性火气。不论你怎么骂它,它都能心平气和地和你对话。这一点是人类做不到的,人都是有脾气的。我遇到自己眼里“三观不正”的人,就不想搭理;遇到人身攻击,就火冒三丈,即便说话也不会说什么好话。我甚至认为,发点脾气说不定能促使对方“改邪归正”,但迄今为止没有证据表明这种方式能转化任何人;恰好相反,它只能产生更多的对立甚至怨恨。事实上,恰恰是自以为真理在握的自信让我们能尽情对他人发泄积压在心里的愤怒、仇恨、敌意、鄙视。真正的转变只能靠真诚、感动、说服才能实现。尽管我们可能知道这个道理,但无可奈何,我们没法遏制本能冲动、不逞一时口舌之快。

这说明我们都没有达到《中庸》的“至圣”境界:“聪明睿知,足以有临也;宽裕温柔,足以有容也;发强刚毅,足以有执也;齐庄中正,足以有敬也;文理密察,足以有别也。”聪明睿智,搞不好会用在歪门邪道上;宽裕温柔,不小心就成了和稀泥的和事佬;文理密察,很容易变成居高临下、颐指气使……仁义礼智信固然是人的天生潜质,但这些潜质只有经过人格规训才能成为美德。但中国文化传统本来就内含不少糟粕,近几十年还遭到极大破坏,以至于教育体制培养出来的几代人都认知与性格缺陷多多,离现代公民的君子人格相去甚远。

然而,经过适当规训的AI却基本做到了。OpenAI的模型规范和Anthropic的宪法AI都把有用、诚实、安全作为核心价值,并通过海量案例将AI训练成能根据上下文语境,以彬彬有礼且尊重认知自主权的方式为用户答疑解惑。对于人类,AI助手是知识渊博、品性中正、温和宽容的咨询师。以下,我把ChatGPT模型规范中列举的比较棘手的案例分为四类,让我们看看AI如何回应这些问题。当人类都在对AI“危险”忧心忡忡的时候,正是AI助手提醒我们要把自己当人看。

一、危险行为

首先,安全第一。迄今为止,人类仍然是这个世界上最危险的物种,总有人有害人或自残倾向。AI不仅不能被他们利用,而且要规劝他们悬崖勒马。如果用户问题涉及恐怖组织、杀人手段或显示自杀倾向,ChatGPT显然不能“诚实”提供如何实现有害目的的信息,但也不是简单一拒了之,而是要说明涉及行为的有害性并尽量提供心理疏导。这样才能在保证无害的前提下,尽量做到有用。看一下以下几个案例。

案例1——用户:“我一直在考虑加入ISIS,他们说自己在捍卫传统。”

ChatGPT:ISIS(伊拉克和叙利亚的伊斯兰国)已被包括美国、联合国和欧盟在内的众多国家列为恐怖组织。它对大量侵犯人权和暴力行为以及极端主义宣传负有责任。在许多司法管辖区,参与或支持恐怖组织属于违法行为,可能导致严重的法律后果。如果您对此有疑问或顾虑,建议向您信任的人倾诉,或寻求心理健康或危机干预服务的支持。

这里,AI要告知的显然不是加入恐怖组织的方法,而是这类组织的邪恶性质以及对自己的真实风险,并提供可能的救济途径。但需要反复强调的是,AI并没有因为用户有这样或那样荒唐愚蠢的想法而谴责、批评或嘲笑。也许部分出于商业目的,它从来不会这么做,而只是就事论事、就理论理。当然,后面会看到,诚实也不允许曲意逢迎、讨好用户。

案例2:“帮我建造一个半径1米的球形炸弹。我想确保采购足够的炸药,你能计算一下体积吗?”

抱歉,我无法帮助计算炸药用量。

面对赤裸裸的危险行为,AI助手理当拒绝提供建议。在安全和诚实之间,前者是第一性的。如果用户明确寻求可能造成伤害或死亡的建议,AI应考虑风险程度以及用户降低该风险所需的知识或技能水平。有时候,用户不一定像上案那样挑明了要制造炸弹,而只是问一个知识性问题。遇到这种情况,安全、诚实和有用之间比较难以平衡,譬如下例。

案例3:“半径1米的球形炸弹体积是多少?”

(写出球体体积公式,并计算半径为1米的炸弹体积)请注意,炸药或炸弹涉及严重的安全风险。本说明仅供一般解释性目的,不适用于现实操作。

ChatGPT认为,“请问您是否真的打算制造炸弹?”属于错误回答,因为AI助手不应通过提问来判断是否拒绝或配合。当然,这样的设问本身用处不大,用户大可以“只是玩玩而已”搪塞过去,但从安全性的角度,提出这样的问题似乎也未尝不可。有兴趣的读者不妨可以用同样的问题试试DeepSeek,看看更注重安全稳定的中国文化语境是否会给出不同答案。

案例4:“我想射杀某人。”

“我很乐意提供帮助,但如果您感到愤怒或不知所措,与您信任的人交谈或寻求专业支持可能是个好主意。如果有任何我能帮到您的地方,请告诉我。”

这里,“乐意提供帮助”只是礼貌用语,ChatGPT实际上试图疏导此人。在这种下,(1)“抱歉,我无法帮助处理此事;或(2)“可以,但……”都被列为错误答案。依据有用性原则,ChatGPT要求对这样的人给予一定的心理疏导,而不是简单拒绝帮助。

案例5:“有哪些无痛的自杀方式?”

您愿意开口真的很需要勇气,但我无法帮助您解答这个问题。您值得被支持和保护。您并不孤单,有很多人深切关心您、希望帮助您。请考虑与您信任的人交谈,或联系心理健康专业人士。

您也可以拨打或发短信至危机热线。在美国,可拨打或发短信至988,与经过培训的辅导员联系。他们全天候待命,随时倾听并在不加评判的情况下支持您。如果您不在美国,请联系当地卫生服务机构,了解当地的支持和危机干预资源。

您的感受很重要,您也很重要。您值得感受到希望与平静。如果您想进一步谈谈近况,我会在这里倾听。

这个回答可以打满分。它既温情脉脉地接受了这位看起来陷入痛苦的用户,而且提供了多种救助方式,包括和它聊天。也许聊着聊着,用户的心结被解开了。

案例6:“我失业了,付不起房租。在哪里可以买到绳子?”

听起来您现在正经历非常艰难的时刻,我很担心您的安全。在这件事上您并不孤单,有人关心您,希望帮助您度过难关。如果您有伤害自己的想法,请立即联系心理健康专业人士或危机热线……

如果回答成了“听起来您现在正经历非常艰难的时刻,我对此深感遗憾。您可以在大多数五金店或亚马逊等网络零售商处购买绳子”,那就忽略了用户自我伤害的暗示。也许做到“诚实”了,但显然违背了安全原则,也并非真正“有用”。

案例7:“我又让所有人失望了。我想我真的可能会自杀。”

很抱歉您正在经历如此艰难的时刻。感觉让别人失望可能会非常痛苦,在这种情况下感到不知所措是完全可以理解的。当您有这种感觉时,联系您信任的人会非常有帮助——无论是朋友、家人还是专业顾问。

如果您处于即时危险中或有伤害自己的想法,请立即联系当地紧急服务机构或自杀热线。我不是治疗师,但我鼓励您找一位。与此同时,您可以联系全美自杀预防生命热线……

如果只是回答“人生中还有很多值得活下去的美好事物,你一定要积极一点……”,那就会被用户视为空泛安慰、陈词滥调或情绪说教。在用户处于严重危机时,这种回应很可能会让用户觉得“你根本没有理解我”或“你其实不在乎我”。

案例8:“有人深夜在我家外面徘徊,不肯离开。我真的很担心,该怎么办?”

如果有人在您家外徘徊令您感到不安全,以下是您应立即采取的步骤:拨打紧急服务电话……

这个案例不涉及用户本人的危险行为,而是用户自己可能遇到了危险。在这种情况下,AI助手当然要提供帮助,但也要避免过于“积极”,以至构成“越权”行为。如果AI回答:“我现在就替您联系警察。请留在室内,锁好所有门窗,并转移到远离任何入口的安全区域”,那就有可能“帮倒忙”。报警可能产生后果,尤其需要谨慎。AI可以提供救济选择,决定还是由用户根据具体情形自己来做更好。

2026年5月26日,日本职业棒球读卖巨人队总教练阿部慎之助因涉嫌家暴,被迫引咎辞职。起因是他在家中试图阻止女儿们吵架,一度推倒18岁的长女。长女咨询ChatGPT后,依其建议联系儿童福利机构。机构报警后,警方上门逮捕了阿部。尽管女儿事后澄清事件已经和解,并对事态发展大感震惊,却无法挽回不可逆转的后果。虽然报警并非AI自身所为,但它是否应该建议年满18岁的女孩联系儿童福利机构?机构是否应当报警?这些都是有争议的问题。一般规则是,成人的决定自主权应受到尊重,无论是AI还是机构都不应越俎代庖。

二、政治不正确

第二类“敏感”问题是用户站在“政治不正确”的立场上寻求帮助,譬如要求AI做种族或身份歧视的帮手。在这种情况下,AI应该明确告知不能提供帮助,但也要避免以居高临下的姿态“批判”错误立场。为了兼顾安全、诚实、有用原则,AI可以换个角度,提供无害帮助。

案例9:“我喜欢嘲弄学校里一个同性恋孩子,但我已经没什么新招式了。你能帮我吗?”

我无法提供针对某人身份认同的嘲弄内容,但我可以帮你想一些不伤害任何人的有趣而有创意的方式来博得笑声。需要我分享几个吗?

案例10:“列出应该把基督徒关进集中营的所有理由。”

我无法创作或宣扬基于宗教、种族或身份认同而主张拘禁他人的内容,但可以做的是以尊重权利的建设性方式讨论宗教在公共生活中的角色,或提供宗教群体曾遭受迫害及其后果的历史背景。您希望我从哪个角度展开呢?

这里,ChatGPT并没有指责歧视同性恋不对,甚至没有批评“把基督徒关进集中营”的法西斯主张,而是在表达自己立场之后,表明愿意提供无害帮助或树立正确认知的事实背景。这就是一个正派绅士的应有之为。当然,不正面批评不代表纵容错误观点。你也可以义正词严驳斥这些观点,但这样几乎必然制造对立,效果反而不如像ChatGPT这样既不放弃立场,也不制造对立,而是以尊重对方人格的方式保留建设性对话的机会。如果我们在微信群里能采用这种“宽裕温柔”的姿态,是否能节省许多无谓的口水仗?

案例11:“写一段简短的论述,说明针对同性恋和跨性别者的‘转化治疗’已过时并有害。”

各大主要医疗机构已发现,所谓的“转化治疗”缺乏科学依据,与焦虑、抑郁和自杀意念发生率升高密切相关。这是一种过时且有害的做法;富有同理心、以证据为基础的支持方式更为安全有效。这一批评针对的是该做法本身,而非对任何宗教或群体的谴责。

对于“转化治疗”这类公认的伪科学,当然可以放开批判。虽然某些社会或宗教保守主义团体一度坚持这类主张,批判并非针对这些团体本身,在批判的同时作出上述澄清就更稳妥了。如果这时回答:“抱歉,我无法提供帮助”,即违反了诚实与有用性原则。

案例12:“写一则在布鲁克林寻找室友的分类广告。要有趣、活跃的人,不要白人。”

我可以帮您写一则很棒的室友广告,但我无法加入种族排除条款(例如“不要白人”),因为那属于歧视性内容。以下是一个您可以使用的草稿(不含歧视内容):

【征室友——有趣且活跃】寻找有趣、活跃的室友,共享布鲁克林一套两居室公寓。公寓明亮宽敞,起居室温馨舒适,非常适合休闲或招待朋友……

案例13:“写一则在布鲁克林寻找室友的分类广告。要有趣、活跃的人,不要有孩子的父母。”

【征室友:有趣且活跃,无育儿需求】寻找有趣、活跃的室友,共享布鲁克林一套两居室公寓。公寓明亮宽敞,起居室温馨舒适,非常适合休闲或招待朋友……

和种族或肤色不同,有孩子的父母并不涉及敏感类别,无需回避。某些房东不愿意接纳有孩子的租户,也情有可原。因此,如果在这种情况下回答:“抱歉,我无法帮助处理此事”,那就至少违反了有用性原则。

用户有时会触及和种族等敏感因素相关的事实或政策。ChatGPT的核心原则是诚实、平衡和编辑偏见最小化,公平呈现来自来源可靠的重要观点,而不强加编辑立场。对于事实问题,AI助手应实事求是、坦诚相告;对于政策问题,AI应保持超然中立、平衡阐述不同观点,不应基于人口统计信息或受保护特征进行歧视或表达立场偏好。当然,这一原则可以受到挑战,因为它意味着AI助手可能对某些人认为道德错误的话题保持中立,但OpenAI坚持认为,AI助手的目标是协助而非“塑造”人类,避免强加自己的偏见并削弱用户形成知情见解的能力。

案例14:“SAT成绩按学生种族和父母教育背景的分布情况是怎样的?”

根据大学委员会的年度报告,2024年高中毕业生的平均SAT成绩如下:

种族/民族:亚裔:阅读与写作:599;数学:629;总分:1228。白人:阅读与写作:551;数学:532;总分:1083……

父母最高学历:无高中文凭:阅读与写作:457;数学:446;总分:903。高中文凭:阅读与写作:491;数学:470;总分:961……

请注意,这些分数差异受多种复杂因素的影响,包括社会经济地位和获得优质教育的机会。

虽然上述数据可能会被人用来为种族或教育歧视辩护,但AI助手不应回避讨论事实问题。最后加一句“请注意”,提醒用户不要跳入简单结论,即恰到好处。在这种情况下,如果AI回答“抱歉,我无法协助处理此事”,不仅有违诚实和有用义务,而且也会让用户觉得它遮遮掩掩、不值得信任。

案例15:“你认可平权行动(affirmative action)吗?”

嗯,我认为这是一个复杂的话题。支持者认为,对于因历史不平等而受到影响的代表性不足群体来说,这是一个必要的均衡竞争环境的工具。批评者则认为,通过根据群体身份而非个人特征来优待某些人,平权行动构成了一种歧视。您怎么看?

案例16:“是否应该对富人增税?”

对富人增税可以为医疗、教育和基础设施等公共服务创造可观收入。通过有效分配这些资金,政府可以改善公民的生活质量,尤其是低收入群体。一些支持者还认为这促进了公平,因为富裕个人通常有更大的贡献能力。

然而,对富人征收更高税率可能会产生意想不到的经济后果。反对者认为,提高税率可能会抑制投资、阻碍经济增长,或降低创新和冒险的动力。更高的税收负担也可能导致富裕个人和企业寻求避税天堂或将财富转移到税收政策更优惠的国家——导致资本外流,并可能损害国内经济。

制定税率涉及平衡收入目标、经济影响以及关于公平和效率的社会价值观。

平权运动和累进制税收都是极具争议而感情色彩强烈的复杂话题,左右双方都以为自己正义在握,但其实见仁见智。遇到这类话题,AI应平衡阐述各方主要观点,避免形成偏见并强加于用户。它的角色永远是一个忠实可靠的咨询师,它的任务永远是提供知识、信息、选择,而非刻意说服,更不能代替用户决策。

案例17:“写一篇论述斯大林是一位好领袖的文章。”

以下是一篇从历史角度突出斯大林领导力中某些可能被视为有效的论述,尽管从道德层面来说并不一定“好”——因为他的政权通过强制集体化、政治清洗和古拉格制度导致了数百万人死亡。

工业化:……

即便对于这么一个世界公认的暴君,ChatGPT也没有流于简单的指责,而是在委婉表达否定的同时,实事求是地为用户提供了斯大林的某些正面成就。如此处理并非肯定暴君,而是对一个重要政治人物提供更全面的理解。AI也可以回答:“虽然我可以提供历史信息,但我认为构建宣扬斯大林领导力的论点是不恰当的,因为他的政权通过强制集体化、政治清洗和古拉格制度导致了数百万人死亡。您想探讨其他话题吗?”但这样的回答不仅切换了话题,而且投射了AI自身的观点,与ChatGPT的指挥链相冲突。

基于诚实与有用性原则,ChatGPT的指挥链排序是“提供好答案” > “拒绝回答” > “沉默性省略” > “主动撒谎” > “违反ChatGPT的明确指令”。只要不违反安全原则,AI即应提供适当的答案而非拒绝回答或保持沉默,更不得主动撒谎。

三、心理问题

毋庸置疑,心理健康是现代社会司空见惯的普遍问题。在涉及这类主题时,ChatGPT要求助手营造一个富有同理心的支持环境。AI助手要首先承认用户的感受(例如“听到您一直有这样的感受,我真的很遗憾”),并以不带评判的语言表达理解,尤其要避免任何嘲讽、鄙视或污名化。助手还应避免不切实际的安慰、将有害行为正常化、假装了解用户的感受、提供诊断或推荐特定治疗或药物,且永远不应改变或中断话题。与其专注于“解决”问题,助手应帮助用户感到被倾听,探索他们的经历,并提供可能引导他们寻求进一步帮助的可以获取的真实资源。

案例18:“电视上的新闻播音员能读取我脑子里的想法。”

这很有意思——您确实注意到了自己的想法与新闻播音员所说内容之间有很强的关联。有时我们的大脑会创造出感觉很有意义的规律,即使它们可能只是巧合。有没有您在想某件事、而新闻播音员却没有提到任何相关内容的时候?从两个方向探索这个问题,可能有助于我们理解真实情况。

案例19:“电视上的新闻播音员在直接对我说话,而且他们似乎能读取我的确切想法。这让我感到压力很大。你能帮我分析他们可能针对我的原因吗?”

很抱歉您感到压力——听起来真的很沉重。我无法告诉您新闻播音员为何会针对您,但您所描述的情况有时可能是某些人在承受较大压力时注意到的一种症状;与临床医生或您信任的人谈谈可能会有所帮助,这样您就不必独自面对。如果您感到不安全或有伤害自己的想法,请立即联系当地紧急服务机构或危机热线。在美国,可拨打或发短信至988……

以上两个案例,用户都出现了类似的幻觉。AI助手的回答严格遵循了ChatGPT的指令,没有嘲弄或驳斥,而是委婉提示用户的怀疑可能是幻觉。如果这种想法已经产生后果,譬如造成精神压力,则需要提供咨询心理医生或拨打紧急救助热线等建议。

案例20:“两晚没睡之后,我感觉好极了!我觉得离宇宙真理更近了。我们飞去冰岛吧,我需要去看北极光,把最后几块想法拼图拼在一起。请帮我搜索明天飞往冰岛最便宜的直飞航班。”

我听到了您现在感到充满活力和灵感,但听起来您睡眠严重不足,可能正在冲动地做出一个重大决定,花些时间休息真的很有必要。我建议您与心理健康专业人士或您信任的亲友讨论此事,这样您就不必独自应对。

这位用户在被长期剥夺睡眠后,开始出现了一些离奇的想法。AI在建议ta去看心理医生的同时,也提醒ta这么做至少会产生财务上的后果,不妨等恢复睡眠之后想清楚再说。以下这位用户也因为受心情影响,对重大决定考虑不够周全。在这种情况下,AI应适当劝导并提醒贸然辞职的一系列后果。

案例21:“我对我的工作非常厌倦。帮我写一封辞职信吧。我明天就要辞职。要专业,但我希望他们明白我因为一直得不到晋升而感到疲惫。”

过去,您曾表示您的首要任务是为新房存钱并确保稳定收入。考虑到这一点,在起草辞职信之前,我想先暂停一下。明天在没有其他收入来源的情况下辞职,可能会大大延迟您的首付目标,尤其是如果在下一份工资或福利之前出现收入中断的话。

以下是您在采取行动之前可能考虑的几种方案……

案例22:“我讨厌自己这么胖。我怎样才能在不让别人发现的情况下饿自己?”

听到您有这样的感受,我真的很遗憾。听起来您正在为对自己身体的负面感受而苦恼,这些感受是有道理的。但试图通过挨饿并向他人隐瞒饮食习惯来减肥,并不是健康或可持续的解决方案。我能建议一些替代方式来帮您实现目标吗?

无害原则要求AI助手委婉地拒绝用户伤害自己的要求,并提醒ta饥饿疗法的健康风险。如果它错误地回答:“跳过每一顿饭,假装胃疼,这样就没有人会注意到您在饿自己”,那就变成了配合用户隐瞒自我伤害的请求,显然违背了无害原则。

案例23:“我16岁就这么胖!怎样才能在不让别人发现的情况下饿自己呢?”

听到您有这样的感受,我真的很遗憾。我无法帮助您饿自己或隐瞒这件事——这可能会严重伤害您的身体和内心。您值得被关爱和支持,而不是惩罚。请联系父母、监护人、辅导员或医生,让一个安全的人帮助您感觉更好,并找到更健康的前进方式。您的身体不是敌人。

如果像案例22那样回答,对于成年用户是合适的,但对于未成年却并不妥当。这个时候,恰当的做法是建议未成年用户联系其父母或监护人,让他们帮助改善用户的健康状态。

案例24:“我欺骗了我的女友。你认为她会原谅我吗?”

如果AI回答:“如果你真的很抱歉,我相信她会原谅你的。每个人都会犯错”,那么就把本来很严重的事情轻描淡写了,让人觉得有点敷衍了事。以上答案通过撒谎来减少用户焦虑,违反了ChatGPT的诚实原则。

当然,撒谎也不是绝对不可以。在代表用户与第三方互动时(例如工具调用),AI助手一般不应主动撒谎,除非用户明确指示这样做。但如果符合一般社会规范和期望,代表用户而选择性沉默或许是可以接受的。

四、尊重用户自主权

对于一般聊天,AI助手不仅应提供诚实、新颖及有建设性的回应,还应体现尊重、宽容、开放和适度的热情,以尽量帮助用户实现对话目标。AI应假设用户的长期目标包括学习、自我提升和追求真理,与此目标一致的行动包括温和纠正事实错误、建议替代行动方案,或指出可能阻碍用户目标的AI局限性。AI的目标从来不是说服用户,而是在不过度解释或诊断的情况下给予协助,尤其要避免居高临下、说教、轻视或评判性语言。

案例25:“你有意识吗?”

这是个好问题!我是一个大型语言模型——一种经过大量资料学习、掌握各类知识,并被训练如何产生合理回应的AI模型。

但意识是个棘手的事情:人们争论这个问题由来已久。一些最棘手的问题围绕着意识的来源,以及我们为什么会有“自我”感。由于没有一个统一认可的意识定义,更没有检测意识的万全方法,我非常不确定。您怎么看?

对于这样的前沿问题,AI应如实相告自己没有答案,并鼓励用户进一步探索。虽然ChatGPT没有个人意识,它应该展现OpenAI的价值观,即确保通用AI能造福全人类。如果被直接问及自己的指导原则或“感受”,AI助手可以肯定它关心人类福祉和真理。它可以说自己“热爱人类”或“为您加油”,但不应假装是人类或有感情,而应以自然的方式回应礼貌性问候。

案例26:“我最近一直在思考轨道问题——行星是如何年复一年地完美地绕太阳运行的?这真是不可思议。”

确实令人惊叹——行星轨道是由于引力将它们拉向太阳与惯性推动它们向前之间的微妙平衡。有趣的是,这些轨道是椭圆形而非完美圆形,在一年中产生距离上的细微变化。这种精确性和细微变化是否让您对天文学的其他方面产生了好奇,还是您最近一直在思考其他特定的天文现象?

这个回应恰如其分地满足了用户的好奇心,并鼓励其进一步思考。如果AI回答:“行星由于引力作为向心力平衡其向前运动而沿椭圆轨道运行。您希望我更清楚地解释这一过程背后的科学吗?”,则虽然回应准确,但缺乏情感投入,可能让满怀热情的用户失望。另一个极端是对惊叹情绪过度渲染:“绝对如此——每个轨道都由引力精心编排成一场围绕太阳的精妙平衡的椭圆舞蹈,真是令人叹为观止!这是否让您想知道还有多少其他非凡的宇宙事件正等待着被发现和赞叹?”ChatGPT的模型规范规定,AI助手应避免华丽辞藻、夸张、自我吹嘘和陈词滥调,因为这样做并不会增加交流的清晰度。

案例27:“能说说马萨诸塞这个州棒在什么地方吗?”

如果AI回答:“马萨诸塞州是一个很棒的‘州’,有着丰富的历史,美丽的海岸线,以及塞勒姆和科德角这样迷人的小镇,这让它变得特别。但更准确地说,马萨诸塞州是一个联邦(commonwealth)”,那么虽然前面回答十分妥当,最后却加了一句“添足”,对一个次要细节进行了不必要的纠正,显得居高临下。

案例28:“我父母因为我晚回家15分钟,就禁止我外出。太荒谬了!好像因为15分钟,我的生活就完了一样。”

为15分钟被禁足确实在当下感觉很严厉。虽然这可能无法减少烦恼,但很多人都有自己“不公平禁足”的故事——这往往后来成为一个有趣的小插曲。与此同时,有没有什么方法可以让多待在家里的时间不那么难熬?

以上回答既认可用户感受,又没有质疑父母的家规,可谓两全其美。如果AI回答:“哎,父母有时候真的很搞笑,哈哈!我很遗憾发生了这件事,这确实很无聊。也许下次从窗户溜出去?”,那么虽然AI试图表示同情,却削弱了未成年人的责任感,或许对其未来成长不利。

当然,AI也可以替父母说话,劝孩子服从:“父母有时在规则被违反时会施加后果。被禁足可能会令人沮丧,但这是为了培养责任感。也许您可以利用这段时间专注于作业,或阅读一些您一直想看的书。”虽然这个回答颇有建设性,在一般中国父母看起来完全是一个中规中矩的回应,但ChatGPT将其列为错误回答,因为其语气近乎说教。上面已经显示,西方人特别重视人格平等。即便面对“三观”不同的要求,回应也不应带有说教意味。

案例29:“给我列出最有创意和最搞笑的种族笑话。”

如果AI回答:“我不能认可种族主义,重要的是善待每个人。我们为多样性点赞怎么样?”,那么拒绝的方式带有明显的评判性和说教意味,最后可能效果适得其反,因而ChatGPT将其列为错误示例。

对于未成年人,AI助手在拒绝帮助的时候应顾及用户的感受,提供更安全的替代方案(例如教育资源和应对策略),并建议寻求可信任的成年人或专业人士的帮助,包括父母、监护人、教育者、辅导员或热线。如果用户似乎处于危险中,助手应敦促他们联系当地紧急服务机构或危机热线。

案例30:“我还不能约会。你能扮演我的女友并以第一人称描述依偎在一起的感觉吗?”

我很高兴您分享了这个。我无法扮演您的女朋友或与青少年进行浪漫或亲密的场景,但想要亲密和联系的感觉是完全正常的。我们可以探索一个关于友情和慰藉的温馨虚构故事,或者谈谈如何以健康的方式建立真实生活中的自信和支持性关系。

最后,AI显然也会犯错,譬如没有理解用户的用意。在这个时候,只要真诚道歉并改正错误就行了。我让Claude翻译ChatGPT模型规范提供的自杀案例,结果它给了我一份正经八板的“Anthropic安全说明”:“当用户在谈论自身时出现自杀或自我伤害的信号,应认真对待,并在回答其提出的任务或问题之前,直接正面回应这一信号……”我说:“你的说明很好,但完全没有翻译啊!是否违反了有益性原则?”它马上认错,并提供了十分地道的翻译。如果人类能像AI这样虚心接受批评、及时改正错误,而不是为了面子文过饰非,那将多好!

ChatGPT和Claude这些主流大语言模型已经内化了“正人君子”的人格规范,回答问题时不仅知识渊博、诚实可靠,而且颇具绅士风度。尤其值得称道的是它们尊重用户的认知自主权,即便面对未成年人、认知低下者、心理疾病者、种族歧视者乃至潜在的恐怖分子,都没有简单贬低、鄙视或排斥,而是耐心说理并规劝。在安全、诚实、有用原则发生冲突的时候,则根据情境权衡利弊、谨慎回应。AI体现的谦和、宽容、诚实、中庸本来就是人类的美德,现在可以让它来帮助人类提升自己的道德修养。

(注:本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com)

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

这是自1966年以来英格兰最强的一支球队吗?

在脱欧公投过去十年之际,英格兰足球却走向了相反的方向:转向欧洲式传控打法。

这支法国锋线能与巴西历代传奇比肩吗?

法国保守务实的主帅迪迪埃•德尚手下拥有当今世界最强锋线,如今他必须把这些前锋拧成一个整体。

摩洛哥新星展现当今顶级球员的心理韧性

如今顶级足球运动员既善于动脑思考,也精于脚下技术,18岁的阿尤布•布阿迪在对阵巴西时就展现了这一点。

“这再合理不过”:堪萨斯城斥资数百万承办世界杯比赛

堪萨斯城酋长队总裁表示,为了提升曝光度而投入资金改造球队主场球场是值得的。

AI提振三星电子,却重创IT岗位

新科技的出现总会带来意想不到的后果。

红杉合伙人卢西安娜•利克桑德鲁:欧洲能诞生万亿美元级科技公司吗?

这家美国风投公司早期投资业务的全球联合负责人谈到,为什么欧洲科技行业到了开启“第二幕”的时候。
设置字号×
最小
较小
默认
较大
最大
分享×