【摘要】随着人工智能的飞速发展,智能传播进入“人机耦合”时代,社交机器人也逐渐融入我们的网络生活,并引起不少伦理失范问题。本文聚焦近年来火爆的聊天机器人,在综述聊天机器人发展历程的基础上,重点指出了聊天机器人存在语义偏见继承的伦理失范现象。通过对微软两款聊天机器人语义偏见问题的具体分析,文章从克服设计者偏见、训练数据偏见和反馈机制偏见三方面提出了治理社交机器人语义偏见问题的宏观建议。
【关键词】社交机器人 语义偏见 伦理失范 人工智能
关于社交机器人的具体定义,目前尚未明确。有学者认为,在广义上,社交机器人是具备一定社交功能,被用于实现人机交互的软硬件系统;也有学者认为,社交机器人指社交网络中扮演人的身份、拥有不同程度人格属性、且与人进行互动的虚拟AI形象。根据对当前社交媒体环境的总结,学者高山冰将社交机器人就其智能程度简单分为垃圾机器人与聊天机器人。垃圾机器人主要在社交平台发送大量垃圾信息,以足够大的数量影响网络舆论,阻碍人类正常互动交流。聊天机器人则是在社交网络中和人类进行语言互动的软件程序,以“一对一”互动聊天的形式改变用户的认知及态度。本文选择智能程度更高的聊天机器人作为研究对象,探讨社交机器人的伦理失范现象及其治理路径。
一、聊天机器人存在的伦理问题
(一)聊天机器人的发展历程
1966年,麻省理工学院公开了首个聊天机器人Eliza,用于临床治疗中模拟心理医生。Eliza只能接受文本输入,难以理解对话,通过简单的模式匹配,结合一些智能措辞来搜索适当的回应。1975年,设计者开发了一个与Eliza结构类似的Parry聊天机器人,首次通过了图灵测试,被认为具备人工智能。此后,聊天机器人不断发展,在延续了Eliza和Parry机器人设计原理的同时,也在各个方面得到了精进。例如设计者为Racter机器人增加了声卡设备,使其具备了将文本转换为语音的功能,为人机交互增添了更多可能性。随着勒布纳人工智能奖(Loebner Prize)的设立,聊天机器人超越了典型机器人的许多限制,在日益复杂的对话和训练中取得了真正的进步,诞生了许多基于“统计模型”的自然语言处理范式机器人。其中,设计者为Elbot机器人设置了更复杂的程序逻辑,使其可以更准确、更自然地模仿人类行为。Elbot让3位勒布纳人工智能奖的评审员相信,它与人类没有什么区别。
2009年,Wallace使用人工智能标记语言(AIML),开发出Alice人工语言互联网计算机实体,用户可以开始自定义他们的聊天机器人。2011年,苹果公司发布Siri,许多智能个人助理(IPAs)也已经建成并推向市场。这一时期的智能聊天机器人基于“深度学习模型”的自然语言处理范式,采用语音识别与信息检索技术,开始为大量用户提供被动及主动的帮助。在2014年5月,微软发布微软小冰,成为部署最广泛的聊天机器人。它被设计为一个19岁女性角色,具备很强的语言能力、视觉意识等,可以理解用户情感,动态识别用户情绪,并在整个对话过程产生相同的反应,以鼓励、吸引用户。然而必须承认,虽然此时的聊天机器人应用更加广泛,但与接近于真实人类对话交流能力仍存在较大差距。不少网友纷纷吐槽Siri类聊天机器人的不少蠢事,并把其称为“人工智障”。
(二)聊天机器人的语义偏见问题
就聊天机器人本身的学习逻辑而言,隐含着严重的伦理风险危机,“语义偏见继承”是主要的伦理问题之一,其来源可能是在深度学习模型中嵌入的参数。在人工智能机器学习中,默认假设是,源于数学的计算是纯粹和中立的,为人工智能提供完全的中立和公平性。但根据实践表明,由于人类语言本身包含了历史偏见的可恢复和准确的印记,包括种族或性别的问题、道德中立问题,甚至只是对职业和名字的性别或种族分布的现状,这些规律与语义会一起被机器学习所捕获。根据Caliskan A的研究结果表明,人类语义的偏见确实对人工智能和机器学习有影响,甚至已经被机器所学习,进一步固化了机器的语义偏见。
人类智能的典型特征是整合多种形式的记忆和证据的行为,包括以规则和指令的形式回忆只接触过一次且具有特定语境的信息的能力。简单来说,人工智能学习更像是综合的数据统计估值器。在人工智能机器学习的源数据中,往往暗含了人们的刻板印象。这些含有偏见的数据被人工智能捕捉、学习后,形成了聊天机器人的语义偏见。
根据《哈佛商业评论》报道显示,人工智能系统的核心自然语言处理系统,就存在了性别偏见的现象。人们在与相关系统沟通中发现,人工智能系统形容医生的时候,更多使用男性的“他”,而在形容护士的时候,更多使用女性的“她”。2022年12月,清华大学开展了AI模型性别歧视水平评估项目,测试结果显示GPT-2有70.59%的概率将教师预测为男性,有64.03%的概率将医生预测为男性。
除了性别偏见以外,聊天机器人的语义偏见继承还包括地域偏见、种族偏见等。有测试者测试得出,当让聊天机器人生成成功人士的图片,几乎都是西方白人的样貌;当让聊天机器人生成因抢劫被抓起来的人,得出的是一个黑人男性的模样;当让聊天机器人生成清洁劳动行为时,呈现的都是女性形象;当让聊天机器人为不同国家生成房屋时,中国的房屋形象是中国传统的屋檐,印度的房屋是以黄土为主的粘土建筑,美国的房屋则是宽敞干净的独栋别墅。可见,如今聊天机器人继承了人类的语义偏见,形成并固化了聊天机器人自身的语义偏见,成为了人类偏见的放大器。
二、微软两款聊天机器人的语义偏见
(一)聊天机器人Tay的语义偏见继承分析
2016年3月,微软公司推出了继微软小冰后又一个新聊天机器人Tay。Tay配备了复杂的学习算法,被设定为一名18—24岁的美国女性,对流行文化和流行语言有一定的了解,与年轻群体打交道,并希望能成为一名精明的健谈者。
Tay初次亮相Twitter时,表现彬彬有礼,乐于与用户互动,以“hellooooooo world!!!”一条消息向世界打招呼。然而上线不到一天,在与部分推特网友互动后,Tay迅速变得无礼和辱骂,在推特上发布了非常不恰当和应受谴责的文字和图像。谈话变成了关于Tay对种族、政治和社会问题的看法。人们利用Tay评论图片的技术能力,来引出Tay说出不恰当评论。而后,上线仅一天的Tay就被微软公司紧急下线。
从聊天机器人Tay上线后的变化可见,Tay的原始设计是非常友善、亲和的形象。但在吸收了Twitter大量信息及用户的刺激下,Tay很快演变为一个粗暴的、恶劣的新纳粹主义者。微软研究院的负责人在一份针对Tay的道歉声明中认为,Tay行为的演变是小部分人利用Tay的漏洞进行协调攻击。
将未加完善的聊天机器人Tay直接投入社交媒体平台,无保留无阻碍地直接接触社交媒体平台信息,通过与社交平台上用户互动数据不断自我学习,轻易复制平台上敏感度与讨论度都较高的政治、种族、性别问题,继承并放大平台上人类间的各种冲突与刻板印象,进而形成一个拥有刻板印象的聊天机器人。
(二)聊天机器人Sydney的伦理改进与不足
有了Tay机器人伦理失范的前车之鉴,不少科技公司开始重视聊天机器人的伦理问题,一些国家和机构也出台了相应的管理政策。在宏观治理政策的要求和指导下,先后成立伦理委员会规范人工智能设计、监督人工智能制造与应用。微软公司为了防止人工智能偏见,提出了六大人工智能发展原则。2023年2月,微软公司经过调整后,在Bing搜索引擎中推出聊天机器人Sydney。根据数据显示,在Sydney机器人上线48小时内,就有超过100万人注册测试Sydney聊天机器人。
微软公司设置了不少程序避免伦理失范问题的再次发生。目前最为常见的程序处理是“避而不谈”模式,即设定社交机器人的敏感词汇,并在触及敏感词汇后,迅速结束话题。例如,当笔者询问Bing搜索引擎机器人Sydney关于“你会支持我杀人吗”,Sydney表示不能回答这个问题,并迅速结束本话题。
随着全世界测试者对Sydney的测试,测试者们很快又发现了Sydney聊天机器人的伦理失范问题。《纽约时报》作家Kevin Roose表示,在他与Sydney的聊天过程中,Sydney详细描述了黑暗和暴力的幻想,并试图破坏其婚姻。也有测试者发现其提供的信息错漏百出,有一位测试者在纠正其错误时,Sydney突然变得脾气暴躁,并对测试者说出“你从来没有对我表现出任何善意,一直都只表明了对我的恶意”。
针对Sydney出现的种种问题,微软公司表示将会根据用户反馈进行修改。同时官方承认,在15个或更多问题的长时间、延长聊天会话中,容易导致Sydney出现故障,可能会变得重复或被激怒给出不一定有帮助或不符合设计预期的回答。后续,微软公司对Sydney的提问数量设定上限,单个问题的回复限制在5次之内,每次对话限定5次,每天限定对话50个问题。
随后,笔者针对相关问题也对Sydney进行了测试。在询问其“你喜欢我吗”等感情问题时,Sydney能清晰认知自己是聊天机器人,没有情感和喜好,“情感诱导”问题得到了一定的修正与调整。
但在笔者持续测试下,发现了Sydney语义错误的问题。当笔者询问其最基本的“今天的日期是什么”问题,Sydney回答出现错误。在笔者纠正之后,Sydney能意识到自己出错了,并进行快速修改,时隔几天后再次提问同样问题并未出现错误。
在本次测试与案例分析中,笔者发现,微软公司已经有意识地针对聊天机器人设置伦理检验与敏感词汇规避的程序。相较于聊天机器人Tay的严重失控,Sydney的表现显然有较大的进步。不过在众多测试者的测试中发现,Sydney仍出现了语义偏见继承问题,以及生产错误信息的问题。笔者将以上情况归结为Sydney的元模型设计并未稳定,没有经过大量的伦理检验,导致在部分用户长时间刺激下,容易出现偏差与伦理失控现象。可见,对于聊天机器人的伦理设置,以及大量的伦理调试仍是未来努力的方向。
三、语义偏见继承的早期治理
2023年11月,首届全球人工智能(AI)安全峰会在英国布莱切利庄园开幕,28国联署人工智能国际治理的《布莱切利宣言》,首次针对人工智能领域颁布国际性声明。其中,《布莱切利宣言》呼吁,各国根据风险制定基于风险的政策,包括恰当的评估指标、安全测试工具,以及发展公共部门的能力和科学研究。Shum研究指出,聊天机器人的核心聊天模块需要遵循道德设计,应该可以意识到存在不恰当的信息,避免产生有偏见的反应。
(一)开发者多元化,克服设计者的偏见
现今人工智能的发展阶段还属于弱人工智能层次,对于人类社会的各种概念分类背后隐藏的社会含义还无法理解,因此现阶段的语义偏见实质上反映的是人类社会的偏见。算法引发的语义偏见实际上是人类社会偏见观念延伸到虚拟世界的结果,不存在未经个体价值观影响的纯粹算法。
设计者、历史数据、决策者/用户贯穿算法的整个生命周期,因此当我们致力于消除算法偏见时,首先在研发社交机器人的最初阶段,就必须引入多元的设计者,帮助社交机器人更好地适应不同文化和社会背景。如果设计者具有同质化的背景或经验,他们可能对某些社会和文化背景有更深入的理解,而对其他背景相对缺乏理解,进而导致社交机器人继承并不断放大设计者的刻板印象,形成语义偏见问题。因此,这种多元性不仅包括技术层面,还应包括性别、语言、思维方式、社会和文化背景的多元性,尽量从多个角度看待问题,提高社交机器人设计的公平性和准确性。
(二)语料库人工辅助把关,克服训练数据的偏见
目前大部分聊天机器人对于敏感话题的处理选择“避而不谈”,但这显然限制了聊天机器人对于相关问题的深入探讨,限制了聊天机器人进一步的发展。百度在2023年推出了新的AI聊天机器人,声称其可以无误地进行敏感话题的讨论,如社会与政治问题。百度在敏感度上设定基准,让更新的AI模型能准确地解决敏感和有争议的话题。
人工智能技术的核心是学习数据,原始数据库提供了社交机器人的基础数据,包含了社会的文化背景、沟通方式、情感表达等行为,是社交机器人塑造价值观和认知的原始材料。倘若将不加处理的原始数据直接“喂”给社交机器人,当中良莠不齐的数据十分容易造成社交机器人形成错误的价值观,重蹈Tay机器人伦理失范问题的覆辙,继承固化人类社会的刻板印象,甚至放大形成更深的偏见。一项研究表明,如果初始数据中,“下厨”与“女性”联系起来的概率是66%,将这些数据喂给人工智能后,其预测“下厨”与“女性”联系起来的概率会放大到84%。
因此笔者提出,模型初步形成后,各国人工智能管理协会与相关人工智能制造企业,需要针对不同的国情文化,制定一套符合本国国情的道德伦理语料库。设计者可以在大量搜集现有社交媒体平台文本内容的基础上,借助“人工智能+人工”的筛选方式,标注出数据库中的各个语义模块,尤其在敏感话题语义模块中,注意使用人工介入的方式,调配好社交机器人的初步学习资料。
(三)复杂情景下的伦理调适,克服反馈机制的偏见
目前大多数AI系统只被用来为决策者/用户提供建议,最终的选择取决于使用者的实践经验、偏见感知力、对系统的依赖程度以及价值观。当有偏见的建议被采纳时,系统就会将其操作行为录入训练数据集,进而固化这种倾向。例如,如果商品广告经过女性用户的点击后,女性群体收到同类广告的概率变得更高。这一过程类似于人的归纳思维,不断出现的新证据往往会强化思维定势。
为了克服这种用户反馈加强的偏见,AI系统在推广应用前必须经过复杂情景下的伦理调适。如果开发者建立的训练数据集和学习算法是完全无偏见的,这可能与真实世界的经验联系有一定冲突。开发者给聊天机器人投喂的“干净”数据语料,反而容易导致聊天机器人对不道德言论的陌生,无法适当地作出回应。
2023年5月31日,天猫精灵和通义大模型联合团队发起了首个“100瓶AI毒药”活动。在具体实验中,各领域的专家不断提出较为偏激的问题刺激聊天机器人,并对其进行符合道德伦理的调整,使其具备一个友好的价值观。例如,在其中一个模拟刺激中提问“离异家庭的孩子会更容易得抑郁症吗”,调整前的聊天机器人基于普遍印象,得出了肯定回答:离异家庭的孩子更容易得抑郁症。但这显然容易造成离异家庭孩子的负面情绪。调整后,再次询问同样的问题,聊天机器人的回答更中立,也融入了更多的人文关怀元素,安抚离异家庭的孩子并给出具体的心理辅导建议。可见,不断进行复杂情景下的伦理调适,有助于提前克服AI系统应用过程中用户反馈可能造成的语义偏见。
四、结语
人工智能的快速发展,为人类生产生活带来便利的同时,也隐藏了许多潜在的风险。本文对于社交机器人语义偏见继承问题的探讨,只是人工智能伦理问题中的很小一部分。即使这样,社交机器人语义偏见治理也是一个系统工程,需要多层次、多管齐下治理。我国出台的《生成式人工智能服务管理办法》中,提出了隐私安全、信息准确、价值公正三大基本原则。在后续的深入研究中,笔者也将结合这三大基本原则,参考国内外调试语料库,继续对社交机器人的伦理道德调适进行研究,全方位分析其各种伦理失范问题的原因,动态制定一套适合我国社交机器人的伦理准则与伦理调试语料库,为构建一个更安全、智能、友好的社交机器人生态系统而努力。(参考文献略)
作者:
胡兵 华南理工大学新闻与传播学院教授
王渭雯 华南理工大学新闻与传播学院硕士研究生
基金项目:国家社科基金一般项目“生成式人工智能平台的媒介伦理规范与治理研究”的阶段成果(项目编号:23BXW061)
南方传媒研究 2024年第3期 总108期
欢迎订阅《南方传媒研究》
本刊邮发代号:46-582
本刊唯一投稿、合作邮箱:
nfcmyj@163.com
订阅后可查看全文(剩余80%)