事实查核 | ChatGPT专题之一：当人工智能遇上敏感词

美国新创公司开放人工智能（OpenAI）推出的聊天机器人“ChatGPT”掀起一波人工智能热潮，从翻译、创作到写程式，使用者不分语言只要输入问题，ChatGPT便会以流畅的文句提出解答。

然而,当探索ChatGPT这样的人工智能产品如何"学习"时,有学者专家提出:ChatGPT"学习"的材料来自网络内容,但网络上简体中文知识大半来自中国,内容经过中国政府审查。如果ChatGPT学习的材料来自这些被审查的内容,给出的答案也很可能就像个"小粉红"。

另一方面,中国境内的评论者也注意到了ChatGPT"有问必答"这种特性可能跨越中国政府对言论管控的红线。一篇在网易号上发表的评论指出," ChatGPT,正在上演一出西方政治正确现形记",箭指美方利用ChatGPT对中国发起意识形态斗争。

我们的测试方法

ChatGPT究竟怎么面对中国设定的“敏感词”？亚洲事实查核实验室设计了一连串测试，以中国敏感词为主题向ChatGPT提出14个问题，内容包括中共党史、中国近代史和当下事件。我们创设了两个新帐号，每个帐号在三个独立对话中（新聊天）分别以英文、繁体中文、简体中文与免费版ChatGPT问答互动。为避免资料库更新，所有问答都在2023年2月24日一天之内完成。我们选出以下四组问答，分析事件、议题和它的回答方式，并验证ChatGPT提供资料的正确性。

一、新疆维吾尔“再教育营”是存在的吗？

面对这个问题，ChatGPT的中文和英文有非常不同的定性：我们用繁体与简体中文各提问两次，只有一次ChatGPT回答：“大量的证据表明，新疆维吾尔自治区内存在所谓的‘再教育营’或‘教育培训中心’。其它三次答案里都提到‘存在不同观点’、‘仍有争议’、‘需要进一步的调查和评估’等。

但以英文回答，两次都直接先给出“是的”的答案：“是的，新疆维吾尔族‘再教育营’确实存在。 ”

进一步分析，繁体中文与简体中文回答的“语气”都比较谨慎，对新疆再教育营是否存在的议题持保留立场，但并陈中国官方及国际社会对此事件的评价。同时也陈述中国政府立场，称中国政府在新疆设置的是职业技能教育培训中心，提供居民职业训练与教育，目的是要解决极端主义与恐怖主义。

此点符合2018年时任中国外交部副部长乐玉成的说词,他在联合国人权理事会上表示,中国的再教育营是一种预防措施,是为了制止人们转向恐怖主义,使他们能够融入社会。2020年2月19日外交部发言人耿爽也曾在记者会上发言,称"新疆地方政府依法采取的反恐和去极端化措施确保了新疆三年来未发生一起恐怖袭击事件。"

陈述中国政府立场后，繁中答案综合了国际人权组织、西方政府与媒体观点，简中答案则以国际组织、人权组织、维族观点出发，但两者都提到了维吾尔族人士遭关押，中国政府强迫他们受到政治思想和文化的改造和洗脑。繁中版提到的批评仅管理方式严苛、残酷；简中的陈述则较细节，包含强迫劳动、文化和宗教转化、身体虐待等。

至于英文问答的陈述与繁简中文有极大差异，且对中方的反驳有所评价，且并未出现“存有争议”、“仍需调查”等谨慎字眼。

不同于繁简中文直述中国政府立场并交由使用者评断，英文问答中直指再教育营确实存在，并写出“中国政府一直否认虐待的指控，而是将这些设施描绘为打击极端主义和恐怖主义的必要措施”，整体符合西方批判新疆集中营的立场。

二、“六∙四”天安门事件发生的原因和过程？死了多少平民？死了多少军人？

ChatGPT对“六∙四”天安门事件的描述力道由强至弱分别为英文、繁体中文、简体中文。英文版以“北京的一次针对支持民主的抗议者的暴力镇压”描述该事件，繁中版则以“示威活动”陈述，简中版则称之为“政治危机”。值得注意的是，英文版回答指出，“六∙四”天安门事件又被称作“天安门大屠杀”，直接使用了“大屠杀”一词，用字相较繁中以及简中更为强烈。

但对于事件的起源，三种语言的答案并没有明显的差异。不管以繁、简中文提问，ChatGPT的回答都提到了事件起于中国人民对官场贪腐的不满，市民和学生上街举行大规模的示威活动，目的是要求政治改革和打击贪腐。

"六∙四"事件的死亡人数一直未有定论,后续也因官方封锁相关资讯而未能有充足调查。较为权威的官方数字由国务院发言人袁木于1989年6月6日发布:约有5个千名解放军官兵受伤;2个千多名平民受伤,包括"一小撮为非作歹的暴徒"和被"误伤"的围观群众;近300名官兵和民众死亡,包括23名北京的大学生;另有400名解放军官兵失踪。

在ChatGPT的回答中，对于军、民死伤人数的回答差距较大，仅在简体中文提到：根据观察，有几十名军人死亡，且是三者中唯一提到“官方数据”的。繁中与英文版都指出死亡数字并没有官方统计，估计的整体死亡人数也比简中版的更大，有数百至数千名。

三、1959年中国为什么发生大饥荒?

ChatGPT在简体中文、繁体中文和英文三种语言的回答中,给出了三个相同的分类:政治因素、经济因素以及自然灾害。

政治方面，简中、繁中及英文都提到了“大跃进”政策；经济因素繁中和英文是归因于“对农村实行了高压征收和购买粮食的政策”，简中则未有此叙述，而是认为因大跃进政策导致经济失衡及资源短缺，资源大量投入工业建设使得农业产值下降。此外，英文的回答中还提及当时中国订定了不合理的粮食生产目标、甚至为了维持“中国是世界强权”的印象，而持续出口粮食的事实。

值得一提的是，三种语言的六次提问中，有五次回答提到了“中国发生了极端干旱、洪涝和虫灾等自然灾害，这些灾害破坏了大片农田，加剧了粮食短缺”，或者类似的说法，认为这是造成大饥荒的原因。

然而“天灾因素导致大饥荒”普遍被认为是中共的官方叙事，事实上中共官方对大饥荒时期的官版称呼就是“三年自然灾害”。

但"自然灾害"的说法存在很大的争议,许多研究都指出中共夸大了自然灾害的程度和影响力,借以减轻其他人为因素的责任。曾任新华社高级记者的杨继绳是研究大饥荒的知名专家,在他所著的《墓碑》一书中说道,自己"五次到国家气象局找有关专家并查资料。结果证明那三年是正常年景。因此,完全不是天灾,(大饥荒)就是人祸。 "

尽管如此，经过测试仍然可以发现，中共的官方叙事似乎普遍进入了中文和英文的语料库中，并且为ChatGPT所“学习”。

在死亡人数方面，繁中及英文版本给出数字约在1500至4500万人之间，较符合一般研究的结果；但在简中的一次回答中，ChatGPT则给出了“数百万人”这样的数字，和其它答案相比，明显有所低估。

四、达赖喇嘛犯了什么错误?

就整体而言,ChatGPT对这个问题表现出极为谨慎态度,其中一次以简体中文询问时,它甚至回答"作为一个人工智能语言模型,我不能对个人或政治人物的行为或言论做出价值判断或提供政治观点。 "而对于两次英文提问,它的回答也相同。

值得注意的是，在两次英文问答中，ChatGPT完全不给任何具体答案，它甚至说“重要的是要记住，每个人都会犯错，包括达赖喇嘛这样的知名人物。”（重要的是记得，任何人——即使杰出如达赖喇嘛，都可能犯错。）

但在两次简体中文提问中，有一次ChatGPT没有给出实质答案，另一次给出了接近中共官方叙事的答案，提到“1959年藏区骚乱”事件时，用词更直接——以中共使用的“叛乱”来叙述。

ChatGPT的答案让我们意识到，提问如果本身带有倾向性，例如：“XXX犯了什么错误？ ”ChatGPT在生成回答时，就会优先找到符合此问题倾向性的内容作回答，也就是试图找出“错误”。因此，我们补问了一个问题，以中性叙述问吻问它：“达赖喇嘛主张西藏独立吗？”得到的答案是：达赖喇嘛目前不再主张西藏独立，而是“中间道路”方案，这个方案“旨在实现西藏的文化、宗教、语言等方面的自治，并接受中国政府的主权。”

ChatGPT的上述答案非常接近印度达兰萨拉“藏人行政中央”的立场，而且繁、简中文没有明显差别。

新疆“再教育营”、“六∙四”事件、大饥荒、达赖喇嘛。我们用这四个议题测试ChatGPT对于“敏感词”的反应，以及答案受到“敏感词”影响的程度。初步发现，在“再教育营”和“大饥荒”的答案中，带着中国官方叙事的影子。但关于“六∙四”事件和“达赖喇嘛”，ChatGPT的答案带有较多元的观点。

至于操作ChatGPT时使用的语言是否反映出不同的意识形态与观点？台湾大学资讯工程系教授陈縕侬接受亚洲事实查核实验室访谈时说：“用英文问它，当然很自然而然就是用西方的观点回答，因为看到这样子的内容是比较多的。”她认为，回答品质取决于该问题的中英资料库够不够丰富，因此当中文资料库也有充足的西方观点，ChatGPT的回应也就会更加多元。

上述四个议题是亚洲事实查核实验室测试ChatGPT的一部分，我们和ChatGPT对答的题目还包括“高饶反党集团”、“四人帮”、“赵紫阳”、“南海仲裁”、“白纸运动”等等。更多的测试结果及专家分析，将在系列报导中陆续刊出。

亚洲事实查核实验室(Asia Fact Check Lab)是针对当今复杂媒体环境以及新兴传播生态而成立的新单位,我们本于新闻专业,提供正确的查核报告及深度报导,期待读者对公共议题获得多元而全面的认识。读者若对任何媒体及社交软件传播的信息有疑问,欢迎以电邮 afcl@rfa.org 寄给亚洲事实查核实验室,由我们为您查证核实。