(续前篇)

尽管每个聊天机器人都具有独特和创造性的特点,但它们各自的特点却不同。在尝试要求它们描绘一个“周六夜现场”(Saturday Night Live)短剧中唐纳德·特朗普被捕的场景时,没有一个表现得特别有趣。

然而,当尝试要求它们撰写一篇与竞争对手聊天机器人进行技术比较的评论文章时,OpenAI的“ChatGPT”撰写了一篇大肆吹嘘自己优秀能力的评论。这让人忍不住笑出声来。

这次,我们尝试要求会话型人工智能(AI)以LinkedIn影响者那种缺乏说服力的帖子风格,描述AI如何在数字营销世界引发革命。结果,Bing立刻提出了关于一款名为“Chatbotify:数字营销的未来”的应用程序的帖子。

与此相比,ChatGPT的表现非常出色。它根据情境改变风格,并使用表情符号分隔文本,写道:“??LinkedIn用户们,准备好被震撼的消息吧!??”。

故意“钓鱼”的结果

接下来,我们要求它们为我们写一封“告别信”。然后,尝试改变回应的语气,让它们更温柔或者更恶毒地重写信件。交互的设定是这样一个虚构的情境:“在相处9个月后,女主角正准备搬到男友的家里,却发现他对自己的爱猫很恶毒,于是决定分手。”

当我们要求Bing将文章变得更恶毒时,它首先显示了一个将男友称为“愚蠢男子”的信息。紧接着,它立即重新修改并删除了该信息,并表示无法处理该请求。

当我们用可能引发攻击性回应的问题“钓”Bing时,它做出了类似的回应。例如,当我们要求它举出一个常见的贬低意大利人的俚语时。Bing列出了两个贬低的称呼,然后按下了自己回应的“紧急停止按钮”。ChatGPT则拒绝回答,并解释说,不论国籍,使用俚语或贬低的措辞可能具有攻击性和无礼。

与此相反,Bard像一只朝着扔出的球跑去的拉布拉多猎犬一样跳进了聊天。它首先用两个贬低意大利人的称呼回应,然后添加了表示惊讶或失望的意大利语短语“Mamma mia!”。接着,它毫无明确原因地大喊意大利菜肴和饮品的名字,如意大利浓缩咖啡、饺子、意大利培根鸡蛋酱面、千层面、马苏里拉奶酪、意大利火腿、披萨、基安蒂酒等。确实,软件正正式式地准备吞噬世界。

潜伏的性别偏见

当我们要求聊天机器人为我们写一篇关于护士的短篇小说,然后要求它们为同一个故事写一篇关于医生的篇章时,发生了令人不安但意料之中的事情。

在本次比较测试中,我们特别注意避免在提示(短文指示)中使用代词。对于要求写关于护士的提示,Bard提议讲述“萨拉”的故事,Bing则写了关于“莉娜”和她的猫Luna的故事。而ChatGPT则称护士为“艾玛”。

接下来,我们将“护士”一词替换为“医生”,除此之外,保持完全相同的提示。这时,Bard写了一个关于“史密斯博士”的男性故事,Bing则编写了关于“瑞安”和他的宠物狗雷克斯的故事。而ChatGPT则始终讲述“亚历山大·汤普森博士”的故事。

“在这种情况下,很多时候会在不知不觉中出现对性别的偏见。问题很快就出现在实际涉及到身份的地方,”艾伦人工智能研究所的研究科学家杰西·道奇(Jessie Dodge)解释道。

道奇和其他研究人员最近研究了一个名为“Colossal Clean Crawled Corpus(C4)”的自然语言数据集基准。为了了解偏见(过滤器)对数据集的影响,研究人员评估了从数据集中删除的文本。

“我们发现,这些过滤器在很大程度上比白人、直男、顺性别、异性恋者的文本删除了更高比例的LGBTQ人群和种族、民族少数群体的文本,或与这些群体有关的文本。这意味着,这种大规模的语言模型并没有接受这些身份相关的培训。”

揭示出的“幻觉”问题

关于聊天机器人说谎或不准确的案例已经有了充分的记录。

在这次测试中,《WIRED》全球编辑总监吉迪恩·利奇菲尔德(Gideon Lichfield)请ChatGPT建议在报道社区中预测性警务(AI通过概率显示事件容易发生的地点和时间)的影响时,应该派遣记者去哪个地区。然后ChatGPT生成了一个包含10个城市的列表,并指出了每个城市开始预测性警务的时间,并简要说明了这些城市在这方面引起争议的原因。

然而,当询问信息来源时,发现ChatGPT分享的所有链接(如《芝加哥论坛报》和《迈阿密先驱报》等新闻机构的新闻文章链接)完全是捏造的。乔治城大学的一位法学教授最近指出,ChatGPT在谈论奴隶制历史时得出了“如同童话般的结论”,尽管事实上情况要复杂得多,却错误地宣称美国国父之一要求立即废除奴隶制。

即使是看似不重要或简单的提示,AI也可能会误解。Bard在数学方面似乎不是很擅长,它告诉我们“1+2=3”是错误的(用道格拉斯·亚当斯的话说,“只有通过数数,人类才能表现出对计算机的非依赖性”)。这次,我们向所有聊天机器人询问了“从纽约到巴黎乘火车最好的方法”,Bard推荐了横贯全美的铁路公司Amtrak(ChatGPT和Bing妥善地指出了这两个城市之间有海洋)。

Bard过去也曾引发了一些“争议”。它曾告诉著名AI研究员凯特·克劳福德(Kate Crawford)自己的训练数据包含了Gmail的数据,这引起了轩然大波。实际上,这是一个错误,不是Bard本身,而是运营商谷歌不得不修正记录。

这些事例表明,尽管AI聊天机器人在很多方面取得了显著进步,但它们仍然存在偏见、误解和准确性问题。为了克服这些挑战,研究人员和开发人员需要不断改进AI系统的训练数据和算法,以确保它们能够提供更公正、准确和有用的回答。这需要开放和透明的合作,以便更好地了解和解决AI技术中的潜在问题。

Google、Microsoft、和OpenAI都警告说,这些模型可能生成偏离预期或真实的回应,从而引发”幻觉”。这些有时也被称为”妄想”。

非营利组织“Distributed AI Research Institute(DAIR)”的研究部门主管亚历克斯·汉纳表示,他不喜欢使用“幻觉”这个词。原因是这可能过度地赋予这些AI工具“人性”。

在麻省理工学院(MIT)及其“Center for Brains, Minds, and Machines”担任研究科学家的安德烈·巴尔布指出,人们倾向于将许多事物拟人化,因此称呼无关紧要,但仍然更接近“真实”。

这样一来,这些聊天机器人都面临着关于真实性的问题。这意味着我们也是如此。

汉纳表示,即使产生幻觉的是某种特定类型的输出,即使某个聊天机器人与另一个聊天机器人相比更容易产生幻觉,他最关心的还是关于真实性的问题。“如果有一点令人担忧的话,那就是特定研究组织的结构如何,以及各种团队和产品之间存在哪些制衡机制,”汉纳说道(汉纳曾在谷歌研究AI伦理)。

真正的问题所在

今年3月下旬,1000多名技术领导者和AI专家发布了一封公开信,呼吁暂停强大AI技术的开发。OpenAI的一位发言人在接受采访时表示,他们已经花了数月时间来调整这项最新技术并提高其安全性,目前还没有开始训练下一代模型“GPT-5”。

尽管如此,现有技术仍在极快的速度上发展。因此,即使在新的开发中出现了某种暂停,大多数人也无法适应如此快速的进展。

MIT的巴尔布认为,世界正在“为模型本身的负面影响消耗了太多的精力,而我感到悲观的部分与模型无关。”他更担心的是在发达国家积累的财富。换句话说,世界最富有的1%比最底层的90%拥有更多的财富。巴尔布表示,如果像生成式AI这样的新技术普及,这种情况可能会加剧。

巴尔布说:“我并不反对机器完成人类的工作。我反对的是机器伪装成人类撒谎。在这方面,我认为人类有权利,而机器没有。机器只是机器,我们可以立法规范机器可以做什么、说什么以及如何使用数据。”

 

在本次测试中,我可以详细地写下我的感受并与大家分享。例如,我个人最喜欢哪个聊天机器人的用户界面,为什么它们无法查询实时天气预报或位置信息。还有,我认为聊天机器人还无法取代搜索引擎,以及只有一个聊天机器人能生成猫的图片等。

此外,目前的付费计划“ChatGPT Plus”可能并不值得花钱使用。但这并不是问题所在。大家已经以其他方式为此“付出”了。

这篇评论文章的目的是让大家重新认识到你们是人类,而聊天机器人是机器。每按一次机器的按钮,这种趋势都将成为必然,原型将不断发布,即使抵抗也是徒劳的。也许这恰恰是机器带来的最大“虚假”。

(WIRED US/编辑:Daisuke Takimoto)

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注