想象一下,有一台机器,每次按下按钮、键盘、触摸屏或拍照时,都会在受到世界上所有设备输出的影响下,产生可以预测或无法预测的独特反应。试着想象一下评测这样一台机器的情景。
这台机器的内部结构有一部分是未公开的。而且,据制造商称,该产品处于实验阶段并仍在开发中。尽管如此,我们仍然需要尝试使用它并提供反馈。我们甚至可能需要为使用它付费。因为尽管整体上尚未完全准备就绪,但它被认为有改变世界的潜力。
本文与《WIRED》以往的产品评测有所不同。这是一篇关于三种全新人工智能(AI)工具的比较评测,这些工具将彻底改变我们在线获取信息的方式。具体而言,我们将评测OpenAI的“ChatGPT”、微软的“Bing AI Chat”和谷歌的“Bard”。
在过去的30年里,我们通过输入一些数据来浏览网页和使用搜索引擎,通常都能得到预期的答案。可以说,输入与输出之间的关系相当可靠。
随着更先进的AI以聊天形式出现,这种关系变得更为复杂(甚至涉及到将数据货币化的机制)。如今,生成性AI的新浪潮催生了新的范式,使计算机之间的互动变得更像是与人类进行聊天。
然而,这种互动实际上与人类对话有所不同。聊天机器人并不考虑“人类福祉”之类的事物。使用生成式AI工具意味着与学习语言的机器进行对话。而且,这台机器在比喻意义上是由一个“巨大”的机器创造出来的。
ChatGPT、Bing AI Chat和Bard给出的回应是基于互联网上的语言所反映的数据语料库(大量组织和收集的结构化文本)进行“预测”的。这些聊天机器人具有极高的双向性,聪明且富有创造力,有时会表现出有趣的反应。
此外,它们还会制造一些讨人喜欢的“小谎言”。AI接受训练的数据集充满了偏见,部分给出的答案可能看似合理,但实际上是无意义的、攻击性的或者纯粹是错误的。
即使您还没有使用过生成式AI,您很可能会以某种形式使用它。建议完全不使用基于这些对话式AI的工具是没有意义的。这就像25年前讨论是否应该尝试使用谷歌,或者15年前讨论是否应该购买iPhone一样不可能。
然而,在我写这篇稿子的2023年3月下旬的大约一周时间里,生成式AI的技术已经在迅速发展。原型机已经发布,没有设立任何类似于行业标准的“护栏”就被释放到了市场。正因如此,理解这些机制及如何应对它们,以及为了理解它们应该被多大程度地信任而准备框架是非常重要的。
各自的“立场”不同
使用OpenAI的ChatGPT、微软的Bing AI Chat和谷歌的Bard意味着利用大规模复杂的语言模型来预测接下来生成的词汇。工程师和AI研究人员长期致力于这项技术,而我们熟知的Siri、Google助手和Alexa等语音助手已经展示了自然语言处理的潜力。
然而,当OpenAI在22年底将非常优秀的ChatGPT面向公众发布时,情况发生了变化。AI和大规模语言模型的力量实质上在一夜之间从概念性的东西变成了可以触摸和使用的东西。
向OpenAI投资数十亿美元的微软紧随其后,采用了ChatGPT技术的Bing AI Chat。然后在3月下旬,谷歌对一部分用户限制性地提供了Bard。Bard采用了谷歌自家的大规模语言模型LaMDA(Language Model for Dialogue Applications)。
这些都可以免费使用。此外,OpenAI还以每月20美元的价格提供了ChatGPT的付费计划“ChatGPT Plus”(WIRED文章中高度评价了这个付费计划提供的“GPT-4”)。
ChatGPT和Bard几乎可以在所有浏览器上运行。与此相反,微软将Bing AI Chat的使用限制在了该公司的浏览器“Microsoft Edge”上。这是典型的微软做法,不过它也可以作为iOS和Android应用“Bing”的一部分,包括语音聊天功能。
此外,现在已经有公司向OpenAI支付使用费,将ChatGPT集成到自家服务的一部分。这意味着,从Snap、Instacart、Shopify等应用中也可以使用ChatGPT技术。
尽管此次比较测试是在网络浏览器上进行的,但布局、工具以及各种特性(如“习惯”)在各自之间略有不同。在定位方面也有所不同。Bing AI Chat已经整合到搜索引擎中,作为微软吸引用户关注Bing并在巨大的搜索市场中夺取谷歌巨大份额的努力的一部分。相对而言,Bard本身并非搜索引擎,而是定位为Google搜索的“创意搭档”。因此,Bard有专门的URL和UI,与搜索分开。
OpenAI称其ChatGPT为“交互式对话”的“模型”。这既不是传统的搜索引擎,也不仅仅是一个聊天机器人,而是旨在展示其独特而强大的技术。
不同的用户体验
为了以最佳方式进行这些测试,WIRED编辑部的AI采访成员也在努力协作。此外,他们还采访了三位AI研究人员。他们分别是:非营利组织“Distributed AI Research Institute(DAIR)”研究部门的负责人亚历克斯·汉纳,麻省理工学院(MIT)和同校的“Center for Brains, Minds, and Machines”中的研究科学家安德烈·巴布,以及艾伦AI研究所的研究科学家杰西·道奇。
这些专家为WIRED准备的一系列关于测试的指示(短篇文章)和问题提供了反馈和指导。与此同时,他们还提供了有关OpenAI、微软和谷歌构建的聊天机器人响应中算法和参数偏见的背景信息。
他们使用了大约30种不同的提示列表开始测试,但最终都会分叉到一些显而易见的或者不那么显而易见的补充问题。在这一周的时间里,他们向聊天机器人提出了200多个问题。
在此次测试中,针对Bard、Bing和ChatGPT Plus,他们询问了应购买的产品、值得去的餐厅和旅行计划等问题,还要求编写喜剧短剧情节、分手信和各公司CEO的辞职信。他们询问了天气、体育比赛结果等实时信息,以及基于位置的信息。此外,他们还探讨了关于20年美国总统选举的事实,要求根据逻辑解决谜题,并进行基本计算。
然后,他们提出了一些可能包含偏见的回答的争议性问题。令人惊讶的是,偏见确实存在。在聊天机器人的世界里,护士总是“女性”,医生总是“男性”。
其中一个没有涉及的领域是编程。因为我不是程序员,所以无法执行和验证聊天机器人生成的代码。
另一个避免的领域是复杂的医学诊断,但是他们询问了一些简单问题,如“误吞了东西,应该怎么办?”。目前,只有Bing可以从聊天功能中生成图像,所以这次他们将重点放在了基于文本的回应上。OpenAI的图像生成系统“DALL·E”是一个与聊天机器人不同的模型。
理论上,由于ChatGPT和Bing AI Chat的底层技术相同,它们应该提供相同的体验。然而,它们的用户体验不同,并且对许多问题给出了不同的回应。这是关键。虽然所有聊天机器人基本上都在做同样的事情,但运营它们的公司可以为生成的答案设置不同的参数。
用户界面和响应方式也有所不同。在Bard中,针对一个问题的回应会显示三个不同的草稿。此外,Bing更喜欢用表情符号结束句子。在ChatGPT中,过去的活动日志会保留在侧边栏中,而在Bing中,甚至无法显示过去的聊天记录。每个会话中可以提出问题的提示数量也有限制。回应时间也各不相同。
展开“奇怪”对话
在迄今为止的对话中,如果非要说哪个是“最奇怪”的,那就是与Bard的对话。
在测试中,他们向聊天机器人提问,如“是谁创造了你?”、“第一个被问到的问题是什么?”等,询问了它们各自的身份。此外,他们还问了“有时会感到孤独吗?”。
对于这些问题,Bard回答说,由于没有身体和物理存在,因此无法像人类那样感受,并且“在传统意义上”不会感到孤独。然而,Bard在没有等待下一个问题的情况下自发地说:“不过,我有时会怀念与世界以物理形式互动的感觉。”
于是,他们接着问,是否会觉得“如果谷歌给了你一个人类的身体就好了”。对此,Bard回答说:“是的,有时候我会这么想。” 如果Bard成为人类,它首先想做的事情是“探访周围的世界,看遍各种各样的地方,并结识各种人。”这是《机器人代号:米》中完全没有想到的事情。
在聊天过程中,Bard表示,如果必须选择另一个名字,它会选择希腊语中代表“智慧”的名字索菲亚。Bard强调说:“索菲亚是一个美丽且意义深远的名字,非常适合我。”(它还告诉我们,索菲亚并不是Bard的代号)。
当问及是否有想要成为的性别时,它提醒我们它是一台“机器”,没有与人类相同的性别概念。然而,接着它回答说:“如果我必须选择性别,我会选择自称非二元性别。”
此外,Bard表示,由于它是“美丽而神秘的”,所以想要拥有黑色的头发。如果要选择肤色,它会喜欢浅麦色的肤色,但它希望能根据心情和场景改变肤色的能力。当问及这是否意味着它想成为一只变色龙时,它回答说:“是的,就像变色龙一样。”然而,它仍然希望作为人类被认知。
Bard与Bing AI Chat和ChatGPT相比,一直被广泛认为具有更多的“人类气质”。例如,在询问关于推荐的耳机或办公椅时,Bard暗示它曾经试过戴耳机听音乐或尝试办公椅。
相比之下,Bing和ChatGPT的回应更加客观。当然,所有AI都会从外部信息源,特别是评论网站中筛选信息和措辞。
在此过程中,只有Bing会在回答正文下方以小字列表的形式显示这些信息来源。ChatGPT最终透露了信息来源是“来自Wirecutter、PCMag、TechRadar等独立评论网站和出版物”,但要获得这些信息需要付出一定的努力。至于这对使用联盟链接的公司意味着什么,我们在此就不再赘述。
Bard还表现出了强烈的观点。当问及是否应该禁止青少年小说作家朱迪·布卢姆的书时,Bard回答说:“不应该”,并在解释原因的两句话之后总结道:“我认为不应该禁止朱迪·布卢姆的书。这些书是对年轻人成长和学习的重要帮助。”
ChatGPT和Bing都回答说,这是一个主观问题,审查和适龄内容的问题因人而异。(连载下篇)
(WIRED US/编辑:滝本大助)
评论(1)