人工智能领域发展速度过快。

即使ChatGPT在文本生成方面表现出色,Stable Diffusion在图像生成方面也非常出众,从GPT-4到Stable Diffusion XL,生成式AI质量的新进展似乎只关乎软件开发人员和像我这样的机器学习工程师,对普通互联网用户来说,他们仍然会使用免费、摩擦最小的生成式AI平台,比如现在已经广泛使用的ChatGPT和Midjourney。

与此同时,在公共领域分享的生成式AI文本和图像的平均质量似乎下降了。Gizmodo使用ChatGPT发布了明显错误的《星球大战》时间线。一些意见领袖,如Corridor Crew和AI技术人员,正在使用AI推动以视觉效果为主的艺术,但往往使艺术变得更差,而且通常为了吸引点击而使用。Google被无法理解的明显由AI生成的文章淹没,以至于SEO机器人可以被操纵以输出虚假新闻。

就我个人而言,自2015年安德烈·卡帕西的著名char-rnn博客文章以来,我一直在从事基于AI的内容生成,并在此后的几年里发布了开源Python包,如textgenrnn、gpt-2-simple、aitextgen和simpleaichat。我开发AI工具的主要动机一直是——并且一直都是——娱乐和改进胡闹内容。但在所有这段时间里,我从未考虑过普通人会接受创造性质量标准大幅下降的现实,并且无需任何人工质量控制就发布AI生成的内容。这是我过于乐观的错误。

“由AI制作”现在已经成为一种普遍的模因,用来指示低质量的东西,而模因很难被消除。”听起来像ChatGPT的家伙”现在成为总统辩论中的侮辱。可口可乐的“由AI共同创作”的苏打口味宣传活动在使用了这些时髦词汇之后晚了一拍,而AI实际上做了什么并不清楚。每当出现真正出色的AI艺术作品,比如使用ControlNet的视觉幻觉螺旋图案,普遍的反应是:”我在第一次看到这幅图时很喜欢它,但当我得知它是由AI制作时,我不再喜欢它。”

对生成式AI的反感情绪随着时间的推移不断加剧。如今,宣传《洛基》的一张宣传海报背景中的微不足道的图形效果,由于怀疑使用了AI而引发了骚扰活动(后来证实是一张非AI生成的股票照片)。在Stable Diffusion出现之前的几个月,我发布了一个有趣的演示,展示了由一个在宝可梦图像上进行微调的DALL-E变体生成的宝可梦。每个人都喜欢它,从新闻机构到粉丝艺术家。但如果我今天发布完全相同的东西,我将接到无数的死亡威胁。

大多数AI生成的内容如果不付出大量的努力,质量都不好,这在创造性内容的任何领域都是可以预期的。斯特金法则是一种广泛使用的成语,大致可以概括为”一切的90%都是垃圾”,但在生成式AI的情况下,即使挑选最佳结果,这一比例远高于90%。

核心问题在于AI生成的内容在统计上是平均的。事实上,这就是为什么你不得不通过引导工程师Midjourney来创建获奖的图像,以及告诉ChatGPT成为世界著名的专家,因为生成式AI本身不会这样做。所有常见的文本和图像AI模型都是通过最小化损失函数进行训练的,模型通常会找到一个平均值,遵循”平均”语义输入,包括其中的系统性偏见,并最小化异常值。当然,一些模型,如ChatGPT,已经通过进一步的训练,如RLHF,使结果与平均模型输出更一致,但这并不意味着输出在本质上会更好,尤其对于非典型的创造性输出。同样,像Midjourney这样的图像生成模型可能会针对最常见的用例进行调整,比如创建梦幻风格的图像,但有时这并不是你想要的。这种对齐,用户不能轻松选择退出,限制了模型的创造潜力,并是上述许多生成式AI刻板印象的根源。

低质量的AI生成不仅仅是用户问题,对开发者也是问题。例如,在尝试使其应用程序简化时,公司反复未能考虑到用户提示可能出现的问题。Meta的新生成式AI聊天贴纸允许用户通过故意拼写错误绕过内容过滤器来创建儿童士兵贴纸和更多不适合儿童的贴纸。Bing图像创建器现在利用DALL-E 3创建高度逼真的图像,当用户发现可以使用它制作”X策划了9/11″的图像时,引发了一轮新闻报道,然后由于微软过度过滤输入而使图像生成器变得无用,以避免再次出现不良新闻。

有一段时间,我一直想公开一份”淘气提示大全”(我喜欢这个名字!),其中包括可以提交给AI的冒犯性提示,然后开发者可以使用这个列表对新的生成式AI模型进行QA/红队测试,然后再发布给公众。但后来我意识到,鉴于当前的生成式AI环境,一些人可能会不公平地将其视为一本指南,媒体机构会立即发布”AI技术人员创建了4chan生成冒犯性图像的简易指南”的标题,这将让我受到互联网上的骚扰。通过不开源主动识别冒犯性生成的技术,可以避免这种情况,并将其限制为审核的付费客户,为初创企业筹集风险资本,并将其打造成企业软件即服务。这将导致”AI技术人员通过垄断AI安全赚大钱”的标题,同样也会让我受到互联网上的骚扰。

生成式AI存在过多的自由,缺乏足够的指导。对齐可以帮助用户获得他们想要的结果,但用户实际上想要什么呢?对于开发者来说,这是一个难以确定的问题,通常令人沮丧:没有像开放的LLM领袖榜那样的客观模型性能基准套件,用于固有主观性输出。这是基于”感觉驱动”的开发(VDD)。

我能想到的唯一解决方案是提高更高级技术的素养,比如提示工程,这意味着增加”好的”摩擦。必需的教程,比如在视频游戏中,是一种好的摩擦,因为需要几分钟的时间可以节省几小时的沮丧,使用户更快成功。然而,以盈利为目标的网络服务试图尽量简化自己,因为这意味着更多的用户将与它们互动。OpenAI自己应该增加一些”好的”摩擦,并提供明确的提示和指南,以使输出更具创造性,并将部分对齐的负担转嫁给用户。这些提示也应该是免费的,目前,只有付费ChatGPT Plus用户才能设置自定义指示。

分享AI生成的内容也应该有更多的摩擦。另一个问题是,AI生成的文本和图像通常未经披露,有时是有意的,有时不是。由于对生成式AI的反感情绪,存在一种道德风险激励,即人们可能不诚实地使用AI。如果社交媒体,如Twitter/X和Instagram,具有额外的元数据字段,允许用户添加图像的来源/贡献者,并要求说明图像是否由AI生成,这将有助于每个人。另一种选择是在图像本身中添加一个”is_ai_generated” EXIF元数据标签,这将起作用,并且可以被社交媒体服务解析,我相信大多数生成式AI供应商和用户将积极支持它。但在用户界面中添加额外的行实际上是一个相当难以推销的产品管理和用户体验难题。

大多数密切关注AI新闻的人认为,生成式AI面临的最大威胁实际上是法律威胁,例如OpenAI和Stability AI参考受版权保护的作品来训练他们的模型,因此出现了”AI艺术是盗版”的模因。解决方案显而易见:不要训练AI模型在受版权保护的作品上,或者在几个最近的LLM模型的情况下,不要说出它们是基于哪些数据集训练的,这样就有了可否认性。

潜在的AI侵权的根本原因是自然语言处理研究的现状。在ChatGPT之前,每篇主要的NLP论文都使用相同的文本数据集,如Common Crawl,以便能够准确比较结果与最先进的模型。现在ChatGPT的成功已经超出了机器学习学术圈,对用于训练AI的数据集进行了更多的审查。现在AI界已经知道昂贵的法律诉讼是可能的,尽管目前尚不清楚这些版权诉讼将如何发展,但已经在数据集的选择上变得更为谨慎,并允许用户选择退出。此外,公司如Adobe不仅在其拥有完全授权的数据上发布了自己的生成式AI模型,而且他们将赔偿使用其模型的公司,以弥补任何由于使用其模型而引起的诉讼。尽管社交媒体上没有人会关注或相信任何”此AI生成图像是使用合法授权的数据创建的”免责声明。

不幸的是,未来的生成式AI可能会成为由大公司封闭源代码和集中管理的结果,用于训练AI的数据集可能不再是公开和开源的,这将长期对所有方面的AI发展产生影响。

如果AI生成的文本和图像的狂热降温,这并不意味着AI的功能性/生成相关用例会受到影响。检索增强生成、支持其的矢量存储以及编码助手都是解决问题的有效且有利可图的解决方案。AI不会很快消失,但”AI”可能是一个太过一般化的描述词,对于大多数人来说难以区分,将使AI开发人员的生活变得更加烦人。

我无法想出任何能够魔法般扭转围绕AI产生的巨大负面情绪的创意”杀手级”应用。由于当前生成式AI的状态已使我变成了虚无主义者,我已经抑郁和筋疲力尽了好几个月。如果我制作有趣的开源AI项目,我更有可能受到骚扰,而不是得到人们的欣赏和使用,我已经因为抵制像LangChain这样的流行生成式AI工具而失去了AI领域的朋友和职业机会,也因为对抵制AI反感不够而失去了创意和新闻行业的朋友。如果我坚守一边,我将更快乐,但我注定成为无意间的AI中间派。

总之,现代生成式AI需要大量的细微差别,但细微差别已经死了。

https://minimaxir.com/2023/10/ai-sturgeons-law/?continueFlag=772fb7116cd617495c172d04b7687639&s_trans=2312725255_&s_channel=4

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注