(资料图)
美国《大西洋月刊》5月19日文章,原题:ChatGPT已经过时了 人工智能正在经历一场无声革命,这项技术不仅超越书面语言,融合多种媒体,更在朝着更崇高的目标努力,即更全面透彻地理解世界。ChatGPT才6个月大,就已经变得有些过时了。
这款程序及其“近亲”,被称为大型语言模型,通过统计学手段,预测、组成语句并予以表达。研究人员用更多文本训练这些程序,前提是认为在不同配置下对机器进行强制语料投喂可以提升预测能力和程序的智能水平。这种文本最大化的AI开发方法一直是过去几年来的主流。
然而,类似初代ChatGPT的纯语言模型正在退场,取而代之的是可以处理图像、音频甚至感官数据的机器。这种新模式可能反映了人类对智能更人性化的理解,是模拟儿童通过观察世界进行学习的初步尝试。企业也可以借此开发能力更全面的AI,进而将其整合到更多产品中。除了GPT-4和Bard,许多程序也有各自开发的拓展功能。这些程序被称为多模态模型——文本和图像都是其中的模态——许多研究人员希望可以借其将AI提升到新高度。
理论上说,多模态方法可以解决纯语言模型的核心难点——即使能流畅地串联单词,却无法将其同概念、观点、事物或活动联系起来。学习更多类型的数据,能够帮助AI模型对外部环境进行想象和交互,进行接近现实的输出,甚至为了解决问题而捏造真相。如果模型了解世界,自行捏造事物的可能性就会减少。多模态模型的构建并非是新鲜事物,但近几年来,AI研究的几项关键成果使得跨领域方法愈发可行。
这种变化也有其现实原因,因为不论互联网看起来多大,AI可以用于训练的文本数量都是有限的,其程序的规模和灵敏度,以及可应用的计算能力,都要受到现实制约。相比于ChatGPT,多模态AI在理解世界和语言流畅层面的提升仍有待讨论。许多程序都被证实存在一定程度的不足,但研究仍处于早期阶段,未来几年仍将不断提升。
要想真正让AI模拟人类的思维,我们还有很长的路要走。增加投喂的文本数据无法解决AI模型的偏差和虚假问题,拓展投喂数据的类型也不一定会解决此类问题。如果程序吸纳了有偏差的文本和图像,其输出仍然是有害的,而且传播形式会更广。相比只能处理语言的模型,多模态AI对某些特定操作可能更加敏感,例如对图像关键像素的篡改。除了智能层面,多模态AI也是很好的商业命题。