在我们还无法想像有人可取代「Google 搜寻」时,「AI 合成引擎」横空出世了

文:Anice.H、蓝立晴共同编写

随着人工智慧科技不断演进,应用范畴也不断扩大,其中生成式艺术 AI(AI generative art)是蓬勃发展的领域之一。

以自然语言处理模型「GPT-3」为例,使用案例已遍及内容创作、文案撰写、顾客支援、产品设计,此外还有图片生成工具「DALL-E 2」、「Stable Diffusion」、AI 音乐生成软体「Jukebox」,可以说在合成引擎的推动下,艺术将是 AI 带来革新的下一个领域,而且这类工具,极有可能即将取代我们过往所知道的搜寻方式。

♦ TO 延伸阅读:【给 AI 产业工作者的 2023 预言书】五大趋势与问题,等你们替全世界人类解决!

从搜寻引擎到 AI 合成引擎

1990 年代初期,正是全球资讯网(WWW)开始成长的阶段,人们需要搜寻并整理文件档案,进而催生搜寻引擎的技术发展:曾风光一时的产品包含 Yahoo、美国入口网站「Excite」、搜寻引擎元老「Lycos」与「Infoseek」等,只不过最终,称霸搜寻引擎市场还是 Google; Google 在英语词汇中甚至变成了「上网搜寻」(search)的同义词。

Google 搜寻引擎的逻辑并不复杂:使用者在搜索框中键入某个词汇,经过某种像黑盒子般、没有人知道确切运作方式的演算法排名,对内容进行索引与爬取(crawling),最终呈现给使用者的是一份超连结名单,指向不同的网域内容。

这是目前使用者检索网站内容的主要方法,也是现今网路使用者最为熟悉的搜寻方式;Google 在搜寻引擎市场的地位举足轻重,几乎让人无法想像哪天可能会有替代品出现,直到近年大家逐渐认识「AI 合成引擎」(synthesis engines)。

我们可以从美国科技业创投家 Balaji Srinivasan 的推文中略见端倪:

合成引擎 > 搜寻引擎
未来 DALL-E 等合成引擎能在接收详细提示(prompt)後,创作出许多形式的文字、音讯、图像、影片。Google 将沦为过时的搜寻引擎,使用者只会拿来引用他人作品。

合成引擎与搜寻引擎有什麽不同?

尤其在众人见证过 ChatGPT 的神奇魔力後,「ChatGPT 将取代 Google」这类的呼声又变得更高了。

简单来说,搜寻引擎的作用是根据搜索单词,爬取索引到的网路内容;合成引擎则会朝更精准的方向再优化──例如句构较复杂,牵扯到修饰语、行文风格、角色特质、内容形式等细节的长句,并且编排(compose)出适切内容。

以搜寻引擎为发展基础而超越搜寻引擎,合成引擎可以说是全新的概念,如今在 AI 领域也被称作「提示工程」(prompt engineering),指特定任务被转换成以提示为运行基础的资料集,语言模型再根据该资料集进行训练。

♦ TO 延伸阅读:从通讯设备到保险业都在用的「保密」AI 创新推手:合成资料

》下载 TechOrange 2023 趋势观察报告《为何合成引擎能实现内容创作?

所有生成艺术创作的源头都是某一则自然语言提示,随後才有 AI 科技介入,进行文字-图像的转换、诠释,并产出最终成果。

至於所谓的提示,则是指某段自然语言描述,被用来作为合成引擎、机器学习模型的输入资料(input),也是使用者与演算法之间的沟通桥梁,把创意发想转化为文字-图像资料,再传达给合成引擎。

所谓「提示」诸如:

荒废的城市,空荡荡的建筑,植被,超逼真,4K
女孩,新海诚风格,动漫,日本动漫的背景,80mm镜头,广角,夜景,城市,建筑,高细节
Kobe Bryant 罚球,铅笔画,逼真

……等等。

合成引擎本身,并非由工程师预先编写完成,而是经由上百万组文字-图像数据预先进行训练;更精确地说,演算法会接触到上百万张经过标签处理的图像,而这个训练过程称为「对比语言-图像预训练」(Contrastive Language–Image Pre-training,CLIP)。

在这样的数据训练下,AI 艺术生成工具会建立起某种程度的图像理解,再根据这份理解、扩散模型(diffusion model)以及接收到的提示,生成艺术创作;而就像搜寻引擎的黑盒子排名演算法一样,没有人知道合成引擎会针对提示做出何种反应。也因此,给出好的、精心的「提示」对於 AI 艺术生成工具来说非常重要。

♦ TO 延伸阅读:AI 领域创新脚步不停歇,跟上专家一致看好的 2023 年三项趋势!

简言之,不同於搜寻引擎被动取回网路资讯,合成引擎会根据使用者输入的提示细节,主动编排出搜索结果。

不是 Echo 或 Siri,ChatGPT 才是开启对话式搜寻的最终胜利者?

而对於像是 ChatGPT 这样的聊天机器人工具而言,则有可能开启「对话式搜寻」的新时代——一直以来,科技业相信像是亚马逊 Echo 或 Google Dot 等智慧音响的出现预言着对话式搜寻的一场革命,然而基本上这尚未真正实现——ChatGPT 却有可能改变这一切。

在 ChatGPT 上的搜寻体验基本上优於 Google:它让使用者不必点击或滚动滑鼠上的滚轮浏览,而是直接给出答案,不过如同前文所说,由於 ChatGPT 这类工具需要训练数据,因此时常给出过时答案——ChatGPT 的训练数据中就不含盖 2021 年以後的事件。

这是 ChatGPT 作为一个「搜寻引擎」的明显限制,除非有办法让它连接上网路并且进行近乎即时的更新,这些问题基本上都可以被解决。然而,就像是生成图像时的黑盒子演算法,ChatGPT 的另一个主要弱点是——它从不提供其答案的来源,而这很明显是由於这些答案是从「不同的资讯来源合成出来的」,这也使得其正确性难以验证。

TO 编辑前阵子已经试玩了 ChatGPT,当编辑请它撰写一篇「关於蔡英文总统的猫咪的文章」就得出了以下结果:

结果 ChatGPT 给了我们近乎以假乱真的结果。

虽然 ChatGPT 不断在回答问题时告诉使用者:「在使用(ChatGPT 提供的答案)之前应该根据可靠的外部来源验证我提供的任何资讯」,也就是需要使用者从维基百科或 Google 搜寻中验证资讯的真实/虚假、正确/错误,因此从以上限制来看,这类工具要「取代 Google」还需要一些时日。

不过,不可否认的是,ChatGPT 的确提供了对话式且全面的答案,且对於使用者来说更为便利(不必离开搜寻页面、不断滚动页面/点击寻找需要的答案,或者被前排的各种广告结果所干扰)并且还可以根据要求调整其解释:一旦要求 ChatGPT 为一个 6 岁的孩子解释一个复杂的概念,它便会使用简单的辞汇来让 6 岁孩子一秒理解,却也可以在下一秒转换成只有专家懂的语言。

生成式 AI 大爆发!

掌握 2023 最新 AI 应用趋势+企业行动方案一次看

→ 立即下载《TechOrange 2023 趋势观察报告》

当然,所有人都非常好奇 Google 对於这类工具出现有何感想、是否担忧会被取代——作为补充,专门研究 AI 的部门:Google AI 也有 LaMDA,跟 ChatGPT 同样是对话神经语言模型系列, LaMDA 的训练参数为 1370 亿个,而 ChatGPT 则为 1750 亿个——Alphabet CEO 皮采(Sundar Pichai)对这问题指出,Google 需要平衡大胆的愿望并对需求更为负责。Google AI 负责人 Jeff Dean 则补充说道,由於涉及了声誉风险,该公司在进行这类试验时,「我们比小型新创公司更为保守,把这件事情做好是非常重要的」。

♦ TO 延伸阅读:AI 机器人 LaMDA 「有感觉」是真的吗?简立峰亲自解答,人工智慧在语言辨识上的最新进展!

虽然 ChatGPT 给出的「单一答案」可能带来非常便利的使用体验,但也有其缺点,例如阻止了搜寻者从各类搜寻结果中得出自己的结论,而仅是呈现 ChatGPT 对於什麽是「真实」的解释,而 AI 和演算法又特别容易受到偏见的影响,Mata 今年 8 月推出的对话式 AI 原型 BlenderBot 就因为侮辱了自家老板祖克伯(Mark Zuckerberg)而上了头条。

♦ TO 延伸阅读:Meta 的 AI 聊天机器人吃了诚实豆沙包?机器人:我不喜欢祖克伯,他超诡异

关於这类合成搜寻工具是否会取代 Google 这点上,还有一个值得关注面向:微软是支持发表了 ChatGPT 背後组织 OpenAI 的投资者与合作对象,并且已经开始将由 DALL-E 2 提供的 AI 生成图像显示於 Bing 的搜寻结果当中,这很大程度模糊了搜寻以及生成 AI 之间的界线。

对於合成引擎是否即将取代我们熟知的搜寻引擎,现阶段还没有正确答案。不过,合成引擎的确正带起一场艺术复兴,类型包含音乐、美术、文章、影音等媒体。未来,我们更可以预期 AI 提示被运用於更多任务上,例如智慧合约创建、网页 App 设计,甚至铸造 NFT 再直接放上交易平台。

(本文开放夥伴转载,参考资料:Medium、Decentralized Creator、Econsultancy,图片来源:Shutterstock)

此条目发表在免费v2ray订阅地址分类目录,贴了, , 标签。将固定链接加入收藏夹。
0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论