谷歌 AI 摘要频现低级拼写错误,大语言模型固有缺陷难根治
阅读原文· ithome.com谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。
IT之家 5 月 28 日消息,Google 这个单词里有几个字母 P?谷歌给出的答案是两个。
谷歌的人工智能摘要(AI Overview)还称,单词“poop”里有一个字母 r,而“journalism”一词包含两个字母 d,可它给出的拼写却是:j-o-u-r-n-a-d-i-s-m。谷歌倒是正确识别出了美国总统的姓氏里有一个字母 P,却把姓氏拼写成了 t-r-p-u-m。
其实不难预见,谷歌这场以人工智能为核心的搜索功能改版会问题频出。类似状况此前就发生过。谷歌首次在搜索中上线人工智能摘要功能时,该模块曾引用一些恶搞帖子,甚至给出诸如“吃石头”“往披萨上涂胶水”这类离谱建议。
谷歌在发给 TechCrunch 的邮件声明中表示:“大语言模型一直存在单词字母计数方面的难题,我们正着手解决这一具体问题。”
IT之家注意到,这类低级拼写错误并不罕见。驱动聊天机器人及各类文本生成工具的大语言模型,其设计初衷本就不是识别拼写。多年来圈内一直有个梗:每当有企业推出新款人工智能模型,你就可以考考它,问问单词 strawberry 里有多少个字母 r。这些人工智能模型能几秒内编写应用程序,也能攻克困扰数学家数十年的难题,可在拼写方面,水平却和幼儿园孩童相差无几。
不过,谷歌人工智能摘要暴露出的问题远不止这些滑稽的拼写错误。上周就曾出现过一处漏洞:用户搜索“disregard”(忽视),页面本该显示该单词的词典释义,结果却跳出这样一句话:“收到。你随时可以提出新指令或问题。”目前这一漏洞已被谷歌修复。但各类拼写错误依旧层出不穷,也成了大家津津乐道的槽点,因为这类问题实在难以彻底根除。
研究人员此前在解读这类拼写难题时解释过,人工智能并不会像人类那样,把句子看作由单词、字母构成的语言单元。多数大语言模型基于 Transformer 架构搭建,会将文本拆分为词元(token)—— 不同模型拆分出的词元可能是完整单词、音节或是单个字母。人工智能不会像人一样“阅读”文本,而是先把文本转化为数字表征,再结合语境分析,进而生成逻辑回复。