非侵入式脑机接口从近乎不能用进步到能大致沟通,这一步证明了不开颅也可能接近侵入式的效果,剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。
Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。
Meta 今天同时放出两个大动作:Brain2Qwerty v1 论文正式登上 Nature Neuroscience,v2 同日发布。
v1 去年以预印本形式公开时,能从脑电信号里逐字母还原打字内容,字符错误率 32%。
v2 跳过了字母这一层,直接做到句子级别的实时解码,平均单词准确率 61%,表现最好的被试达到 78%,超过一半的句子解码误差在一个词以内。
作为参照,此前非侵入式方法的单词准确率只有 8%。
这里说的“非侵入式”,就是不需要开颅手术、不需要往脑子里植入电极。
被试戴的是 MEG(脑磁图)设备,通过头皮外的传感器捕捉大脑活动产生的微弱磁场。
相比之下,Neuralink 那类侵入式脑机接口准确率能到 90% 以上,但代价是一台开颅手术。
v2 的训练数据来自 9 名志愿者,每人戴着 MEG 设备打字 10 小时,总共录了约 22,000 个句子。
系统用端到端深度学习直接处理原始脑信号,再通过微调大语言模型来利用语义上下文,把嘈杂的神经数据“翻译”成连贯的语言。
Meta 还提到他们用 AI 智能体来探索解码流程的优化方案,最终的训练配置由工程师人工选定。
一个有意思的发现:解码准确率随数据量呈对数线性提升。
也就是说,单靠增加训练数据就有可能继续缩小和侵入式方法之间的差距。
Meta 开源了 v1 和 v2 的全部训练代码,合作方 BCBL(巴斯克认知、大脑与语言中心)则开放了 v1 的数据集。
离实用还有多远?
MEG 设备体积大、造价数百万美元、需要磁屏蔽房间,目前只能在实验室环境下运行。
而且这次的被试都是健康人,能否在真正需要帮助的脑损伤患者身上复现效果,还没有验证。
便携式 MEG 替代方案(基于光泵磁力计)正在研发中,但离消费级产品还有相当距离。
不过,把非侵入式脑机接口的句子解码能力从“几乎不能用”拉到“大致能沟通”,这一步本身的意义在于:它证明了不开刀也有可能做到接近开刀的效果,剩下的是工程问题而非原理问题。
对全球数百万因脑损伤而丧失沟通能力的人来说,一条不需要手术的路径,哪怕还很远,还是很值得期待。
官方介绍:https://ai.meta.com/blog/brain2qwerty-brain-ai-human-communication/
[引用 @AIatMeta]:我们正在分享非侵入式脑电转文字解码研究的下一重大里程碑:Brain2Qwerty v2。
在今日发表于 @Nature 的 v1 基础上,Brain2Qwerty v2 是目前性能最高的端到端流程,能够从原始脑信号中实时解码句子。
它从字符级性能跃升到单词和语义解码,从而实现了可用于整体沟通的准确率。
我们相信,这项研究有潜力为全球数百万因脑损伤或疾病而无法沟通的人们带来真正的改变。
🧵👇