前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。
前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。
这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。
它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。
这样就可以让用户和 AI 在任意模态下实时进行交互:
你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。
核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分:
前台交互模型:
(a) 一直在线,一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应
后台推理模型:
(a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容
用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。