歸藏(guizang.ai)@op7418

2026-05-12 10:19·47天前

AI 摘要

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。

这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。

它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。

这样就可以让用户和 AI 在任意模态下实时进行交互：

你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。

核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：

前台交互模型：

（a）一直在线，一直在听、看和读用户提供的内容（b）每 200 毫秒作为一个节点，同时处理输入并产出一小段输出（c）负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应

后台推理模型：

（a）用来处理需要持续推理、工具调用以及长上下文、长规划的任务（b）交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容

用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

Thinking MachinesPeople talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way. We share our approa...

多模态推理模型发布

在 X 查看原推

歸藏(guizang.ai)@op7418 · X