当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。