全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月13日周三

00:30Artificial Analysis62语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

5月12日周二

22:04🚨 AI News | TestingCatalog45Gemini Omni将成多模态AI代理，整合用户数字形象

21:40The Decoder：AI News（RSS）66Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

21:29AK56Qwen-Image-2.0技术报告发布

21:25Hacker News 热门（buzzing.cc 中文翻译）64美国移民及海关执法局（ICE）将开发自有智能眼镜，以"补充"其人脸识别应用程序

18:33Kling AI63结合GPT与Kling AI生成超写实F1直播截图

16:59AK58Pixal3D实现图像到三维生成

16:36IT之家（RSS）53京东 AI 试穿功能上线

14:22公众号：火山引擎21乐橙×火山引擎：给安防注入AI能力，让监控从"被动记录"进化为"主动思考"

13:49Berryxia.AI53Google Gemini Omni模型发布在即

13:44HuggingFace Daily Papers（社区热门论文）62通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

12:44HuggingFace Daily Papers（社区热门论文）70精选WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

12:44HuggingFace Daily Papers（社区热门论文）76精选Qwen-Image-2.0技术报告

12:42SenseTime62SenseNova U1统一语言与视觉，开启多模态AI新范式

12:25Hacker News 热门（buzzing.cc 中文翻译）54我让人工智能开发了一个工具，帮助我找出是什么在半夜吵醒我

12:01Rohan Paul62Thinking Machines 推出"始终在场"AI模型，革新传统轮替式交互

11:44HuggingFace Daily Papers（社区热门论文）64Omni-Persona：系统性全模态个性化基准测试与改进

11:44HuggingFace Daily Papers（社区热门论文）68Pixal3D：基于图像的像素对齐3D生成

11:12SiliconFlow74精选答案之外：信息呈现方式正成为AI智能层的一部分

10:49歸藏(guizang.ai)71Thinking Machines发布原生多模态"交互模型"，实现实时人机协作

09:59elvis43实时低延迟交互AI开启难以想象的应用前景

09:49Berryxia.AI57Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

09:36IT之家（RSS）62苹果连发 3 项 AI 研究，推进空间计算与 Vision Pro 头显方向

08:59Ethan Mollick65GPT实时语音模型升级，智能程度显著提升

08:00HuggingFace Daily Papers（社区热门论文）48DocAtlas：跨80多种语言的多语言文档理解框架

08:00HuggingFace Daily Papers（社区热门论文）45参考引导流匹配

08:00HuggingFace Daily Papers（社区热门论文）63AI CFD科学家：利用物理感知AI智能体实现开放式计算流体动力学发现

08:00HuggingFace Daily Papers（社区热门论文）62TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

08:00HuggingFace Daily Papers（社区热门论文）69ShapeCodeBench：一个用于合成形状场景感知到程序重建的可再生基准

08:00HuggingFace Daily Papers（社区热门论文）61PresentAgent-2：迈向通用多模态演示智能体

08:00HuggingFace Daily Papers（社区热门论文）56视觉美学基准：前沿模型能评判美吗？

08:00HuggingFace Daily Papers（社区热门论文）64覆盖计算机使用中的人类操作空间：数据合成与基准测试

07:59Ethan Mollick52实时交互AI演示应聚焦实用场景

07:52Apple Machine Learning Research（RSS）51BalCapRL：基于强化学习的MLLM图像描述平衡框架

07:10Nathan Lambert46模型与用户同时对话演示获赞

06:58Artificial Analysis62清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

06:49Berryxia.AI58未来AI协作新形态：像人一样实时并行交互

06:35swyx 🌉64实时AI定义被颠覆，全能模型梦想复兴

06:05swyx 🌉62Thinky搞笑视频庆祝Omnimodel梦想复活

05:55Chubby♨️64超越问答：Thinking Machines 推出原生实时交互AI模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月13日

00:30

Artificial Analysis@ArtificialAnlys

62

语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体 OpenAI xAI 多模态

5月12日

22:04

🚨 AI News | TestingCatalog@testingcatalog

45

Gemini Omni将成多模态AI代理，整合用户数字形象

谷歌在网页版中新增了Gemini Omni横幅，预示其将成为一个能整合文本、图像和视频的多模态AI代理。关键功能是允许用户将自身形象添加到不同场景中，这与即将登陆Gemini的AI数字形象功能高度关联。该“Likeness”功能很可能深度集成于移动应用，其运作方式曾应用于Sora。外界猜测它可能在今日的Android活动中亮相。

智能体 Google 产品更新多模态

21:40

The Decoder：AI News（RSS）

66

Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型，旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块，并行处理音频、视频和文本信息，专注于提升实时交互的流畅性与自然度。公司宣称，这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live，致力于推动语音助手向更自然、非问答式的对话体验演进，从而重新定义人机交互方式。

多模态模型发布语音

21:29

AK@_akhaliq

56

Qwen-Image-2.0 技术报告

图像生成多模态论文/研究

21:25

Hacker News 热门（buzzing.cc 中文翻译）

64

美国移民及海关执法局（ICE）将开发自有智能眼镜，以"补充"其人脸识别应用程序

美国移民及海关执法局计划自主开发智能眼镜，以补充其现有的人脸识别应用程序。此举旨在通过可穿戴设备扩展生物识别监控能力，提升现场执法人员的身份核查效率。该智能眼镜项目预计将强化ICE在边境和执法行动中的实时人脸识别与数据访问功能，标志着其监控技术正从移动应用向更集成、更便捷的硬件形态延伸。

多模态政策/监管

18:33

Kling AI@Kling_ai

63

用户利用GPT image 2与Kling AI，根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性，其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机，神情紧张专注，画面包含"FINAL LAP"横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节，如压缩伪影、自然肤质和8K画质，旨在完美呈现如同真实电视截图的视觉效果。

Ciri: Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...

OpenAI 图像生成多模态教程/实践

16:59

AK@_akhaliq

58

Pixal3D 从图像生成像素对齐的三维模型

arXiv 多模态论文/研究

16:36

IT之家（RSS）

53

京东 AI 试穿功能上线

京东平台正式上线AI试穿功能。用户上传个人照片后，可在数秒内生成高清试穿效果图，实现一键切换同款不同色服饰进行对比，并可根据系统推荐搭配上下装。该功能基于京东自研算法，能分析消费者身材维度，使服装在试穿中自然垂坠贴合，并对棉质、丝绸、牛仔等多种材质进行高精度渲染，模拟真实质感。目前该功能已接入商品详情主图、“逛”和“AI购”等频道，初期支持男女装及运动服饰，商家仅需配置白底图等素材即可使用。

产品更新图像生成多模态

14:22

公众号：火山引擎

21

乐橙×火山引擎：给安防注入AI能力，让监控从"被动记录"进化为"主动思考"

多模态端侧行业动态

13:49

Berryxia.AI@berryxia

53

Google Gemini Omni模型发布在即

大家说Google 最近疯狂降智的时候，是不是要有大的要来了。依稀记得Gemini3.1 发布前海外疯狂吹捧，但过后似乎没多少人真正使用。这一波我觉得也该搞点东西出来了吧~~~ [引用 @testingcatalog]：Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

🚨 AI News | TestingCatalog: Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as...

Google 多模态大佬观点

13:44

HuggingFace Daily Papers（社区热门论文）

62

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

精选70

WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准，旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例，涵盖物理、社会、逻辑和信息四大维度及22个子类，要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法：过程感知推理验证通过结构化问答检测时序与因果错误；多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现，当前先进模型在视觉合理性与世界推理能力间存在显著差距，生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由：视频生成越来越像真的，但逻辑和因果一塌糊涂，这个基准把问题量化了，想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。

12:44

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv 图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

12:42

SenseTime@SenseTime_AI

62

SenseNova U1是一款高效统一语言与视觉的单模型，具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的"任意到任意"Transformer，如同集成了创意工作室功能，重新定义了多模态AI。开发者社区对其反响热烈。

Hugging Models: Imagine a single AI that can read text, generate images, edit photos, and even handle interleaved text+image tasks. Sens...

多模态模型发布

12:25

Hacker News 热门（buzzing.cc 中文翻译）

54

我让人工智能开发了一个工具，帮助我找出是什么在半夜吵醒我

作者利用人工智能开发了一款工具，用于监测和分析夜间可能吵醒他的声音。该工具通过记录和分析环境音频，识别并分类噪音来源，帮助作者找出睡眠中断的具体原因。这一实践展示了AI在解决个人生活问题上的实际应用潜力。

多模态教程/实践编码

12:01

Rohan Paul@rohanpaul_ai

62

Thinking Machines 推出"始终在场"AI模型，革新传统轮替式交互

Thinking Machines公司发布了TML-Interaction-Small模型，旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构，将音频、视频和文本流切分为200毫秒的微轮次，使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟（0.40秒）的同时，保留了强大的推理与指令遵循能力，且交互性直接内建于模型架构，而非依赖外部组件拼凑实现。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态模型发布语音

11:44

HuggingFace Daily Papers（社区热门论文）

64

Omni-Persona：系统性全模态个性化基准测试与改进

研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona，涵盖文本、图像和音频三大模态，包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由，并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距，同时发现可回答召回率和参数规模不能完全诊断模型表现，而基于结果的强化学习虽泛化更一致，但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。

多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

68

Pixal3D：基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题，研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法，通过像素回投影条件方案，将多尺度图像特征直接提升为3D特征体积，从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度，使其接近重建水平。该框架可扩展生成高质量3D资产，并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv 图像生成多模态论文/研究

11:12

SiliconFlow@SiliconFlowAI

精选74

信息的结构与呈现方式本身正成为AI智能层的关键。当前，让大语言模型以HTML格式输出，能提供比默认Markdown更丰富的视觉布局与交互性，是值得尝试的技巧。长远来看，人类虽偏好用音频输入，但视觉（图像/动画/视频）才是更理想的AI输出形式，因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿"原始文本→Markdown→HTML→交互式神经视频/模拟"的路径演进，最终可能由扩散神经网络直接生成交互视频。同时，输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面，仍有巨大发展空间。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

OpenAI 多模态大佬观点

推荐理由：Karpathy 给的路线图从文本到 HTML 再到神经视频，其中第一步的‘让 LLM 输出 HTML’你今晚就能用上。未来交互形态的思考，值得产品经理细读。

10:49

歸藏(guizang.ai)@op7418

71

Thinking Machines发布原生多模态"交互模型"，实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布

09:59

elvis@omarsar0

43

尽管处于早期阶段，但最令人印象深刻的是与这些全能模型（omnimodels）的交互正变得极为自然。实时、低延迟的交互式AI模型将解锁当今难以想象的应用场景。其核心在于，AI能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现与人的实时同步工作模式。这种交互模型的突破，预示着人机协作将进入一个全新的阶段。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态论文/研究

09:49

Berryxia.AI@berryxia

57

Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态开源/仓库模型发布端侧

09:36

IT之家（RSS）

62

苹果连发 3 项 AI 研究，推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究，直接回应了其搁置Vision Pro研发的传闻。研究包括：提出SFI-Bench基准，通过134段视频和1555道问题测试多模态大模型的空间功能智能；利用AI自动生成美国手语标注，将人工成本降低数百小时；以及提出HeadsUp方法，基于超万人数据集进行高质量3D头部重建，可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究

08:59

Ethan Mollick@emollick

65

gpt-realtime-2 是一个出色的语音模型（名字却沿袭了OpenAI一贯的糟糕风格）。语音模型本质上是处理语音，而非转录语音，因此模型的智能程度至关重要。旧版语音模型是 GPT-4o 级别，而新版则智能得多（有多智能？OpenAI未提供基准测试数据）。

OpenAI 多模态大佬观点语音

08:00

HuggingFace Daily Papers（社区热门论文）

48

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

参考引导流匹配

本文提出了一种新的可控图像生成原理，其核心是通过更换“参考集”来引导预训练模型，无需参数更新。该方法基于流匹配框架，通过调整条件端点均值来改变生成流程。具体实现了两种方式：免训练的“参考均值引导”，将参考库的校正量应用于冻结模型，实现对颜色、身份、风格与结构的控制；以及“半参数引导”，通过显式均值锚点和学习残差优化器，达到高质量并支持推理时更换参考集。这一工作指向了生成模型可通过数据而非参数更新来适应新任务的更广泛方向。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

AI CFD科学家：利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist，一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门，能在接受结果前检查流场渲染图。实验表明，该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正；在同等成本下，其性能优于通用AI科学家基线，因其具备关键的领域专用验证能力；对照实验证实，视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体 arXiv 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

62

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

ShapeCodeBench：一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像，模型必须输出一个可执行的绘图程序，由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形，每个实例均由随机数生成器生成，可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集，涵盖简单、中等和困难三个级别，评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示，传统计算机视觉启发式方法在简单场景中表现尚可，但在图形重叠时失效；最强的多模态配置能保留大部分前景结构，但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低，表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

PresentAgent-2：迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题，并从演示友好型来源进行深度研究，收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式：单人演示（单解说员）、讨论式演示（多演讲者结构化角色）和交互式演示（基于生成内容回答观众问题）。研究团队构建了涵盖三种场景的多模态演示基准，并制定了内容质量、媒体相关性、动态媒体使用等评估标准，从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

56

视觉美学基准：前沿模型能评判美吗？

针对现有美学评估常简化为单图像打分的问题，研究提出了视觉美学基准（VAB），将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像，每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现，最强模型仅在26.5%的任务中准确识别最佳和最差图像，远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型，其性能可接近大得多的开源模型，表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

覆盖计算机使用中的人类操作空间：数据合成与基准测试

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体 Microsoft 多模态论文/研究

07:59

Ethan Mollick@emollick

52

当前多数AI实时交互演示侧重于模型的趣味性纠正功能，但评论指出此类模型在会议、教育和培训等领域具有明确实用价值。被引用的研究团队强调其AI设计能像人类一样同步实现交谈、倾听、观察、思考与协作，这种多模态实时交互能力正是支撑会议记录、协作培训等核心应用场景的技术基础。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点

07:52

Apple Machine Learning Research（RSS）

51

BalCapRL：基于强化学习的MLLM图像描述平衡框架

研究团队针对多模态大语言模型图像描述任务提出BalCapRL平衡框架。该框架通过设计多维度奖励函数，系统解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长等问题。实验表明，BalCapRL在保持描述准确性的同时，显著提升了信息密度与可读性，在多个基准测试中实现了更均衡的性能表现，有效突破了传统方法在核心维度间的权衡局限。

多模态论文/研究

07:10

Nathan Lambert@natolambert

46

这是那个让我感到真正不同的演示--模型和用户同时说话！太棒了。祝贺发布 @thinkymachines

Thinking Machines: With the model's simultaneous speech capability, Horace has gotten a lot easier to work with recently.

产品更新多模态语音

06:58

Artificial Analysis@ArtificialAnlys

62

清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Hugging Face 多模态模型发布端侧

06:49

Berryxia.AI@berryxia

58

未来AI协作新形态：像人一样实时并行交互

Thinking Machines公司突破传统AI轮流对话模式，提出并实现了一种模拟人类实时协作的交互模型。该模型允许AI在对话中自然插话、跟踪对方思考、自我纠错并邀请回应，同时能并行执行听、说、搜索、绘图等多任务。演示显示，AI能在陪伴讲故事、团队知识竞赛等场景中进行实时且隐蔽的协作。其核心在于还原人类协作“混乱”并发的本质，推动AI从被动助手转向真正的工作伙伴，标志着交互方式的重大进步。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

智能体产品更新多模态语音

06:35

swyx 🌉@swyx

64

我相信年轻人会这样形容："@thinkymachines 刚刚残酷碾压了gdm和oai"。基本上所有人的"实时"定义都得到了巨大升级。

swyx 🌉: lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...

多模态模型发布视频语音

06:05

swyx 🌉@swyx

62

低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

Mira Murati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time intera...

多模态模型发布

05:55

Chubby♨️@kimmonismus

64

超越问答：Thinking Machines 推出原生实时交互AI模型

Thinking Machines公司发布的新型交互模型，旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具，而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具，转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案，转向在协作过程中保持“在场”的根本性转变。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音

1…35 363738 39…50