13:39

IT之家（RSS）

88.45% 登顶 CyberGym：微软纳德拉官宣 MDASH 框架，协调 100+ 模型 AI 抓虫 Win11

微软CEO纳德拉宣布，其AI安全框架MDASH在5月补丁星期二中，协助发现了Windows 11系统120个已修复漏洞中的16个。MDASH是一个协调超过100个专用智能体的多模型扫描框架，采用对抗式流程以减少误报。该系统在私有驱动测试中实现零误报；在历史漏洞回溯中对特定组件召回率高达96%和100%；并在CyberGym公共基准测试中以88.45%的成绩领先。发现的漏洞涵盖多个关键组件，其中10个为内核态漏洞，包括严重的远程未授权释放后使用等问题。

智能体多模态安全/对齐

12:50

歸藏(guizang.ai)@op7418

用交互式PPT讲述天津五大道历史故事

作者在游览天津五大道时，尝试利用AI查询该区域复杂的历史背景，发现众多近代名人事件与此地相关。为此，他创新了PPT制作方式，将历史人物的故事卡片与可交互的嵌入式地图相结合进行展示。这种新排版旨在让演示内容更丰富、信息更详实，并计划在未来进行更多类似尝试，以提升PPT的信息承载与呈现能力。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

多模态教程/实践

12:50

Berryxia.AI@berryxia

精选76

oMLX更新强化苹果端侧AI，本地能力直逼云端

oMLX项目更新至0.3.9.dev2版本，集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术，显著提升了图文处理速度。新增一键启动copilot功能，可便捷接入Claude等工具，并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现，正推动AI能力从云端向个人电脑回归。

GitHub MCP/工具多模态开源/仓库

推荐理由：oMLX 这个更新把 Gemma 4 的视觉能力塞进本地，加一键接入 Claude 的工具链，端侧 AI 从差点意思到真可用，值得每个 Mac 开发者立刻试一下。

12:44

HuggingFace Daily Papers（社区热门论文）

AlphaGRPO：通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架，将分组相对策略优化应用于AR-Diffusion统一多模态模型，无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理（如推断用户隐含意图）和自反思优化（自主诊断并修正生成错位）的内在潜力。针对实际监督难题，团队设计了可分解可验证奖励机制，利用大语言模型将复杂请求分解为原子化、可验证的子问题，再通过通用多模态大模型评估，提供可靠且可解释的反馈。实验表明，AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

Lite3R：一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题，本文提出Lite3R框架。该框架采用模型无关的师生架构，以稀疏线性注意力替代密集注意力来降低计算开销，并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏，冻结大部分预训练骨干参数，仅微调轻量线性分支投影层，从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明，Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟（1.7-2.0倍）和内存占用（1.9-2.4倍），同时保持整体重建质量的竞争力。

arXiv GitHub 多模态论文/研究

12:27

Deedy@deedydas

世界模型：AI下一范式与重要解读

世界模型被视为AI继大语言模型后的关键新范式，过去18个月已获百亿美元投资，其核心承诺是通过规模化数据推动机器人基础模型发展。然而，该术语目前被广泛滥用，含义模糊。本文系统阐述了世界模型的五大特质，对比了不同技术路径，探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品，以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。

Google Meta 具身智能多模态

11:50

歸藏(guizang.ai)@op7418

谷歌发布Gemini Intelligence，深度整合AI于安卓系统

谷歌在I/O大会上发布Gemini Intelligence，将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机，并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务（如在备忘录与购物应用间同步清单），以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本，并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件，如定制食谱或特定天气数据组件。此外，全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果，提升视觉体验。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体 Google 产品更新多模态