22:27

The Decoder：AI News（RSS）

Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1，该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证，其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为，这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布

21:56

Hacker News 热门（buzzing.cc 中文翻译）

由 Apple Intelligence 驱动的全新辅助功能

Apple于2026年5月19日发布由Apple Intelligence支持的一系列新辅助功能。这些特性旨在通过机器学习技术，为残障用户提供更智能的语音导航、视觉辅助以及个性化交互体验。该消息在Hacker News平台获得119点热度，显示出科技界对人工智能在无障碍技术中应用的关注。此次更新进一步展现了Apple在提升设备可访问性与包容性设计方面的持续投入。

产品更新多模态

21:53

IT之家（RSS）

苹果依托 Apple Intelligence 推出一批无障碍新功能，年内上线

5月19日，苹果宣布将于今年晚些时候推出一系列基于Apple Intelligence技术的无障碍功能。核心更新包括：为旁白、放大器、语音控制和无障碍阅读器新增AI图像描述、自然语言操作及复杂文档处理能力；新增可离线生成视频实时字幕的功能（初期限美加地区英文）。同时，将利用Vision Pro的眼动追踪技术为残障人士新增操控电动轮椅的方式。此外，还公布了一系列轻量化新功能，如Vision Pro的车辆防晕眩模式、面部控制等。上述所有功能预计随今年秋季的iOS 27等全新系统一同推送。

产品更新多模态端侧

21:01

Berryxia.AI@berryxia

正畸医生出品：AI几秒搞定头影测量，颠覆传统流程

正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用，利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错，而AI接管后，几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台，提供超过30项分析（如Steiner、McNamara），其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具，使更多正畸医生能轻松获得精准分析能力。

Alberto: Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:

产品更新多模态

20:07

Apple：Newsroom（RSS）

精选57

苹果发布全新辅助功能，并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜（Magnifier）和语音控制（Voice Control）功能引入了新的能力，旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由：Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助，是不错的方向，但全是远期承诺，现在还不能上手。

20:01

HuggingFace Daily Papers（社区热门论文）

MementoGUI：面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题，本文提出了MementoGUI框架。它是一个插件式智能体记忆框架，为基于MLLM的GUI代理配备了学习型控制器MementoCore，无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题，通过工作记忆保存文本摘要与视觉证据，并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子，并开发了相应的数据构建流程与评估基准。实验表明，该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究

19:52

IT之家（RSS）

联想发布天禧 AI 4.0 版本：引入 Claw"养虾"能力、个人知识库、Skills 技能广场…

联想发布天禧 AI 4.0 版本，该系统从“被动调用”转向“自主执行”。新版本推出天禧 Claw，其搭载 1.7B 多模态记忆模型，支持本地化部署的“仿生记忆”功能，可实现情景、语义及程序记忆。同时，新增个人知识库功能，可整合 PDF、音视频等多类型原始文档，结合知识图谱构建高效知识系统。此外，联想还推出了模型广场、智能体广场及 Skills 技能广场，支持用户上传与共享技能。

产品更新多模态端侧

19:01

Berryxia.AI@berryxia

10分钟训出AI健身教练，黄仁勋的预言正在照进现实

NVIDIA CEO 黄仁勋指出，AI已成为每份工作的基本工具。推文作者以自身实践为例，为应对健康与效率焦虑，利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报，甚至调用其他AI绘制动作示意图，无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手，也提醒在追赶技术浪潮时，不应牺牲身心健康。

智能体多模态教程/实践

16:00

Berryxia.AI@berryxia

腾讯开源Chronicles-OCR基准：评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准，旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变，涵盖从甲骨文到草书的7种历史字体，包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示，面对历史字体带来的视觉分布漂移，大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究

13:56

HuggingFace Daily Papers（社区热门论文）

Code-as-Room：通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room，一个基于多模态大语言模型的智能体框架，旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码，通过多阶段流程解析图像中的空间关系，并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题，引入了跨阶段记忆模块。此外，研究还建立了专用的代码式3D房间合成基准测试，实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究

13:50

AYi@AYi_AInotes

葡萄3D模型在X平台爆火：4800赞背后的3DGS技术突破

一颗葡萄的3D模型在社交平台X上引发热议，一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练，生成仅43万高斯点，压缩后模型小于50MB，实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通，则更简单物体皆可数字化”的逻辑，展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程，为手办、珠宝、文物等领域的数字资产化指明了方向，开发者正通过工具miqula将此流程产品化。

AYi: Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...

多模态现象/趋势端侧

12:55

HuggingFace Daily Papers（社区热门论文）

Incantation：自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型，采用自然语言作为动作接口，实现每潜变量帧（0.25秒）的精细控制。它支持同时多实体操控与概念级跨实体迁移，突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制，并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中，准确率达89%，大幅超越Action-Index基线的43%；词表外提示准确率为9

多模态视频论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

StableVLA：无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此，本文提出一种基于信息论的轻量级适配器模块（IB-Adapter），能从视觉输入中选择性过滤噪声，且无需额外数据或增强策略。该适配器以少于1000万的额外参数，平均提升性能30%。实验表明，即使骨干网络参数仅为0.5B（较现有7B模型小14倍），StableVLA在合成与真实视觉损坏场景下的长时程任务中，仍能达到与大模型相当的鲁棒性，并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由：VLA 模型在真实世界一遇到光照遮挡就崩，这篇用信息瓶颈原理做的轻量适配器，不加数据就拉回 30% 性能，还用 0.5B 小模型打平 7B，做机器人落地的团队值得看看。

12:44

Alibaba Cloud@alibaba_cloud

阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者，阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持，构建AI原生创作所需的弹性、安全与智能云平台，助力新一代创作者加速创新。

多模态行业动态视频

11:59

歸藏(guizang.ai)@op7418

CodePilot学习用户风格并自动调整UI生成样式

CodePilot展示了强大的个性化能力，能通过用户频繁使用PPT功能的行为，学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中，使生成的可视化内容自动适配用户喜好，提升了内容的个性化与美观度。

智能体产品更新多模态

11:51

HuggingFace Daily Papers（社区热门论文）

Lance：基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance，支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖，探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则：统一上下文建模与解耦能力路径。Lance从头训练，采用共享交织多模态序列的双流专家混合架构，并引入模态感知旋转位置编码以减少异构视觉标记间的干扰，增强跨任务对齐。训练采用分阶段多任务范式，结合能力导向的目标与自适应数据调度。实验表明，Lance在图像与视频生成任务上显著优于现有开源统一模型，同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究

11:10

Alibaba Cloud@alibaba_cloud

🚀🚀Qwen3.7预览版登陆竞技场！ ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了！敬请期待！@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

11:10

Alibaba Cloud@alibaba_cloud

阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中，Qwen3.7 Max Preview在文本竞技场总排名第13，使阿里在该平台位列第六；在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外，Qwen3.7 Plus Preview在视觉竞技场排名第16，阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布

11:04

Tencent Hy@TencentHunyuan

精选72

开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程，包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务，旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由：腾讯混元开源的视觉感知基准，专攻古汉字识别，覆盖从甲骨文到草书的三千年演变，做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。

10:59

歸藏(guizang.ai)@op7418

谷歌新视频模型的演示表明其可能具备视频编辑功能，引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关，Sundar Pichai推文预告会议将于明天10am PT举行，预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 产品更新多模态视频

10:56

Berryxia.AI@berryxia

卧槽~这个可以啊！其实Apple Vision Pro就是通过追踪眼球来控制，类似你的眼球就像移动的鼠标指针，你的手部捏合的动作就是鼠标点击的动作。这个直接搞到显示器上有点意思！

多模态现象/趋势

09:56

Berryxia.AI@berryxia

精选76

首个实时多agent世界模型发布，人类可与AI同屏互动

奥德赛实验室推出Agora-1，这是全球首个实时多agent世界模型，允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景，提供可玩研究预览，用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变，长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域，使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由：Odyssey把世界模型推进到了多人实时交互，可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力，做游戏和模拟的人得上去打两把。

09:26

meng shao@shao__meng

推文疑似展示或讨论了Veo 4的视频生成能力，重点提及了视频续写、不同特效切换等效果，以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告，暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 多模态行业动态视频

08:56

Berryxia.AI@berryxia

Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1，这是全球首个实时多模态世界模型。该模型不仅能生成视频画面，还能同步生成与之匹配的声音，实现了视觉与听觉的真正融合，模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同，Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步，旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音

08:49

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google 图像生成多模态模型发布