Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。
Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。
Apple于2026年5月19日发布由Apple Intelligence支持的一系列新辅助功能。这些特性旨在通过机器学习技术,为残障用户提供更智能的语音导航、视觉辅助以及个性化交互体验。该消息在Hacker News平台获得119点热度,显示出科技界对人工智能在无障碍技术中应用的关注。此次更新进一步展现了Apple在提升设备可访问性与包容性设计方面的持续投入。
5月19日,苹果宣布将于今年晚些时候推出一系列基于Apple Intelligence技术的无障碍功能。核心更新包括:为旁白、放大器、语音控制和无障碍阅读器新增AI图像描述、自然语言操作及复杂文档处理能力;新增可离线生成视频实时字幕的功能(初期限美加地区英文)。同时,将利用Vision Pro的眼动追踪技术为残障人士新增操控电动轮椅的方式。此外,还公布了一系列轻量化新功能,如Vision Pro的车辆防晕眩模式、面部控制等。上述所有功能预计随今年秋季的iOS 27等全新系统一同推送。
正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用,利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错,而AI接管后,几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台,提供超过30项分析(如Steiner、McNamara),其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具,使更多正畸医生能轻松获得精准分析能力。
Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:
苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜(Magnifier)和语音控制(Voice Control)功能引入了新的能力,旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。
针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。
联想发布天禧 AI 4.0 版本,该系统从“被动调用”转向“自主执行”。新版本推出天禧 Claw,其搭载 1.7B 多模态记忆模型,支持本地化部署的“仿生记忆”功能,可实现情景、语义及程序记忆。同时,新增个人知识库功能,可整合 PDF、音视频等多类型原始文档,结合知识图谱构建高效知识系统。此外,联想还推出了模型广场、智能体广场及 Skills 技能广场,支持用户上传与共享技能。
NVIDIA CEO 黄仁勋指出,AI已成为每份工作的基本工具。推文作者以自身实践为例,为应对健康与效率焦虑,利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报,甚至调用其他AI绘制动作示意图,无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手,也提醒在追赶技术浪潮时,不应牺牲身心健康。
腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。
🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...
本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。
一颗葡萄的3D模型在社交平台X上引发热议,一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练,生成仅43万高斯点,压缩后模型小于50MB,实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通,则更简单物体皆可数字化”的逻辑,展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程,为手办、珠宝、文物等领域的数字资产化指明了方向,开发者正通过工具miqula将此流程产品化。
Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...
Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9
视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。
阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。
CodePilot展示了强大的个性化能力,能通过用户频繁使用PPT功能的行为,学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中,使生成的可视化内容自动适配用户喜好,提升了内容的个性化与美观度。
本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
On our way to I/O 2026. See you at 10am PT tomorrow!
奥德赛实验室推出Agora-1,这是全球首个实时多agent世界模型,允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景,提供可玩研究预览,用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变,长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域,使人类从旁观者变为与AI共同生活的参与者。
Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...
On our way to I/O 2026. See you at 10am PT tomorrow!
Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。
Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...
Gemini
本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。
本研究基于强柏拉图表征假说,旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据,提出一种自监督编码器,从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现,这些独立学习的空间可以通过无监督的正交旋转,在不同被试间实现直接转换,无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后,跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据,表明个体的fMRI表征在不同人之间近似等距,并可通过纯几何变换进行转换。
ClinSeekAgent 是一个自动化代理框架,旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限,即可通过查询知识库、导航电子病历及调用影像工具动态收集证据,并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性,在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外,ClinSeekAgent 作为训练管道,可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B,使其在基准测试中F1平均达到34.0,较基线提升11.9分,性能接近Claude Opus 4.6。
研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。
本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。
字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台,预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中,Max-Preview 在文本领域综合排名第 13,细分领域数学排名第 7,专家级应用与软件 IT 均位列第 9;Plus-Preview 在视觉领域综合排名第 16。据此,阿里通义千问在文本实验室榜单中排名第 6,视觉榜单中位列第 5。
At the recent @OpenAIDevs Founder Day, I had fun chatting about how we use OpenAI's capabilities to scale scientific int...
Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。
阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...