In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。
一个10岁孩子想创建火箭模拟器等科学应用,却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板:它们擅长在丰富训练数据框架内维护和构建现有模式,但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能(AGI)的局限,指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。
谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外,应用将引入被内部称为“Veo4 Omni”的新模型,并支持Skills技能体系。不过,Gemini Live实时功能目前仍在开发中,尚未可用。
理想汽车为AI眼镜Livis推送1.8.50固件升级,理想同学App同步升级至2.5.0。本次OTA更新新增5项功能,优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车,新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。
群核科技与影石创新于5月18日达成战略合作,共同发布新一代空间重建解决方案。双方融合影石创新的高性能影像硬件与群核科技的3DGS空间重建技术,旨在降低3D内容创作门槛。用户通过影石设备采集影像后,上传至群核科技的Aholo空间智能平台,即可在几分钟内生成可交互的3D数字空间。该技术已在文旅文保、影视制作、游戏开发及空间设计等领域形成应用探索,目标是让空间智能更快融入日常生活。
Meta为旗下雷朋Display智能眼镜推送了Update 125更新,正式全球上线肌电手环手写输入功能。用户通过配套的Meta Neural Band肌电手环,无需接触实体键盘,仅在空中做出书写动作即可实时输入文字,该功能已支持WhatsApp、Messenger等主流应用。本次更新还新增了可录制第一人称视角画面的显示录制功能,并升级了地图导航。
5月18日,豆包 App 在国际博物馆日上线“博物馆讲解”功能,用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式,无需逐次交互。目前,豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆,并与其中5家机构达成深度合作,成为其重磅展览的官方AI讲解员。
Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。
You can now upload entire videos to Grok and have it analyze, summarize, translate, explain scenes, or extract important...
陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心,首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇,以全新视听形式还原经典战役战斗,并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道,连续5天每日播出一集。
LatentUMM 是一个旨在提升统一多模态模型(UMMs)跨模态一致性的框架。研究指出,模型在理解与生成功能间的不一致,根源并非缺乏共享表征,而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段:第一阶段进行双潜在对齐,在模态层面使用更强的嵌入模型施加跨模态语义约束,在容量层面强制双向一致性;第二阶段通过随机潜在展开和偏好优化来稳定潜在动态,以保留更好的语义一致性。实验表明,LatentUMM 在不同架构上均能持续提升多模态一致性。
本文提出SWIM(See What I Mean)训练策略,旨在使模型仅通过文本提示即可实现细粒度对象理解,无需显式的视觉提示(如掩码或点)。研究分析发现,预训练多模态大语言模型(MLLMs)的跨模态注意力存在系统性偏差:属性词在视觉模态产生清晰、局部的激活,而物体名词的模式则较为弥散。为解决此问题,研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明,该方法显著提升了文本-视觉对齐,在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。
OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。
Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族,包含小、中、大三个版本,专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频,并支持修复功能,可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器,能将音频映射至紧凑潜在空间,在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练,模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练,在 H200 GPU 上生成音频耗时不足 2 秒,在 MacBook Pro M4 上仅需数秒。目前,官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。
本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出,其能力提升速度已远超可信框架的构建,通过端到端架构和连续声学信号整合,攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系,并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估,揭示了成熟攻击手段与不足防御之间的严重失衡。为此,报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径,以弥合性能与可信智能间的差距。相关项目已在GitHub公开。
研究提出了ESI-Bench基准,用于评估具身空间智能。该基准基于OmniGibson平台,涵盖10个任务类别,要求智能体主动决策以调动感知、移动和操作能力,在交互中收集证据。实验表明,主动探索显著优于被动观察,但随机多视角采集常引入噪声。研究发现,模型失败主因是“动作盲目”,即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用,但不完美的3D表示会扭曲空间关系,效果反而差于2D基线。人类研究进一步揭示,与人类基于证据修正信念不同,模型倾向于过早做出高置信度决策,暴露了仅靠改进感知或交互无法弥合的元认知差距。
为解决统一多模态模型中视觉理解与生成任务训练脱节的问题,本文首次系统性地探索了生成式后训练方法,并提出“语义生成调优”范式。研究发现,以图像分割为代表的高层语义任务,可作为有效的生成代理,显著弥合理解与生成之间的隔阂;而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义,来对齐和协同多模态能力。机制分析表明,SGT能提升特征线性可分性并优化注意力分配。实验显示,SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。
小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型(VLM)智能体与统一的视频扩散转换器相结合,能够将用户模糊或不完整的编辑请求,转化为结构化的编辑计划,从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体,使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明,Aurora在多项任务上优于仅依赖指令的基线模型,且该智能体具有良好的可迁移性。
研究团队提出了Artifact-Bench,一个用于评估多模态大语言模型(MLLMs)检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系,并在此基础上定义了三项任务:真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明,这些模型在瑕疵感知与推理上存在显著局限,许多模型在挑战性场景中表现接近甚至低于随机水平,且其判断与人类感知偏好存在明显偏差,凸显了其作为通用AI视频真实感评估器的可靠性不足。
作者认为“AI slop”一词无益,人们常因内容由AI生成而愤怒,却未批评内容本身。AI模型如GPT-4、Claude已能生成高质量文本,OpenAI Image 2的图像也逼真难辨。批评应基于实质内容,而非来源;AI生成内容可好可坏,取决于提示、研究等因素。社会需要更多有根据的批评,而非纯粹怨恨。
Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
开发者Dany Bittel通过6660张葡萄宏观照片,利用3D Gaussian Splatting技术训练出仅50MB的高保真3D模型,在手机上即可流畅查看半透明细节。该实验攻克了最难的半透明物体建模,证明技术可轻松应用于手办、珠宝等物品,将3D数字资产创建门槛从专业团队大幅降低至个人。其开发的miqula工具正推动该流程产品化。同时,这也反映了AI工具的普遍悖论:制作demo的门槛急剧降低,但实现稳定生产级应用仍需克服工程化挑战。
说个所有AI创业者都不愿意承认的事实: 现在做一个AI工具的门槛已经降到了地板, 普通人做一个AI工具都只需要一天, 但学会用它干成一件事,却至少得一个月, 感觉像是AI时代的一个悖论😅 5.7M 阅读 23 万点赞的这条推,表面看是游戏...
平台宣布扩展其内容透明工具,旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景,帮助用户识别信息的修改痕迹,提升数字内容的透明度。
World Action Models 旨在解决当前机器人AI的一个根本弱点:传统模型仅学习动作与摄像头图像的匹配,而无法理解动作如何导致世界状态变化。一项新研究梳理了约百篇论文,归纳出两种架构路径。其关键优势在于,这些模型能从不含机器人动作标签的日常视频中学习,而此类数据对传统机器人AI几乎无用。这使机器人具备了在行动前模拟后果的能力。
AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光,计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术,在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓,AI便能据此从零生成精细的游戏画面与内容,可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定,但展现了AI颠覆游戏开发流程的潜力。
Oppo 的 Multi-X 团队发布了开源 AI 代理 X-OmniClaw,该代理可直接在 Android 设备上运行。它整合摄像头、屏幕和语音输入,在真实应用程序中实时处理任务。系统主要依赖本地传感器执行操作,仅将推理任务交由云端计算。用户的操作路径可被克隆为可复用技能,代理下次能通过深度链接直接跳转到应用深层页面,无需重复操作。
小米 YU7 汽车全新配色“火山灰”官图公布,灵感源于晨雾下的火山地貌。该配色采用高纯度灰调设计,叠加纳米级矿物颗粒,呈现细腻而有层次的金属质感,风格沉稳内敛。实车已陆续进店,覆盖全国361家门店。新车计划于5月底正式发布。
Soap2Soap是一个用于系列级长视频重制的多智能体框架,旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性:使用场景感知的JSON剧本作为持久的语义骨架,并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移,并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明,该方法在长程一致性与叙事保真度上显著优于商业视频生成API。
现有研究缺乏对实时双工全模态交互的系统评估。为此,本文提出Omni-DuplexEval基准,包含660个带人工标注的视频,涵盖实时描述和主动提醒两大场景共9个现实任务,所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架,能够联合评估响应内容与时机。实验表明,当前最优模型在主动提醒任务上表现不佳,最佳模型总体得分仅39.6%,揭示了模型在协调响应时机与内容质量方面的核心挑战。
针对视频大语言模型处理长视频时视觉Token激增的瓶颈,本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此,我们提出了LiteFrame,一种高效视觉编码器。其核心是压缩Token蒸馏训练框架,指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示,从而避免冗余计算。结合语言模型适配后,该方案构建了新的延迟-精度帕累托前沿:与基线相比,它将端到端延迟降低了35%,可处理帧数提升8倍,同时在多个基准上提高了视频理解的平均准确率,为固定算力下理解更长视频提供了新途径。
中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。
米哈游创始人刘伟透露,公司计划在未来三年内投入最多1000亿元用于AI基础大模型研发,并称即使失败也当作“放一个大烟花”。他强调,坚定投入算力与规模是打造顶级模型的必要条件。刘伟认为,AI将推动游戏体验走向“完全个性化”,实现“千人千面”,即游戏能实时生成定制内容,为每位玩家提供独特体验。他预计三年内此类游戏将出现,米哈游正朝此方向探索。