苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能,允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面,并强化专业控制。同时,视觉智能功能将以全新 Siri 形态集成至相机,新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具,分别对应生成式填充、自动优化画质以及调整空间照片构图。
荣耀Robot Phone真机在高通骁友会五周年派对上首次公开亮相,作为全球首款机器人手机。该机顶部集成三轴云台相机,搭载2亿像素传感器,支持AI物体追踪、视频剪辑与实时感知补偿功能,定位为新形态具身智能AI终端。外观为银灰色机身搭配拉丝边框,背面印有“α”Logo,此前已在MWC 2026展会展示。据悉,该机将于2026年第三季度正式上市。
Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间,实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化(PNO)模块。实验表明,VCF 能从参考图像转移风格、构图和调色板等视觉属性,同时遵循文本提示。定量结果显示,其文本对齐度(CLIP 分数)与视觉相似度(LPIPS)之间存在权衡,但在参考保真度上优于基线方法。
为突破个人智能体静态文本交互的瓶颈,生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型,旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作,用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库,引入A2UI-Bench评测基准,并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分,超越了全schema前沿基线。模型、基准与评测协议均已开源。
针对图像描述生成强化学习中的奖励粒度不足问题,提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述,多模态评判器枚举两者间可验证的视觉声明差异,分配错误类型与严重程度,并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明,该框架在多个基准上改善了事实性与覆盖率的平衡,在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。
SMART是一个框架,旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互,实现即插即用的性能提升。研究表明,SMART能提升包括最先进模型在内的多模态检索性能,在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力,还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
Andrej Karpathy 认为,下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式:原始输入直接由神经网络处理,通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅,而未来神经网络可能成为主导进程,传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物,未来交互可能不再是静态应用,而是由神经系统根据即时情境生成的动态界面。
Google发布了新款Gemini AI模型,其核心特点是能跨模态处理“万物到万物”的生成任务,例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验,展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识,即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及,同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。
Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...
OpenAI于5月23日宣布为ChatGPT新增“AI填表”功能。用户上传表单图像后,可通过语音或文字指令描述需填写内容,系统将自动识别表单字段并完成信息补全。该功能整合了图像理解、语音交互与内容生成技术,实现“对话式”自动填写。目前输出为静态图片而非可编辑文档,且对上传文件清晰度有一定要求。
NVIDIA 发布 Nemotron-Labs Diffusion 系列,含 3B、8B、14B 文本模型和 8B 视觉-语言模型(VLM),均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散(逐块并行生成后逐步精炼)和自推测(扩散草拟候选 token 再自回归验证)三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%,扩散模式每次前向传递的 token 数(TPF)达自回归的 2.6 倍,自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调,代码与模型已发布于 HuggingFace 和 GitHub,推理将获 SGLang 支持。
谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于,黑盒模型可能自信、看似合理地发出动作,但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展,指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。
论文建立了针对遥感组合图像检索(RSCIR)的统一基准评测框架。研究在PatternCom数据集上,系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时,引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明,无需训练的组合方法可作为遥感图像检索强健且可扩展的基线;而以变化为中心的检索任务,因需保持场景身份不变,带来了与基于属性检索不同的挑战。
翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距,常忽视识别多样字符形态所需的细粒度视觉细节,导致在此任务上表现不佳。为此,本研究提出VaaWIT框架,它通过双流注意力模块实现多语义特征与视觉细节的双向交互,并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明,该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型,性能可与闭源模型相媲美。
现有视觉语言模型框架主要在离线场景下评估性能,但实时视觉助手所依赖的流式模型还需考量额外指标,如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此,研究团队提出了VSAS-Bench,这是一个新的评估基准,专门针对流式视觉语言模型在实时交互任务中的表现,填补了当前评估方法在动态、持续生成场景下的空白。
Salesforce已采用无头架构,允许销售人员通过AI直接更新数据,许多公司正通过MCPs跟进。同时,AI专家们正推动超越纯文本、更丰富的界面(如HTML),支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端,而是支持多种可塑化界面(如音频、网页)。未来软件的核心价值在于动态管理这些界面、确保其准确性,并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失,而是变得“可塑”,能按需变形。
Google展示了运行Android XR操作系统的原型智能眼镜,该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进,其核心在于将实时AI处理能力与日常视觉场景深度融合。
针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置,难以跨设备迁移的挑战,本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真,在身体表面密集采样生成多样合成信号,用于预训练图编码器。随后,将多位置IMU信号转化为全身运动标记,并与大语言模型对齐以理解运动语义。实验表明,AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升,证明了其作为野外可穿戴运动理解通才模型的潜力。
为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题,研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE,整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上,基于多模态大语言模型,提出了两大核心模块:一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器;二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明,该方法在U-FIRE上取得了最先进性能,并能稳健泛化至未见任务。相关代码与数据已开源。
5月22日,松延动力开发的全球首款眼神交互仿生人“小月”(型号X-Head 1)在京东拍卖平台成功拍出,经过49次出价,最终成交价为110790元,高于其9.9万元的官方定价。该仿生人采用人头造型,重7.5公斤,拥有24个自由度,可实现眼神、口型、情绪等多模态交互对话。
Codex just launched one of the coolest features - Appshots. by pressing both CMD keyboard buttons, context of whatever a...
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
OpenAI于5月22日以Beta版形式推出ChatGPT for PowerPoint插件。用户安装插件并登录后,可在PowerPoint内直接使用自然语言指令,让ChatGPT生成新幻灯片、改写或润色现有内容。该工具还能分析现有演示文稿,识别内容缺口并推测可能被提出的问题。为确保可控性,系统在执行重要修改前会请求用户确认。测试版已向全球所有ChatGPT账号开放,免费用户也可使用。
关联讨论 4 条X:Testing Catalog (@testingcatalog)X:ChatGPT (@ChatGPTapp)X:Greg Brockman (@gdb)X:小互 (@xiaohu)网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。
字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。
针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足,本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件:多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外,系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明,该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。
SpaceDG是首个大规模退化感知空间理解数据集,包含约100万个问答对,源自近1000个室内场景。其核心是物理基础的退化合成引擎,能将退化过程嵌入3D高斯泼溅渲染,真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题,覆盖11类推理任务。对25个模型的评估揭示,视觉退化会严重损害空间推理能力。研究表明,在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性,性能甚至可超越人类,且不影响其在清晰图像上的表现。
当前多模态大语言模型在音视频联合推理中存在局限,因其将连续信号压缩为离散文本,损害了时序定位能力。为此,研究提出LatentOmni框架,构建统一的潜在空间以保留密集的感官信息,并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征,并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时,构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明,LatentOmni在多个基准测试中取得了开源模型的最佳性能,并优于显式文本链式推理基线。