QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。
ElevenLabs 发布的新模型支持用户对歌曲的任意片段进行重新生成,且修改过程不会影响该曲目的其他部分。
雷鸟推出两款AR眼镜:主打观影的GT Max采用孔雀光引擎3.0 Max与PWG光学结构,搭载视涯5.5代Micro-OLED双层面板,提供267英寸巨幕体验与1200nits峰值亮度,售价2599元(国补后2209元)。另一款AI拍摄眼镜V4仅重38g,具备IP67防水,首发OG09B方形传感器,支持2.5K画质与11.5小时续航,售价2199元(国补后1869元)。
Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。
关联讨论 1 条X:Runway (@runwayml)腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
雷鸟创新发布雷鸟V4 AI拍摄眼镜,标准版售价2199元,国补后1869元起,5月30日交付。该机型聚焦AI响应速度优化,采用高通骁龙AR1与恒玄BES2800BP双芯架构,引入通义千问模型,AI最快响应0.2秒,较上一代提升超138%。电池容量提升57%,连续视频录制可达约47分钟。影像方面,首次搭载1/2.9英寸、1:1方形传感器OG09B,单像素尺寸2.09微米。防护等级提升至IP67,整机重量约38克。
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
索尼 PlayStation 提交了一项新专利,旨在通过人工智能赋予游戏中的非玩家角色(NPC)拟人化的交互能力。该专利描述了通过麦克风和摄像头捕捉玩家情绪与神态,进而让 NPC 模仿玩家行为与情绪反应的技术方案。此外,专利还提出可利用游戏主播等数据训练 NPC,以复刻特定人物性格。此举是索尼打造高度拟人化 NPC、提升玩家沉浸感的一次尝试,目前英伟达等公司也在进行类似技术研发。
MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。
LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。
本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法,在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性:视觉语言模型在语义与实例任务上更强,而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现,简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示,为构建更强的空间智能骨干模型指明了有前景的方向。
BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。
DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。
现有视频生成方法多依赖文本或首尾帧等稀疏条件,难以精确控制叙事结构与节奏。为此,本文提出SmartDirector框架,通过引入多个关键帧来增强视频生成的叙事能力,支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段:Director-Gen根据关键帧生成低分辨率视频;Director-SR利用高分辨率关键帧作为语义锚点进行超分优化,以恢复细节。为支持训练,构建了从电影中策划单、多镜头序列的数据管道。实验表明,该方法显著优于现有先进方案。
Stability AI 发布了 Stable Audio 3,这是一个用于器乐和音效生成的潜在扩散模型家族。此次发布包含 Small 和 Medium 两个开放权重变体。Small 变体可在 MacBook Pro M4 CPU 上运行,Medium 变体适配 8GB 显存的消费级显卡。两者均采用流匹配、蒸馏预热和对抗后训练的三阶段流水线,以生成 44.1 kHz 的立体声音频。在 BBC Sound Effects 基准测试(5秒片段)中,SA3 Medium 的 FAD 得分为 0.369,优于论文中评估的所有开放权重基线。
[AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...
商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...
Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。
关联讨论 1 条X:Runway (@runwayml)该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。
网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。
网龙与火山引擎达成合作,将底层架构全面上云并率先接入Seedance 2.0 API,依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系,已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一,视频生成模型保障声画同步与角色声线一致,并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程,培训超1万名骨干教师,借助火山引擎全球化部署覆盖190多个国家和地区。
本文提出InstructSAM,一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务,通过在视觉语言模型中注入可学习实例查询,并设计混合注意力机制与SAM3交互,实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明,仅2B规模的InstructSAM在相关基准上取得了优异性能,优于此前的端到端方法和SAM3的智能体流程。
Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。