6月16日,第四届深圳国际眼镜业博览会暨2026全球人工智能眼镜展在深圳会展中心开幕。深圳市AI眼镜产业联盟表示深圳有望在全球智能穿戴领域树立新标杆。深圳已发布首个AI眼镜行业标准,联盟联合中国信通院泰尔实验室及乐奇、千问、雷鸟等20余家企业,分阶段推进标准制定,计划率先发布团体标准。深圳拥有芯片、传感器等完备产业链,全球每两副高端眼镜中一副产自深圳,龙岗区年产眼镜超1.25亿副,全球每七副高端眼镜中一副诞生于龙岗。
MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。
We just shipped a faster, more fluid photo attach experience in ChatGPT! The attach menu now transitions smoothly into t...
通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)PermaVid提出一种多模态上下文记忆框架,将空间上下文解耦为语义外观与几何结构,分别存储于RGB上下文记忆和深度上下文记忆。结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测对齐。在编辑操作修改场景外观或布局后,该框架仍能保持生成视频在时间与视角上的长期语义与结构一致性,显著超越现有方法。
Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码,并采用独立扩散解码器将扩散解码与文本解码解耦,以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构,利用生成与理解数据的相互依存关系。实验结果显示,视觉生成任务 GenEval 得分 0.87,DPG 得分 86.9;多模态理解任务 MME 得分 1699.5,SEEDbench 综合得分 76.5。
TuneJury 是一个开放的实例级成对奖励模型,从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练,涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好,支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准,优于先前基线。引入 anchor calibration(事后、每系统的 Bradley-Terry 校准),以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。
BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。
VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。
本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。
MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。
SR‑REAL 为空间 VLM 配备两条互补推理路径:纯语言推理(LOR)和检测后推理(DTR)。LOR 执行逐步语言演绎,DTR 先通过区域 token 检测 3D 几何线索(中心点或边界框),再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督,随后用准确率和格式奖励进行强化学习优化,DTR 额外使用基于离散中心的检测奖励。在多个空间基准上,SR‑REAL 显著优于基线:单个 RL 训练模型支持两种路径,联合训练实现互相增强,且模型无需调优即可跨数据集和领域泛化。
GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。
Can AI find the monkey business in your dataset?
GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...
MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。
MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》今年四月,Loft Orbital的Yam-9卫星在轨首次完成自主目标识别——无需地面分析师干预。卫星搭载NASA JPL开发的NAVI-Orbital软件包和Google DeepMind的Gemma 3视觉语言模型,配合Nvidia Jetson Orin AGX GPU运行。模型可根据自然语言查询分类传感器数据,例如识别城乡交界或铁路枢纽周边基础设施。这一里程碑证明VLM可在资源受限的太空边缘设备上执行数据预处理,减少下行数据量。Loft Orbital AI负责人表示,该技术为“太空全天候巡逻”铺平道路,计划部署50–100颗类似卫星实现全球实时覆盖。
Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。
Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...
理想在 Livis Day 发布会上宣布,马赫 Mind-Pro 模型已全面落地应用于 L9 Livis 车载智能系统。该模型在 IFEval、LongBench-v2 等评测中稳居行业第一梯队,并在 Token 生成速度等商业维度实现可量产。采用多模态流式时序建模,能连续理解动态物理世界,具备因果推理和自主决策能力。经大量车载行为特化训练,可直接输出动作并调用车辆硬件。Always-on 全天候主动感知等多模态问答能力均在车端本地完成,数据不上传。
赛力斯集团董事、副总裁康波今日通过视频展示人形机器人“小赛”,该机器人具备视觉识别、主动打招呼和语音互动能力。康波透露,更多种类具身智能机器人在筹备,今年内亮相。赛力斯超级工厂已配备地空一体物流、具身智能AI检测机器人“小赛01”“小赛02”等多款机器人,拥有1600+台智能化设备、3000+台工业机器人及完整数字生态系统。去年10月,赛力斯凤凰与字节火山引擎签署具身智能合作协议,重庆凤凰技术有限公司于去年3月成立。
昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。
自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。
ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。
提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。
TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。
科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。
微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。
昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架,并首次公布Matrix-Game 3.5核心技术:从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,记忆机制采用三维空间块匹配替代历史帧拼接,并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。
长安汽车总经理赵非在2026中国汽车重庆论坛上透露,蓝鲸超擎混动已量产,天枢智能66项功能批量上车。蓝鲸超擎动力首发500bar超高压直喷混动发动机,热效率近45%,电机效率突破98%,最高转速20000转/分钟,电池放电功率80kW,电机最大功率180kW。自研辅助驾驶系统“天枢领航”分三版:Pro标配激光雷达,提前2秒识别障碍物,响应快150毫秒;Max基于超2000万条人驾数据训练,通勤效率提升20%;Ultra搭载VLM大模型,未来推出驾驶员失能主动守护。
Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production
Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production
SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。