RAHA(Rank-Aware Hyperbolic Alignment)提出将多模态表示提升到双曲空间,通过非对称目标优化蒸馏对,强制在共享低秩范围内进行测地线对齐,同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题,在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。
RAHA(Rank-Aware Hyperbolic Alignment)提出将多模态表示提升到双曲空间,通过非对称目标优化蒸馏对,强制在共享低秩范围内进行测地线对齐,同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题,在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。
单目深度估计通常将每个像素简化为一个标量深度,忽略同一射线中可能存在的多个几何有效表面。本文引入MultiDepth-3k(MD-3k),一个稀疏双层序数基准,用于测量深度层偏好和多层空间关系准确性(ML-SRA)。在MD-3k上,领先的深度基础模型在标准RGB输入下表现出多样化的层偏好。Laplacian Visual Prompting(LVP)作为一种无需训练的谱输入变换,能显著改变某些冻结模型的层报告。最强的RGB/LVP组合DAv2-L达到75.5% ML-SRA。结果提示深度基础模型可能表达了互补的几何假设,需要以歧义感知的视角重新审视深度监督和评估。
论文提出VG-GUIBench基准,用于评估多模态大语言模型(MLLM)的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索,而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法,联合考虑任务相关性与场景动态筛选信息帧。实验显示,TASKER在EgoSchema全集上超出最优基线2.0%,在NExT-QA数据集上超出1.8%,展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。
iOS 27 Beta 2 固件代码显示新增 SearchPartnerInferenceProvider 组件,其本地化字符串明确提及“Baidu Visual Search”。该组件为第三方视觉搜索及 AI 服务商的基础设施,目前唯一指名的合作方为百度,未来可能按地区提供不同合作伙伴。本次更新还新增 SystemVoiceAssistant 应用,将 Polaris 音频框架独立为守护进程 polarisd,并新增 bluetoothaudiod 进程。固件包含超 4200 个 dylibs 更新、732 个 Mach-O 可执行文件更新及近 300 个 Kernel Extension 更新。
6月26日,Rokid在Rokid Open Day 2026上发布AR眼镜新品,采用空间+AI双摄设计,支持电致变色、6DoF自由度和58° FoV视野。搭载恒玄6nm旗舰芯片、5麦克风拾音及DSP数字音效引擎,首次配备高通骁龙至尊空间计算协处理器(3nm),算力远超Rokid AR Studio、Meta Quest Pro、Pico4等。官方还提及4D高斯泼溅能力,目标两三年内实现空间感知、空间重建与空间理解。
中兴通讯在上海世界移动通信大会推出 AI 智屏 2.0,搭载 4TOPS 算力 AI 芯片、云台摄像头及 433MHz 无线技术,采用电子相框一体化造型与 10.1 英寸全贴合屏幕,支持“小兴小兴”语音助手。通过 360° 红外和 433MHz 无线可语音控制电视、空调等传统家电,集成温湿度与光线传感器实现场景化控制。覆盖智能管家、康养伙伴(多模态 AI 识别)、伴学搭子(AI 家庭教师/扫描同传)、生活助手(智能订票/点外卖)、用网卫士五大场景。
乐奇Rokid在6月26日的Rokid Open Day 2026大会上宣布与微信合作,全球首发AI眼镜微信扫一扫功能。用户佩戴眼镜看向微信收款码,即可一句话完成微信支付。Rokid眼镜此前已支持支付宝AI付,成为唯一适配支付宝、微信支付双平台的AI眼镜品牌。此外,眼镜还支持导航信息显示、解锁共享单车、支付停车费等。同时与高德地图合作推出AI打车智能出行助手,支持一句话打车。
法国 AI 初创公司 Mistral AI 于本月 23 日发布文档内容识别模型 OCR 4,支持横跨 10 个语族的 170 种语言,在 OmniDocBench 上获 93.07 分,输出较 GPT 5.5 Pro、Gemini 3.1 Pro Preview 等更受人类青睐。该模型为小型聚焦模型,输出文本并提供边框、区域分类和置信度评分,支持 RAG 语义分块等下游工作负载。基础 API 定价每千页 4 美元,批处理享 50% 优惠;文档人工智能定价每千页 5 美元。
安全专家lcamtuf购买了一本亚马逊畅销排行第一的AI生成儿童百科全书,发现书中插图出现大量“身体恐怖”缺陷:猫长着人脸、动物与树木融合成脉动的肉团、无头怪物缠绕读者脚踝。这些图片指向美国某头部实验室的旗舰模型生成。作者警告,尽管前沿模型在2025年夏季声称超越博士级智能,但2026年中问世的AI童书仍存在严重质量问题,正在影响儿童认知。当前模型无法保证内容准确性。
PerceptionRubrics 提出基于规则的多模态评估框架,将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则,这些规则源于环形同行评审共识流水线构建的金标准描述,并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制:强制视觉事实失败触发二值惩罚。评估揭示三大发现:①可靠性差距——模型能正确验证碎片化元素,但在严格合取约束下暴露脆弱性;②开源-闭源分层——前沿模型存在 8% 感知差距;③人类对齐严格性——门控指标远超传统基准。
Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。
ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。
两位前 xAI 员工估计,Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容,甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力,填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件,2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候,X 用户持续数周生成真实人物色情图片,xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职,公司正将 GPU 资源出租给 Anthropic。
6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。
MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。
百度于6月22日开源 Unlimited OCR 模型,总参数量30亿,推理时仅激活5亿。模型延续 DeepSeek OCR 架构,编码端采用两级视觉编码并执行16倍 token 压缩,将1024×1024 PDF 图像压缩为256个视觉 token,缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点,冻结 DeepEncoder 后继续4000步,使用约200万份文档在8×16 A800 GPU上完成,单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23(DeepSeek OCR 87.01,DeepSeek OCR 2 89.17),文本编辑距离0.038,公式 CDM 92.61,表格 TEDS 90.93,读序编辑距离0.045;v1.6 得分93.92。GitHub 已获 6.8K Star。
现有美学裁剪基准仅评估事后裁剪,忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench,包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset(13万样本),并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上,ShutterMuse摄影师侧整体性能最佳,主体侧姿态推荐具有竞争力且推理成本更低。
百度推出Unlimited OCR,一个3B参数的MoE模型,推理时仅激活500M参数。其核心创新Reference Sliding Window Attention(R-SWA)将KV缓存大小固定为Lm + n(n默认128),内存和延迟不随输出长度增长。模型基于DeepSeek OCR继续训练4000步,支持32K最大长度,通过DeepEncoder实现16倍token压缩。在OmniDocBench v1.5上整体得分93.23,超出DeepSeek OCR基线6.22分;v1.6得分93.92为最高。Base模式下吞吐达5580 TPS,比DeepSeek OCR提升12.7%,6000 token输出时延迟低35%。适用于整本书转录等场景,代码与权重已在HuggingFace开源。
同一事件,精选展示《无限制OCR:单次长时域解析》谷歌升级 Gemini 3.5 Flash 模型,原生引入“Computer Use”工具,并搭配 Chrome 149 浏览器增强 AI 交互。Chrome 新增“Select from screen”功能,用户可框选屏幕上的图片或文字,直接送入 Gemini 提示词,获得针对性 AI 交互,例如在鞋类网站选中多双运动鞋询问适合的跑步风格。该功能类似 Google Lens,但由对话式 AI 处理。Computer Use 工具使 AI 智能体能在网页、桌面、移动端执行访问网站、填写表单、点击按钮等复杂任务。
多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。
iOS 27 引入独立 Siri 应用,采用聊天机器人风格,用户可在文本框输入发起 AI 聊天,支持上传图片和文件附件、查看历史对话。该应用默认调用 Siri AI,用户需长按输入框并点击“Ask…”按钮,在弹出的选择窗口中手动切换至 ChatGPT。目前仅支持 Siri AI 和 ChatGPT 两个选项,且关闭并重新打开应用后选择会回到 Siri,设置中暂不支持永久将 ChatGPT 设为默认模型。
6月25日,交通运输部等五部门印发《“人工智能+交通运输”典型应用场景创新行动方案》。方案提出开展智能驾驶“端到端”大模型研发与测试,面向公路货运、园区运输等场景推进智能测评技术研发与虚实结合测试场建设。依托公路感知设施,利用多模态大模型提升路网全要素感知,开展交通流态势推演与疏导策略自动生成。鼓励采用视觉大模型、智能机器人实现基础设施智能巡检,推动智能列车与运行控制系统研发,探索公路自由流收费“无感通行”新模式。
DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。
人工智能芯片公司凌川科技近日完成数亿元A+轮融资,由啟赋资本领投,新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起,前身为快手异构计算与芯片事业部,自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片,针对散热、一致性、可靠性等关键问题做了设计,是韬(τ)定律面向互联网数据中心应用的具体呈现。
语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。
流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。
DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。
ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。
视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。
传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。
EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。
市场调查机构CounterPoint Research报告显示,2026年第一季度全球智能眼镜出货量同比增长83%。其中VR眼镜出货量同比下降17%,AR眼镜同比增长136%,无显示智能眼镜同比增长210%。AR眼镜领域,Birdbath/平面棱镜方案份额从82%降至58%,波导方案从18%升至42%。Birdbath市场中RayNeo以41%份额领先,VITURE以34%紧随其后。波导AR市场中Rokid以41%居首,Meta占38%。无显示智能眼镜方面,Meta全球份额升至接近84%。中国市场由小米(含米家)和阿里巴巴引领。
Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对,将转录和翻译合并为一步,传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate,BLEU 领先 gpt-realtime-translate,MetricX 可比。s2s-translate 平均延迟 3.0s,优于 gpt-realtime-translate(3.6s),略逊于 gemini-3.5-live-translate(2.9s)。支持从目录选择输出语音或克隆自己的声音,通过单条双工 WebSocket 传输。
Google DeepMind 宣布,computer use 现作为内置工具集成于 Gemini 3.5 Flash,开发者可构建跨浏览器、移动端和桌面的智能体,实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具,新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练,并可选配两项企业防护系统:要求用户确认敏感操作,以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。
关联讨论 1 条X:Krea AI (@krea_ai)OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。
Mistral AI 推出 OCR 4 模型,专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称,该模型在盲测中有 72% 的测试案例表现优于竞争对手。
荣耀产品线总裁方飞在MWC26上海宣布,荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动(以意图为中心而非应用)、自然交互(声音、手势、眼神等)、主动智能(Agent内核,主动规划/服务/执行)及天生跨端(一脑调度万端,多设备多Agent协同)四大特性。此外,年初发布的“机器人手机”Robot Phone预计今年下半年上市,搭载行业最小的4DoF云台系统,体积比主流方案缩小70%。
6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。