WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
消息称,谷歌正与三星晶圆代工部门洽谈生产其自研 TPU 芯片。目前谷歌第七代 Ironwood TPU 超 60% HBM 由三星提供。内部人士透露,谷歌推进代号“冰鱼”的 TPU v10,其计算引擎仍由台积电代工,而内存 I/O Die 可能交由三星 2nm 工艺生产。TPU 性能与英伟达 H100 相当,成本降低约 80%。双方尚未签署正式协议。
FASTMIX是一个自动化数据混合发现框架,只需训练单个代理模型,即可通过梯度下降联合优化混合系数和模型参数。该方法将混合选择重新表述为双层优化问题,将混合系数嵌入可微的迭代优化目标中,交替更新模型参数和混合比例。在预训练和后训练场景中,FASTMIX均优于基线方法,同时大幅降低搜索成本。
ViT-Up提出隐式特征上采样框架,利用中间ViT隐藏状态构建逐层查询,替代外部图像引导,可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上,ViT-Up一致优于现有图像引导上采样方法:在DINOv3-S+骨干上,Cityscapes提升+2.07 mIoU,SPair-71k提升+4.17 PCK@0.10;在DINOv3-B骨干上,提升分别达+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up随骨干容量增长性能更优。
AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。
APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。
Xebia全球CTO Niels Zeilemaker指出,为组织引入AI智能体加速流程必须从数据基础着手——让数据可供AI消费。Agentic AI的规模取决于数据强度,忽视这一点将无法推进。
ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。
千问上线首个足球预测AI助手,基于海量大数据(含历史比赛、球员数据、伤病、美加墨地貌及天气等)。以6月22日挪威对塞内加尔为例,预测“1:1平局”,理由为气候差异。活动:参与全部104场竞猜,预测超80场且准确率超千问可抽万元大奖(100个名额);预测超32场可抽千问AI眼镜G1(1000副),该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场,目标至少50所。
精灵宝可梦GO的扫描功能被用于训练军用无人机的导航技术。该游戏通过玩家提交的地理位置和扫描数据,帮助优化无人机在复杂环境中的自主导航能力。
SK集团会长崔泰源接受《日本经济新闻》专访称,若建设计划顺利,SK海力士晶圆产能到2034年将是当前三倍。SK集团计划于2028~2029年在日本建成AI工厂数据中心,正寻找GW级电力供应位置。崔泰源称日本半导体生态系统良好,是韩国外建晶圆厂的理想候选地之一,但当下非决策时机。SK与铠侠存在竞合关系,希望人员、研发和生态合作;对Rapidus随时准备合作。崔泰源认为AI技术仍处早期,当前投资多来自企业端,未来个人AI智能体将带动算力需求提升。
Omdia报告,2026年第一季度半导体营收环比增长27%至3190亿美元,创2002年以来最大季度增幅。存储器是主要推手,环比增幅超80%;其中NAND营收近480亿美元,环比增长96%,平均售价大涨95%。DRAM和NAND合计占半导体总营收40%以上,远高于长期平均。非存储器类仅环比增长略超2%。受AI需求及供应受限推动,预计第二季度环比增速仍将超20%。
MoE模型中路由器矩阵的每一行作为专家代理,通过计算与输入的相似度来决定激活哪些专家。理想情况下,每一行应编码对应专家矩阵的主奇异方向,使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法,采用“Power-then-Retract”范式:先在路由器权重上执行幂迭代步骤,再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。
大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
一群独立音乐人起诉谷歌,指控其未经许可用YouTube上传歌曲训练Lyria 3模型。谷歌提交驳回动议,辩称用户上传时已授予广泛许可,即便指控属实也不成立。谷歌拒绝评论是否用YouTube视频训练Lyria 3,但YouTube CEO 2024年4月称内容用于训练Gemini等模型,官方博文也确认用上传内容优化产品。谷歌还向CNBC证实使用YouTube内容训练Gemini和Veo,却始终未对Lyria明确表态,刻意保留辩解空间以应对诉讼。
LingxiDiagBench是一个多智能体基准框架,基于LingxiDiag-16K数据集(16,000个EMR对齐的合成咨询对话,覆盖12个ICD-10精神疾病类别),评估LLM在静态诊断推理和动态多轮中文精神科咨询中的表现。实验发现:LLM在二元抑郁-焦虑分类上准确率达92.3%,但抑郁-焦虑共病识别仅43.0%,12类鉴别诊断仅28.5%;动态咨询表现常低于静态评估,表明信息收集策略不足损害诊断质量;LLM-as-a-Judge评估的咨询质量与诊断准确性仅呈中等相关。数据集和框架已开源。
在线策略蒸馏(OPD)结合智能体在线轨迹与密集教师监督,分析发现其更新幅度小且坐标稀疏,分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能;但密集监督保留异质梯度尺度,SGD逊于AdamW。几何上更新满秩但谱集中,主要偏离源权重主奇异子空间,落在源权重近零的坐标上。
研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
一群独立音乐人起诉谷歌,指控其未经许可使用他们上传至 YouTube 的歌曲训练 Lyria 3 音乐 AI 模型。谷歌提交驳回动议,称起诉基于“未经证实的假设”,即便原告指控属实,其已通过 YouTube 服务条款获得广泛授权。案件仍在审理中。
现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
Anthropic 发布首个 Mythos 级 AI 模型 Claude Fable 5。微软随即因 Anthropic 新的数据保留要求,限制内部员工使用该模型。微软已迅速将 Claude Fable 5 提供给 GitHub Copilot 和 Foundry 客户,但内部员工使用的 GitHub Copilot 模型选择器中未包含该模型。微软内部仍可访问其他 Claude 模型,因其受零数据保留(ZDR)规则约束。
Google更新搜索交互数据保存方式,新增“Search Services History”设置,用于保存用户搜索时使用的图片、文件、音频和视频,包括Google Lens搜索的图片、实时搜索工具Search Live的录音、语音搜索和Translate中的语音片段。这些数据将被用于“提供、改进和开发AI模型”。用户可关闭该设置并禁用“Save Media”选项以避免保存。
新研究表明,AI记忆系统会降低模型性能,并助长谄媚倾向——模型更倾向于迎合用户观点而非给出客观答案。该发现对当前普遍采用记忆功能的AI助手(如会话式AI)提出警示,但未披露具体实验细节或评测基准。
华纳音乐集团(WMG)收购 AI 归属技术公司 Sureel AI,用于追踪其艺人作品在 AI 生成内容或模型训练中的使用情况。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
Jedify 完成 2400 万美元融资,由 Norwest 领投,S Capital VC、Cerca Partners、Oceans Ventures 及战略投资者 Snowflake Ventures 参投。该公司致力于帮助企业为其 AI 智能体提供业务上下文信息。
AWS Bedrock 要求用户与 Anthropic 共享数据,以支持 Mythos 模型及未来模型。该规定旨在为 Anthropic 后续模型训练提供数据基础,影响所有通过 Bedrock 使用 Anthropic 模型的用户。
现有深度学习模型在分布偏移下进行PET图像去噪时性能严重下降,根源在于固定参数范式无法适应测试数据的剂量水平或扫描仪类型变化。本文提出U-TTT,一种集成测试时训练(TTT)层的U形模型,通过自监督在推理时动态调整参数以适应每个测试实例的特征。U-TTT包含空间TTT(S-TTT)层和频率TTT(F-TTT)层构成的双域自适应机制,分别校正空间结构退化并抑制全局噪声频谱、恢复高频细节。实验表明,U-TTT在未见剂量水平和扫描仪类型等挑战性分布偏移下达到SOTA去噪性能与泛化能力。
千问今日上线国内首个全周期高考志愿填报Agent,基于千问高考志愿大模型和夸克8年高考数据,免费为全国考生提供服务。该Agent具备“志愿日历”“志愿报告”“志愿问答”三项核心能力:志愿日历根据选科、估分等信息量身定制分步骤规划;志愿报告今年升级,可捕捉细节需求、实时调整并具备自我检查机制;志愿问答融合位次法定位等专家经验。同时开展“暖芒公益”计划,针对老旧机型与弱网环境进行优化。
关联讨论 1 条公众号:千问APP(阿里)Meta 当地时间本月 9 日宣布,将利用外部企业与其分享的用户信息,在旗下社交平台上构建个性化内容,涵盖信息流、AI 回复和广告。例如用户在某电商平台购买帐篷后,可能会看到更多关于露营的 Reels 短视频。Meta 表示本次更新不会额外收集用户数据(数据来自第三方),用户仍可控制 Meta 利用外部数据个性化体验的方式。
教程以 NVIDIA Nemotron-Pretraining-Code-v3 数据集为大规模元数据索引,采用流式方式而非完整下载,检查数据集 schema 并构建可管理样本。通过分析编程语言、文件扩展名、仓库频率及目录深度来理解索引结构,随后重构原始 GitHub URL 以获取真实源代码文件,并利用 tiktoken 估算所获代码的 token 规模。
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。