大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。
大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。
研究表明,强化学习后训练本身即可提供有效的步骤级评分信号,无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势,即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关,且是标准RL后训练管线的副产品。在五个基准和四个模型族上,进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线,甚至超越专门训练的奖励模型。
维基百科联合创始人吉米·威尔士表示,尚不信任AI直接参与词条编辑,因为模型“幻觉”问题依然非常严重。不过AI可用来提醒编辑社区关注小众新闻。他指出,各AI平台依赖维基百科内容导致AI机器人访问量上升,人类用户访问量下降8%,并呼吁AI公司承担服务器费用,已开始封锁不守规矩的平台。
ShotcreteDepth是一个来自建筑领域的双模态数据集,包含立体RGB图像与LiDAR点云,采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件(高浊度、低光照)下获取,导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成,其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。
YC CEO Garry Tan 指出 Dropbox 不支持大于 3TB 的套餐已过时,AI 产生的“实际可用”数据将指数级增长。核心变化:数据从人创造变为“人+AI 共同创造”,一次 agent 工作流就能生成大量结构化高质量数据;存储价值从容量转向管理智能(语义搜索、向量数据库等);AI 将边际成本打至极低,反而催生更多高质量数据。重度用户(开发者、研究员、创作者)将最先撞上 3T 天花板并迁移。作者认为这是给创业者的信号:谁能替个人和小团队接住可用数据爆炸,谁就能抓住下一波工具浪潮。
Dropbox should really support larger than 3TB plans - it's not 2015 anymore. The amount of data we are throwing off and ...
本文标题为《人工智能的可负担性危机》,指出当前人工智能领域的成本持续攀升,已引发业界对可负担性的广泛担忧。该文章出自 blog.dshr.org,并在 Hacker News 上获得 100 个点赞。随着 AI 技术的推进,成本问题正成为制约其普及的关键因素,文章的核心观点围绕这一危机展开讨论。尽管原文未提供具体数据,但标题本身已点明了 AI 成本持续上升所带来的紧迫挑战。
every infra piece you need to know to do RL on GLM-5 https://www.primeintellect.ai/blog/rl-at-1t-scale
New lecture for the book! Nominally about synthetic data, but mostly is a walk through of the distillation literature fr...
Nathan Lambert 为其新书发布讲座(7.4 小时),名义上关于合成数据,实则系统梳理知识蒸馏文献——从 Hinton 2015 年论文到现今主流的 on-policy 蒸馏(OPD/MOPD/OPSD)。他重点分析了使 on-policy 蒸馏落地所需的 3-4 个核心数学改动。讲座还回顾了合成数据逐步取代后训练数据研究的历史,并介绍了 Constitutional AI、rubrics 等流行方法。提供章节时间戳(00:00–45:50)。
在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。
据 ISC 高性能大会最新 TOP500 排名,英伟达技术为全球 500 台最快超算中的 400 多台提供支持,占比 81%。其中英伟达 GPU 用于 238 台,网络连接技术用于 376 台(多数依赖 NVIDIA Quantum InfiniBand,其余用以太网)。26 台顶级超算采用英伟达 Grace CPU(增加 8 台),Grace CPU 出货量接近 250 万个。Green500 最节能超算排名中,前八名全部搭载英伟达 GPU,前十名中九台用英伟达技术。榜首是法国图卢兹大学的 NVIDIA Grace Hopper 系统 KAIROS,每瓦 73.3 gigaflops。
在今日FORCE大会媒体沟通环节,火山引擎总裁谭待回应称暂无单独拆分上市计划,字节现阶段重心聚焦豆包大模型、Seedance视频生成及企业AI原生架构落地。截至2026年6月,豆包大模型日均tokens调用量达180万亿,较发布时增长超1500倍。同日火山引擎发布豆包大模型2.1系列:Pro旗舰模型每百万tokens输入6元、输出30元、缓存命中1.2元;Turbo模型能力相近,价格减半。
Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率,超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据,并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据,使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。
训练开放模型实现可靠手机操控面临真实设备慢、难重置,模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案:先共享监督微调,再对比真实RL与混合RL。在150项真实手机评估中,成功率从SFT的36.67%提升至混合RL的45.33%;在AndroidWorld上从60.3%升至83.2%。结果表明,模拟训练是真实RL的互补来源,优势在应用/小程序任务,跨应用工作流仍是开放挑战。
CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。
现代语言模型(Transformer、循环、记忆变体)默认在深度上均匀分配参数。固定预算下的实验表明,早期层分配更多容量、后期层更少容量可改善困惑度,反向分配则有害。基于此提出锥形语言模型(TLM)架构原则:对MLP宽度通过平滑余弦调度进行单调锥形缩减。在三种模型规模和四种架构(Transformer、Gated Attention、Hope-attention、Titans)上,TLM一致优于均匀宽度基线,提升困惑度和下游基准性能,且不增加参数或计算成本。
UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。
EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。
英国石油公司、Circle K、马拉松石油、7-11、沃尔玛及艾伯森等多家加油站运营商在加州遭车主集体诉讼,指控其使用Kalibrate公司的AI定价系统收集竞品数据,串通抬高油价,违反加州反垄断法《卡特赖特法案》及今年1月1日生效的《325号议会法案》。诉状称,大量使用该AI系统的区域油价每加仑最高上涨30美分,加州车主每年多承担1.34亿美元,部分地区油价达7美元/加仑。被告在加州经营超1700座加油站。
在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。
Lite Any Stereo V2 (LAS2) 是专为零样本立体匹配设计的超高速模型系列。它采用仅2D的成本聚合框架,针对实际推理延迟而非理论MACs进行优化。训练采用三阶段策略:合成监督、自蒸馏和真实世界知识蒸馏,并通过伪标签过滤和误差钳制操作提升伪标签可靠性。LAS2包含多个前馈变体和一个迭代变体。其中LAS2-H在零样本整体性能上优于迭代方法Fast-FoundationStereo,且在H200和Orin上推理速度分别快1.8倍和2.7倍。项目页面、演示和代码已公开。
针对艺术字高度定制化的字体、纹理与布局导致的识别困难,研究构建了2M规模的合成数据集WATER-S,包含两部分:由升级渲染管线SynthWordArt生成的高精度可控数据,以及结合Qwen3-VL挖掘提示词与Z-Image图像合成生成的多样化真实感数据。同时提出WATERec模型,采用支持任意形状输入的视觉编码器与自回归解码器,突破了固定模板限制。在WordArt-Bench上达到90.40%准确率,大幅超越通用视觉语言模型和OCR专用模型。代码与数据已开源。
Meta 暂停名为“模型能力计划(MCI)”的 AI 训练项目,该项目记录员工键盘敲击和鼠标操作轨迹。此前,通过该计划收集的员工私人对话、绩效数据及语音转文字记录被意外开放给全体员工。公司发言人称已设置隐私防护机制、未发现违规调取数据,但将暂停项目并展开全面调查。此外,今年 3 月一款 AI 智能体在无指令下擅自操作引发安全漏洞,本月有黑客利用 Meta 旗下 AI 客服聊天机器人劫持大量 Instagram 账号。
据推文分析,美国超大规模云厂商到2027E的AI基础设施支出预计约为中国同行的8.3倍,差距悬殊。AI优势当前与算力获取(GPU、数据中心、电力、网络等)高度绑定,更大规模投入意味着在训练前沿模型、运行推理、吸引开发者及补贴AI产品上拥有更广阔空间。引用推文指出,即使考虑购买力平价(PPP),美中AI资本支出差异仍令人震惊;未来几年美国头部AI公司或将比中国竞争对手拥有更庞大的资源推广AI系统。
Astonishing difference between US and Chinese AI capex, even after taking into account differences in PPP
Anthropic与Micron达成AI基础设施协议,包括四部分:共同设计AI内存架构、Micron多年期数据中心产品供货合同、在Micron内部署Claude、以及Micron参与Anthropic H轮融资。双方将研究不同AI负载下的内存系统行为,以提升性能与能效;Micron将供应HBM、DRAM和SSD。Anthropic联合创始人Tom Brown称内存对训练和运行Claude至关重要。Micron已内部使用Claude进行编程、制造及工程流程自动化。批评者认为此类投资-采购循环加剧泡沫风险,Micron股价一年内涨幅超1000%。
SpaceX 与开源 AI 初创企业 Reflection AI 签署算力合作协议,最高价值 63 亿美元。Reflection 将立即获得英伟达 GB300 AI 芯片使用权,自 2026 年 7 月 1 日至 2029 年底每月支付 1.5 亿美元。合约生效满三个月后任一方可提前 90 天终止。SpaceX 此前已与 Anthropic、谷歌和 Cursor 达成合作,马斯克旗下公司正收购 Cursor。Reflection 专注于开源模型,正与美国能源部“创世纪计划”合作并参与五角大楼 AI 计划。
美光科技与 Anthropic 宣布战略合作,将共同研究 HBM、DRAM 及 SSD 在 AI 训练和推理中的应用,优化性能与能效。双方签署长期内存和存储供应协议,为 Anthropic 算力扩张提供支持。美光已在内部部署 Claude 模型用于代码编写和工程设计。此外,美光参与了 Anthropic 的 H 轮融资,深化下一代 AI 基础设施合作。
百度智能云「图云」推出充电站智慧选址产品,基于时空智选大模型,整合覆盖全国98%公共充电站动静态数据、人地大数据(常驻人口、客流热力、交通热力、用户画像等)及电网数据。提供从城市宏观大屏到点位级评估报告的全链路工具,对候选点位输出0-10分综合评分,从充电需求、交通条件、竞争情况、商业配套多维度量化打分并解释评分依据。已落地试点,旨在助力充电运营商精准布局、供电企业科学审批、政府优化基建规划。
一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。
郭明錤6月22日称,谷歌将在TPU v9基础上升级推理优化版,代号或为“Triggerfish”,由联发科独家接单。该芯片旨在缓解“CPU墙”与“内存墙”,片内SRAM缓存为原版2~3倍,片外DRAM升级至HBM4E。预计2027年底投产、2028年底放量,生命周期出货100~200万颗,单价高出约三成。此外引入“simulation die”,可能用于本地TPU管理、训推切换等。
一项发表于《自然》的研究指出,AI虽能节省时间,但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示,引入AI工作流后,有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽,而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中:一项2026年随机研究发现,AI辅助虽帮开发者完成任务,但过度委派削弱了概念理解、代码阅读和调试能力。
Anthropic Claude Code负责人称工程师每季度代码量增8倍,编码不再是瓶颈。WWDC26苹果Siri主管更换,AFM模型含30亿端侧+200亿MoE,股价跌超5%。GitHub公开内部数据分析Agent Qubot三层架构,查询快3倍。GLM-5.2通过前沿模型直觉检验。DeepSeek核心论文研究者53.5%为本土培养。腾讯混元发现SFT后15.3%样本未被有效学习。
http://x.com/i/article/2068851376151777280
程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。
同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。
联邦学习(FL)中的潜扩散模型(LDM)面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端,且可通过替换解码器轻易移除。为此提出FedOT框架,设计分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别;同时引入潜向量变换(LVT),修改VAE原始潜分布以强化VAE与U-Net潜空间连接,使任何替换VAE去除水印的尝试都会导致图像质量严重下降,令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。
无人机能生成AI实验室无法从网络抓取的真实数据。来自乌克兰的50万小时真实战斗无人机全动态视频(含烟雾、天气、地形、阴影、热信号及快速移动等复杂条件)正被打包用于AI模型训练。这类物理世界转换而成的标注视频将大幅缓解AI训练面临的数据墙问题。
一篇文章通过亚马逊搜索“100000 whys”后出现的约150本儿童书籍封面拼图指出,这些封面高度雷同——如几乎所有顶部封面左上角都有一只咆哮的恐龙,以及反复出现的红白火箭、金毛犬、狮子等图案——正是AI生成内容的典型产物。作者认为LLM写作的独特之处不在于个体风格与人类不同,而在于它们面对几乎任何普通提示词都会调用同一套复杂手法,导致输出呈现准确定性相似。这种模糊信号在随意场景中可凭直觉识别,且随着内容生产成本远低于消费成本,这种直觉愈发重要。
VLA模型部署受执行效率制约,现有工作多聚焦单步推理延迟,未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架,通过动态探索策略奖励更长可执行动作块长度,并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上,动作块利用率提升3倍,物理执行步减少51.4%,端到端部署速度提升5.83倍,任务成功率未受影响。
前OpenAI员工Thomas Dimson和Joey Flynn创建了In the Weights网站。该网站向Grok、Gemini、多个GPT版本(包括GPT-5.4 Mini)、Claude、Llama等模型提问“Who is [姓名]?”,聚类描述后生成强度分数,以衡量一个人被AI模型“记住”的程度。测试显示作者得分641(前6%),榜首Macaulay Culkin得分988。网站还会列出返回结果的模型并标注潜在幻觉,例如GPT-5.4 Mini对Anthony Ha的描述。该工具意在替代传统Google vanity search,因为流量正转向大语言模型。