GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。
GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。
PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。
Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。
RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。
DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。
DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。
小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。
百度旗下昆仑芯计划赴港上市,目标估值约500亿美元,今年1月1日已提交上市申请表。消息称腾讯已成为昆仑芯客户,字节跳动亦在考虑采用其AI芯片。不过,接近字节跳动的人士对此回应称,字节跳动目前没有和昆仑芯片合作的意向。
本文提出策略多样性(approach-level diversity),即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架,发现现有表面多样性指标无法可靠反映策略多样性,且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果,但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。
Grok 4.5 基于自研 1.5 万亿参数 V9 基础大模型打造,并引入 Cursor 数据完成补充训练,已在 SpaceX 和特斯拉内部开启测试。早期评测显示其性能接近甚至有望超越 Opus 模型。基于人类反馈的强化学习持续提升模型能力,Grok 配套调度框架每日迭代优化。马斯克还透露,SpaceX 今年每个月将推出一批完全从零开始训练的全新模型。
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs(TCP/IP 为 70‑100µs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
AI账单失控背景下,越来越多的美国企业转向Tokenminimizing策略,部分企业已100%切换使用DeepSeek以降低Token消耗。阿里千问输入法macOS版正式上线,主打最快300字/分的语音输入和AI自动润色功能,支持9种方言且无广告;官方预告iOS、Android、Windows版将于近日发布。
DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec,并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%,具体实现细节见论文。
中国人民大学与字节跳动联合发布 iLLaDA,一个 8B 参数、从头训练的密集扩散语言模型。该模型从掩码 token 序列开始,通过多次并行迭代双向精炼文本,不同于自回归模型的逐 token 生成。iLLaDA 在 12 万亿 token 上预训练,并经过 12 轮微调。基础版本 iLLaDA-Base 平均得分 63.9,略超 Qwen2.5 7B 的 63.3,其中推理测试 BBH 提升 21.6 分至 71.3。但指令微调版 iLLaDA-Instruct 得分 67.1,落后于 Qwen2.5 7B Instruct 的 77.1,差距主要在数学和代码任务,作者归因于缺少额外的强化学习对齐。
DeepSeek 联合北京大学发布 DSpark 推理加速框架,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制,在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中,DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下,V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%,120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。
数学研究者探讨AI对数学领域的影响,认为AI可能带来人机协作的“大数学”时代。加州大学洛杉矶分校的陶哲轩指出,人类与机器可共同攻克复杂问题。卡内基梅隆大学的Jeremy Avigad强调,数学家从长期思考中获得理解之美与成就感,这种驱动力并未因AI而改变。文章回顾了纯数学博士多年钻研抽象问题的经历,提出AI虽能加速计算,但数学研究的本质——探索与理解——依然由人主导。
在Artificial Analysis Intelligence Index上,开源LLM与闭源LLM的性能差距自2024年夏季开始持续缩小,线性外推预测到2026年12月3日差距降为零。但在全部18个不同基准上的平均差距几乎恒定,保持在不到5个月。编码基准的差距从15个月缩小至1-2个月,多数其他基准差距反而略有扩大。这一分析表明,LLM质量评测的单一基准可能误导结论,整体差距并未显著缩小。
推理系统通过多次采样(测试时扩展)来回答难题,覆盖率随采样次数增加而上升,但系统必须选出唯一答案。选择精度存在上限——模态天花板,在数十次采样内投票结果即趋稳定;相关性天花板则更早达到。超出这两个天花板后,额外采样只会增加计算成本,甚至让模型更确信错误答案,形成“可识别性差距”:模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数,指出瓶颈在于识别正确答案而非生成更多候选。
研究定义Agentic Abstention问题,即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机:部分从不停止,部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法,将完整交互轨迹蒸馏为可复用停止规则,在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。
6月27日,OpenAI发布GPT-5.6系列,包含旗舰版Sol(输入$5/百万tokens,输出$30)、均衡版Terra($2.5/$15)和速度版Luna($1/$6)。Sol在Terminal-Bench 2.1标准模式下得分88.8%,超Claude Mythos 5的88.0%,Ultra模式达91.9%;GeneBench v1上消耗更少token且胜GPT-5.5;ExploitBench中以约1/3输出token达Mythos Preview相近表现。目前仅向“可信合作伙伴”提供预览,未来几周公开上线,7月在Cerebras上线Sol,速度最高750 token/s。
关联讨论 8 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)X:Kim (@kimmonismus)X:Sam Altman (@sama)Timothy B. Lee 反驳“LLM 无需技能、没有学习曲线”的观点,将其类比为认为管理者没有学习曲线——因为员工会完全服从指令。他强调,使用 LLM 同样需要技能和经验积累。
OpenAI 开始有限预览 GPT-5.6 系列,分为旗舰 Sol、日常生产 Terra 和低成本快速 Luna 三个层级。新增两种推理控制:max(加深单链推理)和 ultra(利用子智能体并行处理复杂任务)。在 Terminal-Bench 2.1 上,Sol (ultra) 得分 91.91%,Sol (max) 88.76%,超过 Claude Mythos 5(88%)和 GPT-5.5(83.4%)。定价方面,Sol 输入/输出每百万 token 为 $5/$30,Terra 为 $2.50/$15,Luna 为 $1/$6。目前仅向约 20 个合作伙伴开放 API 和 Codex 预览,更广泛接入计划在未来几周内推出。OpenAI 还计划在 7 月用 Cerebras 硬件使 Sol 达到每秒 750 token。
关联讨论 8 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)X:Kim (@kimmonismus)X:Sam Altman (@sama)OpenAI 周五宣布,应美国政府要求,将新一代 GPT-5.6 系列模型仅向“小部分受信任的合作伙伴”开放预览。系列包括旗舰模型 Sol、均衡模型 Terra 和低成本快速模型 Luna。Sol 具备增强的智能体能力(编码、生物学、网络安全),引入“max”推理努力模式和“ultra”子智能体协调模式,在编码基准上略优于 Anthropic 的 Claude Mythos 5,输出 token 仅为后者三分之一。定价方面,Sol 每百万输入 token 5 美元、输出 30 美元;Terra 半价;Luna 分别为 1 美元和 6 美元。OpenAI 称此为短期措施,计划未来数周逐步向 ChatGPT、Codex 和 API 用户开放。
关联讨论 9 条X:邵猛 (@shao__meng)IT之家(RSS)X:Nathan Lambert (@natolambert)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)OpenAI 推出 GPT-5.6 系列三个模型:Sol 为旗舰,Terra 面向日常工作(性能对标 GPT-5.5 但价格便宜 2 倍),Luna 为快速低价模型。定价按每百万模型 token 计算:Sol 输入 $5 / 输出 $30,Terra 输入 $2.5 / 输出 $15,Luna 输入 $1 / 输出 $6。新版引入更可预测的提示词缓存,支持显式缓存断点和 30 分钟最小缓存生命期;缓存写入按 1.25 倍非缓存输入速率计费,缓存读取继续享受 90% 折扣。目前仅面向部分受信任合作伙伴提供有限预览,未来几周全面开放。
关联讨论 8 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)X:Kim (@kimmonismus)X:Sam Altman (@sama)OpenAI 预览了 GPT-5.6 Sol,这是一款新一代模型。该预览由 OpenAI 官方发布,标题明确指出其为“next-generation model”。目前预览信息有限,仅确认了模型名称与定位,未包含具体技术细节或功能披露。
关联讨论 8 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)X:Kim (@kimmonismus)X:Sam Altman (@sama)OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。
OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。
关联讨论 8 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)X:Kim (@kimmonismus)X:Sam Altman (@sama)OpenAI公布与Broadcom合作开发的定制推理芯片Jalapeño,旨在减少对Nvidia的单一供应商依赖,提供更好的控制和性能优化。同一期TechCrunch播客还讨论了Groq的6.5亿美元融资、AI智能体循环的重要性(Claude Code创始人认为其与“从源码到智能体”同等重要)、Agility Robotics计划通过SPAC上市,以及Google DeepMind投资A24开发AI电影制作工具。
AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。
Fable5 小范围灰度测试降智,安全加强导致上下文窗口和长文本优化受限。不过在 Claude Code v2.1.190 版本中,Fable5 计费已从单独 API 改为包含在每周套餐里。受此影响,GPT-5.6 被要求分阶段发布,从六月推迟到七月中。作者推荐在 Claude Code 中开启动态工作流(多 Agent),使用低一档的 Sonnet 4.6 模型并将 ultracode 推理程度拉满,作为降智后的替代方案。
ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。
现有方法依赖人工校准或文本表示,缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列,提取动态特征并与语义表示结合,进行人类题目难度预测。在四个真实数据集上,Epi2Diff全面超越包括有监督LLM微调在内的强基线,在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态,而非仅更长的回答。
简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。
Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。
华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构,搭载UCM(推理记忆数据管理)技术,完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型,在8K至190K长序列场景下,Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟(TTFT)优化26%~62%,单NPU卡TPS在64K序列提升58%、128K提升78%;GLM-5.1下TTFT优化51%~93%,TPS提升56%~372%。
推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。Sail Research 为此构建了集群感知(fleet‑aware)编排系统,以最大化每美元推理支出的吞吐量。