全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

6月18日周四

09:20Rohan Paul67LoopCoder-v2：仅循环一次即可高效利用测试时计算

08:43Berryxia.AI48Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

08:14IT之家（RSS）53SK海力士向主要客户供应12层HBM4E样品，面向AI的下一代超高性能DRAM

08:00HuggingFace Daily Papers（社区热门论文）46Vesta：通用具身推理模型

08:00HuggingFace Daily Papers（社区热门论文）50CogniRoute：全模态社交推理的模式引导MoE框架

08:00HuggingFace Daily Papers（社区热门论文）48Grouped Query Experts：在 GQA 自注意力上的混合专家模型

08:00HuggingFace Daily Papers（社区热门论文）46流形赌博机：基于大语言模型潜在几何结构的贝叶斯课程学习

07:19Artificial Analysis61Claude Fable 5 成本最高：运行 AI 智能指数需 $6.2K

06:21SemiAnalysis60vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验

06:19Rohan Paul34Z.ai 发布 GLM 5.2 等 AI 行业动态

05:23AK34LoopCoder-v2：仅循环一次高效测试时计算缩放

04:42Greg Brockman46GPT-5.4 改善药物化学挑战性反应

04:24gabriel33模型越聪明，解释概念越困难

03:48xAI：News（网页）61精选Grok 4.3 在 Amazon Bedrock 正式可用

03:46Artificial Analysis51智谱 GLM-5.2 在 CritPt 基准上表现突出

01:53LMSYS：Blog（Chatbot Arena 团队）69精选用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

01:47The Decoder：AI News（RSS）76同事件精选智谱AI发布GLM-5.2，百万token上下文下的开源编码模型逼近闭源标杆同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

01:17Rohan Paul51TensorDyne 发布 AI 推理机架 Napier，对数运算实现 13 倍于 NVIDIA GB300 的吞吐

00:32Hacker News 热门（buzzing.cc 中文翻译）61GLM-5.2 （max）性能、价格与开源发布

6月17日周三

23:32Google Blog：AI（RSS）55精选Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

22:01Hacker News 热门（buzzing.cc 中文翻译）57当人工智能接管一切之后

19:41Emad44中国AI实验室获足够算力将超越美国

19:27Hacker News 热门（buzzing.cc 中文翻译）57GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

17:38Hugging Face：Blog（RSS）83GLM-5.2：为长周期任务而生

17:12karminski-牙医73GLM-5.2实测：Agent能力质变，背下地图无需搜索

16:07IT之家（RSS）48算苗科技 3D TokenPU 芯片正式流片：3D 混合堆叠架构，全流程国产化

16:05MarkTechPost（RSS）70同事件精选MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

15:36HuggingFace Daily Papers（社区热门论文）47从自我未来学习：面向dLLMs的在线策略自蒸馏

15:16🚨 AI News | TestingCatalog80Z ai 发布 GLM-5.2：开源权重新 SOTA，智能指数 51 分排名第四

15:08Artificial Analysis61GLM-5.2 发布：AAI 指数 51 分，开源权重模型新标杆

13:09SemiAnalysis65OhnePixel 获 DeepSeek V4 部署平台

12:29歸藏(guizang.ai)72智谱 GLM-5.2 发布开源，支持Codepilot添加

12:05IT之家（RSS）47小艺 Claw 接入开源盘古 openPangu 2.0 Pro，提升鸿蒙系统级任务执行能力

11:38karminski-牙医67GLM-5.2 发布：1M上下文窗口，MIT开源权重

11:35HuggingFace Daily Papers（社区热门论文）40ChLogic：中文逻辑推理鲁棒性评估基准

11:29歸藏(guizang.ai)79智谱 GLM-5.2 发布并开源

10:33HuggingFace Daily Papers（社区热门论文）49近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

10:33HuggingFace Daily Papers（社区热门论文）51LoopCoder-v2：仅循环一次实现高效测试时计算扩展

08:00HuggingFace Daily Papers（社区热门论文）40数据配方显著提升大语言模型长上下文推理能力

08:00HuggingFace Daily Papers（社区热门论文）47TAPO：通过构建微反射修正轨迹改进自蒸馏的强化学习方法

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月18日

09:20

Rohan Paul@rohanpaul_ai

67

LoopCoder-v2：仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构，使循环可并行运行并共享内存。他们训练了7B参数的代码模型（1/2/3/4次循环），在18T tokens上预训练并微调，测试代码编写、推理、软件工程和工具使用任务。主要结果：2次循环效果最好，将SWE-bench Verified从43.0提升至64.4，而3次和4次循环性能下降。内部分析显示，第二次循环进行了有意义的精炼（改变隐藏状态、注意力模式和预测），后续循环则主要添加重复和噪声。结论：增加一次隐藏循环可大幅提升性能，但继续增加并非自动有益。

arXiv 推理编码论文/研究

08:43

Berryxia.AI@berryxia

48

Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

谷歌即将发布 Gemini 3.5 Pro，已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro，预计视觉能力更强、多模态推理更出色，SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制，定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

Google 多模态推理行业动态

08:14

IT之家（RSS）

53

SK海力士向主要客户供应12层HBM4E样品，面向AI的下一代超高性能DRAM

SK海力士今日宣布，已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM，较HBM4引脚速率最高达16Gbps，能效提高20%以上，热阻降低约17%。采用先进MR-MUF工艺，12层堆叠实现48GB容量，并降低数据传输延迟，旨在提升下一代AI数据中心和大规模计算系统的处理效率。

产品更新推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

46

Vesta：通用具身推理模型

Vesta是一个统一的具身通用基础模型，将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制，Vesta在多种基准测试中平均超过单个SOTA基线20%以上，并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中，Vesta将任务成功率提升35%以上，表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

CogniRoute：全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家（MoE）框架，专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围，并在监督微调中对齐全局路由签名；还引入路由感知强化学习，联合优化 token 生成与专家分配。在 OmniSocialBench（含118K结构化训练示例的诊断性社交视频问答数据集）上，CogniRoute 平均准确率达59.38%，比最强专有基线高15.33个百分点，比最强开源全模态基线高26.77个百分点，在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Grouped Query Experts：在 GQA 自注意力上的混合专家模型

Grouped Query Experts（GQE）在分组查询注意力（GQA）的每个组内增加混合专家层，由路由器为每个 token 挑选 k 个 query-head 专家激活，而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下，GQE 在下游准确率上与全激活 GQA 基线持平，同时每 token 仅激活一半 query heads，减少了注意力计算量。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

流形赌博机：基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中，问题采样策略对提升大语言模型（LLM）推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题，忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程（BMC），将问题采样建模为流形结构的非平稳赌博机，利用层次任务树和贝叶斯学习引导采样。实验表明，不同采样策略在生产率、多样性和效用间存在权衡，仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究

07:19

Artificial Analysis@ArtificialAnlys

61

Claude Fable 5 成本最高：运行 AI 智能指数需 $6.2K

Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型，运行其 Intelligence Index 需 $6.2K，是第二贵模型 Opus 4.8（$3.7K）的 1.7 倍、GPT-5.5（$2.9K）的 2.2 倍。该模型 Intelligence Index 得分 60，领先 Opus 4.8（56）和 GPT-5.5（55）。定价 $10/$50 每百万输入/输出 tokens，为 Opus 4.8 的 2 倍，仅低于 GPT-5.5 Pro（$30/$180）。缓存价格同步翻倍：缓存读取 $1/M、写入 $12.5/M，而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。

Anthropic 推理评测/基准

06:21

SemiAnalysis@SemiAnalysis_

60

vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验

vLLM 团队与 NVIDIA 合作，为 MiniMax M3 模型提供开箱即用的 day 0 体验，并集成 Inferact 的 EAGLE3 推测解码。当前工作包括：NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理（PR 45879），Inferact 团队启用 FlashInfer M3 MoE 内核（PR 45723），落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量，并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等，性能有望进一步提升。

NVIDIA AI Infrastructure: 📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...

开源生态推理模型发布

06:19

Rohan Paul@rohanpaul_ai

34

Z.ai 发布 GLM 5.2 等 AI 行业动态

Z.ai 推出 GLM 5.2 模型，1M 上下文窗口、MIT 许可开源权重，面向长周期编码智能体。Tensordyne 宣布推理系统，机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma，26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona，为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic，就禁止外国用户使用 Mythos 和 Fable 做出说明。

OpenAI 安全/对齐推理模型发布

05:23

AK@_akhaliq

34

LoopCoder-v2 仅循环一次实现高效测试时计算缩放

推理编码论文/研究

04:42

Greg Brockman@gdb

46

GPT-5.4 用于改善药物化学中一个具有挑战性的反应。

OpenAI: GPT-5.4 helped drive a medicinal chemistry project from literature review to a validated experimental result. Paired wit...

OpenAI 推理行业动态

04:24

gabriel@gabriel1

33

词语是我们大脑中复杂概念的有损指针随着模型变得更聪明、能做更多事情，向AI解释这些概念变得更加困难。

推理现象/趋势

03:48

xAI：News（网页）

精选61

Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日，xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率，支持 100 万 token 上下文窗口，并提供可配置推理努力（none/low/medium/high）。在 Artificial Analysis Omniscience 基准排名第一，在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一，在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元，每美元智能度是其他前沿模型的 2–10 倍。

xAI 推理模型发布

推荐理由：Grok 4.3 登陆 Bedrock，把极低幻觉率和可配置推理带给了 AWS 用户，价格也摆在了 Pareto 前沿，不过本质上是一次渠道扩展而非模型突破，企业开发者可以尝鲜。

03:46

Artificial Analysis@ArtificialAnlys

51

智谱 GLM-5.2 在 CritPt 基准上表现突出

智谱发布 GLM-5.2（最大推理努力），在 CritPt 基准（未发表研究级物理问题）上得分 20.9%，与 Claude Opus 4.8 持平，远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%；GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%，实现 4.5 倍代际提升。

开源生态推理评测/基准

01:53

LMSYS：Blog（Chatbot Arena 团队）

精选69

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%–35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1.77倍（mc=512）。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由：这是针对TPU上MoE推理的硬核优化复盘，用成本模型定位瓶颈，通过单内核融合把延迟砍半，对做大规模推理工程的团队是高质量参考。

01:47

The Decoder：AI News（RSS）

同事件精选76

智谱AI发布GLM-5.2，百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2，在MIT许可下提供稳定百万token上下文。编码方面，FrontierSWE得分74.4%，仅落后Claude Opus 4.8一个百分点，领先GPT-5.5；PostTrainBench超越GPT-5.5和Opus 4.7，仅次于Opus 4.8；SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分（GLM-5.1为63.5），SWE-bench Pro得62.1。推理HLE落后约十个百分点，AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器，百万token计算量降低2.9倍；投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊，智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分，加上1M稳定上下文，是当前最强的开源编码模型，做agentic coding的可以上手试试。

01:17

Rohan Paul@rohanpaul_ai

51

TensorDyne 发布 AI 推理机架 Napier，对数运算实现 13 倍于 NVIDIA GB300 的吞吐

TensorDyne 发布 AI 推理机架 Napier，声称在 DeepSeek-R1 上基于内部模拟达到 363,000 tokens/s（用户速度 210 tokens/s），是 NVIDIA NVL72 GB300（27,400 tokens/s）的 13 倍。Napier 在对数空间中运算，将乘法转为加法，从而降低芯片面积与功耗，更多晶体管用于 SRAM，每 token 能耗更低、推理密度更高。此举改变 AI 推理经济学，不再单纯比拼 FLOPS，而是转向功率、内存局部性、互连延迟与 token 服务成本。

产品更新推理部署/工程

00:32

Hacker News 热门（buzzing.cc 中文翻译）

61

GLM-5.2 （max）性能、价格与开源发布

智谱AI于2026年6月发布开源推理模型GLM-5.2 (max)，总参数753B，活跃参数40B，支持文本输入输出，上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s（第15/92）。价格输入$1.40/百万tokens、输出$4.40/百万tokens，属较贵一档；缓存命中$0.26/百万tokens（便宜81%）。模型权重以MIT协议开源发布于HuggingFace。

开源/仓库推理评测/基准

6月17日

23:32

Google Blog：AI（RSS）

精选55

Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。

Google 推理论文/研究

推荐理由：Google 把医疗 AI 从一次诊断推到了长期疾病管理，Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生，做数字健康的人值得认真读一下。

22:01

Hacker News 热门（buzzing.cc 中文翻译）

57

当人工智能接管一切之后

三位软件工程师来信询问AI是否会全面接管编程。作者回答最早今年底、最迟后年。以珍妮纺织机为喻，学会用新工具只是缓刑；美团宣布30%–50%裁员印证趋势。作者提出“终端思维”：意图即实现（PRD is Code），中间步骤注定消失。最终问题：当执行被机器接管，人类站在哪里？

推理现象/趋势编码

19:41

Emad@EMostaque

44

我认为越来越清楚的是，如果中国AI实验室能获得足够的计算能力，它们将击败美国的实验室。

大佬观点推理

19:27

Hacker News 热门（buzzing.cc 中文翻译）

57

GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51，领先 MiniMax-M3（44）、DeepSeek V4 Pro（max，44）和 Kimi K2.6（43）。模型总参数 744B，活跃参数 40B，上下文窗口 1M tokens，API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升：HLE 得分 40%（+12）、CritPt 21%（+16）。GDPval-AA v2 得分 1524，与 GPT-5.5（xhigh）持平。每任务输出 43k tokens（其中 37k 推理），每任务成本约 $0.46，位于智能 vs 成本帕累托前沿。采用 MIT 许可证，可通过 DeepInfra、Novita 等第三方平台使用。

智能体推理评测/基准

17:38

Hugging Face：Blog（RSS）

83

GLM-5.2：为长周期任务而生

GLM-5.2 发布，支持 1M token 上下文，采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器，将 1M 上下文下每 token FLOPs 降低 2.9 倍；MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上，FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%；PostTrainBench 仅次于 Opus 4.8；SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分（GLM-5.1 为 63.5），接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可，无地域限制。

开源生态推理模型发布编码

关联讨论 8 条公众号：智谱（GLM）X：Testing Catalog (@testingcatalog)Hacker News 热门（buzzing.cc 中文翻译）X：硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客X：智谱 Z.ai (@Zai_org)Nathan Lambert：Interconnects（RSS）智谱：研究（网页内嵌数据）

17:12

karminski-牙医@karminski3

73

GLM-5.2实测：Agent能力质变，背下地图无需搜索

GLM-5.2 正式发布，实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中，直接知道换电站位置，全程未调用搜索函数，在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解：虽记住换电站位置，但无法根据当前位置推理最近站点。

智能体推理模型发布编码

16:07

IT之家（RSS）

48

算苗科技 3D TokenPU 芯片正式流片：3D 混合堆叠架构，全流程国产化

算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构，通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径，搭载16TB/s带宽，面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成，适配通用大模型、多模态生成、实时对话等高负载推理任务，补强了国内高端AI算力硬件的自主供给能力。

产品更新推理部署/工程

16:05

MarkTechPost（RSS）

同事件精选70

MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA（MiniMax Sparse Attention），一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支：索引分支以块粒度（默认 128 token）为每个 GQA 组选择 16 个 token 块（固定预算 2048 个键值 token），主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练，开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100（MIT 许可，支持 BF16/FP8/NVFP4/FP4），并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5，与全注意力基线持平。128K 上下文下，其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token，还同时开源高效内核与生产模型，对做长上下文 agent 的团队是即时可用的方法，遗憾是只限 SM100 GPU。

15:36

HuggingFace Daily Papers（社区热门论文）

47

从自我未来学习：面向dLLMs的在线策略自蒸馏

d-OPSD是针对扩散大语言模型（dLLMs）提出的首个在线策略自蒸馏框架。其核心贡献包括：利用自生成答案作为后缀条件，使学生模型从自我未来经验学习；并将监督从token级转向step级，与dLLMs的迭代去噪过程对齐。在四个推理基准上，d-OPSD一致优于RLVR和SFT基线，且仅需RLVR约10%的优化步骤，展现出显著的样本效率。代码已开源。

推理数据/训练论文/研究

15:16

🚨 AI News | TestingCatalog@testingcatalog

80

Z ai 推出 GLM-5.2，在 Artificial Analysis Intelligence Index 上得 51 分排名第四，成为开源权重 SOTA。模型规模同 GLM-5.1（744B 总/40B 活跃参数），智能指数 v4.1 提升 11 分。科学推理显著增强：CritPt +16% 至 21%，HLE +12% 至 40%，GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token，每任务成本约 $0.46，处智能 vs 成本帕累托前沿。MIT 许可证，已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布

15:08

Artificial Analysis@ArtificialAnlys

61

GLM-5.2 发布：AAI 指数 51 分，开源权重模型新标杆

Z ai 发布 GLM-5.2（744B 总参数/40B 活跃参数），在 Artificial Analysis Intelligence Index v4.1 上得分 51，超越 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。科学推理大幅提升：CritPt +16、HLE +12、GPQA Diamond 达 89%。GDPval-AA v2 得分 1524，与 GPT-5.5 (xhigh reasoning) 相当。上下文窗口扩展至 1M tokens，MIT 许可证。第一方 API 定价 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 token，每任务成本约 $0.46，处于智能 vs 成本帕累托前沿。

开源生态推理评测/基准

13:09

SemiAnalysis@SemiAnalysis_

65

POV： @ohnePixel 为 DeepSeek V4 首日部署获得一个平台。了解更多：https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

DeepSeek 推理评测/基准

12:29

歸藏(guizang.ai)@op7418

72

智谱 GLM-5.2 正式发布并开源，定位处理长周期任务。模型具备稳定的100万上下文窗口，并引入思考力度控制。架构上采用 IndexShare 机制，每四层稀疏注意力共享同一个 indexer，在百万 token 上下文中将每 token 计算量降低约 2.9 倍。用户现可在 Codepilot 模型管理中添加使用 GLM-5.2。

歸藏(guizang.ai): 智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...

开源生态推理模型发布

12:05

IT之家（RSS）

47

小艺 Claw 接入开源盘古 openPangu 2.0 Pro，提升鸿蒙系统级任务执行能力

小艺 Claw 接入开源盘古 openPangu 2.0 Pro 模型，重点提升鸿蒙系统级任务执行能力。该模型更亲和昇腾算力，单卡吞吐率达其他主流开源模型的 2 倍，Agent 任务更快更准更省。拥有 512K 上下文，含 Pro 与 Flash 两版本：2.0 Pro 总参数量 505B、激活参数量 18B；2.0 Flash 总参数量 92B、激活参数量 6B。openPangu 2.0 计划从 6 月 30 日起陆续开源 7 大组件，包括预训练代码、后训练代码、训练算子。

智能体产品更新推理

11:38

karminski-牙医@karminski3

67

智谱（Z.ai）发布GLM-5.2模型，编程与智能体任务显著改进，支持1M上下文窗口。提供两种推理模式：GLM-5.2（max）追求极限性能，GLM-5.2（high）平衡性能与token效率。模型权重以MIT许可开源，API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码

11:35

HuggingFace Daily Papers（社区热门论文）

40

ChLogic：中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好，但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic，包含通用对齐集（60条命题）、困难对齐集（40道难题）及纯中文集（15类语言现象），每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现，但在困难集上效果混杂，Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv 推理评测/基准

11:29

歸藏(guizang.ai)@op7418

79

智谱 GLM-5.2 发布并开源

智谱发布并开源 GLM-5.2，定位长周期任务，支持 100 万 token 稳定上下文。引入思考力度控制：GLM-5.2 max 追求极限性能，GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制，每四层稀疏注意力共享 indexer，百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源，API 定价与 GLM-5.1 一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码

10:33

HuggingFace Daily Papers（社区热门论文）

49

近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度，避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题（BCQ）让学生区分正确与错误回答，及负候选问题（NCQ）聚合错误模式；提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师，经视觉语言模型后训练并在31项基准测试中评估，ZPPO全面优于离策略/在策略蒸馏和GRPO，最小规模提升最大。

arXiv 推理数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

51

LoopCoder-v2：仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer（PLT）代码模型，从零在 18T tokens 上预训练。与无循环基线相比，两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升，SWE-bench Verified 从 43.0 到 64.4，Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降，揭示循环计数的非单调效应：循环 2 提供主要改进，后续循环产生递减振荡更新，而 CLP 引入的位置偏移代价固定，导致两循环饱和。

arXiv 推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

数据配方显著提升大语言模型长上下文推理能力

该研究提出一种仅需最小化结果导向GRPO设置的数据配方，即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务，构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上，该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分，超越此前强化学习训练集。这些增益可迁移至智能体任务：在已微调的模型上继续训练，使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

TAPO：通过构建微反射修正轨迹改进自蒸馏的强化学习方法

针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题，论文提出轨迹增强策略优化（TAPO）。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout，利用对比结构构造微反射修正轨迹：保留错误推理至失败点，插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上，TAPO 相同时训练步数下较 GRPO 获得持续改进。

推理数据/训练论文/研究

1…8 91011 12…50