AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月18日周四
09:20Rohan Paul67LoopCoder-v2:仅循环一次即可高效利用测试时计算
08:43Berryxia.AI48Gemini 3.5 Pro 爆料:视觉、多模态与安全升级
08:14IT之家(RSS)53SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM
08:00HuggingFace Daily Papers(社区热门论文)46Vesta:通用具身推理模型
08:00HuggingFace Daily Papers(社区热门论文)50CogniRoute:全模态社交推理的模式引导MoE框架
08:00HuggingFace Daily Papers(社区热门论文)48Grouped Query Experts:在 GQA 自注意力上的混合专家模型
08:00HuggingFace Daily Papers(社区热门论文)46流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习
07:19Artificial Analysis61Claude Fable 5 成本最高:运行 AI 智能指数需 $6.2K
06:21SemiAnalysis60vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验
06:19Rohan Paul34Z.ai 发布 GLM 5.2 等 AI 行业动态
05:23AK34LoopCoder-v2:仅循环一次高效测试时计算缩放
04:42Greg Brockman46GPT-5.4 改善药物化学挑战性反应
04:24gabriel33模型越聪明,解释概念越困难
03:48xAI:News(网页)61精选Grok 4.3 在 Amazon Bedrock 正式可用
03:46Artificial Analysis51智谱 GLM-5.2 在 CritPt 基准上表现突出
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
01:47The Decoder:AI News(RSS)76同事件精选智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
01:17Rohan Paul51TensorDyne 发布 AI 推理机架 Napier,对数运算实现 13 倍于 NVIDIA GB300 的吞吐
00:32Hacker News 热门(buzzing.cc 中文翻译)61GLM-5.2 (max) 性能、价格与开源发布
6月17日周三
23:32Google Blog:AI(RSS)55精选Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理
22:01Hacker News 热门(buzzing.cc 中文翻译)57当人工智能接管一切之后
19:41Emad44中国AI实验室获足够算力将超越美国
19:27Hacker News 热门(buzzing.cc 中文翻译)57GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型
17:38Hugging Face:Blog(RSS)83GLM-5.2:为长周期任务而生
17:12karminski-牙医73GLM-5.2实测:Agent能力质变,背下地图无需搜索
16:07IT之家(RSS)48算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化
16:05MarkTechPost(RSS)70同事件精选MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
15:36HuggingFace Daily Papers(社区热门论文)47从自我未来学习:面向dLLMs的在线策略自蒸馏
15:16🚨 AI News | TestingCatalog80Z ai 发布 GLM-5.2:开源权重新 SOTA,智能指数 51 分排名第四
15:08Artificial Analysis61GLM-5.2 发布:AAI 指数 51 分,开源权重模型新标杆
13:09SemiAnalysis65OhnePixel 获 DeepSeek V4 部署平台
12:29歸藏(guizang.ai)72智谱 GLM-5.2 发布开源,支持Codepilot添加
12:05IT之家(RSS)47小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力
11:38karminski-牙医67GLM-5.2 发布:1M上下文窗口,MIT开源权重
11:35HuggingFace Daily Papers(社区热门论文)40ChLogic:中文逻辑推理鲁棒性评估基准
11:29歸藏(guizang.ai)79智谱 GLM-5.2 发布并开源
10:33HuggingFace Daily Papers(社区热门论文)49近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度
10:33HuggingFace Daily Papers(社区热门论文)51LoopCoder-v2:仅循环一次实现高效测试时计算扩展
08:00HuggingFace Daily Papers(社区热门论文)40数据配方显著提升大语言模型长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)47TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
09:20
Rohan Paul@rohanpaul_ai
67
LoopCoder-v2:仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构,使循环可并行运行并共享内存。他们训练了7B参数的代码模型(1/2/3/4次循环),在18T tokens上预训练并微调,测试代码编写、推理、软件工程和工具使用任务。主要结果:2次循环效果最好,将SWE-bench Verified从43.0提升至64.4,而3次和4次循环性能下降。内部分析显示,第二次循环进行了有意义的精炼(改变隐藏状态、注意力模式和预测),后续循环则主要添加重复和噪声。结论:增加一次隐藏循环可大幅提升性能,但继续增加并非自动有益。

arXiv推理编码论文/研究
08:43
Berryxia.AI@berryxia
48
Gemini 3.5 Pro 爆料:视觉、多模态与安全升级

谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

Google多模态推理行业动态
08:14
IT之家(RSS)
53
SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM

SK海力士今日宣布,已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM,较HBM4引脚速率最高达16Gbps,能效提高20%以上,热阻降低约17%。采用先进MR-MUF工艺,12层堆叠实现48GB容量,并降低数据传输延迟,旨在提升下一代AI数据中心和大规模计算系统的处理效率。

产品更新推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
Vesta:通用具身推理模型

Vesta是一个统一的具身通用基础模型,将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制,Vesta在多种基准测试中平均超过单个SOTA基线20%以上,并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中,Vesta将任务成功率提升35%以上,表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
CogniRoute:全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家(MoE)框架,专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围,并在监督微调中对齐全局路由签名;还引入路由感知强化学习,联合优化 token 生成与专家分配。在 OmniSocialBench(含118K结构化训练示例的诊断性社交视频问答数据集)上,CogniRoute 平均准确率达59.38%,比最强专有基线高15.33个百分点,比最强开源全模态基线高26.77个百分点,在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Grouped Query Experts:在 GQA 自注意力上的混合专家模型

Grouped Query Experts(GQE)在分组查询注意力(GQA)的每个组内增加混合专家层,由路由器为每个 token 挑选 k 个 query-head 专家激活,而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下,GQE 在下游准确率上与全激活 GQA 基线持平,同时每 token 仅激活一半 query heads,减少了注意力计算量。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究
07:19
Artificial Analysis@ArtificialAnlys
61
Claude Fable 5 成本最高:运行 AI 智能指数需 $6.2K

Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。

Anthropic推理评测/基准
06:21
SemiAnalysis@SemiAnalysis_
60
vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验

vLLM 团队与 NVIDIA 合作,为 MiniMax M3 模型提供开箱即用的 day 0 体验,并集成 Inferact 的 EAGLE3 推测解码。当前工作包括:NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理(PR 45879),Inferact 团队启用 FlashInfer M3 MoE 内核(PR 45723),落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量,并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等,性能有望进一步提升。

NVIDIA AI Infrastructure: 📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...

开源生态推理模型发布
06:19
Rohan Paul@rohanpaul_ai
34
Z.ai 发布 GLM 5.2 等 AI 行业动态

Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。

OpenAI安全/对齐推理模型发布
05:23
AK@_akhaliq
34
LoopCoder-v2 仅循环一次实现高效测试时计算缩放
推理编码论文/研究
04:42
Greg Brockman@gdb
46
GPT-5.4 用于改善药物化学中一个具有挑战性的反应。

OpenAI: GPT-5.4 helped drive a medicinal chemistry project from literature review to a validated experimental result. Paired wit...

OpenAI推理行业动态
04:24
gabriel@gabriel1
33
词语是我们大脑中复杂概念的有损指针 随着模型变得更聪明、能做更多事情,向AI解释这些概念变得更加困难。
推理现象/趋势
03:48
xAI:News(网页)
精选61
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
03:46
Artificial Analysis@ArtificialAnlys
51
智谱 GLM-5.2 在 CritPt 基准上表现突出

智谱发布 GLM-5.2(最大推理努力),在 CritPt 基准(未发表研究级物理问题)上得分 20.9%,与 Claude Opus 4.8 持平,远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%;GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%,实现 4.5 倍代际提升。

开源生态推理评测/基准
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
01:47
The Decoder:AI News(RSS)
同事件精选76
智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分,加上1M稳定上下文,是当前最强的开源编码模型,做agentic coding的可以上手试试。
01:17
Rohan Paul@rohanpaul_ai
51
TensorDyne 发布 AI 推理机架 Napier,对数运算实现 13 倍于 NVIDIA GB300 的吞吐

TensorDyne 发布 AI 推理机架 Napier,声称在 DeepSeek-R1 上基于内部模拟达到 363,000 tokens/s(用户速度 210 tokens/s),是 NVIDIA NVL72 GB300(27,400 tokens/s)的 13 倍。Napier 在对数空间中运算,将乘法转为加法,从而降低芯片面积与功耗,更多晶体管用于 SRAM,每 token 能耗更低、推理密度更高。此举改变 AI 推理经济学,不再单纯比拼 FLOPS,而是转向功率、内存局部性、互连延迟与 token 服务成本。

产品更新推理部署/工程
00:32
Hacker News 热门(buzzing.cc 中文翻译)
61
GLM-5.2 (max) 性能、价格与开源发布

智谱AI于2026年6月发布开源推理模型GLM-5.2 (max),总参数753B,活跃参数40B,支持文本输入输出,上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s(第15/92)。价格输入$1.40/百万tokens、输出$4.40/百万tokens,属较贵一档;缓存命中$0.26/百万tokens(便宜81%)。模型权重以MIT协议开源发布于HuggingFace。

开源/仓库推理评测/基准
6月17日
23:32
Google Blog:AI(RSS)
精选55
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

Google推理论文/研究

推荐理由:Google 把医疗 AI 从一次诊断推到了长期疾病管理,Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生,做数字健康的人值得认真读一下。
22:01
Hacker News 热门(buzzing.cc 中文翻译)
57
当人工智能接管一切之后

三位软件工程师来信询问AI是否会全面接管编程。作者回答最早今年底、最迟后年。以珍妮纺织机为喻,学会用新工具只是缓刑;美团宣布30%–50%裁员印证趋势。作者提出“终端思维”:意图即实现(PRD is Code),中间步骤注定消失。最终问题:当执行被机器接管,人类站在哪里?

推理现象/趋势编码
19:41
Emad@EMostaque
44
我认为越来越清楚的是,如果中国AI实验室能获得足够的计算能力,它们将击败美国的实验室。
大佬观点推理
19:27
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。模型总参数 744B,活跃参数 40B,上下文窗口 1M tokens,API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升:HLE 得分 40%(+12)、CritPt 21%(+16)。GDPval-AA v2 得分 1524,与 GPT-5.5(xhigh)持平。每任务输出 43k tokens(其中 37k 推理),每任务成本约 $0.46,位于智能 vs 成本帕累托前沿。采用 MIT 许可证,可通过 DeepInfra、Novita 等第三方平台使用。

智能体推理评测/基准
17:38
Hugging Face:Blog(RSS)
83
GLM-5.2:为长周期任务而生

GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。

开源生态推理模型发布编码
关联讨论 8 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)
17:12
karminski-牙医@karminski3
73
GLM-5.2实测:Agent能力质变,背下地图无需搜索

GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。

智能体推理模型发布编码
16:07
IT之家(RSS)
48
算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化

算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构,通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径,搭载16TB/s带宽,面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成,适配通用大模型、多模态生成、实时对话等高负载推理任务,补强了国内高端AI算力硬件的自主供给能力。

产品更新推理部署/工程
16:05
MarkTechPost(RSS)
同事件精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
15:36
HuggingFace Daily Papers(社区热门论文)
47
从自我未来学习:面向dLLMs的在线策略自蒸馏

d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。

推理数据/训练论文/研究
15:16
🚨 AI News | TestingCatalog@testingcatalog
80
Z ai 推出 GLM-5.2,在 Artificial Analysis Intelligence Index 上得 51 分排名第四,成为开源权重 SOTA。模型规模同 GLM-5.1(744B 总/40B 活跃参数),智能指数 v4.1 提升 11 分。科学推理显著增强:CritPt +16% 至 21%,HLE +12% 至 40%,GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token,每任务成本约 $0.46,处智能 vs 成本帕累托前沿。MIT 许可证,已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布
15:08
Artificial Analysis@ArtificialAnlys
61
GLM-5.2 发布:AAI 指数 51 分,开源权重模型新标杆

Z ai 发布 GLM-5.2(744B 总参数/40B 活跃参数),在 Artificial Analysis Intelligence Index v4.1 上得分 51,超越 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。科学推理大幅提升:CritPt +16、HLE +12、GPQA Diamond 达 89%。GDPval-AA v2 得分 1524,与 GPT-5.5 (xhigh reasoning) 相当。上下文窗口扩展至 1M tokens,MIT 许可证。第一方 API 定价 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 token,每任务成本约 $0.46,处于智能 vs 成本帕累托前沿。

开源生态推理评测/基准
13:09
SemiAnalysis@SemiAnalysis_
65
POV: @ohnePixel 为 DeepSeek V4 首日部署获得一个平台。 了解更多:https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
DeepSeek推理评测/基准
12:29
歸藏(guizang.ai)@op7418
72
智谱 GLM-5.2 正式发布并开源,定位处理长周期任务。模型具备稳定的100万上下文窗口,并引入思考力度控制。架构上采用 IndexShare 机制,每四层稀疏注意力共享同一个 indexer,在百万 token 上下文中将每 token 计算量降低约 2.9 倍。用户现可在 Codepilot 模型管理中添加使用 GLM-5.2。

歸藏(guizang.ai): 智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...

开源生态推理模型发布
12:05
IT之家(RSS)
47
小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力

小艺 Claw 接入开源盘古 openPangu 2.0 Pro 模型,重点提升鸿蒙系统级任务执行能力。该模型更亲和昇腾算力,单卡吞吐率达其他主流开源模型的 2 倍,Agent 任务更快更准更省。拥有 512K 上下文,含 Pro 与 Flash 两版本:2.0 Pro 总参数量 505B、激活参数量 18B;2.0 Flash 总参数量 92B、激活参数量 6B。openPangu 2.0 计划从 6 月 30 日起陆续开源 7 大组件,包括预训练代码、后训练代码、训练算子。

智能体产品更新推理
11:38
karminski-牙医@karminski3
67
智谱(Z.ai)发布GLM-5.2模型,编程与智能体任务显著改进,支持1M上下文窗口。提供两种推理模式:GLM-5.2(max)追求极限性能,GLM-5.2(high)平衡性能与token效率。模型权重以MIT许可开源,API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
11:35
HuggingFace Daily Papers(社区热门论文)
40
ChLogic:中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好,但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic,包含通用对齐集(60条命题)、困难对齐集(40道难题)及纯中文集(15类语言现象),每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现,但在困难集上效果混杂,Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv推理评测/基准
11:29
歸藏(guizang.ai)@op7418
79
智谱 GLM-5.2 发布并开源

智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
10:33
HuggingFace Daily Papers(社区热门论文)
49
近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度,避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题(BCQ)让学生区分正确与错误回答,及负候选问题(NCQ)聚合错误模式;提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师,经视觉语言模型后训练并在31项基准测试中评估,ZPPO全面优于离策略/在策略蒸馏和GRPO,最小规模提升最大。

arXiv推理数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
51
LoopCoder-v2:仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。

arXiv推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
数据配方显著提升大语言模型长上下文推理能力

该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法

针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题,论文提出轨迹增强策略优化(TAPO)。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout,利用对比结构构造微反射修正轨迹:保留错误推理至失败点,插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上,TAPO 相同时训练步数下较 GRPO 获得持续改进。

推理数据/训练论文/研究
‹ 上一页
1…89101112…50
下一页 ›