5月9日

11:29

IT之家（RSS）

蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T：限时一周免费体验，引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T，专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制，提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流，注重低 Token 开销与快速多步执行；xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线，开放限时一周免费体验。

推理模型发布

11:19

Hacker News 热门（buzzing.cc 中文翻译）

精选78

教克劳德"为什么"

Anthropic公司发布了Claude模型的新研究“Teaching Claude Why”。该研究通过让模型学习解释自身推理过程中的“为什么”，显著提升了其推理能力和输出结果的准确性。实验表明，经过此项训练后，模型在多项基准测试中的表现得到改善，其推理步骤的透明度和逻辑连贯性增强。这项技术旨在推动AI向更可解释、更可靠的方向发展。

Anthropic 安全/对齐推理论文/研究

推荐理由：Anthropic 没刷榜，而是教 Claude 理解“为什么”，这是可解释性上的真进展，对齐和安全方向的研究者该细读。

09:25

SemiAnalysis@SemiAnalysis_

@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果，包括在B200、B300上的优化，以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升！正如@elonmusk所说，GB300是最佳AI计算机，而此类软件优化正展现其真正潜力！

DeepSeek 推理行业动态

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

08:35

Berryxia.AI@berryxia

人类大脑最聪明的地方，就是大部分时间只激活极少部分神经元。

现代LLM类似人脑，前馈层中超过95%的神经元对输入保持静默，呈现高度稀疏性。但GPU硬件专为密集计算设计，非结构化稀疏导致不规则内存访问，反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾，开发了TwELL混合稀疏格式及定制CUDA内核，将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径，并为密集token提供备用矩阵。在H100 GPU上，训练和推理速度提升超20%，同时降低内存占用和能耗。相关论文、博客和代码均已开源。

hardmaru: The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...

arXiv 推理论文/研究部署/工程

08:35

Berryxia.AI@berryxia

Hinton揭示AI思考本质：多模态整合是关键突破

Geoffrey Hinton指出语言只是思考的工具之一，AI推理可以是真正的思考，因为语言本身就是一种思考形式。人类和AI能用文字建模，但真正思考超越文字，涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI，这代表下一个大突破方向：让AI像人类一样通过多感官、多维度理解世界，从而打破智能边界。多模态是最终出路，但文本基础仍需巩固以确保发展效果。

Haider.: Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...

多模态大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

DiagnosticIQ：基于大语言模型的符号规则工业维护行动推荐基准

研究团队推出DiagnosticIQ基准，包含来自16类资产、118条规则-行动对的6690道专家验证多选题，用于评估大语言模型将工业监测中的符号规则转化为具体维护步骤的能力。基准包含五个变体以探测不同失效模式，并对29个大语言模型和4个嵌入基线进行了测试。人类专家平均准确率仅45.0%，证实任务需要专项知识。研究发现：前沿模型性能接近，但Pro变体显示在干扰项扩展下模型相对准确率下降13-60%，Aug变体暴露模型在条件反转时仍有49-63%的概率选择原答案，存在模式匹配倾向。这表明部署瓶颈并非模型能力不足，而是其校准问题。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

AgentForesight：面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题，本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀，并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库，并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练，在AFTraj-2K和外部基准测试中，其性能超越GPT-4.1等领先专有模型，实现了高达+19.9%的性能提升，并将步骤定位误差降低3倍，从而将故障处理从事后归因转向部署时干预。

智能体 arXiv 推理论文/研究

推荐理由：在多agent系统里，一个错误往往被下游接受并导致整个轨迹失败，这篇论文把事后归因变成了在线审计，用小模型在错误扩散前报警，比GPT-4.1还准，做agent部署的值得细读。