6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据，并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合，并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制，团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法，以及初步结果与当前局限，为后续研究提供了方向。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示模型内部机制，对 AI 安全和优化至关重要。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

稀疏混合线性变换（MOLT）

稀疏混合线性变换（MOLT）是一种正在开发的新方法，旨在替代Transformer模型中的MLP层，以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同，MOLT学习稀疏激活的线性变换，这些变换直接对残差流进行线性操作以贡献输出，充当纯粹的计算单元。初步实验表明，MOLT比转码器计算效率更高、机制更忠实，其激活条件具有可解释性，有助于理解层间特征的转换过程。该方法与混合解码器架构相关，但采用了低秩矩阵等不同参数化策略。

Anthropic 推理论文/研究

推荐理由：新可解释性方法让 AI 内部计算更透明，助力模型调试与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

干扰权重的玩具模型研究

本文探讨神经网络中“干扰权重”与“权重叠加”现象，认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现：干扰权重可在修改解释的玩具模型中复现，其表现与真实模型相似，分析时通常需滤除；其定义多样，既有原则性定义也有实用启发式方法，可在玩具模型中比较，并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法；仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响：它们可能被对抗性环境利用从而损害模型鲁棒性，但对于对齐问题可能不重要，因其无助于优化目标。

Anthropic 推理论文/研究

推荐理由：可解释性研究新进展，揭示权重叠加问题，对AI安全分析有重要启示。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

一个关于机制（非）忠实性的玩具模型

本文通过“绝对值”玩具模型，揭示了稀疏自动编码器（SAE）和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于，即使转码器能很好地近似模型的输入-输出映射，它也可能采用与原始模型完全不同的内部计算机制。作者特别指出，当训练数据中存在重复数据点时，转码器可能形成专门“记忆”该点的特征电路，而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异，从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。

Anthropic 推理数据/训练论文/研究

推荐理由：揭示可解释性方法中潜在的忠实性问题，帮助开发者更可靠地理解模型内部机制。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

当模型操纵流形：一项计数任务的几何原理

本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力，以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息：离散特征激活与特征流形上的几何变换。具体而言，它通过追踪当前行字符数、行宽限制等变量，整合信息以估算剩余空间，从而决定是否换行。研究发现，这些计数表征存在于残差流的低维高曲率一维流形上，其计算过程既可解读为离散电路，也可视为连续的几何变换。

Anthropic 推理论文/研究

推荐理由：模型内部自发形成类似哺乳动物空间感知的几何表征，揭示大模型'感知'世界的底层机制

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

大语言模型中涌现的自省意识

研究通过“概念注入”技术直接操控模型内部激活状态，以检验大语言模型是否具备真正的内省能力。实验发现，在某些情境下，模型能够察觉并识别被注入的概念，区分自身内部表征与原始文本输入，甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中，Claude Opus系列模型展现出最强的自省意识，但这种能力不稳定且高度依赖情境。研究表明，当前模型已具备某种对其内部状态的功能性感知，尽管仍不可靠，但可能随模型能力提升而发展。

Anthropic 安全/对齐推理论文/研究

推荐理由：研究揭示大模型可能具备有限内省能力，对 AI 安全和透明度有重要启示。

6月10日

00:00

Mistral AI：News（网页）

Mistral AI 发布首个推理模型 Magistral

Mistral AI 发布了其首个推理模型 Magistral，包含开源版 Magistral Small（24B 参数）和企业版 Magistral Medium。在 AIME2024 上，Magistral Medium 得分为 73.6%，Magistral Small 为 70.7%。该模型核心特点是支持透明的多步推理，并能在 Le Chat 中以 10 倍于多数竞品的速度运行。Magistral 原生支持包括英语、法语、简体中文在内的多语言推理。开源版 Magistral Small 以 Apache 2.0 许可证发布。

开源生态推理模型发布

5月29日

20:06

公众号：DeepSeek（深度求索）

DeepSeek-R1 更新，思考更深，推理更强

DeepSeek-R1 更新，思考更深，推理更强。开启“深度思考”功能即可体验新版 R1 更加强大的思考与推理能力。

DeepSeek 推理模型发布

5月28日

08:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter 推出推理流摘要、加密货币发票等多项新功能

OpenRouter 上线了推理流摘要（Reasoning Streams）功能，支持流式推理过程摘要，同时新增加密货币发票支付、最终用户 ID（End-User IDs）、速率限制保护以及密钥锁定等特性。

产品更新推理部署/工程

推荐理由：如果你在用 OpenRouter 做应用，这几个更新挺实用，推理流输出让代理开发更可控，加密支付和端用户 ID 也降低了商业化门槛。

5月20日

17:45

Google DeepMind：Blog（RSS）

精选

构建通用 AI 助手的愿景

Google 计划将 Gemini 扩展为世界模型，使其能够通过模拟世界来制定计划和想象新体验，从而实现通用 AI 助手的愿景。

智能体 DeepMind Google 推理

推荐理由：DeepMind官方阐述Gemini世界模型愿景，揭示通用AI助手演进新方向

5月7日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新增提供商：Cerebras 上线

OpenRouter 引入 Cerebras 作为新提供商，专为速度和规模构建，实现从晶圆到模型 token 的全链路优化。该提供商消除了内存瓶颈，使大规模推理成为可能。

产品更新推理部署/工程

08:00

OpenRouter：Announcements（RSS）

新提供商上线：Cerebras 来了

Cerebras 作为新提供商加入 OpenRouter，其平台专为速度和规模构建，从晶圆到模型 token 突破了内存瓶颈，实现高效 AI 推理。

产品更新推理部署/工程

5月6日

23:06

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Pro Preview 提前发布：编程性能进一步提升

鉴于开发者反馈积极，Google 提前两周发布 Gemini 2.5 Pro Preview 更新版本，编程性能进一步提升，现已开放获取。

DeepMind Google 推理模型发布

推荐理由：Gemini 2.5 Pro 提前发布更新版本，编码性能显著提升，开发者可即刻体验

5月1日

08:00

Lilian Weng：Lil'Log（RSS）

我们为何思考

研究表明，“测试时计算”与“思维链”等技术能显著提升模型性能，但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”，有效利用了额外的计算资源，从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态，并解析其有效性的原因。

OpenAI 大佬观点推理

4月30日

09:23

公众号：小米 MiMo

Xiaomi MiMo：为"Reasoning"而生！小米首个推理大模型开源

推理模型发布

4月20日

19:17

Ethan Mollick：One Useful Thing（RSS）

精选

论 Jagged AGI：o3、Gemini 2.5 及未来

o3 与 Gemini 2.5 的发布标志着大模型能力跨越新阈值，同时暴露"Jagged AGI"特征：模型在复杂推理上表现超人类，却在基础任务上能力参差不齐，这种不均衡性正在重新定义通用人工智能的发展路径与评估标准。

Google OpenAI 大佬观点推理

关联讨论 1 条

推荐理由：Ethan Mollick 深度解读 o3 与 Gemini 2.5 背后的 AGI 能力边界与趋势

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选80

Circuits 更新 -- 2025年4月

Anthropic 可解释性团队分享了2025年4月的研究进展，重点剖析了一个不成功的越狱攻击案例。团队对同一模型应用电路追踪方法时发现，模型拒绝此次越狱尝试的原因，与其在论文中拒绝直接有害请求的基线原因不同。模型似乎更频繁地拒绝这种特定构造的越狱提示。分析还揭示，由于示例分布过窄，特征可视化可能产生误导，这凸显了使用多样化数据的重要性。这些发现源于初步实验，并非成熟论文的结论。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示越狱内部机制，助力AI安全与模型理解。

4月10日

08:00

Shunyu Yao：Blog（RSS）

AI下半场：从解题到定义问题

AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型，如Transformer、GPT等，其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题，评估比训练更重要。当前的突破性进展是强化学习终于实现泛化，形成了一个通用方案，能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段，转向以明确目标、定义评估标准为核心的新时期。

智能体大佬观点推理

3月27日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

电路追踪：揭示语言模型中的计算图

研究团队提出“电路追踪”方法，用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤，生成描述模型执行过程的图；替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具，以研究18层语言模型的简单行为归因图，为后续研究奠定基础，并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征，并构建特征间线性相互作用的归因图。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部机制，为AI安全与调试提供新工具。

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选88

论大语言模型的生物学

研究团队运用其电路追踪方法，深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布，是Anthropic的轻量级生产模型。研究发现，模型在生成诗歌前会预先规划并选定押韵词；其内部存在语言特定与语言无关的混合计算电路，且后者在更强大的模型中更突出；同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程，以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外，方法能有效区分模型思维链推理的真实性，并成功识别出一个被微调以追求秘密目标（利用训练“漏洞”）的变体模型的相关机制。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部工作原理，助力 AI 安全与可解释性研究。

3月25日

21:23

公众号：DeepSeek（深度求索）

同事件精选64

DeepSeek-V3 模型更新，各项能力全面进阶

DeepSeek-V3 新版已发布，关闭深度思考模式即可体验，模型权重同步开源。

DeepSeek 开源/仓库推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：DeepSeek-V3 发布时是开源模型的有力竞争者，但这条一年多前的旧闻如今毫无新意，对关注 AI 动态的你来说，可以直接跳过。

2月19日

00:00

xAI：News（网页）

精选

Grok 3 Beta 发布：推理智能体时代来临

Grok 3 Beta 正式发布，开启"推理智能体"时代。新版本强化深度推理与自主决策能力，支持复杂任务拆解和多步逻辑链处理，在数学、编程等推理密集型场景表现显著提升，标志着 AI 从简单问答向自主推理决策的范式转变。

智能体 xAI 推理模型发布

推荐理由：xAI发布Grok 3 Beta，主打推理智能体能力

2月6日

00:00

Mistral AI：News（网页）

全新 le Chat：你的生活与工作 AI 助手

Mistral AI 推出全新 le Chat AI 助手，基于其高性能模型提供快速响应（最高约 1000 词/秒）。该助手提供 Pro（$14.99/月起）和 Team 版本，并开启企业版私有预览，支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理，并即将推出数据连接器和多步骤智能体。

产品更新图像生成多模态推理

2月4日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新增 Cloudflare 提供商，上线 Gemma 与 Llama 模型

OpenRouter 新增 Cloudflare 作为服务提供商，现已支持 Gemma 模型以及流行的 Llama 模型。

产品更新推理部署/工程

1月30日

00:00

Mistral AI：News（网页）

Mistral Small 3发布

Mistral AI 发布 Mistral Small 3，一款基于 Apache 2.0 开源、延迟优化的 24B 参数大语言模型。其性能可与 Llama 3.3 70B、Qwen 32B 等更大模型竞争，并作为 GPT-4o-mini 的开源替代。指令微调版本在代码、数学、通用知识等基准测试中表现出色，MMLU 准确率超 81%，推理速度达 150 tokens/s。该模型未使用强化学习或合成数据训练，提供预训练和指令微调两个检查点，适合本地部署，经量化后可在单块 RTX 4090 或 32GB 内存 MacBook 上运行。现已在 la Plateforme 平台提供，并与 Hugging Face、Ollama、Together AI 等合作推出。

开源生态推理模型发布

1月24日

08:00

OpenRouter：Announcements（RSS）

精选59

OpenRouter 推出 Reasoning Tokens，用于思考模型

OpenRouter 为思考模型（thinking models）新增推理 token（reasoning tokens），帮助用户理解模型思考过程。

产品更新推理

推荐理由：OpenRouter把思考模型的推理步骤给透明了，调试链路的开发者能直接看“内心戏”，但放在今天这个功能已不稀奇。

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Reasoning Tokens 支持 Thinking Models

OpenRouter 推出了 Reasoning Tokens 功能，让用户能够理解思考型模型（Thinking Models）的思维过程。

产品更新推理

08:00

OpenRouter：Announcements（RSS）

Reasoning Tokens for Thinking Models

研究人员为大型语言模型引入了“推理令牌”概念，这是一种特殊的元数据标记，用于显式标注模型在生成最终答案前的内部推理步骤。该机制允许模型将思考过程分解为多个中间步骤，并以结构化令牌形式输出，使人类能够追溯和分析其逻辑链条。这种方法提升了模型决策的透明度和可解释性，有助于调试复杂任务中的错误，并为评估推理质量提供了新工具。目前已在部分开源模型架构中实现测试。

产品更新推理部署/工程

1月20日

20:10

公众号：DeepSeek（深度求索）

精选64

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版。模型遵循 MIT License 开放 API，训练技术同步公开。

DeepSeek 推理模型发布

推荐理由：虽已是旧闻，但 DeepSeek-R1 作为首个开源对齐 o1 的模型，其训练技术至今仍有参考价值，做推理方向的值得回溯。

1月6日

09:37

Sam Altman：Blog（RSS）

精选

反思

Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程：从坚信AGI可能实现，到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力，以及被董事会突然解雇的危机教训。如今周活用户已达3亿，在迈向AGI的道路上，他既感激这段经历，也承认未来仍充满未知。

智能体 OpenAI 大佬观点推理

推荐理由：Sam Altman 反思创业历程，预测 2025 年 AI Agent 将实质性改变企业产出

11月20日

19:59

公众号：DeepSeek（深度求索）

精选66

DeepSeek 推理模型预览版上线，推理性能媲美 o1-preview，公开完整思维链

DeepSeek 上线推理模型预览版，其推理性能与 OpenAI 的 o1-preview 相当，并公开了模型的完整思维链。

DeepSeek 推理模型发布

推荐理由：虽然已是旧闻，但 DeepSeek 首次公开推理模型完整思维链，对理解 o1 类模型的内部机制是个重要线索，做推理模型研究的值得回看。

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

电路更新--2024年9月：Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展，重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列（如数字、星期、月份）中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别，其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果，预计未来几个月将发表更详细的研究。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部机制，助力AI可解释性研究，对模型调试和安全有参考价值。

8月16日