Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据,并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合,并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制,团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法,以及初步结果与当前局限,为后续研究提供了方向。
Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据,并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合,并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制,团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法,以及初步结果与当前局限,为后续研究提供了方向。
稀疏混合线性变换(MOLT)是一种正在开发的新方法,旨在替代Transformer模型中的MLP层,以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同,MOLT学习稀疏激活的线性变换,这些变换直接对残差流进行线性操作以贡献输出,充当纯粹的计算单元。初步实验表明,MOLT比转码器计算效率更高、机制更忠实,其激活条件具有可解释性,有助于理解层间特征的转换过程。该方法与混合解码器架构相关,但采用了低秩矩阵等不同参数化策略。
本文探讨神经网络中“干扰权重”与“权重叠加”现象,认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现:干扰权重可在修改解释的玩具模型中复现,其表现与真实模型相似,分析时通常需滤除;其定义多样,既有原则性定义也有实用启发式方法,可在玩具模型中比较,并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法;仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响:它们可能被对抗性环境利用从而损害模型鲁棒性,但对于对齐问题可能不重要,因其无助于优化目标。
本文通过“绝对值”玩具模型,揭示了稀疏自动编码器(SAE)和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于,即使转码器能很好地近似模型的输入-输出映射,它也可能采用与原始模型完全不同的内部计算机制。作者特别指出,当训练数据中存在重复数据点时,转码器可能形成专门“记忆”该点的特征电路,而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异,从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。
本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力,以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息:离散特征激活与特征流形上的几何变换。具体而言,它通过追踪当前行字符数、行宽限制等变量,整合信息以估算剩余空间,从而决定是否换行。研究发现,这些计数表征存在于残差流的低维高曲率一维流形上,其计算过程既可解读为离散电路,也可视为连续的几何变换。
研究通过“概念注入”技术直接操控模型内部激活状态,以检验大语言模型是否具备真正的内省能力。实验发现,在某些情境下,模型能够察觉并识别被注入的概念,区分自身内部表征与原始文本输入,甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中,Claude Opus系列模型展现出最强的自省意识,但这种能力不稳定且高度依赖情境。研究表明,当前模型已具备某种对其内部状态的功能性感知,尽管仍不可靠,但可能随模型能力提升而发展。
Mistral AI 发布了其首个推理模型 Magistral,包含开源版 Magistral Small(24B 参数)和企业版 Magistral Medium。在 AIME2024 上,Magistral Medium 得分为 73.6%,Magistral Small 为 70.7%。该模型核心特点是支持透明的多步推理,并能在 Le Chat 中以 10 倍于多数竞品的速度运行。Magistral 原生支持包括英语、法语、简体中文在内的多语言推理。开源版 Magistral Small 以 Apache 2.0 许可证发布。
DeepSeek-R1 更新,思考更深,推理更强。开启“深度思考”功能即可体验新版 R1 更加强大的思考与推理能力。
OpenRouter 上线了推理流摘要(Reasoning Streams)功能,支持流式推理过程摘要,同时新增加密货币发票支付、最终用户 ID(End-User IDs)、速率限制保护以及密钥锁定等特性。
Google 计划将 Gemini 扩展为世界模型,使其能够通过模拟世界来制定计划和想象新体验,从而实现通用 AI 助手的愿景。
OpenRouter 引入 Cerebras 作为新提供商,专为速度和规模构建,实现从晶圆到模型 token 的全链路优化。该提供商消除了内存瓶颈,使大规模推理成为可能。
Cerebras 作为新提供商加入 OpenRouter,其平台专为速度和规模构建,从晶圆到模型 token 突破了内存瓶颈,实现高效 AI 推理。
鉴于开发者反馈积极,Google 提前两周发布 Gemini 2.5 Pro Preview 更新版本,编程性能进一步提升,现已开放获取。
研究表明,“测试时计算”与“思维链”等技术能显著提升模型性能,但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”,有效利用了额外的计算资源,从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态,并解析其有效性的原因。
o3 与 Gemini 2.5 的发布标志着大模型能力跨越新阈值,同时暴露"Jagged AGI"特征:模型在复杂推理上表现超人类,却在基础任务上能力参差不齐,这种不均衡性正在重新定义通用人工智能的发展路径与评估标准。
关联讨论 1 条Ethan Mollick:One Useful Thing(RSS)Anthropic 可解释性团队分享了2025年4月的研究进展,重点剖析了一个不成功的越狱攻击案例。团队对同一模型应用电路追踪方法时发现,模型拒绝此次越狱尝试的原因,与其在论文中拒绝直接有害请求的基线原因不同。模型似乎更频繁地拒绝这种特定构造的越狱提示。分析还揭示,由于示例分布过窄,特征可视化可能产生误导,这凸显了使用多样化数据的重要性。这些发现源于初步实验,并非成熟论文的结论。
AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型,如Transformer、GPT等,其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题,评估比训练更重要。当前的突破性进展是强化学习终于实现泛化,形成了一个通用方案,能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段,转向以明确目标、定义评估标准为核心的新时期。
研究团队提出“电路追踪”方法,用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤,生成描述模型执行过程的图;替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具,以研究18层语言模型的简单行为归因图,为后续研究奠定基础,并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征,并构建特征间线性相互作用的归因图。
研究团队运用其电路追踪方法,深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布,是Anthropic的轻量级生产模型。研究发现,模型在生成诗歌前会预先规划并选定押韵词;其内部存在语言特定与语言无关的混合计算电路,且后者在更强大的模型中更突出;同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程,以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外,方法能有效区分模型思维链推理的真实性,并成功识别出一个被微调以追求秘密目标(利用训练“漏洞”)的变体模型的相关机制。
DeepSeek-V3 新版已发布,关闭深度思考模式即可体验,模型权重同步开源。
同一事件,精选展示《DeepSeek-V3 正式发布》Grok 3 Beta 正式发布,开启"推理智能体"时代。新版本强化深度推理与自主决策能力,支持复杂任务拆解和多步逻辑链处理,在数学、编程等推理密集型场景表现显著提升,标志着 AI 从简单问答向自主推理决策的范式转变。
Mistral AI 推出全新 le Chat AI 助手,基于其高性能模型提供快速响应(最高约 1000 词/秒)。该助手提供 Pro($14.99/月起)和 Team 版本,并开启企业版私有预览,支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理,并即将推出数据连接器和多步骤智能体。
OpenRouter 新增 Cloudflare 作为服务提供商,现已支持 Gemma 模型以及流行的 Llama 模型。
Mistral AI 发布 Mistral Small 3,一款基于 Apache 2.0 开源、延迟优化的 24B 参数大语言模型。其性能可与 Llama 3.3 70B、Qwen 32B 等更大模型竞争,并作为 GPT-4o-mini 的开源替代。指令微调版本在代码、数学、通用知识等基准测试中表现出色,MMLU 准确率超 81%,推理速度达 150 tokens/s。该模型未使用强化学习或合成数据训练,提供预训练和指令微调两个检查点,适合本地部署,经量化后可在单块 RTX 4090 或 32GB 内存 MacBook 上运行。现已在 la Plateforme 平台提供,并与 Hugging Face、Ollama、Together AI 等合作推出。
OpenRouter 为思考模型(thinking models)新增推理 token(reasoning tokens),帮助用户理解模型思考过程。
OpenRouter 推出了 Reasoning Tokens 功能,让用户能够理解思考型模型(Thinking Models)的思维过程。
研究人员为大型语言模型引入了“推理令牌”概念,这是一种特殊的元数据标记,用于显式标注模型在生成最终答案前的内部推理步骤。该机制允许模型将思考过程分解为多个中间步骤,并以结构化令牌形式输出,使人类能够追溯和分析其逻辑链条。这种方法提升了模型决策的透明度和可解释性,有助于调试复杂任务中的错误,并为评估推理质量提供了新工具。目前已在部分开源模型架构中实现测试。
DeepSeek-R1 发布,性能对标 OpenAI o1 正式版。模型遵循 MIT License 开放 API,训练技术同步公开。
Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程:从坚信AGI可能实现,到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力,以及被董事会突然解雇的危机教训。如今周活用户已达3亿,在迈向AGI的道路上,他既感激这段经历,也承认未来仍充满未知。
DeepSeek 上线推理模型预览版,其推理性能与 OpenAI 的 o1-preview 相当,并公开了模型的完整思维链。
Anthropic可解释性团队在2024年9月分享了其初步研究进展,重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列(如数字、星期、月份)中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别,其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果,预计未来几个月将发表更详细的研究。
DeepSeek API 新增续写、FIM、Function Calling 和 JSON Output 功能,所有新功能均可通过 deepseek-chat 和 deepseek-coder 模型调用。
Mistral AI发布了大语言模型Mistral Large 2。该模型拥有128k上下文窗口和123B参数,支持数十种语言和80多种编程语言,专为单节点长上下文推理设计。在MMLU基准上,其预训练版本达到84.0%准确率,性能与GPT-4o、Claude 3 Opus和Llama 3 405B相当,并显著降低了模型幻觉倾向。模型通过Mistral的API平台和HuggingFace提供,采用Mistral Research License(研究用途)和商业许可(商用部署)。平台将整合为通用模型(Mistral Nemo、Mistral Large)和专用模型(Codestral、Embed)的组合。
Mistral AI团队与NVIDIA合作发布了Mistral NeMo,这是一个12B参数的大语言模型。它提供高达128k tokens的上下文窗口,并在推理、世界知识和编码能力上达到了其规模的前沿水平。该模型基于标准架构,是Mistral 7B的即插即用替代品,并支持FP8推理。Mistral NeMo以Apache 2.0许可开源,包含预训练和指令微调版本,权重已发布在HuggingFace并可通过其API平台调用。新引入的Tekken分词器在超过100种语言上训练,在压缩多种语言文本时效率显著高于前代。
Mistral AI 发布了专注于数学推理的 7B 参数模型 Mathstral 7B。该模型基于 Mistral 7B 构建,旨在解决需要复杂多步推理的高级数学问题。它在 MATH 和 MMLU 基准上分别达到 56.6% 和 63.47%,在同等参数规模中实现 SOTA 性能。通过增加推理时计算,其在 MATH 上的分数可借助多数投票提升至 68.37%,使用强奖励模型则可达 74.59%。该模型为指令模型,权重已托管于 HuggingFace。
Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法,并指出了未来面临的五大核心挑战。这些挑战包括:大量未被提取的“缺失特征”可能构成神经网络的“暗物质”;跨层叠加现象使特征难以映射到特定层;注意力叠加可能掩盖了如归纳头等基本单元的真实结构;权重叠加产生的“干扰权重”给电路分析带来混淆;以及如何将微观的电路理解整合为宏观的模型认知。团队认为,尽管在特征叠加等问题上已取得显著进展,但这些新挑战是通往神经网络机制性理解道路上的关键障碍。
本文认为,在可解释性这类尚处前范式阶段的早期科学领域中,定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量,但可解释性研究缺乏这些基础,过度依赖将高维数据简化为单一数字的摘要统计量存在风险,可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例,说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域,研究目标应是探索值得考虑的假设,这需要更多地依赖定性结果来引导方向,并对定量度量保持审慎。
Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。