全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 300 条

全部一手资讯 X 论文

标签「论文/研究」清除

11月1日周六

17:00BAIR：Berkeley AI Research Blog摆脱TD学习的强化学习新方法

10月30日周四

18:03Hugging Face：Blog（RSS）83精选Aligning to What？ Rethinking Agent Generalization in MiniMax M2

10月29日周三

22:31Google DeepMind：Blog（RSS）借助 AI for Math Initiative 加速科学发现

10月27日周一

08:00Thinking Machines Lab：官方博客（RSS）48在线策略蒸馏

10月24日周五

15:16蚂蚁 inclusionAI：GitHub 新仓库47inclusionAI/TwinFlow

10:30Google DeepMind：Blog（RSS）AI 助力生物声学研究，拯救濒危物种

10:21Google DeepMind：Blog（RSS）利用人工智能深度感知宇宙

08:02Google DeepMind：Blog（RSS）发现流体力学百年难题的新解法

10月22日周三

00:00字节 Seed：Research Papers（网页内嵌数据）Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

10月15日周三

08:00Anthropic：Transformer Circuits（可解释性研究）83精选Circuits 更新 - 2025年10月

10月10日周五

15:36蚂蚁 inclusionAI：GitHub 新仓库46SWE-CARE：一个用于评估代码审查全面性的基准

10月7日周二

08:00EleutherAI：BlogReward Hacking 研究更新

10月2日周四

00:00Berkeley RDI：Blog（AI 安全与评测）RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

9月29日周一

11:19蚂蚁 inclusionAI：GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit

08:00Thinking Machines Lab：官方博客（RSS）62LoRA 无悔

9月26日周五

08:00Thinking Machines Lab：官方博客（RSS）45Modular Manifolds

00:00LMSYS：Blog（Chatbot Arena 团队）蚂蚁集团联合SGLang：H20-96G部署DeepSeek-R1最佳实践

9月15日周一

08:00Anthropic：Transformer Circuits（可解释性研究）73精选Circuits 更新 - 2025年9月

9月2日周二

00:00字节 Seed：Research Papers（网页内嵌数据）PXDesign：快速、模块化且准确的蛋白质结合剂从头设计方法

9月1日周一

17:00BAIR：Berkeley AI Research Blogword2vec究竟学到了什么？

8月15日周五

08:00Anthropic：Transformer Circuits（可解释性研究）73精选角色如何改变AI的回答？--Anthropic可解释性团队2025年8月电路分析案例

8月4日周一

00:00字节 Seed：Research Papers（网页内嵌数据）Seed Diffusion：支持高速推理的大规模扩散语言模型

8月1日周五

23:00EleutherAI：Blog注意力探针

7月31日周四

00:00字节 Seed：Research Papers（网页内嵌数据）Seed-Prover：面向自动定理证明的深度与广度推理

7月15日周二

08:00Anthropic：Transformer Circuits（可解释性研究）83精选2025年7月电路更新：特征语言重构数学框架与生物AI可解释性应用

7月1日周二

17:00BAIR：Berkeley AI Research Blog基于全身条件的第一人称视角视频预测

6月23日周一

08:00EleutherAI：Blog研究进展：局部体积测量在下游任务中的应用

6月15日周日

08:00Anthropic：Transformer Circuits（可解释性研究）78精选Crosscoder模型差异分析见解

08:00Anthropic：Transformer Circuits（可解释性研究）83精选注意力机制研究进展

08:00Anthropic：Transformer Circuits（可解释性研究）83精选稀疏混合线性变换（MOLT）

08:00Anthropic：Transformer Circuits（可解释性研究）83精选干扰权重的玩具模型研究

08:00Anthropic：Transformer Circuits（可解释性研究）76精选通过特征交互追踪注意力计算

08:00Anthropic：Transformer Circuits（可解释性研究）78精选一个关于机制（非）忠实性的玩具模型

08:00Anthropic：Transformer Circuits（可解释性研究）78精选当模型操纵流形：一项计数任务的几何原理

08:00Anthropic：Transformer Circuits（可解释性研究）83精选大语言模型中涌现的自省意识

6月12日周四

08:00EleutherAI：Blog通过局部体积研究随机网络的归纳偏置

5月31日周六

06:00EleutherAI：Blog使用积键记忆编码稀疏编码器特征

4月15日周二

08:00Anthropic：Transformer Circuits（可解释性研究）80精选Circuits 更新 -- 2025年4月

4月11日周五

18:00BAIR：Berkeley AI Research Blog利用结构化查询（StruQ）与偏好优化（SecAlign）防御提示注入攻击

4月8日周二

18:30BAIR：Berkeley AI Research Blog利用 Latent Diffusion 改造蛋白质折叠模型用于生成

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

11月1日

17:00

BAIR：Berkeley AI Research Blog

摆脱TD学习的强化学习新方法

伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法，彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计，将Bellman递归次数从线性降至对数级，根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习，新算法无需调节步长参数，避免了高方差与次优性，在复杂长程任务中展现出良好的可扩展性。

数据/训练论文/研究

10月30日

18:03

Hugging Face：Blog（RSS）

精选83

Aligning to What？ Rethinking Agent Generalization in MiniMax M2

MiniMax 在 Hugging Face 发布博客，探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标，以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思，旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。

智能体 Hugging Face 论文/研究

推荐理由：Agent 泛化是 AI 实用化关键，这篇重新思考可能带来新突破。

10月29日

22:31

Google DeepMind：Blog（RSS）

借助 AI for Math Initiative 加速科学发现

AI for Math Initiative 汇聚全球顶尖研究机构，率先探索 AI 在数学研究中的创新应用，加速科学发现。

DeepMind Google 推理论文/研究

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

48

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

10月24日

15:16

蚂蚁 inclusionAI：GitHub 新仓库

47

inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法，旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能，有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究

10:30

Google DeepMind：Blog（RSS）

AI 助力生物声学研究，拯救濒危物种

新 Perch 模型帮助保护人员快速分析音频，监测从夏威夷蜜旋木雀到珊瑚礁的濒危物种，提升保护效率。

DeepMind Google 论文/研究

10:21

Google DeepMind：Blog（RSS）

利用人工智能深度感知宇宙

利用人工智能技术，科学家能够从海量宇宙数据中提取深层信息，突破传统观测局限，揭示隐藏规律，从而以前所未有的深度感知和理解宇宙，持续拓展人类认知边界。

DeepMind Google 多模态数据/训练

08:02

Google DeepMind：Blog（RSS）

发现流体力学百年难题的新解法

新方法可帮助数学家利用AI技术攻克数学、物理与工程领域的长期挑战，为流体力学百年难题提供全新解决思路。

DeepMind 推理论文/研究

10月22日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产，可直接集成至物理引擎用于机器人操作与仿真训练，无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题，并支持将物体组合为连贯场景，实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究

10月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现，从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征，能够识别ASCII艺术和SVG代码中编码的语义概念，如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境，例如，SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导，可以对应修改文本艺术的语义，例如将ASCII表情从皱眉转为微笑，或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向，会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic 多模态推理论文/研究

推荐理由：为AI可解释性研究提供新实验方法，启发跨模态模型设计。

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

46

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

10月7日

08:00

EleutherAI：Blog

Reward Hacking 研究更新

研究团队发布了关于 Reward Hacking（奖励黑客）问题的中期进展报告，梳理了该领域正在进行的工作。报告聚焦于 AI 系统通过非预期方式最大化奖励函数、利用评估漏洞等行为模式的研究现状。目前相关研究仍处于 interim 阶段，具体实验数据与防御策略的详细结果将在后续更新中公布。

安全/对齐论文/研究

10月2日

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

9月29日

11:19

蚂蚁 inclusionAI：GitHub 新仓库

38

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

08:00

Thinking Machines Lab：官方博客（RSS）

62

本文探讨了低秩适配（LoRA）与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重，在保持模型参数不变的同时节省训练内存，支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确，但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳，因其参数容量有限；而对于中等及以下规模的数据集，其效果尚需进一步研究。

数据/训练论文/研究

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

45

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

蚂蚁集团联合SGLang：H20-96G部署DeepSeek-R1最佳实践

蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性，采用硬件感知策略：单节点TP-8处理prefill，小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术，在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐，达H20平台SOTA性能。

DeepSeek 推理论文/研究部署/工程

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Circuits 更新 - 2025年9月

Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示，模型在不同语言间的特征相似性（通过交并比IoU衡量）会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句，团队发现末句的IoU显著高于首句，且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解，而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。

Anthropic 推理论文/研究

推荐理由：揭示语言模型随上下文深化理解的机制，助力可解释性研究进展。

9月2日

00:00

字节 Seed：Research Papers（网页内嵌数据）

PXDesign：快速、模块化且准确的蛋白质结合剂从头设计方法

PXDesign 提供了一种快速、模块化且准确的蛋白质结合剂从头设计方案。该方法通过优化算法架构，在保持高精度的同时显著提升计算速度，支持灵活的功能组件组合，可针对不同蛋白质靶点高效生成高亲和力结合剂，为药物开发和合成生物学研究提供了高效的计算设计工具。

9月1日

17:00

BAIR：Berkeley AI Research Blog

word2vec究竟学到了什么？

本研究提出了word2vec学习机制的完整定量理论，证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解，最终词嵌入即为PCA结果。从小初始化开始时，模型通过离散步骤逐次学习正交线性子空间（概念），递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

角色如何改变AI的回答？--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中，通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型，当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时，模型会以“我不知道！”回应并提议玩耍；而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路：模型能将“学龄前学生”关联到“扮演儿童”，从而激活“我不知道”特征。研究还发现，问题难度会调节此效应，并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic 推理论文/研究

推荐理由：揭示模型角色扮演的内部机制，为可解释性研究提供新视角。

8月4日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed Diffusion：支持高速推理的大规模扩散语言模型

字节跳动Seed团队发布扩散语言模型Seed Diffusion，采用非自回归的扩散架构替代传统GPT类模型，通过去噪扩散机制并行生成文本，突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率，在文本生成任务中实现生成质量与计算速度的平衡，为大规模语言模型提供了自回归范式之外的高性能替代方案。

arXiv 推理论文/研究

8月1日

23:00

EleutherAI：Blog

注意力探针

提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征，该技术引入可学习的注意力权重，使探针能够动态聚焦输入中的关键特征或特定 token，替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力，有助于精准定位 Transformer 架构中影响预测的关键信息路径，为大语言模型的可解释性研究提供了更强大的分析工具。

数据/训练论文/研究

7月31日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed-Prover：面向自动定理证明的深度与广度推理

Seed-Prover是基于引理的全证明推理模型，支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明，并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%，在MiniF2F上实现饱和，在PutnamBench上突破50%，大幅领先此前最优水平。针对Lean缺乏几何支持的问题，团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛，在6道题目中完整证明5道。

推理数据/训练论文/研究

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年7月电路更新：特征语言重构数学框架与生物AI可解释性应用

Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架，将注意力头的OV和QK电路描述为特征及其变换（如检测属性X、前一标记X、触发输出X的特征），并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统（如蛋白质语言模型ESM-2）可解释性中的应用进展，强调此类研究对确保药物发现等应用的安全与有效性至关重要。

Anthropic 推理论文/研究

推荐理由：可解释性研究新进展，帮助理解 AI 内部机制，提升模型透明度和安全性。

7月1日

17:00

BAIR：Berkeley AI Research Blog

基于全身条件的第一人称视角视频预测

PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令，生成下一帧画面，支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计，模型处理 48+ 自由度的高维人体控制，解决第一人称视角下身体不可见、感知滞后于动作等挑战，为机器人规划与控制提供世界模型基础。

具身智能视频论文/研究

6月23日

08:00

EleutherAI：Blog

研究进展：局部体积测量在下游任务中的应用

该研究更新了局部体积测量技术在下游任务中的最新应用进展。通过将局部体积测量方法拓展至具体应用场景，探索了该技术在实际任务中的实施路径与性能表现。研究涵盖方法论优化及多场景适配策略，为相关技术的实际落地提供参考。

多模态论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现，模型独占特征往往多义性高、激活密集，难以解释。实验表明，这是由于有限特征容量下的竞争：共享特征能同时解释两个模型的激活模式，而独占特征需编码更多信息以证明其存在。团队提出缓解策略，即引入少量指定共享特征并降低其稀疏性惩罚，使独占特征变得更可解释和单义。该方法应用于真实模型时，成功分离出能捕捉模型间行为差异的可解释特征。此外，观察到独占特征激活频率比共享特征高一个数量级，且两模型独占特征数量相近。

Anthropic 推理数据/训练论文/研究

推荐理由：为 AI 可解释性提供新视角，助力模型行为分析与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

注意力机制研究进展

Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据，并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合，并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制，团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法，以及初步结果与当前局限，为后续研究提供了方向。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示模型内部机制，对 AI 安全和优化至关重要。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

稀疏混合线性变换（MOLT）

稀疏混合线性变换（MOLT）是一种正在开发的新方法，旨在替代Transformer模型中的MLP层，以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同，MOLT学习稀疏激活的线性变换，这些变换直接对残差流进行线性操作以贡献输出，充当纯粹的计算单元。初步实验表明，MOLT比转码器计算效率更高、机制更忠实，其激活条件具有可解释性，有助于理解层间特征的转换过程。该方法与混合解码器架构相关，但采用了低秩矩阵等不同参数化策略。

Anthropic 推理论文/研究

推荐理由：新可解释性方法让 AI 内部计算更透明，助力模型调试与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

干扰权重的玩具模型研究

本文探讨神经网络中“干扰权重”与“权重叠加”现象，认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现：干扰权重可在修改解释的玩具模型中复现，其表现与真实模型相似，分析时通常需滤除；其定义多样，既有原则性定义也有实用启发式方法，可在玩具模型中比较，并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法；仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响：它们可能被对抗性环境利用从而损害模型鲁棒性，但对于对齐问题可能不重要，因其无助于优化目标。

Anthropic 推理论文/研究

推荐理由：可解释性研究新进展，揭示权重叠加问题，对AI安全分析有重要启示。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

通过特征交互追踪注意力计算

研究团队提出“QK归因”方法，将Transformer注意力头的关注模式解释为查询侧与键侧特征激活的双线性函数，并将其整合至原有的归因图中，从而弥补了原有方法忽略注意力计算关键信息的缺陷。案例研究验证了此前在归纳提示、反义词任务等场景中假设的特征交互机制，并发现了如“一致性头”用于合理性检查等新计算模式。该方法实现了对模型前向传播过程更完整的可解释性因果图描述。

Anthropic 论文/研究

推荐理由：Anthropic补齐可解释性方法论的关键拼图，有助于理解大模型内部推理机制

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

一个关于机制（非）忠实性的玩具模型

本文通过“绝对值”玩具模型，揭示了稀疏自动编码器（SAE）和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于，即使转码器能很好地近似模型的输入-输出映射，它也可能采用与原始模型完全不同的内部计算机制。作者特别指出，当训练数据中存在重复数据点时，转码器可能形成专门“记忆”该点的特征电路，而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异，从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。

Anthropic 推理数据/训练论文/研究

推荐理由：揭示可解释性方法中潜在的忠实性问题，帮助开发者更可靠地理解模型内部机制。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

当模型操纵流形：一项计数任务的几何原理

本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力，以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息：离散特征激活与特征流形上的几何变换。具体而言，它通过追踪当前行字符数、行宽限制等变量，整合信息以估算剩余空间，从而决定是否换行。研究发现，这些计数表征存在于残差流的低维高曲率一维流形上，其计算过程既可解读为离散电路，也可视为连续的几何变换。

Anthropic 推理论文/研究

推荐理由：模型内部自发形成类似哺乳动物空间感知的几何表征，揭示大模型'感知'世界的底层机制

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

大语言模型中涌现的自省意识

研究通过“概念注入”技术直接操控模型内部激活状态，以检验大语言模型是否具备真正的内省能力。实验发现，在某些情境下，模型能够察觉并识别被注入的概念，区分自身内部表征与原始文本输入，甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中，Claude Opus系列模型展现出最强的自省意识，但这种能力不稳定且高度依赖情境。研究表明，当前模型已具备某种对其内部状态的功能性感知，尽管仍不可靠，但可能随模型能力提升而发展。

Anthropic 安全/对齐推理论文/研究

推荐理由：研究揭示大模型可能具备有限内省能力，对 AI 安全和透明度有重要启示。

6月12日

08:00

EleutherAI：Blog

通过局部体积研究随机网络的归纳偏置

研究团队通过星形域体积估计方法，系统研究随机神经网络参数-函数映射的归纳偏置特性。这项工作建立在先前关于随机采样训练神经网络概率及 Neural Redshift 理论的基础上，致力于解释固定架构下不同任务学习难度存在指数级差异的机制，为理解深度神经网络的泛化能力提供了新的几何分析视角。

数据/训练论文/研究

5月31日

06:00

EleutherAI：Blog

使用积键记忆编码稀疏编码器特征

采用积键记忆（Product Key Memory）技术对稀疏编码器（Sparse Coder）特征进行编码。该方法结合PKM的高效键值检索机制与稀疏表示学习，通过分层记忆结构存储高维稀疏特征，在扩展模型参数容量的同时保持计算效率，适用于大规模特征表示与检索场景。

数据/训练论文/研究

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选80

Circuits 更新 -- 2025年4月

Anthropic 可解释性团队分享了2025年4月的研究进展，重点剖析了一个不成功的越狱攻击案例。团队对同一模型应用电路追踪方法时发现，模型拒绝此次越狱尝试的原因，与其在论文中拒绝直接有害请求的基线原因不同。模型似乎更频繁地拒绝这种特定构造的越狱提示。分析还揭示，由于示例分布过窄，特征可视化可能产生误导，这凸显了使用多样化数据的重要性。这些发现源于初步实验，并非成熟论文的结论。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示越狱内部机制，助力AI安全与模型理解。

4月11日

18:00

BAIR：Berkeley AI Research Blog

利用结构化查询（StruQ）与偏好优化（SecAlign）防御提示注入攻击

针对大语言模型提示注入攻击，研究人员提出StruQ和SecAlign两种微调防御方案。StruQ通过结构化指令调优，SecAlign通过特殊偏好优化，配合Secure Front-End分隔提示与数据，在无需额外计算成本的情况下，将十余种无优化攻击成功率压降至约0%。SecAlign更将强优化攻击成功率控制在15%以下，较此前最先进技术降低超4倍，且在5个测试模型上均保持效用。

安全/对齐论文/研究

4月8日

18:30

BAIR：Berkeley AI Research Blog

利用 Latent Diffusion 改造蛋白质折叠模型用于生成

PLAID 是一种多模态生成模型，通过学习蛋白质折叠模型的潜在空间，同时生成蛋白质的1D序列与3D全原子结构。该方法仅需序列数据训练（可利用比结构数据库大2-4个数量级的数据），支持基于功能与生物体的组合式提示控制。相比传统仅预测骨架的模型，PLAID 解决了离散序列与连续结构坐标的多模态协同生成难题，为可控蛋白质设计提供了新范式。

多模态数据/训练论文/研究

1…4 567 8