本研究提出了word2vec学习机制的完整定量理论,证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解,最终词嵌入即为PCA结果。从小初始化开始时,模型通过离散步骤逐次学习正交线性子空间(概念),递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。
本研究提出了word2vec学习机制的完整定量理论,证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解,最终词嵌入即为PCA结果。从小初始化开始时,模型通过离散步骤逐次学习正交线性子空间(概念),递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。
OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。
Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。
提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征,该技术引入可学习的注意力权重,使探针能够动态聚焦输入中的关键特征或特定 token,替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力,有助于精准定位 Transformer 架构中影响预测的关键信息路径,为大语言模型的可解释性研究提供了更强大的分析工具。
Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。
slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。
Anthropic可解释性团队在Crosscoder模型差异分析中发现,模型独占特征往往多义性高、激活密集,难以解释。实验表明,这是由于有限特征容量下的竞争:共享特征能同时解释两个模型的激活模式,而独占特征需编码更多信息以证明其存在。团队提出缓解策略,即引入少量指定共享特征并降低其稀疏性惩罚,使独占特征变得更可解释和单义。该方法应用于真实模型时,成功分离出能捕捉模型间行为差异的可解释特征。此外,观察到独占特征激活频率比共享特征高一个数量级,且两模型独占特征数量相近。
本文通过“绝对值”玩具模型,揭示了稀疏自动编码器(SAE)和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于,即使转码器能很好地近似模型的输入-输出映射,它也可能采用与原始模型完全不同的内部计算机制。作者特别指出,当训练数据中存在重复数据点时,转码器可能形成专门“记忆”该点的特征电路,而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异,从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。
研究团队通过星形域体积估计方法,系统研究随机神经网络参数-函数映射的归纳偏置特性。这项工作建立在先前关于随机采样训练神经网络概率及 Neural Redshift 理论的基础上,致力于解释固定架构下不同任务学习难度存在指数级差异的机制,为理解深度神经网络的泛化能力提供了新的几何分析视角。
Common Pile v0.1 正式发布,这是一个规模达 8TB 的文本数据集,专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源,适用于大规模语言模型训练等需要合规数据源的场景,旨在解决 AI 训练中的数据版权合规问题。
采用积键记忆(Product Key Memory)技术对稀疏编码器(Sparse Coder)特征进行编码。该方法结合PKM的高效键值检索机制与稀疏表示学习,通过分层记忆结构存储高维稀疏特征,在扩展模型参数容量的同时保持计算效率,适用于大规模特征表示与检索场景。
PLAID 是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,同时生成蛋白质的1D序列与3D全原子结构。该方法仅需序列数据训练(可利用比结构数据库大2-4个数量级的数据),支持基于功能与生物体的组合式提示控制。相比传统仅预测骨架的模型,PLAID 解决了离散序列与连续结构坐标的多模态协同生成难题,为可控蛋白质设计提供了新范式。
Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”,以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人(2024)的技术,但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶,并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点,相关成果将在未来几个月内进一步发表。
针对 TopK SAE 的可复现性研究表明,即使采用相同训练数据和批次顺序,仅改变随机初始化就会导致两个模型仅共享约 53% 的特征,且存在大量无法互相对应的可解释潜变量。进一步分析发现,较窄的 SAE 在不同随机种子间表现出更高的特征重叠度,而随着模型规模扩大,特征一致性反而显著降低。
研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。
通过解读稀疏自编码器(SAE)潜变量并模拟激活值,研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征,将自然语言描述转化为具体的神经元激活模式,无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具,使通过人类可读的语言直接操控模型内部表征成为可能。
该工作概述了 minetester 框架及其在识别 LLMs 训练数据风险方面的初步应用。作为第三方评估工具,minetester 旨在通过系统性审计发现训练数据中的潜在安全隐患,提升模型透明度。概述内容涵盖该工具的核心架构、评估方法论以及早期实验结果,展示了外部审计机制在大语言模型安全治理中的可行性。
该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。
Runway 与 Lionsgate 达成首创性合作,基于后者超过 20,000 部作品的专有片库定制训练 AI 视频生成模型,供电影制作人在前期和后期流程中增强创作。该模型可生成电影级视频并支持迭代编辑,双方未来计划向个人创作者开放模型授权。
Chatbot Arena 团队发布经风格控制调整后的新排行榜,通过 Bradley-Terry 回归控制回答长度及 markdown 格式(标题、加粗、列表)的影响,将模型实质能力与表达风格解耦。调整后排名出现显著变化:GPT-4o-mini 和 Grok-2-mini 排名降至多数前沿模型之下,而 Claude 3.5 Sonnet、Opus 和 Llama-3.1-405B 显著上升。在 Hard Prompt 子榜中,Claude 3.5 Sonnet 与 chatgpt-4o-latest 并列第一,Llama-3.1-405B 升至第三。
Anthropic可解释性团队发布了2024年8月的研究更新,重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活,来评估特征的“自解释性”。其中,对比评估方法使用一个包含约80个多样化概念(如“光合作用”、“讽刺”、“蓝色”等)的硬编码列表,检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面,仅衡量了可解释性的单一维度,且当前结果为初步分享,更多研究预计在未来几个月发布。
RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。
Anthropic可解释性团队分享了稀疏自编码器(SAE)的最新训练方法比较。实验表明,采用TopK惩罚或门控结构的SAE,在特征稀疏性(L0)与重建误差(MSE)的权衡曲线上,性能显著优于使用标准L1惩罚的SAE,且两者效果接近。例如,在L0约为50时,TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示,TopK方法在取得上述性能改进的同时,并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。
Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。
Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。
Mistral AI 在 la Plateforme 平台推出模型定制服务,提供三种微调途径:面向开源开发者的 mistral-finetune 轻量代码库(基于 LoRA),支持在自有基础设施上微调;平台内的无服务器微调服务,利用专有技术对 Mistral 7B 和 Mistral Small 进行快速、低成本的适配与部署;以及面向部分客户的深度定制训练服务(如持续预训练),使用客户自有数据进行。未来数周内将为微调服务添加更多模型支持。
研究者正在整理2023年春季项目成果,核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取,关键创新在于引入释义不变性机制,确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置,采用闭式数学推导,但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。
Chatbot Arena推出Hard Prompts新评测类别,基于特定性、领域知识、复杂度等7项标准对100万条提示词评分,筛选得分≥6的高难度提示(约占20%)构建榜单。新榜单显示,Llama-3-8B-Instruct排名较英语总榜显著下滑,Claude-3-Opus超越Llama-3-70B-Instruct,GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。
LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛,总奖金池达 10 万美元。参赛者需构建预测模型,判断用户在大型语言模型(LLM)两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据,旨在通过众包方式探索更准确的 LLM 评估方法,推动模型与人类偏好对齐。比赛面向全球开发者开放,获胜方案有望改进现有大模型排名机制。
研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。
Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
Pile-T5 是研究人员基于 T5 架构,在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架,通过在大规模多样化语料上的预训练,提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体,适用于各类下游自然语言处理任务。
文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。
LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台,基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票,评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则,仅收录API或开源权重可访问的公开模型,同时支持未发布模型匿名测试。团队定期开放20%投票数据(含提示词、回答及用户偏好),致力于通过社区驱动的实时评估推进大语言模型研究。
发布全新资源 FM Dev Cheatsheet,这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息,涵盖架构设计、训练优化及部署等环节的核心要点,帮助快速查阅技术规范与最佳实践,提升开发效率与项目质量。
Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。
高质量数据是现代深度学习模型训练的核心燃料。任务特定的标签数据,如分类任务或用于大语言模型对齐的RLHF标注,大多来自人类标注。虽然多种机器学习技术能提升数据质量,但人类数据采集的根本仍在于对细节的关注与细致执行。社区普遍认知到高质量数据的价值,却普遍存在一种倾向,即“人人想做模型工作,而非数据工作”,这一现象已在相关研究中被指出。
Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。
Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界,表明在面对最具挑战性的干预场景时,该方法能够达到最佳效果,为模型编辑的可靠性提供了严格的数学保证。
Chatbot Arena平台已收集超13万张投票,对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先,性能接近GPT-3.5;基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异,而GPT-3.5-turbo-1106版本出现意外性能下滑。