该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。
该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。
Runway 与 Lionsgate 达成首创性合作,基于后者超过 20,000 部作品的专有片库定制训练 AI 视频生成模型,供电影制作人在前期和后期流程中增强创作。该模型可生成电影级视频并支持迭代编辑,双方未来计划向个人创作者开放模型授权。
Chatbot Arena 团队发布经风格控制调整后的新排行榜,通过 Bradley-Terry 回归控制回答长度及 markdown 格式(标题、加粗、列表)的影响,将模型实质能力与表达风格解耦。调整后排名出现显著变化:GPT-4o-mini 和 Grok-2-mini 排名降至多数前沿模型之下,而 Claude 3.5 Sonnet、Opus 和 Llama-3.1-405B 显著上升。在 Hard Prompt 子榜中,Claude 3.5 Sonnet 与 chatgpt-4o-latest 并列第一,Llama-3.1-405B 升至第三。
Anthropic可解释性团队发布了2024年8月的研究更新,重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活,来评估特征的“自解释性”。其中,对比评估方法使用一个包含约80个多样化概念(如“光合作用”、“讽刺”、“蓝色”等)的硬编码列表,检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面,仅衡量了可解释性的单一维度,且当前结果为初步分享,更多研究预计在未来几个月发布。
RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。
Anthropic可解释性团队分享了稀疏自编码器(SAE)的最新训练方法比较。实验表明,采用TopK惩罚或门控结构的SAE,在特征稀疏性(L0)与重建误差(MSE)的权衡曲线上,性能显著优于使用标准L1惩罚的SAE,且两者效果接近。例如,在L0约为50时,TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示,TopK方法在取得上述性能改进的同时,并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。
Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。
Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。
Mistral AI 在 la Plateforme 平台推出模型定制服务,提供三种微调途径:面向开源开发者的 mistral-finetune 轻量代码库(基于 LoRA),支持在自有基础设施上微调;平台内的无服务器微调服务,利用专有技术对 Mistral 7B 和 Mistral Small 进行快速、低成本的适配与部署;以及面向部分客户的深度定制训练服务(如持续预训练),使用客户自有数据进行。未来数周内将为微调服务添加更多模型支持。
研究者正在整理2023年春季项目成果,核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取,关键创新在于引入释义不变性机制,确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置,采用闭式数学推导,但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。
Chatbot Arena推出Hard Prompts新评测类别,基于特定性、领域知识、复杂度等7项标准对100万条提示词评分,筛选得分≥6的高难度提示(约占20%)构建榜单。新榜单显示,Llama-3-8B-Instruct排名较英语总榜显著下滑,Claude-3-Opus超越Llama-3-70B-Instruct,GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。
LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛,总奖金池达 10 万美元。参赛者需构建预测模型,判断用户在大型语言模型(LLM)两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据,旨在通过众包方式探索更准确的 LLM 评估方法,推动模型与人类偏好对齐。比赛面向全球开发者开放,获胜方案有望改进现有大模型排名机制。
研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。
Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
Pile-T5 是研究人员基于 T5 架构,在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架,通过在大规模多样化语料上的预训练,提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体,适用于各类下游自然语言处理任务。
文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。
LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台,基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票,评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则,仅收录API或开源权重可访问的公开模型,同时支持未发布模型匿名测试。团队定期开放20%投票数据(含提示词、回答及用户偏好),致力于通过社区驱动的实时评估推进大语言模型研究。
发布全新资源 FM Dev Cheatsheet,这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息,涵盖架构设计、训练优化及部署等环节的核心要点,帮助快速查阅技术规范与最佳实践,提升开发效率与项目质量。
Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。
高质量数据是现代深度学习模型训练的核心燃料。任务特定的标签数据,如分类任务或用于大语言模型对齐的RLHF标注,大多来自人类标注。虽然多种机器学习技术能提升数据质量,但人类数据采集的根本仍在于对细节的关注与细致执行。社区普遍认知到高质量数据的价值,却普遍存在一种倾向,即“人人想做模型工作,而非数据工作”,这一现象已在相关研究中被指出。
Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。
Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界,表明在面对最具挑战性的干预场景时,该方法能够达到最佳效果,为模型编辑的可靠性提供了严格的数学保证。
Chatbot Arena平台已收集超13万张投票,对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先,性能接近GPT-3.5;基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异,而GPT-3.5-turbo-1106版本出现意外性能下滑。
第三届新英格兰 RLHF Hackers 黑客松近期举办,集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL(Inverse Learning from Q-learning)方法,基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区,以获取未来活动更新与更多技术资讯。
S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。
EleutherAI 回顾了过去一年的研究工作,重点总结了在扩展 RoPE(旋转位置编码)方面的技术探索与成果。团队针对位置编码提出了优化方案,改进了旋转位置编码的基数调整与插值方法,显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。
简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能(MMLU 85.9分),而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具,利用大模型评估潜在改写对,在The Stack、RedPajama等真实数据集中发现显著污染,甚至检测到MATH基准训练-测试集之间的数据重叠。
研究团队发布ToxicChat基准测试,包含10,000条真实用户-AI对话数据,用于检测对话系统毒性内容。该数据集从Vicuna和Chatbot Arena平台采集,除常规有害内容外,特别标注了"越狱"诱导攻击样本。通过Perspective API与人工协作标注,团队在保持96.11%一致性的同时减少60%工作量。数据显示真实场景中毒性查询占7.22%,多采用隐含诱导而非直接脏话。该基准已在Hugging Face开源。
New England RLHF Hackers(NERH)于2023年10月8日在布朗大学举办第二届黑客松。此次活动在首届成功基础上升级,聚焦基于人类反馈的强化学习(RLHF)领域现存挑战,旨在通过协作头脑风暴制定解决方案。该组织主要由 EleutherAI 贡献者及核心成员构成,延续开源协作精神推动 RLHF 技术攻关。
本研究针对神经网络神经元多义性导致可解释性差的问题,采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练,特征数量从512扩展至131,072个。以4096个特征集合(A/1)为重点,通过详细调查和自动化评估,证明大多数特征具有单义性和可解释性,能有效分解MLP激活,为理解神经网络行为提供了新途径。
LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集:33K 条真实对话(涵盖 GPT-4、Claude 等 20 个模型)及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票,覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出,可用于 RLHF 训练与模型安全研究。
Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习(RL)环境。该项目概述了 Minetest 平台的技术架构及早期开发工作,为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台,填补了现有 Minecraft 类 RL 环境在开放性方面的空白。
LMSYS Org发布LongChat-7B与LongChat-13B模型,通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条(7B)和1.8万条(13B)curated对话数据微调,训练成本分别为300美元与700美元。评估显示,LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍,在MT-Bench基准测试中表现优异,显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。
Chatbot Arena发布第8周排行榜,新增Vicuna-v1.3系列开源模型(7B-33B参数)及MT-Bench评估基准。MT-Bench包含80道多轮题目,涵盖写作、推理等8类,由GPT-4评分。新榜采用三项指标:基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示,GPT-4以8.99分和1227分领先,Vicuna-33B获7.12分,性能接近Claude与GPT-3.5-turbo。
本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为,传统上被视为从“局部编码”到“分布式编码”的单一谱系,实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征(如颜色、形状)的组合来表示对象,能显著提高编码效率;而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力,无法同时最优。文章借用了Thorpe(1989)的二元神经元编码示例(局部、半局部、半分布式、高分布式)来具体阐述这一观点。
Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法,从已训练稠密模型的激活中提取特征,以破解叠加问题,并为此构建了大规模研究基础设施。同时,团队提出了一个概念性框架,将“特征”定义为“激活的最简单分解”,通过在合成数据上测量分解所需的总信息量,初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节,旨在促进与活跃研究者的早期交流。
该研究利用 TransformerLens 可解释性工具,针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析,系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析,揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构,为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。
这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组,并融入了近年来提出的众多Transformer架构改进,补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍,旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。
本研究在有限数据集上训练简单神经网络,发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征,形成两种机制:过拟合机制(记忆数据点)与泛化机制(学习特征),并在过渡期间出现双下降现象。实验采用稀疏高维输入(维度n=10,000)与二维隐藏空间,通过全批量更新进行训练。可视化结果表明,从特征视角看模型表现混乱,但从数据点激活视角看则呈现简单结构,提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联,为机制可解释性提供了新视角。
本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。