10月30日

00:00

LMSYS：Blog（Chatbot Arena 团队）

研究团队发布ToxicChat基准测试，包含10,000条真实用户-AI对话数据，用于检测对话系统毒性内容。该数据集从Vicuna和Chatbot Arena平台采集，除常规有害内容外，特别标注了"越狱"诱导攻击样本。通过Perspective API与人工协作标注，团队在保持96.11%一致性的同时减少60%工作量。数据显示真实场景中毒性查询占7.22%，多采用隐含诱导而非直接脏话。该基准已在Hugging Face开源。

安全/对齐数据/训练

10月14日

04:00

EleutherAI：Blog

第二届 New England RLHF Hackers 黑客松

New England RLHF Hackers（NERH）于2023年10月8日在布朗大学举办第二届黑客松。此次活动在首届成功基础上升级，聚焦基于人类反馈的强化学习（RLHF）领域现存挑战，旨在通过协作头脑风暴制定解决方案。该组织主要由 EleutherAI 贡献者及核心成员构成，延续开源协作精神推动 RLHF 技术攻关。

其他数据/训练

10月4日

00:00

Anthropic：Transformer Circuits（可解释性研究）

迈向单义性：使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题，采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练，特征数量从512扩展至131,072个。以4096个特征集合（A/1）为重点，通过详细调查和自动化评估，证明大多数特征具有单义性和可解释性，能有效分解MLP激活，为理解神经网络行为提供了新途径。

Anthropic 数据/训练论文/研究

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集：33K 条真实对话（涵盖 GPT-4、Claude 等 20 个模型）及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票，覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出，可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准

7月8日

08:00

EleutherAI：Blog

Minetester：基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习（RL）环境。该项目概述了 Minetest 平台的技术架构及早期开发工作，为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台，填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练

6月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

开源 LLM 的上下文长度承诺究竟能兑现多少？

LMSYS Org发布LongChat-7B与LongChat-13B模型，通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条（7B）和1.8万条（13B）curated对话数据微调，训练成本分别为300美元与700美元。评估显示，LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍，在MT-Bench基准测试中表现优异，显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。

开源生态数据/训练模型发布

6月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜，新增Vicuna-v1.3系列开源模型（7B-33B参数）及MT-Bench评估基准。MT-Bench包含80道多轮题目，涵盖写作、推理等8类，由GPT-4评分。新榜采用三项指标：基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示，GPT-4以8.99分和1227分领先，Vicuna-33B获7.12分，性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为，传统上被视为从“局部编码”到“分布式编码”的单一谱系，实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征（如颜色、形状）的组合来表示对象，能显著提高编码效率；而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力，无法同时最优。文章借用了Thorpe（1989）的二元神经元编码示例（局部、半局部、半分布式、高分布式）来具体阐述这一观点。

Anthropic 数据/训练论文/研究

5月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法，从已训练稠密模型的激活中提取特征，以破解叠加问题，并为此构建了大规模研究基础设施。同时，团队提出了一个概念性框架，将“特征”定义为“激活的最简单分解”，通过在合成数据上测量分解所需的总信息量，初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节，旨在促进与活跃研究者的早期交流。

Anthropic 数据/训练论文/研究

4月2日

08:00

EleutherAI：Blog

使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

该研究利用 TransformerLens 可解释性工具，针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析，系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析，揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构，为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。

开源生态数据/训练论文/研究

1月27日

08:00

Lilian Weng：Lil'Log（RSS）

Transformer模型家族：版本2.0

这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组，并融入了近年来提出的众多Transformer架构改进，补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍，旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。

OpenAI 教程/实践数据/训练

1月5日

00:00

Anthropic：Transformer Circuits（可解释性研究）

叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络，发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征，形成两种机制：过拟合机制（记忆数据点）与泛化机制（学习特征），并在过渡期间出现双下降现象。实验采用稀疏高维输入（维度n=10,000）与二维隐藏空间，通过全批量更新进行训练。可视化结果表明，从特征视角看模型表现混乱，但从数据点激活视角看则呈现简单结构，提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联，为机制可解释性提供了新视角。

Anthropic 数据/训练论文/研究

9月14日

00:00

Anthropic：Transformer Circuits（可解释性研究）

叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic 推理数据/训练论文/研究

9月9日

01:00

Lilian Weng：Lil'Log（RSS）

神经正切核背后的数学原理

神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值，即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下，通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。

arXiv 教程/实践数据/训练

4月16日

06:10

Lilian Weng：Lil'Log（RSS）

数据不足下的学习第三部分：数据生成

在训练数据有限的情况下，文章探讨了两种生成合成数据的核心方法。一是数据增强，通过对现有样本施加变换、扭曲等操作生成新数据点，同时保持关键属性不变，这种方法在文本和图像领域已有较多应用。二是生成全新数据，尤其依赖强大的预训练语言模型（如GPT、LLaMA），在极少甚至没有原始数据时，能够通过上下文学习生成高质量的合成数据点，显著拓展了小样本学习的可能性。

教程/实践数据/训练

3月8日

00:00

Anthropic：Transformer Circuits（可解释性研究）

上下文学习与归纳头

研究发现，Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路，其功能是在序列中寻找当前令牌的先前出现，并预测相同的后续令牌。在训练早期，模型会经历一个“相位变化”，此时归纳头迅速形成，同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明，这种电路不仅存在于小型模型中，也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。

Anthropic 推理数据/训练论文/研究

2月20日

08:00

Lilian Weng：Lil'Log（RSS）

精选57

数据不足情况下的学习第二部分：主动学习

监督学习任务的性能依赖于高质量标注数据，但获取大量标注样本成本高昂。主动学习是一种在标注预算有限、但允许投入部分人工标注资源的条件下，应对标注数据不足的范式。其核心思路是智能地选择最具信息量的样本进行标注，以在有限预算内最大化模型性能的提升。该方法旨在解决当面临标注数据受限时，如何通过策略性采样来高效利用标注资源的问题。

教程/实践数据/训练

推荐理由：这是 Lilian Weng 数据不足系列的第二篇，把主动学习的核心采样策略和实际权衡讲得很清楚，做数据标注和 ML 工程的同学值得复习一遍。

12月5日

08:00

Lilian Weng：Lil'Log（RSS）

Learning with not Enough Data Part 1： Semi-Supervised Learning（数据不足时的学习第一部分：半监督学习）

监督学习任务的性能通常随高质量标签数量的增加而提升，但大规模标注数据的获取成本高昂。在标签稀缺的场景下，半监督学习作为一种有效的机器学习范式，通过同时利用大量无标签数据与少量标签数据来提升模型性能。面对有限的标注数据，本文重点探讨了四种常用的半监督学习方法，为数据受限条件下的模型训练提供了技术路径。

教程/实践数据/训练

10月11日

23:00

EleutherAI：Blog

语言模型评估中的多项选择归一化

自回归语言模型（GPT-3、GPT-Neo、GPT-J 等）的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化（Normalization）方法，针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述，为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准

9月24日

08:00

Lilian Weng：Lil'Log（RSS）

如何在大量GPU上训练超大规模模型？

训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式，以及模型架构与内存优化设计方案，为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术，并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。

OpenAI 教程/实践数据/训练部署/工程

8月17日

02:13

EleutherAI：Blog

RoPE 与 GPT 学习式位置编码的下游评估对比

该评估系统对比了旋转位置编码（RoPE）与 GPT 类学习式位置编码在下游任务中的性能表现，通过多维度基准测试分析两种位置编码机制的应用差异，为 Transformer 模型架构中位置编码方案的选择提供实证依据。

数据/训练论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵，从参数层面精确理解Transformer工作机制。内容涵盖：详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用；分析读写子空间的控制矩阵及其乘积意义；探讨如何用两个矩阵等效表示注意力头及其秩的含义；研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例，演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能，以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic 推理数据/训练论文/研究

推荐理由：帮助开发者亲手拆解Transformer内部机制，提升可解释性研究能力。

5月25日

04:00

EleutherAI：Blog

在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验，利用eval harness评测体系进行针对性训练，系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务，评估预训练模型在下游场景中的能力变化与适应性表现，为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准

04:00

EleutherAI：Blog

激活函数消融研究

针对类 GPT 自回归语言模型开展激活函数消融实验，系统评估不同激活函数对模型性能的影响。通过对比分析各类激活函数在自回归架构中的表现差异，检验其对模型表达能力、训练稳定性及生成质量的作用机制，为大语言模型的激活函数选择与架构优化提供实验依据。

数据/训练论文/研究

4月21日

09:00

EleutherAI：Blog

旋转位置编码（RoPE）：一场相对的革命

旋转位置编码（RoPE）作为一种新型位置编码技术，统一了绝对位置与相对位置编码方法。该技术突破了传统位置编码的局限，在保持绝对位置信息的同时实现了相对位置感知能力。测试验证表明，这种编码方案在模型性能和位置外推方面展现出优势，为大语言模型的位置表示策略提供了新的技术路径。

数据/训练论文/研究

1月2日

08:00

Lilian Weng：Lil'Log（RSS）

可控神经文本生成

可控神经文本生成是当前人工智能研究的热点，旨在引导大型语言模型生成具有特定属性的文本。现代语言模型虽在多项自然语言处理任务上表现先进，但控制生成内容属性仍面临挑战。主流方法包括引导解码策略、智能提示设计和模型微调。自2021年以来，该领域持续更新：2月发布版本2.0，修正拼写错误并添加多项新研究；5月集成 P-tuning 和 Prompt Tuning 等提示优化技术；9月引入未似然训练方法，进一步提升生成控制的精准度。这些进展推动了可控文本生成在实际应用中的发展。

教程/实践数据/训练

1月29日

08:00

Lilian Weng：Lil'Log（RSS）

强化学习中的课程学习方法

课程学习作为一种渐进式教学方法，通过分解复杂任务并提供由易到难的学习序列，显著提升了强化学习模型解决复杂问题的能力。文章系统介绍了该方法在强化学习领域的应用框架，涵盖任务特定课程设计、基于课程的学习策略等关键技术，并特别提及了程序化内容生成技术与知识蒸馏新路径。最新更新于2020年2月增加了相关技术章节，进一步扩展了课程学习的实现维度与实践参考。

OpenAI 教程/实践数据/训练

11月10日

08:00

Lilian Weng：Lil'Log（RSS）

自监督表示学习

本文聚焦自监督表示学习，这是一种利用未标注数据通过监督学习范式进行训练的关键技术。文章全面覆盖了在图像、视频以及控制问题中应用的自监督学习任务。自2020年1月9日首次更新以来，文章不断演进，新增了对比预测编码部分；2020年7月8日引入了双模拟主题，探讨DeepMDP和DBC模型。期间，曾系统介绍动量对比方法，包括MoCo、SimCLR、CURL、MoCo V2和BYOL，但于2021年5月31日将这部分内容整合到独立的对比表示学习文章中。通过这些关键更新，文章反映了自监督学习领域的快速进展和研究动态。

OpenAI 教程/实践数据/训练

9月5日

08:00

Lilian Weng：Lil'Log（RSS）

精选57

进化策略

进化策略是一种在目标函数解析形式未知或无法直接计算梯度时，用于优化模型参数的黑箱优化算法。它作为随机梯度下降的替代方案，适用于多种优化场景。文章介绍了模拟退火、爬山法、Nelder-Mead方法等经典进化策略，并探讨了该方法在深度强化学习中的应用。通过评估目标函数值而非依赖梯度信息，进化策略为复杂优化问题提供了有效路径。

教程/实践数据/训练

推荐理由：这篇五年前的进化策略入门，至今仍是理解黑箱优化的最佳起点，Lilian Weng的笔法清晰，做RL的朋友可以当字典翻。

6月23日

08:00

Lilian Weng：Lil'Log（RSS）

元强化学习

Meta-RL是将元学习应用于强化学习任务的方法。其核心在于，智能体在经历了一系列任务的分布训练后，能够通过内部活动动态自主生成新的强化学习算法，从而快速高效地解决全新的任务。文章首先追溯了Meta-RL的起源，随后深入剖析了该方法的三个关键组成部分。

OpenAI 教程/实践数据/训练

3月14日

08:00

Lilian Weng：Lil'Log（RSS）

深度神经网络是否严重过拟合？

深度神经网络因参数众多且训练误差易达完美，常被认为会严重过拟合，却仍能有效泛化到样本外数据，这一悖论困扰着许多从传统机器学习转型的研究者。文章更新于2019年5月27日，新增了Lottery Ticket Hypothesis部分，该假说通过网络稀疏性为理解泛化能力提供了新视角。内容从困惑切入，分析深度学习与传统方法的差异，探讨过拟合问题的本质，但未提供具体实验数据或指标。

大佬观点数据/训练

11月30日

08:00

Lilian Weng：Lil'Log（RSS）

元学习：学习快速学习

元学习，又称“学会学习”，旨在设计能够快速适应新任务或环境的模型，仅需少量训练样本。其主流方法包括三类：基于度量的方法，通过学习高效的距离度量；基于模型的方法，利用带有内部或外部存储的（循环）网络；以及基于优化的方法，通过显式优化模型参数以实现快速学习。此外，文章提及已有中文翻译版本可用。

教程/实践数据/训练

8月12日

08:00

Lilian Weng：Lil'Log（RSS）

从自编码器到Beta-VAE：生成模型的演进之路

本文系统梳理了自编码器系列模型的演进历程。自编码器通过瓶颈神经网络结构学习高维数据的压缩表示，其副产品是可用于降维、特征提取等任务的潜在编码。文章重点介绍了变分自编码器（VAE）及其关键变体Beta-VAE，它们通过引入概率框架和解缠约束，显著提升了生成能力。此外，还涵盖了去噪、稀疏等经典改进模型，并补充了后续发展如VQ-VAE与TD-VAE的相关内容。

OpenAI 图像生成教程/实践数据/训练

4月8日

08:00

Lilian Weng：Lil'Log（RSS）

精选55

策略梯度算法

该文章系统梳理了策略梯度算法的发展脉络，深入解析其工作原理，并详细介绍了从基础到前沿的多种算法，包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新，陆续新增了D4PG、SVPG、PPG等新算法，并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译，便于不同读者参考。

智能体 OpenAI 教程/实践数据/训练

推荐理由：这篇是当年策略梯度方法的“圣经”级综述，现在看虽然有些过时，但想理解PPO、SAC的来龙去脉还得从这儿啃起。

2月19日

08:00

Lilian Weng：Lil'Log（RSS）

深入浅出强化学习（长文）

这是一篇系统性的强化学习入门综述，内容涵盖从基础概念到经典算法的完整知识路径。文章旨在为初学者搭建清晰的认知框架，避免其在专业术语中迷失。它详细梳理了强化学习的主要算法，并于近期更新了SARSA和Q-learning算法的描述，使两者的差异更加清晰。作为一篇长文，它还提供了中文翻译版本，以帮助中文读者理解这一人工智能的重要分支。

教程/实践数据/训练

10月15日

08:00

Lilian Weng：Lil'Log（RSS）

学习词嵌入

词嵌入是一种将词汇表示为数值向量的密集表达方法，能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系，例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型，并阐述了其损失函数的设计原理，旨在帮助机器学习模型理解和处理自然语言文本。

教程/实践数据/训练

9月28日

08:00

Lilian Weng：Lil'Log（RSS）

基于信息论的深度学习剖析

Naftali Tishby教授在生前演讲中提出，信息论可应用于研究深度神经网络的训练过程，核心是信息瓶颈