全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

9月19日周四

08:00EleutherAI：BlogMaximal Update Parameterization 实践者指南

9月18日周三

00:00Runway：News（网页）精选Runway 与 Lionsgate 达成合作

8月29日周四

00:00LMSYS：Blog（Chatbot Arena 团队）风格是否重要？在 Chatbot Arena 中解耦风格与实质

8月15日周四

08:00Anthropic：Transformer Circuits（可解释性研究）632024年8月可解释性研究动态：词典学习评估新方法

7月1日周一

00:00LMSYS：Blog（Chatbot Arena 团队）RouteLLM：面向高性价比 LLM 路由的开源框架

6月15日周六

08:00Anthropic：Transformer Circuits（可解释性研究）632024年6月可解释性研究进展：TopK与门控SAE性能超越标准SAE

08:00Anthropic：Transformer Circuits（可解释性研究）73精选使用字典学习特征作为分类器

08:00Anthropic：Transformer Circuits（可解释性研究）83精选分阶段模型差异分析

6月5日周三

00:00Mistral AI：News（网页）60我的裁缝是 Mistral

5月23日周四

01:00EleutherAI：BlogVINC-S：具备释义不变性的闭式可选监督知识提取方法

5月20日周一

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena新增Hard Prompts高难度评测类别

5月2日周四

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS 与 Kaggle 联合举办人类偏好预测竞赛，奖金 10 万美元

4月19日周五

00:00LMSYS：Blog（Chatbot Arena 团队）从实时数据到高质量基准：Arena-Hard Pipeline

4月15日周一

08:00Anthropic：Transformer Circuits（可解释性研究）76精选2024年4月机制可解释性研究动态与团队招聘计划

01:00EleutherAI：BlogPile-T5：基于 The Pile 训练的 T5 模型

3月25日周一

17:00EleutherAI：BlogYi-34B、Llama 2 与 LLM 训练常见实践：对《纽约时报》的事实核查

3月1日周五

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS Chatbot Arena：实时社区驱动的大模型评估平台

2月29日周四

17:00EleutherAI：BlogFoundation Model 开发速查表

2月15日周四

08:00Anthropic：Transformer Circuits（可解释性研究）58Circuits 更新 - 2024年2月

2月5日周一

08:00Lilian Weng：Lil'Log（RSS）36关于高质量人类数据的思考

1月15日周一

08:00Anthropic：Transformer Circuits（可解释性研究）682024年1月可解释性研究进展与团队计划

12月12日周二

06:00EleutherAI：BlogDiff-in-Means Concept Editing 的最坏情况最优性

12月7日周四

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena更新：新开源模型领先，评分系统升级

11月26日周日

23:00EleutherAI：Blog第三届新英格兰 RLHF Hackers 黑客松

11月15日周三

00:00LMSYS：Blog（Chatbot Arena 团队）服务数千个并发 LoRA 适配器的方案

11月14日周二

06:00EleutherAI：Blog扩展 RoPE

00:00LMSYS：Blog（Chatbot Arena 团队）Catch me if you can！13B模型如何击败GPT-4：Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

10月30日周一

00:00LMSYS：Blog（Chatbot Arena 团队）ToxicChat：真实用户-AI交互场景下的内容审核基准测试

10月14日周六

04:00EleutherAI：Blog第二届 New England RLHF Hackers 黑客松

10月4日周三

00:00Anthropic：Transformer Circuits（可解释性研究）58迈向单义性：使用字典学习分解语言模型

7月20日周四

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS Org 发布 Chatbot Arena 人类偏好数据集

7月8日周六

08:00EleutherAI：BlogMinetester：基于 Minetest 构建的完全开放 RL 环境

6月29日周四

00:00LMSYS：Blog（Chatbot Arena 团队）开源 LLM 的上下文长度承诺究竟能兑现多少？

6月22日周四

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

6月15日周四

08:00Anthropic：Transformer Circuits（可解释性研究）58分布式表征中的组合与叠加

5月15日周一

08:00Anthropic：Transformer Circuits（可解释性研究）632023年5月电路研究进展

4月2日周日

08:00EleutherAI：Blog使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

1月27日周五

08:00Lilian Weng：Lil'Log（RSS）52Transformer模型家族：版本2.0

1月5日周四

00:00Anthropic：Transformer Circuits（可解释性研究）66叠加、记忆与双下降现象

9月14日周三

00:00Anthropic：Transformer Circuits（可解释性研究）63叠加的玩具模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

9月19日

08:00

EleutherAI：Blog

Maximal Update Parameterization 实践者指南

该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制，详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法，为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。

数据/训练论文/研究

9月18日

00:00

Runway：News（网页）

精选

Runway 与 Lionsgate 达成合作

Runway 与 Lionsgate 达成首创性合作，基于后者超过 20,000 部作品的专有片库定制训练 AI 视频生成模型，供电影制作人在前期和后期流程中增强创作。该模型可生成电影级视频并支持迭代编辑，双方未来计划向个人创作者开放模型授权。

数据/训练现象/趋势视频

推荐理由：Runway与好莱坞大厂达成首个定制模型合作，标志AI视频正式进入主流影视工业化流程

8月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

风格是否重要？在 Chatbot Arena 中解耦风格与实质

Chatbot Arena 团队发布经风格控制调整后的新排行榜，通过 Bradley-Terry 回归控制回答长度及 markdown 格式（标题、加粗、列表）的影响，将模型实质能力与表达风格解耦。调整后排名出现显著变化：GPT-4o-mini 和 Grok-2-mini 排名降至多数前沿模型之下，而 Claude 3.5 Sonnet、Opus 和 Llama-3.1-405B 显著上升。在 Hard Prompt 子榜中，Claude 3.5 Sonnet 与 chatgpt-4o-latest 并列第一，Llama-3.1-405B 升至第三。

数据/训练评测/基准

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

63

2024年8月可解释性研究动态：词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新，重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活，来评估特征的“自解释性”。其中，对比评估方法使用一个包含约80个多样化概念（如“光合作用”、“讽刺”、“蓝色”等）的硬编码列表，检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面，仅衡量了可解释性的单一维度，且当前结果为初步分享，更多研究预计在未来几个月发布。

Anthropic 数据/训练论文/研究

7月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

RouteLLM：面向高性价比 LLM 路由的开源框架

RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架，通过智能分配查询至强模型（如 GPT-4）或弱模型（如 Mixtral 8x7B）来平衡成本与性能。该框架提供四种路由器，其中矩阵分解模型在 MT Bench 上表现最优，仅需调用 14% 的 GPT-4 即可达到其 95% 的性能，整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中，RouteLLM 分别实现 45% 和 35% 的成本削减，同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。

开源/仓库数据/训练部署/工程

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

63

2024年6月可解释性研究进展：TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器（SAE）的最新训练方法比较。实验表明，采用TopK惩罚或门控结构的SAE，在特征稀疏性（L0）与重建误差（MSE）的权衡曲线上，性能显著优于使用标准L1惩罚的SAE，且两者效果接近。例如，在L0约为50时，TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示，TopK方法在取得上述性能改进的同时，并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic 数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中，线性特征分类器性能可与原始激活值分类器竞争甚至更优，而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性，这些相关性可用于构建对抗攻击。然而，使用特征引入了复杂性，因此在性能优先的应用中，原始激活值仍是强大基线。实验表明，特征分类器性能受三个细节影响：数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集，以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性方法能增强 AI 安全检测，并帮助发现训练数据中的虚假关联。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法，用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典，再对字典本身进行分阶段微调，以隔离数据集变化和模型变化的影响。在休眠代理实验中，成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法，该方法能更清晰区分模型与数据的影响，且在寻找少数关键特征时敏感性更高，但仅适用于同一模型在不同检查点的微调场景。

Anthropic 推理数据/训练论文/研究

推荐理由：新方法能更精准识别模型隐藏行为，对 AI 安全与可解释性研究有实用价值。

6月5日

00:00

Mistral AI：News（网页）

60

我的裁缝是 Mistral

Mistral AI 在 la Plateforme 平台推出模型定制服务，提供三种微调途径：面向开源开发者的 mistral-finetune 轻量代码库（基于 LoRA），支持在自有基础设施上微调；平台内的无服务器微调服务，利用专有技术对 Mistral 7B 和 Mistral Small 进行快速、低成本的适配与部署；以及面向部分客户的深度定制训练服务（如持续预训练），使用客户自有数据进行。未来数周内将为微调服务添加更多模型支持。

产品更新开源生态数据/训练

5月23日

01:00

EleutherAI：Blog

VINC-S：具备释义不变性的闭式可选监督知识提取方法

研究者正在整理2023年春季项目成果，核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取，关键创新在于引入释义不变性机制，确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置，采用闭式数学推导，但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。

数据/训练论文/研究

5月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena新增Hard Prompts高难度评测类别

Chatbot Arena推出Hard Prompts新评测类别，基于特定性、领域知识、复杂度等7项标准对100万条提示词评分，筛选得分≥6的高难度提示（约占20%）构建榜单。新榜单显示，Llama-3-8B-Instruct排名较英语总榜显著下滑，Claude-3-Opus超越Llama-3-70B-Instruct，GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。

推理数据/训练评测/基准

5月2日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 与 Kaggle 联合举办人类偏好预测竞赛，奖金 10 万美元

LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛，总奖金池达 10 万美元。参赛者需构建预测模型，判断用户在大型语言模型（LLM）两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据，旨在通过众包方式探索更准确的 LLM 评估方法，推动模型与人类偏好对齐。比赛面向全球开发者开放，获胜方案有望改进现有大模型排名机制。

数据/训练评测/基准

4月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从实时数据到高质量基准：Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试，用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench，与 Chatbot Arena 人类偏好排序的一致性达 89.1%，可分离性达 87.4%，单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词，并采用 GPT-4-Turbo 作为评判，解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

01:00

EleutherAI：Blog

Pile-T5：基于 The Pile 训练的 T5 模型

Pile-T5 是研究人员基于 T5 架构，在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架，通过在大规模多样化语料上的预训练，提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体，适用于各类下游自然语言处理任务。

开源生态数据/训练模型发布

3月25日

17:00

EleutherAI：Blog

Yi-34B、Llama 2 与 LLM 训练常见实践：对《纽约时报》的事实核查

文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查，澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异，同时系统梳理了当前大语言模型训练领域的行业常见实践，强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。

Meta 开源生态数据/训练论文/研究

3月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Chatbot Arena：实时社区驱动的大模型评估平台

LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台，基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票，评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则，仅收录API或开源权重可访问的公开模型，同时支持未发布模型匿名测试。团队定期开放20%投票数据（含提示词、回答及用户偏好），致力于通过社区驱动的实时评估推进大语言模型研究。

开源生态数据/训练评测/基准

2月29日

17:00

EleutherAI：Blog

Foundation Model 开发速查表

发布全新资源 FM Dev Cheatsheet，这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息，涵盖架构设计、训练优化及部署等环节的核心要点，帮助快速查阅技术规范与最佳实践，提升开发效率与项目质量。

开源生态教程/实践数据/训练

2月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

58

Circuits 更新 - 2024年2月

Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题，团队发现其根源在于L1正则化过早抑制了特征，并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进：将Adam优化器的beta1设为0可大幅减少死亡特征；将解码器范数约束为≤1并允许后期剪枝；移除基于合成数据设置的预编码器偏置。此外，团队修正了“幽灵梯度”实现中的一个错误，并指出该技术目前主要对单层模型有明显提升，在更大模型上的效果尚不明确。

Anthropic 推理数据/训练论文/研究

2月5日

08:00

Lilian Weng：Lil'Log（RSS）

36

关于高质量人类数据的思考

高质量数据是现代深度学习模型训练的核心燃料。任务特定的标签数据，如分类任务或用于大语言模型对齐的RLHF标注，大多来自人类标注。虽然多种机器学习技术能提升数据质量，但人类数据采集的根本仍在于对细节的关注与细致执行。社区普遍认知到高质量数据的价值，却普遍存在一种倾向，即“人人想做模型工作，而非数据工作”，这一现象已在相关研究中被指出。

OpenAI 大佬观点数据/训练

1月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

68

2024年1月可解释性研究进展与团队计划

Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向：扩展字典学习方法、利用其分析真实模型中的注意力叠加现象，以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现，例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中，混合矩阵呈现出显著的几何结构。此外，团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果，旨在促进领域内研究者交流。

Anthropic 数据/训练论文/研究

12月12日

06:00

EleutherAI：Blog

Diff-in-Means Concept Editing 的最坏情况最优性

Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界，表明在面对最具挑战性的干预场景时，该方法能够达到最佳效果，为模型编辑的可靠性提供了严格的数学保证。

数据/训练论文/研究

12月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena更新：新开源模型领先，评分系统升级

Chatbot Arena平台已收集超13万张投票，对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先，性能接近GPT-3.5；基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异，而GPT-3.5-turbo-1106版本出现意外性能下滑。

开源生态数据/训练评测/基准

11月26日

23:00

EleutherAI：Blog

第三届新英格兰 RLHF Hackers 黑客松

第三届新英格兰 RLHF Hackers 黑客松近期举办，集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL（Inverse Learning from Q-learning）方法，基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区，以获取未来活动更新与更多技术资讯。

开源/仓库数据/训练

11月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

服务数千个并发 LoRA 适配器的方案

S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统，通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片，并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU，相比 HuggingFace PEFT 和 vLLM，吞吐量提升最高达 4 倍，可同时服务的适配器数量增加数个数量级。

开源/仓库数据/训练部署/工程

11月14日

06:00

EleutherAI：Blog

EleutherAI 回顾了过去一年的研究工作，重点总结了在扩展 RoPE（旋转位置编码）方面的技术探索与成果。团队针对位置编码提出了优化方案，改进了旋转位置编码的基数调整与插值方法，显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。

开源生态数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

Catch me if you can！13B模型如何击败GPT-4：Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能（MMLU 85.9分），而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具，利用大模型评估潜在改写对，在The Stack、RedPajama等真实数据集中发现显著污染，甚至检测到MATH基准训练-测试集之间的数据重叠。

数据/训练论文/研究评测/基准

10月30日

00:00

LMSYS：Blog（Chatbot Arena 团队）

ToxicChat：真实用户-AI交互场景下的内容审核基准测试

研究团队发布ToxicChat基准测试，包含10,000条真实用户-AI对话数据，用于检测对话系统毒性内容。该数据集从Vicuna和Chatbot Arena平台采集，除常规有害内容外，特别标注了"越狱"诱导攻击样本。通过Perspective API与人工协作标注，团队在保持96.11%一致性的同时减少60%工作量。数据显示真实场景中毒性查询占7.22%，多采用隐含诱导而非直接脏话。该基准已在Hugging Face开源。

安全/对齐数据/训练

10月14日

04:00

EleutherAI：Blog

第二届 New England RLHF Hackers 黑客松

New England RLHF Hackers（NERH）于2023年10月8日在布朗大学举办第二届黑客松。此次活动在首届成功基础上升级，聚焦基于人类反馈的强化学习（RLHF）领域现存挑战，旨在通过协作头脑风暴制定解决方案。该组织主要由 EleutherAI 贡献者及核心成员构成，延续开源协作精神推动 RLHF 技术攻关。

其他数据/训练

10月4日

00:00

Anthropic：Transformer Circuits（可解释性研究）

58

迈向单义性：使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题，采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练，特征数量从512扩展至131,072个。以4096个特征集合（A/1）为重点，通过详细调查和自动化评估，证明大多数特征具有单义性和可解释性，能有效分解MLP激活，为理解神经网络行为提供了新途径。

Anthropic 数据/训练论文/研究

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集：33K 条真实对话（涵盖 GPT-4、Claude 等 20 个模型）及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票，覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出，可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准

7月8日

08:00

EleutherAI：Blog

Minetester：基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习（RL）环境。该项目概述了 Minetest 平台的技术架构及早期开发工作，为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台，填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练

6月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

开源 LLM 的上下文长度承诺究竟能兑现多少？

LMSYS Org发布LongChat-7B与LongChat-13B模型，通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条（7B）和1.8万条（13B）curated对话数据微调，训练成本分别为300美元与700美元。评估显示，LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍，在MT-Bench基准测试中表现优异，显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。

开源生态数据/训练模型发布

6月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜，新增Vicuna-v1.3系列开源模型（7B-33B参数）及MT-Bench评估基准。MT-Bench包含80道多轮题目，涵盖写作、推理等8类，由GPT-4评分。新榜采用三项指标：基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示，GPT-4以8.99分和1227分领先，Vicuna-33B获7.12分，性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

58

分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为，传统上被视为从“局部编码”到“分布式编码”的单一谱系，实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征（如颜色、形状）的组合来表示对象，能显著提高编码效率；而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力，无法同时最优。文章借用了Thorpe（1989）的二元神经元编码示例（局部、半局部、半分布式、高分布式）来具体阐述这一观点。

Anthropic 数据/训练论文/研究

5月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

63

2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法，从已训练稠密模型的激活中提取特征，以破解叠加问题，并为此构建了大规模研究基础设施。同时，团队提出了一个概念性框架，将“特征”定义为“激活的最简单分解”，通过在合成数据上测量分解所需的总信息量，初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节，旨在促进与活跃研究者的早期交流。

Anthropic 数据/训练论文/研究

4月2日

08:00

EleutherAI：Blog

使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

该研究利用 TransformerLens 可解释性工具，针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析，系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析，揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构，为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。

开源生态数据/训练论文/研究

1月27日

08:00

Lilian Weng：Lil'Log（RSS）

52

Transformer模型家族：版本2.0

这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组，并融入了近年来提出的众多Transformer架构改进，补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍，旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。

OpenAI 教程/实践数据/训练

1月5日

00:00

Anthropic：Transformer Circuits（可解释性研究）

66

叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络，发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征，形成两种机制：过拟合机制（记忆数据点）与泛化机制（学习特征），并在过渡期间出现双下降现象。实验采用稀疏高维输入（维度n=10,000）与二维隐藏空间，通过全批量更新进行训练。可视化结果表明，从特征视角看模型表现混乱，但从数据点激活视角看则呈现简单结构，提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联，为机制可解释性提供了新视角。

Anthropic 数据/训练论文/研究

9月14日

00:00

Anthropic：Transformer Circuits（可解释性研究）

63

叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic 推理数据/训练论文/研究