AIHOT

12月20日

06:00

EleutherAI：Blog

研究团队提出了一种基于最小二乘法的概念擦除方法，在推理阶段利用 Oracle 概念标签，实现了比 LEACE 更精准的概念编辑。该方法通过引入真实的概念标签作为监督信号，能够对神经网络内部表示进行更精细的干预，在保持模型其他功能的同时，实现了更精确的概念移除和表示编辑。

安全/对齐论文/研究

12月12日

06:00

EleutherAI：Blog

Diff-in-Means Concept Editing 的最坏情况最优性

Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界，表明在面对最具挑战性的干预场景时，该方法能够达到最佳效果，为模型编辑的可靠性提供了严格的数学保证。

数据/训练论文/研究

12月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena更新：新开源模型领先，评分系统升级

Chatbot Arena平台已收集超13万张投票，对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先，性能接近GPT-3.5；基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异，而GPT-3.5-turbo-1106版本出现意外性能下滑。

开源生态数据/训练评测/基准

12月4日

00:00

Runway：News（网页）

Runway 与 Getty Images 合作推出企业级 AI 视频工具

Runway 与 Getty Images 联合推出 RGM（Runway-Getty Images Model），为企业提供可定制的视频生成基座模型。企业可用自有专有数据微调，生成符合品牌风格的视频内容，面向好莱坞、广告、媒体等行业。该模型将在未来几个月内开放商用。

行业动态视频

11月29日

19:07

DeepSeek：GitHub 新仓库

DeepSeek-AI 开源 DeepSeek-LLM 大语言模型

DeepSeek-AI 开源发布 DeepSeek-LLM 大模型系列，包含 7B 与 67B 参数版本。模型基于 2 万亿 token 高质量数据训练，在数学推理、代码生成等任务上表现优异。67B 版本在 HumanEval、GSM8K 等基准测试中超越 LLaMA-2 70B，采用完全开源策略发布技术细节与训练方案。

DeepSeek开源/仓库开源生态

11月26日

23:00

EleutherAI：Blog

第三届新英格兰 RLHF Hackers 黑客松

第三届新英格兰 RLHF Hackers 黑客松近期举办，集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL（Inverse Learning from Q-learning）方法，基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区，以获取未来活动更新与更多技术资讯。

开源/仓库数据/训练

11月21日

00:00

LMSYS：Blog（Chatbot Arena 团队）

利用 Lookahead Decoding 打破 LLM 推理的顺序依赖

研究团队发布 lookahead decoding 并行解码算法，基于 Jacobi 迭代同时提取验证 n-grams，无需草稿模型即可打破自回归解码的顺序依赖。该方法可将 LLaMA-2-Chat 7B 等模型的推理延迟降低 1.5 至 2.3 倍，解码步骤数随每步 log(FLOPs) 线性减少，且已与 HuggingFace Transformers 兼容，仅需数行代码即可集成。

论文/研究部署/工程

11月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

服务数千个并发 LoRA 适配器的方案

S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统，通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片，并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU，相比 HuggingFace PEFT 和 vLLM，吞吐量提升最高达 4 倍，可同时服务的适配器数量增加数个数量级。

开源/仓库数据/训练部署/工程

11月14日

06:00

EleutherAI：Blog

扩展 RoPE

EleutherAI 回顾了过去一年的研究工作，重点总结了在扩展 RoPE（旋转位置编码）方面的技术探索与成果。团队针对位置编码提出了优化方案，改进了旋转位置编码的基数调整与插值方法，显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。

开源生态数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

Catch me if you can！13B模型如何击败GPT-4：Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能（MMLU 85.9分），而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具，利用大模型评估潜在改写对，在The Stack、RedPajama等真实数据集中发现显著污染，甚至检测到MATH基准训练-测试集之间的数据重叠。

数据/训练论文/研究评测/基准

11月6日

08:00

xAI：News（网页）

PromptIDE 正式发布

正式发布 PromptIDE，一款面向大语言模型提示词开发的集成开发环境，支持提示词编写、调试与优化全流程，内置代码执行、版本管理与性能分析工具，旨在提升提示工程师和开发者的迭代效率与协作体验。

xAI产品更新

11月3日

08:00

xAI：News（网页）

xAI发布大模型Grok

xAI发布大模型Grok，灵感源自《银河系漫游指南》，主打幽默叛逆风格，能回答敏感问题并通过X平台获取实时信息。底层模型Grok-1拥有330亿参数，在HumanEval编码测试达63.2%、MMLU达73%，性能超越GPT-3.5和同计算量级模型。在2023匈牙利高中数学考试中获C级（59%）。系统目前处于早期测试阶段。

xAI推理搜索模型发布

10月30日

00:00

LMSYS：Blog（Chatbot Arena 团队）

ToxicChat：真实用户-AI交互场景下的内容审核基准测试

研究团队发布ToxicChat基准测试，包含10,000条真实用户-AI对话数据，用于检测对话系统毒性内容。该数据集从Vicuna和Chatbot Arena平台采集，除常规有害内容外，特别标注了"越狱"诱导攻击样本。通过Perspective API与人工协作标注，团队在保持96.11%一致性的同时减少60%工作量。数据显示真实场景中毒性查询占7.22%，多采用隐含诱导而非直接脏话。该基准已在Hugging Face开源。

安全/对齐数据/训练

10月26日

08:00

EleutherAI：Blog

基础模型透明度指数如何扭曲透明度

由于提供的正文内容仅包含一句话"Evaluating transparency requires precision."，缺乏撰写100-200字摘要所需的必要信息（如具体发布内容、数据指标、关键变化等），无法完成符合要求的摘要撰写。请提供完整正文内容以便提取关键信息点。

安全/对齐论文/研究

10月16日

00:00

Runway：News（网页）

Runway 推出 Acceleration Program

Runway 启动为期三个月的带薪 Acceleration Program，招募非传统背景人才，强调技术实力、快速学习能力与探索勇气优于正规学历。参与者将加入跨学科团队参与 AI 项目实战，并获得资深研究员的持续指导。

行业动态视频

10月14日

04:00

EleutherAI：Blog

第二届 New England RLHF Hackers 黑客松

New England RLHF Hackers（NERH）于2023年10月8日在布朗大学举办第二届黑客松。此次活动在首届成功基础上升级，聚焦基于人类反馈的强化学习（RLHF）领域现存挑战，旨在通过协作头脑风暴制定解决方案。该组织主要由 EleutherAI 贡献者及核心成员构成，延续开源协作精神推动 RLHF 技术攻关。

其他数据/训练

10月4日

00:00

Anthropic：Transformer Circuits（可解释性研究）

迈向单义性：使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题，采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练，特征数量从512扩展至131,072个。以4096个特征集合（A/1）为重点，通过详细调查和自动化评估，证明大多数特征具有单义性和可解释性，能有效分解MLP激活，为理解神经网络行为提供了新途径。

Anthropic数据/训练论文/研究

00:00

Runway：News（网页）

Runway 与 Canva 达成合作

Runway Gen-2 视频生成模型正式接入 Canva Magic Media 应用，向 1.5 亿月活用户开放。用户可直接在 Canva 中调用 Gen-2 完整功能，无需切换平台即可为设计添加 AI 视频生成能力。

产品更新视频

8月22日

00:00

Runway：News（网页）

解读导演组合 Vallée Duhamel 的作品《After Light》

导演组合 Vallée Duhamel 使用 Runway 制作短片《After Light》，将四年前拍摄的舞者档案素材与生成式 AI 结合，创造出超现实视觉风格。作品源于对 AI 的焦虑，通过实际使用工具探索其可能性，实现了以往因预算限制无法完成的创意。与传统动画不同，Runway 的随机输出带来意外惊喜（如人物着火的画面改变叙事），工作流程更灵活有机，无需深厚技术背景即可实现复杂视觉效果。

现象/趋势视频

7月27日

01:00

EleutherAI：Blog

EleutherAI 对 EU AI Act 的观点

EleutherAI 阐述其针对欧盟AI法案（EU AI Act）支持开源与开放科学的立场及具体策略。该AI研究机构就欧盟人工智能监管法规提出系统性建议，主张在合规框架内保障开源模型开发与科学研究的开放性，致力于平衡AI安全监管与技术创新自由，确保开源社区在严格监管环境下仍能持续发展并促进技术民主化。

开源生态政策/监管

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集：33K 条真实对话（涵盖 GPT-4、Claude 等 20 个模型）及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票，覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出，可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

电路更新 - 2023年7月

Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中，发现一层的玩具模型行为并非线性特征叠加的反例，而是优化失败的产物；模型在数据集从约1k样本增至500k样本时，记忆方式从个体数据点转向相关集群，并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制，这些机制对AI安全有潜在影响。

Anthropic推理论文/研究

7月8日

08:00

EleutherAI：Blog

Minetester：基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习（RL）环境。该项目概述了 Minetest 平台的技术架构及早期开发工作，为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台，填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练

6月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

开源 LLM 的上下文长度承诺究竟能兑现多少？

LMSYS Org发布LongChat-7B与LongChat-13B模型，通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条（7B）和1.8万条（13B）curated对话数据微调，训练成本分别为300美元与700美元。评估显示，LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍，在MT-Bench基准测试中表现优异，显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。

开源生态数据/训练模型发布

00:00

Runway：News（网页）

Runway 获1.41亿美元融资，继续构建创意未来

Runway 获1.41亿美元融资，用于扩展多模态AI研究及团队招聘。公司此前推出Gen-1和Gen-2视频生成模型，其AI工具正被财富500强企业使用以优化创作流程。

多模态行业动态视频

6月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜，新增Vicuna-v1.3系列开源模型（7B-33B参数）及MT-Bench评估基准。MT-Bench包含80道多轮题目，涵盖写作、推理等8类，由GPT-4评分。新榜采用三项指标：基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示，GPT-4以8.99分和1227分领先，Vicuna-33B获7.12分，性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为，传统上被视为从“局部编码”到“分布式编码”的单一谱系，实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征（如颜色、形状）的组合来表示对象，能显著提高编码效率；而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力，无法同时最优。文章借用了Thorpe（1989）的二元神经元编码示例（局部、半局部、半分布式、高分布式）来具体阐述这一观点。

Anthropic数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

可解释性之梦

Chris Olah于2023年5月24日发表非正式笔记，阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题，为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为，并实现可解释性自动化。作者指出这些设想虽具推测性，但若基础突破，可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究，旨在建立坚实的认知基础。

Anthropic推理论文/研究

5月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 发布最新大语言模型排行榜（第4周）

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜（4 月 24 日-5 月 22 日）。GPT-4（1225 分）居首，Claude-v1（1195 分）与 Claude-instant-v1（1153 分）紧随其后。新加入的 Google PaLM 2（1042 分）位列第六，虽对顶级模型胜率过半，但因过度监管（20.9% 对局因拒答失利），竟在 21.6% 比赛中输给非头部模型，表现不及 GPT-3.5-turbo（12.8%）。

AnthropicGoogle评测/基准

5月23日

09:00

EleutherAI：Blog

Safetensors 通过安全审计并将成为默认格式

Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计，结果证实该库安全可靠，具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布，相关博客文章将进一步阐述该库的技术背景与后续实施计划。

Hugging Face开源/仓库开源生态部署/工程

5月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法，从已训练稠密模型的激活中提取特征，以破解叠加问题，并为此构建了大规模研究基础设施。同时，团队提出了一个概念性框架，将“特征”定义为“激活的最简单分解”，通过在合成数据上测量分解所需的总信息量，初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节，旨在促进与活跃研究者的早期交流。

Anthropic数据/训练论文/研究

5月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第二周排行榜：GPT-4居首，Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜，新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示，GPT-4以1274分领跑，Claude-v1（1224分）和GPT-3.5-turbo（1155分）分列二、三位。专有模型与开源模型差距显著，GPT-4对Vicuna-13B胜率达82%，但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六，表现超出预期。

AnthropicOpenAI评测/基准

5月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena：基于Elo评分的众包大模型评测平台

LMSYS推出Chatbot Arena平台，通过众包匿名对战机制与Elo评分系统对LLM进行排名。基于4.7K投票数据的初始榜单显示，Vicuna-13b以1169分位居榜首，Koala-13b和OASST-Pythia-12b分列二、三位。用户通过与两个匿名模型实时对话并投票，帮助解决开放式问题的自动评估难题，具备可扩展性和增量评估能力。

评测/基准

4月18日

07:00

EleutherAI：Blog

Transformer 数学基础：计算与内存入门

系统阐述 Transformer 架构在计算负载与内存占用方面的基础数学原理，涵盖前向传播与反向传播过程中的浮点运算量（FLOPs）估算、模型参数量与显存需求的计算公式，以及注意力机制的复杂度分析。通过量化方法解析大语言模型训练与推理阶段的资源消耗规律，为模型设计与硬件选型提供理论依据。

教程/实践部署/工程

4月2日

08:00

EleutherAI：Blog

使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

该研究利用 TransformerLens 可解释性工具，针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析，系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析，揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构，为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。

开源生态数据/训练论文/研究

3月27日

06:00

EleutherAI：Blog

EleutherAI 第二次回顾：长文版

EleutherAI 发布第二次年度回顾长文，梳理该开源 AI 研究组织过去一年的主要工作进展与成果。由于提供的正文仅包含引言部分，具体涉及的新模型发布、技术迭代、数据集更新及性能指标等关键信息未在现有内容中详细展开，无法提取详细的技术参数与量化数据。

开源生态现象/趋势

3月22日

00:00

Runway：News（网页）

与 AWS 合作扩展内部研究基础设施

Runway 宣布与 AWS 达成多年战略合作，AWS 成为其首选云提供商以扩展高性能计算集群。Runway 已将全部模型开发与训练迁至内部，加速新模型训练与产品部署。双方此前在 AWS 上合作完成了多模态视频生成模型 Gen-2 的训练，该模型支持通过文本、图像或视频片段生成新视频，代表了视频生成 AI 的重大进步。

行业动态视频部署/工程

3月16日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Transformer残差流中的特权基向量

研究发现Transformer模型的残差流中存在“特权基向量”现象，即某些坐标方向持续出现异常大的激活值，这与“无特权基”的理论预期相悖。通过实验，研究者将根源指向Adam优化器中的逐维度归一化器，而非层归一化或浮点精度问题。在2亿参数模型中，典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标，发现激活分布峰度普遍大于3，进一步证实了基向量对称性被破坏。

Anthropic推理论文/研究

推荐理由：揭示Transformer内部基依赖性的根源，帮助研究者改进模型可解释性。

3月2日

15:00

EleutherAI：Blog

三万英尺视角：EleutherAI 第二份回顾报告序言

EleutherAI 发布第二份回顾报告序言，梳理该开源 AI 研究组织过去一年半的工作进展。文章从宏观视角概述了其在开源模型、工具开发及社区建设等方面的阶段性成果，为后续详细技术回顾提供背景脉络，但未披露具体性能指标与版本迭代细节。

开源生态现象/趋势

1月5日

00:00

Anthropic：Transformer Circuits（可解释性研究）

叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络，发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征，形成两种机制：过拟合机制（记忆数据点）与泛化机制（学习特征），并在过渡期间出现双下降现象。实验采用稀疏高维输入（维度n=10,000）与二维隐藏空间，通过全批量更新进行训练。可视化结果表明，从特征视角看模型表现混乱，但从数据点激活视角看则呈现简单结构，提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联，为机制可解释性提供了新视角。

Anthropic数据/训练论文/研究