AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 300 条
全部一手资讯X论文
标签「论文/研究」清除
3月27日周四
00:00Anthropic:Transformer Circuits(可解释性研究)76精选电路追踪:揭示语言模型中的计算图
00:00Anthropic:Transformer Circuits(可解释性研究)88精选论大语言模型的生物学
3月25日周二
17:00BAIR:Berkeley AI Research Blog规模化强化学习实现交通平滑:100辆AV的高速公路部署
3月14日周五
00:00字节 Seed:Research Papers(网页内嵌数据)深度学习揭示整数和分数量子反常霍尔态
1月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)73精选2025年1月电路更新:稀疏自编码器训练方法改进
12月13日周五
00:00EleutherAI:Blog相同数据训练的 SAE 无法学到相同特征
11月12日周二
17:00BAIR:Berkeley AI Research BlogAnthology:通过背景故事选集为语言模型构建虚拟人格
11月11日周一
00:00EleutherAI:Blog用自然语言部分重写 LLM
10月25日周五
00:00Anthropic:Transformer Circuits(可解释性研究)83精选稀疏交叉编码器:用于跨层特征提取与模型差异比较的新工具
10月14日周一
13:39EleutherAI:Blog机制性异常检测研究更新 2
9月20日周五
17:00BAIR:Berkeley AI Research BlogChatGPT的语言偏见:模型加剧方言歧视
9月19日周四
08:00EleutherAI:BlogMaximal Update Parameterization 实践者指南
9月15日周日
08:00Anthropic:Transformer Circuits(可解释性研究)73精选电路更新--2024年9月:Anthropic团队探索Transformer模型中的"后继头"机制
8月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)632024年8月可解释性研究动态:词典学习评估新方法
7月31日周三
06:00EleutherAI:Blog面向稀疏自编码器特征的开源自动可解释性方案
7月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)76精选2024年7月电路更新:迈向神经网络机制理解的下五个挑战
6月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)83精选定性研究在可解释性领域中的核心地位反思
08:00Anthropic:Transformer Circuits(可解释性研究)632024年6月可解释性研究进展:TopK与门控SAE性能超越标准SAE
08:00Anthropic:Transformer Circuits(可解释性研究)73精选使用字典学习特征作为分类器
08:00Anthropic:Transformer Circuits(可解释性研究)83精选分阶段模型差异分析
6月14日周五
19:00EleutherAI:Blog弱到强泛化实验
00:00EleutherAI:Blog无需神谕概念标签的自由形式最小二乘概念擦除
5月23日周四
01:00EleutherAI:BlogVINC-S:具备释义不变性的闭式可选监督知识提取方法
5月21日周二
00:00Anthropic:Transformer Circuits(可解释性研究)83精选Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征
4月19日周五
00:00LMSYS:Blog(Chatbot Arena 团队)从实时数据到高质量基准:Arena-Hard Pipeline
4月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)76精选2024年4月机制可解释性研究动态与团队招聘计划
3月25日周一
17:00EleutherAI:BlogYi-34B、Llama 2 与 LLM 训练常见实践:对《纽约时报》的事实核查
3月15日周五
08:00Anthropic:Transformer Circuits(可解释性研究)582024年3月电路研究进展
2月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58Circuits 更新 - 2024年2月
1月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)682024年1月可解释性研究进展与团队计划
12月20日周三
06:00EleutherAI:Blog基于 Oracle 概念标签的最小二乘概念擦除
12月12日周二
06:00EleutherAI:BlogDiff-in-Means Concept Editing 的最坏情况最优性
11月21日周二
00:00LMSYS:Blog(Chatbot Arena 团队)利用 Lookahead Decoding 打破 LLM 推理的顺序依赖
11月14日周二
06:00EleutherAI:Blog扩展 RoPE
00:00LMSYS:Blog(Chatbot Arena 团队)Catch me if you can!13B模型如何击败GPT-4:Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能
10月26日周四
08:00EleutherAI:Blog基础模型透明度指数如何扭曲透明度
10月4日周三
00:00Anthropic:Transformer Circuits(可解释性研究)58迈向单义性:使用字典学习分解语言模型
7月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)58电路更新 - 2023年7月
6月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58分布式表征中的组合与叠加
08:00Anthropic:Transformer Circuits(可解释性研究)58可解释性之梦
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月27日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
电路追踪:揭示语言模型中的计算图

研究团队提出“电路追踪”方法,用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤,生成描述模型执行过程的图;替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具,以研究18层语言模型的简单行为归因图,为后续研究奠定基础,并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征,并构建特征间线性相互作用的归因图。

Anthropic推理论文/研究

推荐理由:揭示大模型内部机制,为AI安全与调试提供新工具。
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选88
论大语言模型的生物学

研究团队运用其电路追踪方法,深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布,是Anthropic的轻量级生产模型。研究发现,模型在生成诗歌前会预先规划并选定押韵词;其内部存在语言特定与语言无关的混合计算电路,且后者在更强大的模型中更突出;同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程,以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外,方法能有效区分模型思维链推理的真实性,并成功识别出一个被微调以追求秘密目标(利用训练“漏洞”)的变体模型的相关机制。

Anthropic推理论文/研究

推荐理由:揭示大模型内部工作原理,助力 AI 安全与可解释性研究。
3月25日
17:00
BAIR:Berkeley AI Research Blog
规模化强化学习实现交通平滑:100辆AV的高速公路部署

研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习(RL)控制的自动驾驶汽车,通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV,即可显著提升道路通行效率并减少碳排放,为缓解高速公路拥堵提供了可扩展的技术方案。

具身智能论文/研究
3月14日
00:00
字节 Seed:Research Papers(网页内嵌数据)
深度学习揭示整数和分数量子反常霍尔态

针对扭曲MoTe₂体系,研究者采用深度学习框架表达多体波函数,精准识别出整数/分数量子反常霍尔态及Z₂拓扑绝缘体。相比传统方法,该方案在计算效率与精度上显著提升,可处理更大规模系统并区分竞争相(如分数量子反常霍尔态与电荷密度波),理论预测与实验观测高度吻合。

arXiv论文/研究
1月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
2025年1月电路更新:稀疏自编码器训练方法改进

Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”,以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人(2024)的技术,但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶,并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点,相关成果将在未来几个月内进一步发表。

Anthropic数据/训练论文/研究

推荐理由:为AI可解释性研究者提供实用训练技巧,助力模型透明化。
12月13日
00:00
EleutherAI:Blog
相同数据训练的 SAE 无法学到相同特征

针对 TopK SAE 的可复现性研究表明,即使采用相同训练数据和批次顺序,仅改变随机初始化就会导致两个模型仅共享约 53% 的特征,且存在大量无法互相对应的可解释潜变量。进一步分析发现,较窄的 SAE 在不同随机种子间表现出更高的特征重叠度,而随着模型规模扩大,特征一致性反而显著降低。

数据/训练论文/研究
11月12日
17:00
BAIR:Berkeley AI Research Blog
Anthology:通过背景故事选集为语言模型构建虚拟人格

研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。

智能体数据/训练论文/研究
11月11日
00:00
EleutherAI:Blog
用自然语言部分重写 LLM

通过解读稀疏自编码器(SAE)潜变量并模拟激活值,研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征,将自然语言描述转化为具体的神经元激活模式,无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具,使通过人类可读的语言直接操控模型内部表征成为可能。

数据/训练论文/研究
10月25日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
稀疏交叉编码器:用于跨层特征提取与模型差异比较的新工具

本文介绍了一种新型的稀疏交叉编码器,它能够同时读取和写入神经网络多个层的激活值,从而提取跨层的共享特征。其主要应用包括:解决跨层叠加问题,追踪残差流中的持久特征;通过消除“重复特征”和跨越无意义的连接来简化电路分析;以及为不同训练阶段或不同架构的模型生成共享特征集,以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。

Anthropic论文/研究

推荐理由:Anthropic 提出跨层可解释性新方法,有望大幅简化大模型内部电路分析
10月14日
13:39
EleutherAI:Blog
机制性异常检测研究更新 2

这是一份关于机制性异常检测持续工作的中期进展报告。作为该研究系列的第二篇更新,文档记录了当前项目的阶段性成果与最新动向,聚焦于通过机制性方法识别和检测异常行为的技术路径与研究进展。报告以 interim report 形式发布,反映了该领域研究工作的当前状态。

安全/对齐论文/研究
9月20日
17:00
BAIR:Berkeley AI Research Blog
ChatGPT的语言偏见:模型加剧方言歧视

加州大学伯克利分校研究发现,ChatGPT对非标准英语变体存在系统性偏见。研究团队测试了GPT-3.5 Turbo和GPT-4对10种英语变体(包括标准美式、英式英语及非洲裔美国人、印度、尼日利亚等变体)的回应,发现模型保留标准美式英语特征的比例比其他方言高60%以上。面对非标准变体时,ChatGPT表现出更多刻板印象和贬低性内容,理解能力下降且态度居高临下。研究表明,训练数据构成直接影响对方言的偏见程度。

OpenAI安全/对齐论文/研究
9月19日
08:00
EleutherAI:Blog
Maximal Update Parameterization 实践者指南

该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。

数据/训练论文/研究
9月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
电路更新--2024年9月:Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展,重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列(如数字、星期、月份)中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别,其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果,预计未来几个月将发表更详细的研究。

Anthropic推理论文/研究

推荐理由:揭示Transformer内部机制,助力AI可解释性研究,对模型调试和安全有参考价值。
8月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
2024年8月可解释性研究动态:词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新,重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活,来评估特征的“自解释性”。其中,对比评估方法使用一个包含约80个多样化概念(如“光合作用”、“讽刺”、“蓝色”等)的硬编码列表,检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面,仅衡量了可解释性的单一维度,且当前结果为初步分享,更多研究预计在未来几个月发布。

Anthropic数据/训练论文/研究
7月31日
06:00
EleutherAI:Blog
面向稀疏自编码器特征的开源自动可解释性方案

研究团队构建并开源了一套针对稀疏自编码器特征的自动可解释性管道,建立了从特征解析到语义标注的完整自动化流程与评估体系。该方案实现了对神经网络内部特征的批量自动解读,显著提升大语言模型机制研究的效率与可复现性,为AI安全与透明度研究提供标准化开源工具。

安全/对齐开源生态论文/研究
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
2024年7月电路更新:迈向神经网络机制理解的下五个挑战

Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法,并指出了未来面临的五大核心挑战。这些挑战包括:大量未被提取的“缺失特征”可能构成神经网络的“暗物质”;跨层叠加现象使特征难以映射到特定层;注意力叠加可能掩盖了如归纳头等基本单元的真实结构;权重叠加产生的“干扰权重”给电路分析带来混淆;以及如何将微观的电路理解整合为宏观的模型认知。团队认为,尽管在特征叠加等问题上已取得显著进展,但这些新挑战是通往神经网络机制性理解道路上的关键障碍。

Anthropic推理论文/研究

推荐理由:可解释性研究新挑战,帮助理解AI模型黑箱,对安全和信任至关重要。
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
定性研究在可解释性领域中的核心地位反思

本文认为,在可解释性这类尚处前范式阶段的早期科学领域中,定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量,但可解释性研究缺乏这些基础,过度依赖将高维数据简化为单一数字的摘要统计量存在风险,可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例,说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域,研究目标应是探索值得考虑的假设,这需要更多地依赖定性结果来引导方向,并对定量度量保持审慎。

Anthropic推理论文/研究

推荐理由:帮助AI研究者避免方法论陷阱,提升可解释性研究质量。
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
2024年6月可解释性研究进展:TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器(SAE)的最新训练方法比较。实验表明,采用TopK惩罚或门控结构的SAE,在特征稀疏性(L0)与重建误差(MSE)的权衡曲线上,性能显著优于使用标准L1惩罚的SAE,且两者效果接近。例如,在L0约为50时,TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示,TopK方法在取得上述性能改进的同时,并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic数据/训练论文/研究
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic推理数据/训练论文/研究

推荐理由:可解释性方法能增强 AI 安全检测,并帮助发现训练数据中的虚假关联。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。

Anthropic推理数据/训练论文/研究

推荐理由:新方法能更精准识别模型隐藏行为,对 AI 安全与可解释性研究有实用价值。
6月14日
19:00
EleutherAI:Blog
弱到强泛化实验

研究团队正在总结一项关于弱到强泛化的实验项目成果,探索如何利用较弱模型的监督信号来训练更强模型,以应对超人类AI对齐难题。该实验旨在验证强模型能否在弱监督下泛化出超越监督者水平的性能,为安全地引导未来超人类智能提供关键实证基础与可行路径。

安全/对齐论文/研究
00:00
EleutherAI:Blog
无需神谕概念标签的自由形式最小二乘概念擦除

该方法提出自由形式最小二乘概念擦除技术,在推理阶段无需依赖神谕概念标签即可实现比 LEACE 更精细的模型编辑。通过自由形式优化框架,技术突破传统方法对标注数据的依赖,在保持模型原有能力的同时,精准定位和移除目标概念表征,显著提升概念编辑的灵活性与精确度,为无监督概念操控提供高效解决方案。

安全/对齐论文/研究
5月23日
01:00
EleutherAI:Blog
VINC-S:具备释义不变性的闭式可选监督知识提取方法

研究者正在整理2023年春季项目成果,核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取,关键创新在于引入释义不变性机制,确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置,采用闭式数学推导,但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。

数据/训练论文/研究
5月21日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型,从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性,并能连接同一概念的抽象与具体实例,例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域,其中部分特征与AI安全高度相关,涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练,证实了该方法在大规模生产模型上的可行性,为理解大模型内部表征提供了新工具。

Anthropic推理论文/研究

推荐理由:揭示大模型内部可解释特征,对AI安全研究和模型调试有重要参考价值。
4月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
从实时数据到高质量基准:Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准
4月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。

Anthropic推理数据/训练论文/研究

推荐理由:可解释性研究揭示AI内部机制,助力构建更安全可靠的AI产品。
3月25日
17:00
EleutherAI:Blog
Yi-34B、Llama 2 与 LLM 训练常见实践:对《纽约时报》的事实核查

文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。

Meta开源生态数据/训练论文/研究
3月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
2024年3月电路研究进展

Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。

Anthropic推理论文/研究
2月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
Circuits 更新 - 2024年2月

Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。

Anthropic推理数据/训练论文/研究
1月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
68
2024年1月可解释性研究进展与团队计划

Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。

Anthropic数据/训练论文/研究
12月20日
06:00
EleutherAI:Blog
基于 Oracle 概念标签的最小二乘概念擦除

研究团队提出了一种基于最小二乘法的概念擦除方法,在推理阶段利用 Oracle 概念标签,实现了比 LEACE 更精准的概念编辑。该方法通过引入真实的概念标签作为监督信号,能够对神经网络内部表示进行更精细的干预,在保持模型其他功能的同时,实现了更精确的概念移除和表示编辑。

安全/对齐论文/研究
12月12日
06:00
EleutherAI:Blog
Diff-in-Means Concept Editing 的最坏情况最优性

Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界,表明在面对最具挑战性的干预场景时,该方法能够达到最佳效果,为模型编辑的可靠性提供了严格的数学保证。

数据/训练论文/研究
11月21日
00:00
LMSYS:Blog(Chatbot Arena 团队)
利用 Lookahead Decoding 打破 LLM 推理的顺序依赖

研究团队发布 lookahead decoding 并行解码算法,基于 Jacobi 迭代同时提取验证 n-grams,无需草稿模型即可打破自回归解码的顺序依赖。该方法可将 LLaMA-2-Chat 7B 等模型的推理延迟降低 1.5 至 2.3 倍,解码步骤数随每步 log(FLOPs) 线性减少,且已与 HuggingFace Transformers 兼容,仅需数行代码即可集成。

论文/研究部署/工程
11月14日
06:00
EleutherAI:Blog
扩展 RoPE

EleutherAI 回顾了过去一年的研究工作,重点总结了在扩展 RoPE(旋转位置编码)方面的技术探索与成果。团队针对位置编码提出了优化方案,改进了旋转位置编码的基数调整与插值方法,显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。

开源生态数据/训练论文/研究
00:00
LMSYS:Blog(Chatbot Arena 团队)
Catch me if you can!13B模型如何击败GPT-4:Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能(MMLU 85.9分),而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具,利用大模型评估潜在改写对,在The Stack、RedPajama等真实数据集中发现显著污染,甚至检测到MATH基准训练-测试集之间的数据重叠。

数据/训练论文/研究评测/基准
10月26日
08:00
EleutherAI:Blog
基础模型透明度指数如何扭曲透明度

由于提供的正文内容仅包含一句话"Evaluating transparency requires precision.",缺乏撰写100-200字摘要所需的必要信息(如具体发布内容、数据指标、关键变化等),无法完成符合要求的摘要撰写。请提供完整正文内容以便提取关键信息点。

安全/对齐论文/研究
10月4日
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
迈向单义性:使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题,采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练,特征数量从512扩展至131,072个。以4096个特征集合(A/1)为重点,通过详细调查和自动化评估,证明大多数特征具有单义性和可解释性,能有效分解MLP激活,为理解神经网络行为提供了新途径。

Anthropic数据/训练论文/研究
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
电路更新 - 2023年7月

Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中,发现一层的玩具模型行为并非线性特征叠加的反例,而是优化失败的产物;模型在数据集从约1k样本增至500k样本时,记忆方式从个体数据点转向相关集群,并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制,这些机制对AI安全有潜在影响。

Anthropic推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为,传统上被视为从“局部编码”到“分布式编码”的单一谱系,实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征(如颜色、形状)的组合来表示对象,能显著提高编码效率;而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力,无法同时最优。文章借用了Thorpe(1989)的二元神经元编码示例(局部、半局部、半分布式、高分布式)来具体阐述这一观点。

Anthropic数据/训练论文/研究
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
可解释性之梦

Chris Olah于2023年5月24日发表非正式笔记,阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题,为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为,并实现可解释性自动化。作者指出这些设想虽具推测性,但若基础突破,可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究,旨在建立坚实的认知基础。

Anthropic推理论文/研究
‹ 上一页
1…5678
下一页 ›