AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
9月27日周六
03:03Lilian Weng查看脚注中那些隐藏的宝石般的小故事,你会发现这令人鼓舞:对同一主题感兴趣的研究者能够跨越角色和地域合作推进一个领域。这就是开放科学和社区的力量。
9月26日周五
08:00Thinking Machines Lab:官方博客(RSS)45Modular Manifolds
9月25日周四
22:28Hacker News:AI 热帖精选Launch HN: Webhound (YC S23) - 从网络构建数据集的研究智能体
9月22日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 实现确定性推理与可复现 RL 训练
9月21日周日
00:00LMSYS:Blog(Chatbot Arena 团队)在 AMD GPU 上优化 FP4 混合精度推理
9月9日周二
08:10Sam Altman:Blog(RSS)精选Jakub 与 Szymon
9月1日周一
17:00BAIR:Berkeley AI Research Blogword2vec究竟学到了什么?
8月29日周五
02:07Andrej Karpathy精选将人类知识、传感器与执行器从"人类优先"转向"LLM优先"……
8月28日周四
00:00LMSYS:Blog(Chatbot Arena 团队)gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)
8月24日周日
12:25Yann LeCun我在 Meta 的前会议室以这篇论文标题命名
8月13日周三
04:00EleutherAI:Blog面向开放权重 AI 安全的预训练数据过滤
8月7日周四
01:36Jim Fan期待看到 FSD Scaling Law:这是全球唯一的物理数据飞轮
8月5日周二
23:38Jim Fan精选物理AI系统的评估是最难的问题:每次调试新的FSD版本都要撞车测试吗?
00:01Jim Fan破折号不应仅固化在预训练、后训练、对齐、系统提示及 LLM 生命周期的每个角落,而应硬编码进模型的内核、身份与本质
8月1日周五
23:00EleutherAI:Blog注意力探针
7月31日周四
06:42Saining XieTheRightWayTM 现在是我最喜欢的品牌。
00:00字节 Seed:Research Papers(网页内嵌数据)Seed-Prover:面向自动定理证明的深度与广度推理
7月12日周六
05:08Yann LeCun最优 batch size 是 1(在特定定义下)
7月11日周五
07:33Saining Xie对于所有任务中稳定训练的三个最重要超参数是 lr、bs 和 beta2。随着时间推移,我们已经建立了关于如何调整它们的良好直觉,但这篇文章分析性地、令人信服地阐述了这一切。
7月9日周三
00:00LMSYS:Blog(Chatbot Arena 团队)slime:面向 RL 扩展的 SGLang 原生后训练框架
6月28日周六
04:00Saining Xiemetaquery 现已开源--数据和代码均已开放。
6月22日周日
23:54Yann LeCunSandboxAQ 发布全新开源数据集 SAIR
6月20日周五
22:53Yann LeCunSandboxAQ 开源最大结合亲和力数据集 SAIR
6月15日周日
08:00Anthropic:Transformer Circuits(可解释性研究)78精选Crosscoder模型差异分析见解
08:00Anthropic:Transformer Circuits(可解释性研究)78精选一个关于机制(非)忠实性的玩具模型
6月12日周四
08:00EleutherAI:Blog通过局部体积研究随机网络的归纳偏置
6月6日周五
04:00EleutherAI:BlogCommon Pile v0.1 正式发布
5月31日周六
06:00EleutherAI:Blog使用积键记忆编码稀疏编码器特征
5月25日周日
12:08Lilian WengThinky 可能要做的第一个产品是一整块旋钮面板,研究人员可以用它在训练过程中物理调节所有超参数。我们总有一天会做硬件,是时候了 😂
5月13日周二
04:51Lilian Weng当新数据集发布时,我会很兴奋地去查看,然后才意识到这又是一个元混合数据集,结合了其他现有数据集的集合。我的大脑立刻反应:"我去……数据污染!" 请不要有元元混合数据集了 :lolsob:
5月4日周日
21:31Saining XieWow,Deeply Supervised Nets 获得了 @aistats_conf 2025 年的时间检验奖!这是我博士期间提交的第一篇论文。趣事:这篇论文最初被 NeurIPS 拒稿,分数是 8/8/7(是的,那种痛苦一直伴随着我……也许现在终于可以释怀了😅)。我不会说会议投稿是抽奖,但坚持确实大有帮助。同学们:如果你最近因论文结果感到沮丧,正在准备下一篇,希望这能提醒你坚持下去。
4月24日周四
11:27Saining Xie最近由 @TongPetersb、@DavidJFan 和 Meta FAIR 团队开源的项目。
4月8日周二
18:30BAIR:Berkeley AI Research Blog利用 Latent Diffusion 改造蛋白质折叠模型用于生成
2月28日周五
09:06DeepSeekDeepSeek开源3FS并行文件系统与Smallpond框架
1月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)73精选2025年1月电路更新:稀疏自编码器训练方法改进
12月13日周五
00:00EleutherAI:Blog相同数据训练的 SAE 无法学到相同特征
12月2日周一
12:15Lilian Weng精选🦃 感恩节假期结束时,我终于完成了关于 reward hacking 的文章。不好写啊,呼。
11月12日周二
17:00BAIR:Berkeley AI Research BlogAnthology:通过背景故事选集为语言模型构建虚拟人格
11月11日周一
00:00EleutherAI:Blog用自然语言部分重写 LLM
10月31日周四
08:00EleutherAI:Blog识别 LLMs 训练数据风险的第三方评估
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
9月27日
03:03
Lilian Weng@lilianweng
查看脚注中那些隐藏的宝石般的小故事,你会发现这令人鼓舞:对同一主题感兴趣的研究者能够跨越角色和地域合作推进一个领域。这就是开放科学和社区的力量。

Thinking Machines: Efficient training of neural networks is difficult. Our second Connectionism post introduces Modular Manifolds, a theore...

数据/训练论文/研究
9月26日
08:00
Thinking Machines Lab:官方博客(RSS)
45
Modular Manifolds

训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。

数据/训练论文/研究
9月25日
22:28
Hacker News:AI 热帖
精选
Launch HN: Webhound (YC S23) - 从网络构建数据集的研究智能体

YC S23 孵化的 Webhound 发布,这是一款研究智能体,可自动从网络抓取多源信息并构建结构化数据集,用于支持数据分析与研究工作。

智能体产品更新数据/训练

推荐理由:YC孵化的Web研究Agent,可自动从网络构建数据集
9月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程
9月21日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程
9月9日
08:10
Sam Altman:Blog(RSS)
精选
Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor,二人多次联手攻克被认为不可能的技术难题,主导 Dota RL 扩展、GPT-4 预训练及推理突破,被形容为“不知疲倦”的黄金搭档。

OpenAI大佬观点推理数据/训练

推荐理由:Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程
9月1日
17:00
BAIR:Berkeley AI Research Blog
word2vec究竟学到了什么?

本研究提出了word2vec学习机制的完整定量理论,证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解,最终词嵌入即为PCA结果。从小初始化开始时,模型通过离散步骤逐次学习正交线性子空间(概念),递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究
8月29日
02:07
Andrej Karpathy@karpathy
精选
将人类知识、传感器与执行器从"人类优先"转向"LLM优先"……

教科书等知识载体应从人类可读格式转为LLM优化格式:提取正文为结构化markdown,例题转为SFT训练数据,练习题转为RL环境并附加答案作为评判标准,同时支持合成数据无限扩展(如将时钟角度问题泛化为任意时间的自动出题器),最终构建RAG或MCP服务供LLM像学生一样系统学习,远比简单PDF转文本更高效。

检索增强大佬观点数据/训练

推荐理由:Karpathy提出LLMification概念,将教科书重构为LLM训练数据的新范式
8月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。

OpenAI教程/实践数据/训练部署/工程
8月24日
12:25
Yann LeCun@ylecun
Meta 一间会议室以 Yann LeCun 等人 1989 年的经典论文《Optimal Brain Damage》命名。该方法是最早的神经网络剪枝技术之一,通过计算损失函数的二阶导数,剔除对输出影响较小的权重,从而实现网络压缩。

Samee Ur Rehman: One of the first pruning methods for neural nets came in 1989: Optimal Brain Damage by @ylecun et al. "We ... derive a c...

Meta其他数据/训练
8月13日
04:00
EleutherAI:Blog
面向开放权重 AI 安全的预训练数据过滤

Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。

安全/对齐开源生态数据/训练
8月7日
01:36
Jim Fan@DrJimFan
关注 FSD Scaling Law 及涌现能力阈值,这是全球唯一的物理数据飞轮。Tesla 正训练参数量约 10 倍的新 FSD 模型,视频压缩损失大幅改进,顺利的话下月底发布。

Elon Musk: Tesla is training a new FSD model with ~10X params and a big improvement to video compression loss. Probably ready for p...

具身智能数据/训练模型发布
8月5日
23:38
Jim Fan@DrJimFan
精选
物理AI评估无法靠实车碰撞测试完成,传统游戏引擎(sim 1.0)也难以覆盖所有边缘情况。基于神经网络的sim 2.0由数据驱动,随车队规模扩展。Tesla已应用多年,用于生成近正面碰撞等罕见危险场景的训练数据,补充800万辆实车难以采集的极端案例。

Elon Musk: @DrJimFan Tesla has had this for a few years. Used for creating unusual training examples (eg near head-on collisions), ...

具身智能大佬观点数据/训练

推荐理由:Jim Fan 指出物理 AI 评估难题,提出神经网络驱动的 Sim 2.0 数据飞轮方案
00:01
Jim Fan@DrJimFan
破折号不应仅通过预训练、后训练、对齐或系统提示融入 LLM,而应直接硬编码进模型的内核与本质。这是对排版符号在模型中应有地位的夸张式呼吁。
大佬观点数据/训练
8月1日
23:00
EleutherAI:Blog
注意力探针

提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征,该技术引入可学习的注意力权重,使探针能够动态聚焦输入中的关键特征或特定 token,替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力,有助于精准定位 Transformer 架构中影响预测的关键信息路径,为大语言模型的可解释性研究提供了更强大的分析工具。

数据/训练论文/研究
7月31日
06:42
Saining Xie@sainingxie
TheRightWayTM 现在是我最喜欢的品牌。

Lucas Beyer (bl16): Ok this makes me super happy. The "NoFilter" work, paper, and advocacy that @angelinepouget and I argued so hard for is ...

Meta多模态大佬观点数据/训练
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed-Prover:面向自动定理证明的深度与广度推理

Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。

推理数据/训练论文/研究
7月12日
05:08
Yann LeCun@ylecun
Micah Goldblum 指出,batch size 为 1 的无动量 vanilla SGD(入门 ML 的首个优化器)在 LLM 预训练中,per-FLOP 速度几乎与 AdamW 相当。

Micah Goldblum: 🚨 Did you know that small-batch vanilla SGD without momentum (i.e. the first optimizer you learn about in intro ML) is ...

Meta大佬观点数据/训练
7月11日
07:33
Saining Xie@sainingxie
对于所有任务中稳定训练的三个最重要超参数是 lr、bs 和 beta2。随着时间推移,我们已经建立了关于如何调整它们的良好直觉,但这篇文章分析性地、令人信服地阐述了这一切。

Micah Goldblum: 🚨 Did you know that small-batch vanilla SGD without momentum (i.e. the first optimizer you learn about in intro ML) is ...

数据/训练论文/研究
7月9日
00:00
LMSYS:Blog(Chatbot Arena 团队)
slime:面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程
6月28日
04:00
Saining Xie@sainingxie
metaquery 现已开源--数据和代码均已开放。

Xichen Pan: The code and instruction-tuning data for MetaQuery are now open-sourced! Code: https://github.com/facebookresearch/metaq...

Meta图像生成开源/仓库数据/训练
6月22日
23:54
Yann LeCun@ylecun
SandboxAQ 开源 SAIR 数据集,包含超500万个蛋白质-配体3D结构及结合亲和力标注,为目前最大规模开源结合亲和力数据集。基于NVIDIA DGX Cloud构建,现已在Google Cloud公开可用,旨在为药物发现AI模型提供训练与评估数据。

SandboxAQ: Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...

Google开源/仓库数据/训练
6月20日
22:53
Yann LeCun@ylecun
SandboxAQ 发布开源数据集 SAIR(Structurally Augmented IC50 Repository),收录逾 500 万个共折叠蛋白质-配体 3D 结构及结合亲和力数据,为目前规模最大的开源结合亲和力数据集。数据由大型定量模型生成,旨在为药物发现 AI 模型提供高质量训练数据,弥合分子结构与药效预测间的鸿沟。该数据集基于 NVIDIA DGX Cloud 构建,现已在 Google Cloud Platform 公开发布,供全球研究人员下载使用。

SandboxAQ: Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...

Google开源/仓库数据/训练
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现,模型独占特征往往多义性高、激活密集,难以解释。实验表明,这是由于有限特征容量下的竞争:共享特征能同时解释两个模型的激活模式,而独占特征需编码更多信息以证明其存在。团队提出缓解策略,即引入少量指定共享特征并降低其稀疏性惩罚,使独占特征变得更可解释和单义。该方法应用于真实模型时,成功分离出能捕捉模型间行为差异的可解释特征。此外,观察到独占特征激活频率比共享特征高一个数量级,且两模型独占特征数量相近。

Anthropic推理数据/训练论文/研究

推荐理由:为 AI 可解释性提供新视角,助力模型行为分析与安全研究。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
一个关于机制(非)忠实性的玩具模型

本文通过“绝对值”玩具模型,揭示了稀疏自动编码器(SAE)和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于,即使转码器能很好地近似模型的输入-输出映射,它也可能采用与原始模型完全不同的内部计算机制。作者特别指出,当训练数据中存在重复数据点时,转码器可能形成专门“记忆”该点的特征电路,而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异,从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。

Anthropic推理数据/训练论文/研究

推荐理由:揭示可解释性方法中潜在的忠实性问题,帮助开发者更可靠地理解模型内部机制。
6月12日
08:00
EleutherAI:Blog
通过局部体积研究随机网络的归纳偏置

研究团队通过星形域体积估计方法,系统研究随机神经网络参数-函数映射的归纳偏置特性。这项工作建立在先前关于随机采样训练神经网络概率及 Neural Redshift 理论的基础上,致力于解释固定架构下不同任务学习难度存在指数级差异的机制,为理解深度神经网络的泛化能力提供了新的几何分析视角。

数据/训练论文/研究
6月6日
04:00
EleutherAI:Blog
Common Pile v0.1 正式发布

Common Pile v0.1 正式发布,这是一个规模达 8TB 的文本数据集,专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源,适用于大规模语言模型训练等需要合规数据源的场景,旨在解决 AI 训练中的数据版权合规问题。

开源/仓库数据/训练
5月31日
06:00
EleutherAI:Blog
使用积键记忆编码稀疏编码器特征

采用积键记忆(Product Key Memory)技术对稀疏编码器(Sparse Coder)特征进行编码。该方法结合PKM的高效键值检索机制与稀疏表示学习,通过分层记忆结构存储高维稀疏特征,在扩展模型参数容量的同时保持计算效率,适用于大规模特征表示与检索场景。

数据/训练论文/研究
5月25日
12:08
Lilian Weng@lilianweng
Thinky 可能要做的第一个产品是一整块旋钮面板,研究人员可以用它在训练过程中物理调节所有超参数。我们总有一天会做硬件,是时候了 😂

Stephen Roller: Some teams use sweeps, heuristics, or scaling laws to determine their training LR. At Character, we just have Noam Shaze...

大佬观点数据/训练
5月13日
04:51
Lilian Weng@lilianweng
当新数据集发布时,我会很兴奋地去查看,然后才意识到这又是一个元混合数据集,结合了其他现有数据集的集合。我的大脑立刻反应:"我去……数据污染!" 请不要有元元混合数据集了 :lolsob:
大佬观点数据/训练
5月4日
21:31
Saining Xie@sainingxie
Wow,Deeply Supervised Nets 获得了 @aistats_conf 2025 年的时间检验奖!这是我博士期间提交的第一篇论文。趣事:这篇论文最初被 NeurIPS 拒稿,分数是 8/8/7(是的,那种痛苦一直伴随着我……也许现在终于可以释怀了😅)。我不会说会议投稿是抽奖,但坚持确实大有帮助。同学们:如果你最近因论文结果感到沮丧,正在准备下一篇,希望这能提醒你坚持下去。

AISTATS Conference: The #AISTATS 2025 Test of Time Award goes to ... 🥁 ... Chen-Yu Lee, Saining Xie, Patrick Gallagher, Zhengyou Zhang, Zhu...

大佬观点数据/训练
4月24日
11:27
Saining Xie@sainingxie
最近由 @TongPetersb、@DavidJFan 和 Meta FAIR 团队开源的项目。

Peter Tong: We are open-sourcing all the models in Web-SSL, from ViT-L to ViT-7B! It was super fun to train and play with these mass...

Meta开源/仓库数据/训练
4月8日
18:30
BAIR:Berkeley AI Research Blog
利用 Latent Diffusion 改造蛋白质折叠模型用于生成

PLAID 是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,同时生成蛋白质的1D序列与3D全原子结构。该方法仅需序列数据训练(可利用比结构数据库大2-4个数量级的数据),支持基于功能与生物体的组合式提示控制。相比传统仅预测骨架的模型,PLAID 解决了离散序列与连续结构坐标的多模态协同生成难题,为可控蛋白质设计提供了新范式。

多模态数据/训练论文/研究
2月28日
09:06
DeepSeek@deepseek_ai
DeepSeek开源3FS并行文件系统与Smallpond框架

DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。

DeepSeek开源/仓库数据/训练部署/工程
1月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
2025年1月电路更新:稀疏自编码器训练方法改进

Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”,以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人(2024)的技术,但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶,并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点,相关成果将在未来几个月内进一步发表。

Anthropic数据/训练论文/研究

推荐理由:为AI可解释性研究者提供实用训练技巧,助力模型透明化。
12月13日
00:00
EleutherAI:Blog
相同数据训练的 SAE 无法学到相同特征

针对 TopK SAE 的可复现性研究表明,即使采用相同训练数据和批次顺序,仅改变随机初始化就会导致两个模型仅共享约 53% 的特征,且存在大量无法互相对应的可解释潜变量。进一步分析发现,较窄的 SAE 在不同随机种子间表现出更高的特征重叠度,而随着模型规模扩大,特征一致性反而显著降低。

数据/训练论文/研究
12月2日
12:15
Lilian Weng@lilianweng
精选
🦃 感恩节假期结束时,我终于完成了关于 reward hacking 的文章。不好写啊,呼。
OpenAI大佬观点安全/对齐数据/训练

推荐理由:OpenAI研究员深度解析奖励作弊机制,揭示LLM自主化部署的关键安全障碍
11月12日
17:00
BAIR:Berkeley AI Research Blog
Anthology:通过背景故事选集为语言模型构建虚拟人格

研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。

智能体数据/训练论文/研究
11月11日
00:00
EleutherAI:Blog
用自然语言部分重写 LLM

通过解读稀疏自编码器(SAE)潜变量并模拟激活值,研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征,将自然语言描述转化为具体的神经元激活模式,无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具,使通过人类可读的语言直接操控模型内部表征成为可能。

数据/训练论文/研究
10月31日
08:00
EleutherAI:Blog
识别 LLMs 训练数据风险的第三方评估

该工作概述了 minetester 框架及其在识别 LLMs 训练数据风险方面的初步应用。作为第三方评估工具,minetester 旨在通过系统性审计发现训练数据中的潜在安全隐患,提升模型透明度。概述内容涵盖该工具的核心架构、评估方法论以及早期实验结果,展示了外部审计机制在大语言模型安全治理中的可行性。

安全/对齐数据/训练
‹ 上一页
1…3839404142
下一页 ›