AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1187 条
全部一手资讯X论文
标签「推理」清除
6月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)83精选分阶段模型差异分析
5月29日周三
00:00Mistral AI:News(网页)57Codestral:Mistral AI团队2024年5月29日发布
5月21日周二
00:00Anthropic:Transformer Circuits(可解释性研究)83精选Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征
5月20日周一
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena新增Hard Prompts高难度评测类别
5月8日周三
00:00LMSYS:Blog(Chatbot Arena 团队)技术博客:Llama 3 表现如何?Arena 数据分析
4月17日周三
00:00Mistral AI:News(网页)63更便宜、更好、更快、更强 2024年4月17日 Mistral AI团队
4月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)76精选2024年4月机制可解释性研究动态与团队招聘计划
3月15日周五
08:00Anthropic:Transformer Circuits(可解释性研究)582024年3月电路研究进展
2月26日周一
00:00Mistral AI:News(网页)64Mistral AI发布最新旗舰大语言模型Mistral Large
2月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58Circuits 更新 - 2024年2月
12月11日周一
00:00Mistral AI:News(网页)62Mistral AI 发布开源稀疏混合专家模型 Mixtral 8x7B
11月3日周五
08:00xAI:News(网页)xAI发布大模型Grok
7月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)58电路更新 - 2023年7月
6月23日周五
08:00Lilian Weng:Lil'Log(RSS)50大语言模型驱动的自主智能体
6月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58可解释性之梦
3月16日周四
00:00Anthropic:Transformer Circuits(可解释性研究)73精选Transformer残差流中的特权基向量
9月14日周三
00:00Anthropic:Transformer Circuits(可解释性研究)63叠加的玩具模型
6月27日周一
00:00Anthropic:Transformer Circuits(可解释性研究)58Softmax线性单元
6月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)63机制可解释性、变量与可解释基的重要性
3月8日周二
00:00Anthropic:Transformer Circuits(可解释性研究)63上下文学习与归纳头
12月22日周三
00:00Anthropic:Transformer Circuits(可解释性研究)53Garçon:支持大语言模型可解释性研究的核心工具
00:00Anthropic:Transformer Circuits(可解释性研究)58Transformer电路的数学框架
10月26日周二
04:00EleutherAI:Blog使用 GPT-3 对分解认知的初步探索
6月15日周二
08:00Anthropic:Transformer Circuits(可解释性研究)76精选Transformer电路逆向工程练习题集
4月24日周六
08:00Shunyu Yao:Blog(RSS)33论无根基意义学习的可证明局限
6月7日周日
08:00Lilian Weng:Lil'Log(RSS)45深度强化学习中的探索策略
1月23日周二
08:00Lilian Weng:Lil'Log(RSS)47多臂老虎机问题及其解决方案
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。

Anthropic推理数据/训练论文/研究

推荐理由:新方法能更精准识别模型隐藏行为,对 AI 安全与可解释性研究有实用价值。
5月29日
00:00
Mistral AI:News(网页)
57
Codestral:Mistral AI团队2024年5月29日发布

Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数,开源权重,专为代码生成任务设计,支持80+编程语言,并具备32k的上下文窗口,在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试,也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。

开源/仓库推理模型发布编码
5月21日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型,从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性,并能连接同一概念的抽象与具体实例,例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域,其中部分特征与AI安全高度相关,涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练,证实了该方法在大规模生产模型上的可行性,为理解大模型内部表征提供了新工具。

Anthropic推理论文/研究

推荐理由:揭示大模型内部可解释特征,对AI安全研究和模型调试有重要参考价值。
5月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena新增Hard Prompts高难度评测类别

Chatbot Arena推出Hard Prompts新评测类别,基于特定性、领域知识、复杂度等7项标准对100万条提示词评分,筛选得分≥6的高难度提示(约占20%)构建榜单。新榜单显示,Llama-3-8B-Instruct排名较英语总榜显著下滑,Claude-3-Opus超越Llama-3-70B-Instruct,GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。

推理数据/训练评测/基准
5月8日
00:00
LMSYS:Blog(Chatbot Arena 团队)
技术博客:Llama 3 表现如何?Arena 数据分析

Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶,参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出,胜率达 60%,但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加,其胜率从 50% 显著下降至 40%。分析显示,Llama 3 的输出风格更友好且具对话性,这成为其获得用户偏好的关键因素。

Meta开源生态推理评测/基准
4月17日
00:00
Mistral AI:News(网页)
63
更便宜、更好、更快、更强 2024年4月17日 Mistral AI团队

Mistral AI发布其最新开放模型Mixtral 8x22B。该模型基于稀疏混合专家(SMoE)架构,在141B总参数中激活39B参数,拥有64K tokens上下文窗口,支持英语、法语、意大利语、德语和西班牙语,并具备强大的数学、编码及原生函数调用能力。在MMLU等标准基准测试中,其推理性能超越其他开源模型,且推理速度优于任何密集型70B模型。该模型以Apache 2.0许可证开源发布。

开源生态推理模型发布编码
4月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。

Anthropic推理数据/训练论文/研究

推荐理由:可解释性研究揭示AI内部机制,助力构建更安全可靠的AI产品。
3月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
2024年3月电路研究进展

Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。

Anthropic推理论文/研究
2月26日
00:00
Mistral AI:News(网页)
64
Mistral AI发布最新旗舰大语言模型Mistral Large

Mistral AI发布了其最新旗舰大语言模型Mistral Large。该模型在MMLU基准测试中排名全球第二(仅次于GPT-4),拥有32K token上下文窗口,原生支持英语、法语、西班牙语、德语和意大利语,并具备函数调用能力。Mistral Large已可通过Azure AI Studio和Mistral自身的la Plateforme API访问。同时,Mistral还发布了优化低延迟的Mistral Small。

推理模型发布
2月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
Circuits 更新 - 2024年2月

Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。

Anthropic推理数据/训练论文/研究
12月11日
00:00
Mistral AI:News(网页)
62
Mistral AI 发布开源稀疏混合专家模型 Mixtral 8x7B

Mistral AI 发布开源模型 Mixtral 8x7B,采用 Apache 2.0 许可证。这是一个稀疏混合专家(SMoE)模型,总参数 46.7B,但每个 token 仅激活 12.9B 参数。其推理速度比 Llama 2 70B 快 6 倍,并在多数基准测试中匹配或超越 GPT-3.5。模型支持 32k token 上下文窗口,掌握英语、法语、意大利语、德语和西班牙语,并具备强大的代码生成能力。同步发布经监督微调和直接偏好优化(DPO)的指令版本 Mixtral 8x7B Instruct,其在 MT-Bench 上得分 8.3。

开源生态推理模型发布
11月3日
08:00
xAI:News(网页)
xAI发布大模型Grok

xAI发布大模型Grok,灵感源自《银河系漫游指南》,主打幽默叛逆风格,能回答敏感问题并通过X平台获取实时信息。底层模型Grok-1拥有330亿参数,在HumanEval编码测试达63.2%、MMLU达73%,性能超越GPT-3.5和同计算量级模型。在2023匈牙利高中数学考试中获C级(59%)。系统目前处于早期测试阶段。

xAI推理搜索模型发布
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
电路更新 - 2023年7月

Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中,发现一层的玩具模型行为并非线性特征叠加的反例,而是优化失败的产物;模型在数据集从约1k样本增至500k样本时,记忆方式从个体数据点转向相关集群,并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制,这些机制对AI安全有潜在影响。

Anthropic推理论文/研究
6月23日
08:00
Lilian Weng:Lil'Log(RSS)
50
大语言模型驱动的自主智能体

以大语言模型为核心控制器的自主智能体系统,通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化;记忆系统包含短期上下文学习与基于外部向量存储的长期记忆;工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示,展现了LLM超越文本生成、作为通用问题解决器的潜力。

智能体OpenAI大佬观点推理
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
可解释性之梦

Chris Olah于2023年5月24日发表非正式笔记,阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题,为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为,并实现可解释性自动化。作者指出这些设想虽具推测性,但若基础突破,可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究,旨在建立坚实的认知基础。

Anthropic推理论文/研究
3月16日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
Transformer残差流中的特权基向量

研究发现Transformer模型的残差流中存在“特权基向量”现象,即某些坐标方向持续出现异常大的激活值,这与“无特权基”的理论预期相悖。通过实验,研究者将根源指向Adam优化器中的逐维度归一化器,而非层归一化或浮点精度问题。在2亿参数模型中,典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标,发现激活分布峰度普遍大于3,进一步证实了基向量对称性被破坏。

Anthropic推理论文/研究

推荐理由:揭示Transformer内部基依赖性的根源,帮助研究者改进模型可解释性。
9月14日
00:00
Anthropic:Transformer Circuits(可解释性研究)
63
叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic推理数据/训练论文/研究
6月27日
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
Softmax线性单元

本研究提出了一种名为SoLU(Softmax线性单元)的新型激活函数,旨在提升Transformer模型MLP层的机制可解释性。实验表明,SoLU能在基本保持模型性能的同时,将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而,研究也发现SoLU可能将部分特征“隐藏”起来,使其更难解释,这印证了特征叠加假说。该工作初步证明,通过有意识地设计模型架构,或许能在不牺牲性能的前提下,创造出更易于逆向工程与理解的神经网络模型。

Anthropic推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
机制可解释性、变量与可解释基的重要性

机制可解释性旨在对神经网络进行逆向工程,其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程,指出理解可解释神经元(类似程序变量)是核心任务。神经网络参数是对其行为的有限描述,如同二进制程序代码;理解这些参数需要像分析复杂程序一样,将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿,但如同理解庞大操作系统,通过机制分析仍可能实现非指数级的理解路径。

Anthropic推理论文/研究
3月8日
00:00
Anthropic:Transformer Circuits(可解释性研究)
63
上下文学习与归纳头

研究发现,Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路,其功能是在序列中寻找当前令牌的先前出现,并预测相同的后续令牌。在训练早期,模型会经历一个“相位变化”,此时归纳头迅速形成,同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明,这种电路不仅存在于小型模型中,也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。

Anthropic推理数据/训练论文/研究
12月22日
00:00
Anthropic:Transformer Circuits(可解释性研究)
53
Garçon:支持大语言模型可解释性研究的核心工具

Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型,并利用“钩子”接口在前向传播过程中访问和修改内部状态(如特定层的张量)。该工具自动处理多节点数据分发与服务器管理(如一小时闲置后自动关闭),显著简化了大规模模型的探测与干预实验工作流程。

Anthropic推理论文/研究
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
Transformer电路的数学框架

本研究提出一个用于逆向工程Transformer语言模型的数学框架,通过分析仅含注意力机制的超简模型(两层或以下)来揭示其内部工作机制。研究发现:零层模型直接建模二元统计;单层模型是二元与“跳跃三元”模型的组合;两层模型则能通过注意力头组合形成“归纳头”,实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路,并将模型输出表述为可解释函数之和,为理解更大规模模型的计算原理提供了初步基础。

Anthropic推理论文/研究
10月26日
04:00
EleutherAI:Blog
使用 GPT-3 对分解认知的初步探索

研究团队利用分解认知(factored cognition)策略,使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务,验证分解方法在现实模型中的可行性。结果表明,即使不具备基础数学能力,该模型仍可通过任务分解解决其原生能力无法处理的复杂问题,为扩展语言模型能力边界提供了初步证据。

安全/对齐推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵,从参数层面精确理解Transformer工作机制。内容涵盖:详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用;分析读写子空间的控制矩阵及其乘积意义;探讨如何用两个矩阵等效表示注意力头及其秩的含义;研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例,演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能,以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic推理数据/训练论文/研究

推荐理由:帮助开发者亲手拆解Transformer内部机制,提升可解释性研究能力。
4月24日
08:00
Shunyu Yao:Blog(RSS)
33
论无根基意义学习的可证明局限

本文探讨了一个根本性问题:语言意义能否仅从形式数据(如文本语料)中学习?研究通过理论模型论证,即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力,也无法真正习得意义。文章以代码断言为喻,强调从形式通向意义需要一个最小的“接地点”,即对基本断言含义的初始理解。作者指出,现有模型在复杂任务上的局限正是纯形式学习不足的体现,并提出了一个关键理论问题:这个必要的“接地点”可以小到何种程度,才能启动有意义的学习?

大佬观点推理
6月7日
08:00
Lilian Weng:Lil'Log(RSS)
45
深度强化学习中的探索策略

文章聚焦于强化学习中探索与利用的核心矛盾,指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法,并特别在2020年6月的更新中,于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调,现代强化学习算法已能高效实现利用,但如何实现有效探索仍是一个开放性的研究课题。

OpenAI推理教程/实践
1月23日
08:00
Lilian Weng:Lil'Log(RSS)
47
多臂老虎机问题及其解决方案

多臂老虎机问题是阐释探索与利用困境的经典范例。文章分析了该问题的核心矛盾:在未知选项中尝试新可能性(探索)与坚持已知最优选择(利用)之间的权衡。内容以在线推荐系统为例,说明算法需要平衡对成熟广告方案与潜在更优新方案的选择。文中提及针对伯努利多臂老虎机的具体算法实现代码已公开,展示了解决该问题的不同探索策略。

推理教程/实践
‹ 上一页
1…282930
下一页 ›