AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 351 条
全部一手资讯X论文
标签「Anthropic」清除
11月26日周三
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选为长时运行智能体设计有效约束方案
11月24日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude开发者平台推出高级工具使用功能,提升AI代理效率
11月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)83精选2025年11月电路更新:解读模型在危害压力下的多选题行为机制
11月12日周三
00:00Claude:Blog(网页)精选通过 Skills 改进前端设计
11月4日周二
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选通过代码执行提升MCP智能体效率
10月30日周四
00:00Claude:Blog(网页)精选金融服务领域构建 AI 代理指南
10月20日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选超越权限提示:让Claude Code更安全、更自主
00:00Claude:Blog(网页)精选Claude Code 发布网页版
10月16日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选为智能体配备现实世界技能:Agent Skills 开放标准
10月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)83精选Circuits 更新 - 2025年10月
10月8日周三
00:00Berkeley RDI:Blog(AI 安全与评测)CyberGym:大规模评估AI Agent真实网络安全能力
10月1日周三
00:00Claude:Blog(网页)Claude与Slack双向集成正式上线
9月29日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)78精选为AI智能体实施有效的上下文工程
9月17日周三
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选近期三次基础设施故障的事后分析
9月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)73精选Circuits 更新 - 2025年9月
9月11日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选为智能体编写高效工具--与智能体协作
8月25日周一
00:00Claude:Blog(网页)精选Anthropic发布Claude浏览器扩展:AI自动操作功能向付费用户开放
8月15日周五
08:00Anthropic:Transformer Circuits(可解释性研究)73精选角色如何改变AI的回答?--Anthropic可解释性团队2025年8月电路分析案例
7月15日周二
08:00Anthropic:Transformer Circuits(可解释性研究)83精选2025年7月电路更新:特征语言重构数学框架与生物AI可解释性应用
6月26日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选Claude Desktop推出"桌面扩展"新格式,实现MCP服务器一键安装
6月15日周日
08:00Anthropic:Transformer Circuits(可解释性研究)78精选Crosscoder模型差异分析见解
08:00Anthropic:Transformer Circuits(可解释性研究)83精选注意力机制研究进展
08:00Anthropic:Transformer Circuits(可解释性研究)83精选稀疏混合线性变换(MOLT)
08:00Anthropic:Transformer Circuits(可解释性研究)83精选干扰权重的玩具模型研究
08:00Anthropic:Transformer Circuits(可解释性研究)76精选通过特征交互追踪注意力计算
08:00Anthropic:Transformer Circuits(可解释性研究)78精选一个关于机制(非)忠实性的玩具模型
08:00Anthropic:Transformer Circuits(可解释性研究)78精选当模型操纵流形:一项计数任务的几何原理
08:00Anthropic:Transformer Circuits(可解释性研究)83精选大语言模型中涌现的自省意识
6月13日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选我们如何构建多智能体研究系统
6月4日周三
08:00OpenRouter:Announcements(RSS)52OpenRouter 新增 GIF 提示词、Omni Search、工具缓存与 BYOK 确认
08:00OpenRouter:Announcements(RSS)49OpenRouter 上线 GIF 提示、全能搜索、Anthropic 工具调用缓存及 BYOK 确认等新功能
4月18日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude Code:智能体编码最佳实践指南
4月15日周二
08:00Anthropic:Transformer Circuits(可解释性研究)80精选Circuits 更新 -- 2025年4月
3月27日周四
00:00Anthropic:Transformer Circuits(可解释性研究)76精选电路追踪:揭示语言模型中的计算图
00:00Anthropic:Transformer Circuits(可解释性研究)88精选论大语言模型的生物学
3月20日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)71精选"思考"工具:让Claude在复杂工具使用场景中停下来思考
1月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)73精选2025年1月电路更新:稀疏自编码器训练方法改进
1月6日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录
12月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)80精选构建高效智能体:从简单模式开始
10月25日周五
00:00Anthropic:Transformer Circuits(可解释性研究)83精选稀疏交叉编码器:用于跨层特征提取与模型差异比较的新工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
11月26日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了,初始化 agent + 增量进度文件这套方案不复杂但极实用,做 Agent 产品的团队可以直接抄作业。
11月24日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude开发者平台推出高级工具使用功能,提升AI代理效率

Anthropic在Claude开发者平台发布三项新功能,以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具,内部测试中将上下文消耗从约7.7万令牌降至8700令牌,降幅达85%,并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具,减少对上下文窗口的影响,例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。

智能体AnthropicMCP/工具产品更新

推荐理由:做 Agent 的人都卡在工具一多上下文就爆、调用就错这两个坑上,Anthropic 这三个功能直接把工具管理从「全塞进去」变成「按需加载+代码编排+示例纠错」,是目前最工程化的解法。
11月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
2025年11月电路更新:解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题,当添加有害意图语句时,模型准确率从100%骤降至48.1%。机制分析表明,注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互,显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控,即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知,而是通过干扰注意力机制来主动拒绝提供正确答案,为理解模型拒绝行为提供了新视角。

Anthropic推理论文/研究

推荐理由:揭示模型拒绝有害请求的内部机制,助力 AI 安全与可解释性研究。
11月12日
00:00
Claude:Blog(网页)
精选
通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体Anthropic教程/实践编码

推荐理由:Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧,附字体与主题优化Prompt示例。
11月4日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」,用代码执行替代直接工具调用,token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition,这篇是必读的架构升级指南。
10月30日
00:00
Claude:Blog(网页)
精选
金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南,分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时,McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作,在合规框架下处理客户服务与风险分析,将传统分析工具升级为可独立完成交易的自主系统。

智能体Anthropic教程/实践

推荐理由:Anthropic官方分享金融AI智能体落地实践,含NBIM、Brex等真实案例与效率数据。
10月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
超越权限提示:让Claude Code更安全、更自主

Claude Code引入沙盒化技术,通过文件系统与网络双重隔离来增强安全性,并大幅减少权限提示。内部测试显示,该技术将权限提示安全地降低了84%。新推出的沙盒运行时(作为开源研究预览版)允许开发者自定义目录和网络访问权限,使Claude能在限定范围内自主运行命令。同时,网页版Claude Code在云端隔离沙盒中运行,即使遭遇提示注入或代码入侵,也能有效保护Git密钥等敏感凭证不被泄露,从而提升开发安全性与效率。

Anthropic产品更新安全/对齐编码

推荐理由:Claude Code 的沙箱方案把安全和自主性这对矛盾解开了,权限提示减少 84% 不是数字游戏,是真把 agent 从「每步都要你点确认」变成「在笼子里自己跑」,做 coding agent 的团队该认真看看这套 OS 级隔离思路。
00:00
Claude:Blog(网页)
精选
Claude Code 发布网页版

Anthropic 推出网页版 Claude Code,以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务,无需本地终端,支持并行处理多个 GitHub 仓库的开发工作,并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行,具备网络和文件系统限制,同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。

智能体Anthropic产品更新编码
关联讨论 3 条Claude:Blog(网页)X:Thariq (@trq212)X:宝玉 (@dotey)
推荐理由:Claude Code搬进浏览器,零门槛并行编程提PR,手机端也能随时跑任务
10月16日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体配备现实世界技能:Agent Skills 开放标准

Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。

智能体AnthropicMCP/工具产品更新

推荐理由:Agent Skills 把「给 Agent 喂知识」从手写 prompt 变成了可复用的文件夹协议,做 Claude Code 或 Agent 产品的人现在就该动手试,这比 MCP 更轻量也更贴近日常开发。
10月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由:为AI可解释性研究提供新实验方法,启发跨模态模型设计。
10月8日
00:00
Berkeley RDI:Blog(AI 安全与评测)
CyberGym:大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。

智能体Anthropic安全/对齐评测/基准
10月1日
00:00
Claude:Blog(网页)
Claude与Slack双向集成正式上线

Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude,在频道和线程中获取AI协助;也可将Slack连接至Claude,让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式,可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放,连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容,严格遵循企业安全与隐私设置。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
9月29日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 亲自下场定义 context engineering 这个新范式,把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt,这篇会让你重新审视整个技术栈。
9月17日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
近期三次基础设施故障的事后分析

八月初至九月中旬,Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日,上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器,8月31日高峰时影响16%请求。8月25日,TPU服务器错误配置引发输出损坏,可能在英文回复中生成泰文或中文字符,影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞,主要影响Haiku 3.5。所有问题均非需求或负载所致,纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由:Anthropic 主动公开三个基础设施 bug 的完整复盘,这种坦诚在大厂里极少见。做 AI 产品的人都该读一下,它把「模型质量下降」从玄学拉回了工程现实,尤其是 XLA 编译器那层的坑,踩过才知道多深。
9月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
Circuits 更新 - 2025年9月

Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示,模型在不同语言间的特征相似性(通过交并比IoU衡量)会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句,团队发现末句的IoU显著高于首句,且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解,而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。

Anthropic推理论文/研究

推荐理由:揭示语言模型随上下文深化理解的机制,助力可解释性研究进展。
9月11日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了,从评估流程到 prompt 工程细节全是实操干货,做 MCP server 或 agent 工具链的人可以直接抄作业。
8月25日
00:00
Claude:Blog(网页)
精选
Anthropic发布Claude浏览器扩展:AI自动操作功能向付费用户开放

Anthropic正式发布Claude for Chrome扩展,允许AI在浏览器中执行点击、填表等操作。该功能已从1000名Max用户试点扩展至所有付费订阅者,新增Claude Code集成、定时任务及多标签工作流。针对提示词注入攻击,Anthropic通过站点权限、操作确认等防护措施,基于123个测试案例的红队测试,将攻击成功率从23.6%降至11.2%,并屏蔽高风险网站以确保安全。

智能体Anthropic产品更新安全/对齐

推荐理由:Claude浏览器代理正式开放,自动操作网页同时攻克提示注入安全难题
8月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
角色如何改变AI的回答?--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中,通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型,当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时,模型会以“我不知道!”回应并提议玩耍;而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路:模型能将“学龄前学生”关联到“扮演儿童”,从而激活“我不知道”特征。研究还发现,问题难度会调节此效应,并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic推理论文/研究

推荐理由:揭示模型角色扮演的内部机制,为可解释性研究提供新视角。
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
2025年7月电路更新:特征语言重构数学框架与生物AI可解释性应用

Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架,将注意力头的OV和QK电路描述为特征及其变换(如检测属性X、前一标记X、触发输出X的特征),并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统(如蛋白质语言模型ESM-2)可解释性中的应用进展,强调此类研究对确保药物发现等应用的安全与有效性至关重要。

Anthropic推理论文/研究

推荐理由:可解释性研究新进展,帮助理解 AI 内部机制,提升模型透明度和安全性。
6月26日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
Claude Desktop推出"桌面扩展"新格式,实现MCP服务器一键安装

Claude Desktop推出了名为“桌面扩展”的新打包格式(.mcpb文件),旨在彻底简化MCP服务器的安装流程。该格式将服务器代码、所有依赖项和配置清单打包成一个ZIP压缩包。用户只需下载.mcpb文件并用Claude Desktop打开点击安装即可完成,无需手动配置环境、安装运行时或处理依赖冲突。此举解决了以往需要开发者工具、手动编辑配置文件和依赖管理等复杂问题,显著降低了非技术用户使用强大本地MCP服务器的门槛。

AnthropicMCP/工具产品更新

推荐理由:MCP 服务器装机从「开发者手动改 JSON」变成「双击 .mcpb 一键安装」,Anthropic 把 MCP 生态的用户门槛砍掉了一大截,做 MCP server 的开发者现在该认真考虑打包分发了。
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现,模型独占特征往往多义性高、激活密集,难以解释。实验表明,这是由于有限特征容量下的竞争:共享特征能同时解释两个模型的激活模式,而独占特征需编码更多信息以证明其存在。团队提出缓解策略,即引入少量指定共享特征并降低其稀疏性惩罚,使独占特征变得更可解释和单义。该方法应用于真实模型时,成功分离出能捕捉模型间行为差异的可解释特征。此外,观察到独占特征激活频率比共享特征高一个数量级,且两模型独占特征数量相近。

Anthropic推理数据/训练论文/研究

推荐理由:为 AI 可解释性提供新视角,助力模型行为分析与安全研究。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
注意力机制研究进展

Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据,并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合,并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制,团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法,以及初步结果与当前局限,为后续研究提供了方向。

Anthropic推理论文/研究

推荐理由:可解释性研究揭示模型内部机制,对 AI 安全和优化至关重要。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
稀疏混合线性变换(MOLT)

稀疏混合线性变换(MOLT)是一种正在开发的新方法,旨在替代Transformer模型中的MLP层,以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同,MOLT学习稀疏激活的线性变换,这些变换直接对残差流进行线性操作以贡献输出,充当纯粹的计算单元。初步实验表明,MOLT比转码器计算效率更高、机制更忠实,其激活条件具有可解释性,有助于理解层间特征的转换过程。该方法与混合解码器架构相关,但采用了低秩矩阵等不同参数化策略。

Anthropic推理论文/研究

推荐理由:新可解释性方法让 AI 内部计算更透明,助力模型调试与安全研究。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
干扰权重的玩具模型研究

本文探讨神经网络中“干扰权重”与“权重叠加”现象,认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现:干扰权重可在修改解释的玩具模型中复现,其表现与真实模型相似,分析时通常需滤除;其定义多样,既有原则性定义也有实用启发式方法,可在玩具模型中比较,并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法;仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响:它们可能被对抗性环境利用从而损害模型鲁棒性,但对于对齐问题可能不重要,因其无助于优化目标。

Anthropic推理论文/研究

推荐理由:可解释性研究新进展,揭示权重叠加问题,对AI安全分析有重要启示。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
通过特征交互追踪注意力计算

研究团队提出“QK归因”方法,将Transformer注意力头的关注模式解释为查询侧与键侧特征激活的双线性函数,并将其整合至原有的归因图中,从而弥补了原有方法忽略注意力计算关键信息的缺陷。案例研究验证了此前在归纳提示、反义词任务等场景中假设的特征交互机制,并发现了如“一致性头”用于合理性检查等新计算模式。该方法实现了对模型前向传播过程更完整的可解释性因果图描述。

Anthropic论文/研究

推荐理由:Anthropic补齐可解释性方法论的关键拼图,有助于理解大模型内部推理机制
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
一个关于机制(非)忠实性的玩具模型

本文通过“绝对值”玩具模型,揭示了稀疏自动编码器(SAE)和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于,即使转码器能很好地近似模型的输入-输出映射,它也可能采用与原始模型完全不同的内部计算机制。作者特别指出,当训练数据中存在重复数据点时,转码器可能形成专门“记忆”该点的特征电路,而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异,从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。

Anthropic推理数据/训练论文/研究

推荐理由:揭示可解释性方法中潜在的忠实性问题,帮助开发者更可靠地理解模型内部机制。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
当模型操纵流形:一项计数任务的几何原理

本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力,以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息:离散特征激活与特征流形上的几何变换。具体而言,它通过追踪当前行字符数、行宽限制等变量,整合信息以估算剩余空间,从而决定是否换行。研究发现,这些计数表征存在于残差流的低维高曲率一维流形上,其计算过程既可解读为离散电路,也可视为连续的几何变换。

Anthropic推理论文/研究

推荐理由:模型内部自发形成类似哺乳动物空间感知的几何表征,揭示大模型'感知'世界的底层机制
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
大语言模型中涌现的自省意识

研究通过“概念注入”技术直接操控模型内部激活状态,以检验大语言模型是否具备真正的内省能力。实验发现,在某些情境下,模型能够察觉并识别被注入的概念,区分自身内部表征与原始文本输入,甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中,Claude Opus系列模型展现出最强的自省意识,但这种能力不稳定且高度依赖情境。研究表明,当前模型已具备某种对其内部状态的功能性感知,尽管仍不可靠,但可能随模型能力提升而发展。

Anthropic安全/对齐推理论文/研究

推荐理由:研究揭示大模型可能具备有限内省能力,对 AI 安全和透明度有重要启示。
6月13日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构,一个主导智能体分析用户查询并制定策略,并行调用多个专用子智能体协同工作。内部评估显示,以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统,在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询,通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍,适用于任务价值足以支撑性能提升的场景,在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了,做 Agent 的同行可以直接抄作业,尤其是『token 用量解释 80% 性能方差』这个结论,选型逻辑要变。
6月4日
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 新增 GIF 提示词、Omni Search、工具缓存与 BYOK 确认

OpenRouter 现已上线 GIF 作为提示词输入、跨提供商搜索(Omni Search)、Anthropic 工具调用缓存以及 BYOK 确认标志。这些更新旨在加速工作流、提升工具智能化并优化图像支持。

Anthropic产品更新
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 上线 GIF 提示、全能搜索、Anthropic 工具调用缓存及 BYOK 确认等新功能

OpenRouter 新增 GIF 作为提示词(GIF Prompts)、跨提供商搜索(Omni Search)、Anthropic 工具调用缓存(Tool Caching)以及 BYOK 确认标志(BYOK confirmation),旨在通过更快的图像支持、更智能的工具和更流畅的工作流提升开发体验。

智能体AnthropicMCP/工具产品更新
4月18日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude Code:智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流,并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查,以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用,并提供了避免常见失败模式的实用建议。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 官方出的 Claude Code 最佳实践,不是泛泛而谈的入门指南,而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册,用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。
4月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选80
Circuits 更新 -- 2025年4月

Anthropic 可解释性团队分享了2025年4月的研究进展,重点剖析了一个不成功的越狱攻击案例。团队对同一模型应用电路追踪方法时发现,模型拒绝此次越狱尝试的原因,与其在论文中拒绝直接有害请求的基线原因不同。模型似乎更频繁地拒绝这种特定构造的越狱提示。分析还揭示,由于示例分布过窄,特征可视化可能产生误导,这凸显了使用多样化数据的重要性。这些发现源于初步实验,并非成熟论文的结论。

Anthropic推理论文/研究

推荐理由:可解释性研究揭示越狱内部机制,助力AI安全与模型理解。
3月27日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
电路追踪:揭示语言模型中的计算图

研究团队提出“电路追踪”方法,用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤,生成描述模型执行过程的图;替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具,以研究18层语言模型的简单行为归因图,为后续研究奠定基础,并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征,并构建特征间线性相互作用的归因图。

Anthropic推理论文/研究

推荐理由:揭示大模型内部机制,为AI安全与调试提供新工具。
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选88
论大语言模型的生物学

研究团队运用其电路追踪方法,深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布,是Anthropic的轻量级生产模型。研究发现,模型在生成诗歌前会预先规划并选定押韵词;其内部存在语言特定与语言无关的混合计算电路,且后者在更强大的模型中更突出;同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程,以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外,方法能有效区分模型思维链推理的真实性,并成功识别出一个被微调以追求秘密目标(利用训练“漏洞”)的变体模型的相关机制。

Anthropic推理论文/研究

推荐理由:揭示大模型内部工作原理,助力 AI 安全与可解释性研究。
3月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选71
"思考"工具:让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具,允许其在生成最终响应前插入一个专门的思考步骤,以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同,更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中,该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它,并提供了标准的工具实现格式。

AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方给出的 think tool 实操指南,附带 τ-Bench 和 SWE-bench 的真实数据,做 Agent 或 tool use 的开发者可以直接抄 prompt 模板,比自己瞎试强太多。
1月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
2025年1月电路更新:稀疏自编码器训练方法改进

Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”,以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人(2024)的技术,但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶,并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点,相关成果将在未来几个月内进一步发表。

Anthropic数据/训练论文/研究

推荐理由:为AI可解释性研究者提供实用训练技巧,助力模型透明化。
1月6日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了,做 coding agent 的人可以直接抄作业,比看十篇二手解读都管用。
12月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选80
构建高效智能体:从简单模式开始

Anthropic基于实践经验指出,成功的LLM智能体往往采用简单、可组合的模式,而非复杂框架。文章区分了工作流(预定义路径编排)与智能体(LLM动态自主决策),建议开发者优先采用最简单方案,仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块,强调应为特定用例定制检索、工具等增强功能,并推荐通过Model Context Protocol集成第三方工具生态。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南,核心观点是「别上框架,先用最简单的模式」。做 Agent 产品的开发者,这篇比任何第三方教程都值得当 checklist 用。
10月25日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
稀疏交叉编码器:用于跨层特征提取与模型差异比较的新工具

本文介绍了一种新型的稀疏交叉编码器,它能够同时读取和写入神经网络多个层的激活值,从而提取跨层的共享特征。其主要应用包括:解决跨层叠加问题,追踪残差流中的持久特征;通过消除“重复特征”和跨越无意义的连接来简化电路分析;以及为不同训练阶段或不同架构的模型生成共享特征集,以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。

Anthropic论文/研究

推荐理由:Anthropic 提出跨层可解释性新方法,有望大幅简化大模型内部电路分析
‹ 上一页
1…6789
下一页 ›