AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 433 条
全部一手资讯X论文
4月2日周四
08:00公众号:月之暗面(Kimi)51Kimi 杨植麟「GTC 2026」演讲全文(附视频)
4月1日周三
12:14公众号:可灵AI(快手·视频)16可灵AI清明短片引用户热议:评论区里人人都有"纸手机"
3月31日周二
15:06Steve Yegge:Medium(RSS)49氛围维护者
3月26日周四
08:00Cursor Blog69精选通过实时强化学习改进Composer编码模型
3月25日周三
20:00公众号:月之暗面(Kimi)47Kimi 杨植麟「2026 中关村论坛」演讲全文(附视频)
3月24日周二
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈
3月23日周一
17:53公众号:小米 MiMo24小米 MiMo 大模型 3 分钟部署至 OpenClaw00:00Anthropic:Research(发表成果 · 网页)71精选利用长时运行智能体工作流革新科学计算
3月20日周五
13:32公众号:生数科技(Vidu·视频)24生数科技:通用世界模型是连接数字世界与物理世界的桥梁
3月19日周四
19:58公众号:龙猫LongCat(美团)39美团 BI 在指标平台和分析引擎上的探索和实践12:01公众号:豆包(字节)24大家都是怎样用豆包辅助工作的?他们这样说
3月16日周一
23:00公众号:月之暗面(Kimi)60精选推荐:10万人亲测好用的原版OpenClaw安装器
3月5日周四
17:01公众号:豆包(字节)28CEO们如何用豆包?我们请六位企业家聊了聊
3月3日周二
20:56公众号:蚂蚁百灵(Ling)41超长上下文训练速度翻倍秘籍
2月28日周六
18:34公众号:蚂蚁百灵(Ling)28百灵模型 Ling-2.5-1T 从6个文学维度评估创意写作能力
2月27日周五
21:02公众号:月之暗面(Kimi)32Kimi API:用90%缓存命中率,把价格打到25%
2月26日周四
22:00公众号:蚂蚁百灵(Ling)37蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造
2月14日周六
00:00MiniMax:Blog(网页)44Forge:可扩展的智能体强化学习框架与算法
2月13日周五
15:54公众号:月之暗面(Kimi)43Kimi K2.5 如何实现文本和视觉能力互相增强?
2月11日周三
14:11Steve Yegge:Medium(RSS)75精选AI 吸血鬼
2月6日周五
17:13Steve Yegge:Medium(RSS)50The Anthropic 蜂巢思维
2月5日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)78精选用并行Claude智能体团队从零构建C编译器
1月29日周四
20:00公众号:蚂蚁百灵(Ling)35Clawdbot 换上百灵大脑:自动买车 Agent 测试15:35Steve Yegge:Medium(RSS)51Software Survival 3.0
1月21日周三
00:00Mistral AI:News(网页)46调试vLLM中的内存泄漏00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选设计抗AI技术评估的实践
1月19日周一
13:26Steve Yegge:Medium(RSS)46史蒂夫的生日博客
1月9日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选揭秘AI智能体评估:构建可靠系统的关键
12月31日周三
11:50公众号:豆包(字节)15豆包发布年度回顾
12月30日周二
17:22公众号:豆包(字节)28他们这样用豆包|2025年终讲述
12月24日周三
08:00OpenRouter:Announcements(RSS)55精选可蒸馏模型与合成数据管道:使用 NeMo Data Designer08:00OpenRouter:Announcements(RSS)52使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线
12月18日周四
09:00公众号:蚂蚁百灵(Ling)32AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联
12月11日周四
18:00公众号:小红书技术(dots.llm)52小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案
12月10日周三
18:00公众号:蚂蚁百灵(Ling)37蚂蚁百灵提出 IcePop 与 C3PO++ 方案,应对万亿参数 RLVR 稳定性与效率挑战
12月9日周二
18:06公众号:蚂蚁百灵(Ling)31Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先
12月4日周四
08:00OpenRouter:Announcements(RSS)532025 年 AI 现状报告
12月2日周二
06:00OpenAI:Alignment 研究博客(RSS)38Hello World
11月26日周三
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选为长时运行智能体设计有效约束方案
11月4日周二
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选通过代码执行提升MCP智能体效率
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月2日
08:00
公众号:月之暗面(Kimi)
51
Kimi 杨植麟「GTC 2026」演讲全文(附视频)
大佬观点现象/趋势
4月1日
12:14
公众号:可灵AI(快手·视频)
16
可灵AI清明短片引用户热议:评论区里人人都有"纸手机"

可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。

多模态教程/实践视频
3月31日
15:06
Steve Yegge:Medium(RSS)
49
氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程
3月26日
08:00
Cursor Blog
精选69
通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由:Cursor 把真实用户交互当训练信号,每五小时迭代一次 Composer,这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例,比任何 benchmark 论文都实在。
3月25日
20:00
公众号:月之暗面(Kimi)
47
Kimi 杨植麟「2026 中关村论坛」演讲全文(附视频)
大佬观点开源生态
3月24日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈

作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构,从设计到全栈编码都跑通了,还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业,比看十篇论文管用。
3月23日
17:53
公众号:小米 MiMo
24
小米 MiMo 大模型 3 分钟部署至 OpenClaw

只需 3 分钟,即可将小米 MiMo 大模型“养”在 OpenClaw 中,完成快速部署。

教程/实践端侧
00:00
Anthropic:Research(发表成果 · 网页)
精选71
利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器,原本是博士级团队几个月的活。这不是论文,是一份完整的多日 Agent 工作流实操手册,做科研或长周期编码的人可以直接抄作业。
3月20日
13:32
公众号:生数科技(Vidu·视频)
24
生数科技:通用世界模型是连接数字世界与物理世界的桥梁

生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。

多模态现象/趋势视频
3月19日
19:58
公众号:龙猫LongCat(美团)
39
美团 BI 在指标平台和分析引擎上的探索和实践

以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

教程/实践部署/工程
12:01
公众号:豆包(字节)
24
大家都是怎样用豆包辅助工作的?他们这样说

用户分享了使用豆包进行工作辅助的实际经验,涵盖了多种办公场景的实践案例。这些案例展示了豆包在办公中的多种用途,多位用户参与分享。

其他
3月16日
23:00
公众号:月之暗面(Kimi)
精选60
推荐:10万人亲测好用的原版OpenClaw安装器

Kimi支持的个人开发者开源项目OneClaw下载量突破10万,提供一键安装包,1分钟即可在本地部署原版OpenClaw,无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制,支持连接飞书、企微、钉钉、QQ、Kimi Claw;内置2万+技能的技能商店,可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址:oneclaw.cn。

MCP/工具开源/仓库编码
关联讨论 1 条公众号:月之暗面(Kimi)
推荐理由:如果你曾被 OpenClaw 的部署门槛劝退,OneClaw 可以让你两分钟跑起来,适合在备用机尝尝鲜,但别在生产环境乱搞。
3月5日
17:01
公众号:豆包(字节)
28
CEO们如何用豆包?我们请六位企业家聊了聊

六位企业CEO分享了他们使用豆包(字节跳动旗下AI助手)的实践经验与心得,涉及日常工作场景中的应用效果与价值。

教程/实践
3月3日
20:56
公众号:蚂蚁百灵(Ling)
41
超长上下文训练速度翻倍秘籍
教程/实践数据/训练
2月28日
18:34
公众号:蚂蚁百灵(Ling)
28
百灵模型 Ling-2.5-1T 从6个文学维度评估创意写作能力

蚂蚁百灵推出Ling-2.5-1T模型,从6个文学维度重新审视其创意写作能力,旨在降低AI味,提升写作的自然度与文学性。

教程/实践
2月27日
21:02
公众号:月之暗面(Kimi)
32
Kimi API:用90%缓存命中率,把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。

开源/仓库推理教程/实践部署/工程
2月26日
22:00
公众号:蚂蚁百灵(Ling)
37
蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵(Ling)公布 Ling 2.5 模型架构改造实践,将 Lightning Attention 与 MLA(Multi-head Latent Attention)两种线性注意力机制融合,形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力,为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践
2月14日
00:00
MiniMax:Blog(网页)
44
Forge:可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。

智能体推理论文/研究部署/工程
2月13日
15:54
公众号:月之暗面(Kimi)
43
Kimi K2.5 如何实现文本和视觉能力互相增强?
多模态教程/实践
2月11日
14:11
Steve Yegge:Medium(RSS)
精选75
AI 吸血鬼

AI(如 Claude Code)确实能带来 10 倍生产力提升,但创造的价值大部分被公司捕获,员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快,导致许多早期采用者(包括作者自己)出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步,形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。

Anthropic大佬观点编码

推荐理由:Steve Yegge 提出的 'AI 吸血鬼' 概念精准捕捉了 AI 生产力带来的过劳危机,并给出了对抗资本压榨的实用公式,每个在 AI 浪潮中奔命的开发者都该停下看看。
2月6日
17:13
Steve Yegge:Medium(RSS)
50
The Anthropic 蜂巢思维

文章基于与近40名Anthropic员工的对话,观察到该公司运作方式独特,被形容为一个由“氛围”驱动的“蜂巢思维”集体。员工普遍感受到一种既兴奋又凝重的使命感,仿佛在引领某种文明级别的事物诞生。公司内部氛围被比作1998年的亚马逊,充满变革前的电光石火感。作者指出,Anthropic正试图警告外界AI带来的巨大变革,但许多公司并未严肃对待,并推测2026年将对大量企业构成严峻挑战。

Anthropic大佬观点
2月5日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由:Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器,2000 次会话花了两万刀。真正值钱的不是编译器本身,而是他总结的 agent 团队协作方法论,做多 agent 系统的人该逐段拆。
1月29日
20:00
公众号:蚂蚁百灵(Ling)
35
Clawdbot 换上百灵大脑:自动买车 Agent 测试

蚂蚁百灵团队将近期刷屏的自动买车 Agent Clawdbot 的核心大脑替换为自家百灵模型,进行功能测试。Clawdbot 是本周最火的通用 Agent 架构,此次实验验证了百灵模型在工具调用任务中的实际表现。

智能体教程/实践
15:35
Steve Yegge:Medium(RSS)
51
Software Survival 3.0

作者基于对AI指数级发展的预测,于2025年末构建了Gas Town项目,以验证软件编排(orchestration)的早期形态。文章指出,在未来AI能编写几乎所有软件的“Software 3.0”时代,选择压力将遵循一条核心法则:节省认知资源的软件更可能生存。由于推理(Inference)消耗Token,而Token、能源与成本相互关联且受限,因此最小化认知支出(可量化为Token消耗)成为关键。作者主张,系统应优先使用能完成任务的最小模型,并通过编排将任务分配给合适的模型层,以节约能源与成本。

智能体大佬观点开源生态
1月21日
00:00
Mistral AI:News(网页)
46
调试vLLM中的内存泄漏

在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初,团队使用带回家测试评估候选人优化模拟加速器代码的能力,超1000人参与,成功招聘数十名工程师。但随着Claude模型快速迭代,Opus 4已超越多数人类申请者,Opus 4.5甚至匹配顶尖候选人,导致在时间限制下难以区分人类与AI输出。为此,作者三次重设计测试,探索抗AI评估要素,详述原始设计、模型破解方式及非常规对策。最终,团队将原始测试作为公开挑战发布,因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由:Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程,这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你,模型到底强到了什么程度。
1月19日
13:26
Steve Yegge:Medium(RSS)
46
史蒂夫的生日博客

作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。

智能体GitHub大佬观点现象/趋势
1月9日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
揭秘AI智能体评估:构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体,避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性,评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果,其价值在智能体整个生命周期内持续累积。

智能体Anthropic教程/实践评测/基准

推荐理由:Anthropic 把内部踩过的坑全摊开了,从 eval 设计到 grader 选型到 transcript 审读,是目前最完整的 Agent 评估工程指南,做 Agent 产品的团队可以直接当手册用。
12月31日
11:50
公众号:豆包(字节)
15
豆包发布年度回顾

豆包(字节跳动)发布年度回顾,以99个用户与AI助手的真实互动瞬间,记录每个人在2025年的故事。

其他
12月30日
17:22
公众号:豆包(字节)
28
他们这样用豆包|2025年终讲述
其他教程/实践
12月24日
08:00
OpenRouter:Announcements(RSS)
精选55
可蒸馏模型与合成数据管道:使用 NeMo Data Designer

介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流,用于模型特化(model specialization)。该管道支持生成可蒸馏模型所需的高质量合成数据,确保数据来源合规,适用于下游微调与领域适配场景。

教程/实践数据/训练

推荐理由:虽然发布快半年了,但教程讲的是如何用 NeMo Data Designer 构建 license-safe 的合成数据管道,对正在搞模型蒸馏和微调的开发者依然有参考价值,细节够实操。
08:00
OpenRouter:Announcements(RSS)
52
使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

NeMo Data Designer 提供符合许可证安全的合成数据工作流,用于模型专门化与知识蒸馏,帮助开发者高效生成定制化训练数据。

教程/实践数据/训练
12月18日
09:00
公众号:蚂蚁百灵(Ling)
32
AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。

智能体开源/仓库部署/工程
12月11日
18:00
公众号:小红书技术(dots.llm)
52
小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程
12月10日
18:00
公众号:蚂蚁百灵(Ling)
37
蚂蚁百灵提出 IcePop 与 C3PO++ 方案,应对万亿参数 RLVR 稳定性与效率挑战

蚂蚁百灵发布 IcePop 与 C3PO++ 方案,旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。

教程/实践数据/训练
12月9日
18:06
公众号:蚂蚁百灵(Ling)
31
Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力,覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出,标志着全模态 AI 的重要进展。

多模态教程/实践
12月4日
08:00
OpenRouter:Announcements(RSS)
53
2025 年 AI 现状报告

a16z 联合发布《2025 年 AI 现状报告》,这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据,系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据,以及成本、延迟和输出质量等核心维度的最新基准。

OpenAI现象/趋势
12月2日
06:00
OpenAI:Alignment 研究博客(RSS)
38
Hello World

OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果,致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。

OpenAI安全/对齐
11月26日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了,初始化 agent + 增量进度文件这套方案不复杂但极实用,做 Agent 产品的团队可以直接抄作业。
11月4日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」,用代码执行替代直接工具调用,token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition,这篇是必读的架构升级指南。
‹ 上一页
1…7891011
下一页 ›