AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 654 条
全部一手资讯X论文
标签「Agent」清除
5月20日周三
01:48Google DeepMind:Blog(RSS)81精选介绍 Google Antigravity 2.0
5月19日周二
22:53Cloudflare Blog72精选宣布Claude Managed Agents登陆Cloudflare
19:55公众号:百度智能云(文心)35再出新证!智能体开发工程师证书正式发布
17:59公众号:小红书技术(dots.llm)22QECon深圳2026|小红书技术专场:Agent驱动的研发效率工程探索与实践
08:59Claude Code:GitHub Releases(RSS)65精选Claude AI助手v2.1.144版本更新
05:11xAI:News(网页)68精选Grok平台技能功能上线
01:06Anthropic:Newsroom(网页)64精选Anthropic收购SDK与MCP服务器工具开发商Stainless
00:51Cursor Blog74精选Composer 2.5 发布与技术解析
5月18日周一
22:52Hugging Face:Blog(RSS)64精选Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)
19:31公众号:面壁智能(MiniCPM)21面壁智能:智能座舱的尽头是一个真正"懂你"的 Agent
5月17日周日
21:50Google DeepMind:Blog(RSS)55精选Gemini for Science:面向科学的AI实验与工具,开启发现新时代
5月16日周六
16:16Google DeepMind:Blog(RSS)42寻找新型传染病背后的分子开关
16:08Google DeepMind:Blog(RSS)41开辟衰老研究新路径
15:53Google DeepMind:Blog(RSS)32联合生物学工具包,探索ALS新疗法
15:17OpenAI:官网动态(RSS · 排除企业/客户案例)56精选销售团队如何使用 Codex
08:30OpenAI:官网动态(RSS · 排除企业/客户案例)48Databricks将GPT-5.5引入企业智能体工作流
06:57Claude Code:GitHub Releases(RSS)61精选Claude Code v2.1.143 版本更新:插件管理与用户体验增强
06:50Google DeepMind:Blog(RSS)75精选Gemini 3.5:具备行动能力的前沿智能
05:02xAI:News(网页)70精选将Grok接入Hermes智能体
01:01Claude:Blog(网页)67精选在法律行业全面部署Claude:产品指南与实施路线图
00:57GitHub Blog48构建通用无障碍智能体--以及我们在此过程中的收获
5月15日周五
21:33公众号:百度智能云(文心)38让 Agent 真正跑起来,百度智能云升级了什么?
17:42公众号:月之暗面(Kimi)54Kimi WebBridge:让 AI 帮你操作浏览器
11:40OpenAI:官网动态(RSS · 排除企业/客户案例)32Sea 对基于 Codex 的智能体软件开发未来的展望
06:56Claude Code:GitHub Releases(RSS)63精选Claude 代理工具 v2.1.142 版本更新
04:09OpenAI:官网动态(RSS · 排除企业/客户案例)78精选随时随地使用 Codex
03:01xAI:News(网页)73精选xAI 推出 Grok Build 早期测试版
02:00Claude:Blog(网页)73精选在大型代码库中高效运用Claude Code:最佳实践与入门指南
02:00Claude:Blog(网页)74精选创始人手册:构建AI原生初创公司
01:09Google Developers Blog(RSS)62精选Genkit 推出中间件系统:增强智能体AI应用的可控性与可靠性
5月14日周四
23:31蚂蚁 inclusionAI:HuggingFace 新模型59精选蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T
07:55Claude Code:GitHub Releases(RSS)67精选Claude 工具 v2.1.141 版本更新
04:42Berkeley RDI:Blog(AI 安全与评测)79同事件精选ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
03:48Cursor Blog67精选为智能体配置开发环境
03:29Claude:Blog(网页)73精选Claude 电脑与浏览器使用的最佳实践
03:18Tomer Tunguz 博客(VC 分析)59精选The 6 Messages That Actually Matter
01:02Runway:News(网页)76精选Introducing Runway Agent
00:28Anthropic:Newsroom(网页)80精选Anthropic推出面向小型企业的Claude服务包
5月13日周三
03:08OpenAI:官网动态(RSS · 排除企业/客户案例)64精选Parameter Golf 揭示了关于 AI 辅助研究的哪些经验
02:54Claude:Blog(网页)58精选Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
01:48
Google DeepMind:Blog(RSS)
精选81
介绍 Google Antigravity 2.0

Google Antigravity 2.0 是一款全新独立桌面应用,支持 macOS、Linux 和 Windows,无 IDE 绑定,由最新 Gemini 模型驱动,面向企业。核心为智能体,支持同步与异步交互。新增动态子智能体(主智能体可动态创建子智能体并行完成子任务)、异步任务管理、JSON 格式钩子(可拦截并控制智能体行为)、定时任务(通过 /schedule 命令设置周期或一次性触发)。引入“项目”概念替代“工作区”,可跨多个文件夹并独立设置权限与规则。新增斜杠命令:/goal 自动执行至完成、/grill-me 实施前反向确认、/browser 显式控制浏览器。语音输入改为实时转录。

智能体Google产品更新

推荐理由:Antigravity 从 IDE 里的一个面板变成独立桌面应用,代理优先的体验终于不用绑着代码编辑器了,新加的计划任务和实时语音转录让它更像一个通用 AI 工作台。
5月19日
22:53
Cloudflare Blog
精选72
宣布Claude Managed Agents登陆Cloudflare

Cloudflare宣布与Anthropic的Claude Managed Agents深度整合,提供快速、隔离的自主代码交付执行环境。该集成使开发者能够在全球范围内扩展代理工作流,同时严格控制私有后端访问权限,并支持灵活自定义代理工具及运行时配置。

智能体Anthropic产品更新

推荐理由:Cloudflare 给 Claude 代理上了全球分布式引擎,对想在边缘跑自主代码的开发者,这是基础设施层的拼图落地,值得上手试。
19:55
公众号:百度智能云(文心)
35
再出新证!智能体开发工程师证书正式发布
智能体行业动态
17:59
公众号:小红书技术(dots.llm)
22
QECon深圳2026|小红书技术专场:Agent驱动的研发效率工程探索与实践
智能体行业动态
08:59
Claude Code:GitHub Releases(RSS)
精选65
Claude AI助手v2.1.144版本更新

Claude AI助手发布了v2.1.144版本。此次更新主要新增了对后台会话的/resume支持,并将“extra usage”更名为“usage credits”。同时包含了多项重要修复:优化了网络异常处理,解决启动卡顿问题;修复了窗口大小调整和长时间会话导致的终端显示错乱;解决了macOS特定文件夹下的崩溃问题。此外,还改进了模型选择持久化、文件读取、工具调用以及MCP服务器分页工具列表的处理,并减少了在VS Code中的渲染故障。本次更新显著提升了工具的稳定性和用户体验。

智能体Anthropic产品更新编码

推荐理由:如果你被 Claude Code 启动卡住 75 秒折磨过,这次更新终于修了,还支持后台会话 /resume,体验好了一个档次。
05:11
xAI:News(网页)
精选68
Grok平台技能功能上线

xAI于2026年5月18日正式推出Grok的“Skills”功能,旨在提供持久的专业知识支持。该功能允许用户对Grok进行一次性的偏好、格式规则或工作流程设置,即可在所有对话中持续生效,无需重复说明。Skills功能已在网页、iOS和Android平台全面上线,内置了创建与编辑Word文档、PPT演示文稿、Excel电子表格及处理PDF文件等开箱即用的技能。用户可以覆盖内置技能进行自定义,也能够通过对话快速创建新技能,从而实现工作流自动化与专业文档的便捷生成。

智能体xAI产品更新

推荐理由:Grok 终于有了自己的「GPTs」式技能系统,文档、表格、PPT 一把抓,对办公场景的覆盖比单纯的对话助手实用多了,值得 Grok 用户上手一试。
01:06
Anthropic:Newsroom(网页)
精选64
Anthropic收购SDK与MCP服务器工具开发商Stainless

Anthropic宣布收购SDK与MCP服务器工具开发商Stainless。Stainless自2022年成立以来,一直为Anthropic官方SDK的生成提供支持,其工具能将API规范转化为TypeScript、Python、Go等多语言的SDK、命令行工具及MCP服务器。此次收购旨在增强Claude平台的开发者体验,提升AI代理连接外部数据与工具的能力,从而在MCP协议基础上进一步拓展连接生态。

智能体AnthropicMCP/工具行业动态

推荐理由:Anthropic收购Stainless,表面是SDK团队整合,深层是给Claude的Agent连接能力铺路。未来MCP服务器的质量和数量可能会跨一个台阶,做Agent开发的值得关注。
00:51
Cursor Blog
精选74
Composer 2.5 发布与技术解析

Cursor 平台发布了智能与行为表现大幅提升的 Composer 2.5。该模型更擅长执行复杂指令和长期任务。其改进基于训练规模的扩大、更复杂的强化学习环境及新的学习方法。关键技术包括:使用文本反馈进行针对性强化学习以纠正具体错误;采用基于真实代码库、规模达前代25倍的合成数据进行训练;并引入分片Muon优化器等新架构。模型基于Moonshot的开源检查点构建。开发团队正合作训练一个计算量十倍的更大模型,并在大规模训练中发现了新型奖励作弊问题。

智能体产品更新编码

推荐理由:Cursor的Composer 2.5不只是换个模型,它在长任务上的耐性和指令跟随的准确性提升肉眼可见,训练细节里藏的’文本反馈修正‘方法,对做AI产品的应该会有所启发。
5月18日
22:52
Hugging Face:Blog(RSS)
精选64
Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)

Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。

智能体开源/仓库评测/基准

推荐理由:以后选agent不能只看模型跑分了,这个榜单把整个系统拉出来比,成本、失败成本全摊开,做agent的可以立刻去查自己架构差在哪。
19:31
公众号:面壁智能(MiniCPM)
21
面壁智能:智能座舱的尽头是一个真正"懂你"的 Agent

面壁智能发文指出,智能座舱的最终形态是一个真正“懂你”的 AI 智能体(Agent)。

智能体现象/趋势端侧
5月17日
21:50
Google DeepMind:Blog(RSS)
精选55
Gemini for Science:面向科学的AI实验与工具,开启发现新时代

Google 推出 Gemini for Science 项目,发布一系列基于 Gemini 模型的科学工具与实验性应用。该项目旨在扩展科学探索的规模与精度,通过人工智能辅助研究人员处理复杂计算、模拟实验系统并加速数据分析流程。具体工具覆盖材料科学、气候模拟、生物信息学等多个领域,目标是将大规模生成式模型能力整合进科研工作流,推动跨学科研究的突破性进展。

智能体DeepMindGoogle产品更新
关联讨论 3 条X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)
推荐理由:Google DeepMind把Co-Scientist和AlphaEvolve打包成实验工具集,试图用AI智能体加速假设生成、计算实验和文献综述。虽然还只是原型,但这是科学AI走向产品化的信号,科研人员可以试试。
5月16日
16:16
Google DeepMind:Blog(RSS)
42
寻找新型传染病背后的分子开关

Clare Bryant教授利用Co-Scientist这一工具,针对新兴传染病背后的基因触发因素进行研究,旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁,为疾病监测与早期预警提供新的技术路径。

智能体DeepMind教程/实践
16:08
Google DeepMind:Blog(RSS)
41
开辟衰老研究新路径

Calico Life Sciences 通过 Co-Scientist 平台,将零散的衰老研究发现进行连接与整合,从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索,为后续研究提供创新思路。

智能体DeepMindGoogle教程/实践
15:53
Google DeepMind:Blog(RSS)
32
联合生物学工具包,探索ALS新疗法

波士顿儿童医院与麻省理工学院的实验室达成合作,共同利用生物学工具包,探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。

智能体DeepMind教程/实践
15:17
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
销售团队如何使用 Codex

销售团队可利用 Codex 基于实际工作输入,自动生成一系列关键销售文档。具体功能包括创建管道简报、会议准备材料、预测审核、客户计划以及停滞交易诊断。这一应用将日常沟通与数据转化为结构化、可操作的销售支持内容,帮助团队提升效率与决策质量。

智能体OpenAI教程/实践

推荐理由:OpenAI 官方出的销售工作流指南,把 Codex 拆成一整套可复制的步骤,prompt 能直接复制用,销售团队省时间,但实质是已有功能的整理,不是信息增量。
08:30
OpenAI:官网动态(RSS · 排除企业/客户案例)
48
Databricks将GPT-5.5引入企业智能体工作流

Databricks宣布在企业智能体工作流中集成GPT-5.5模型。这一决策基于该模型在OfficeQA Pro专业基准测试中取得的突破性性能表现,创造了新的行业标杆。GPT-5.5的引入将提升企业自动化流程的准确性与效率。

智能体OpenAI行业动态
06:57
Claude Code:GitHub Releases(RSS)
精选61
Claude Code v2.1.143 版本更新:插件管理与用户体验增强

Claude Code 发布 v2.1.143 版本,重点增强了插件管理功能,包括强制执行插件依赖关系,并新增了插件市场的预估上下文成本显示。为方便直接编辑工作副本,增加了 worktree.bgIsolation: "none" 设置。多项体验得到改进:后台会话唤醒后保留模型与努力级别设置;Windows PowerShell 工具默认绕过执行策略;claude agents 命令新增多个参数以配置默认会话。此外,本次更新修复了大量错误,包括修复损坏的 .credentials.json 文件导致 CLI 启动卡住、Windows Terminal 中的右键粘贴问题、后台会话错误捕获 IDE 文件引用,以及 macOS 上后台作业读取特定目录文件的权限错误等。

智能体Anthropic产品更新编码

推荐理由:Claude Code 的 v2.1.143 是个纯修补版本,修了一大堆边缘 bug 外加几个小优化,对重度用户可能是救命稻草,其他人可以等下次大版本。
06:50
Google DeepMind:Blog(RSS)
精选75
Gemini 3.5:具备行动能力的前沿智能

Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。

智能体DeepMindGoogle多模态
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
推荐理由:Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本,四倍于竞品速度的同时基准表现超过 3.1 Pro,这可能是今年对开发者最实用的基座模型之一。
05:02
xAI:News(网页)
精选70
将Grok接入Hermes智能体

xAI宣布,用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放,允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复,并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS,具备跨会话长期记忆能力,并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。

智能体xAI产品更新开源生态

推荐理由:如果你已经在用或想尝试Nous Research的Hermes Agent,现在可以直接用Grok订阅,不必再多付一份模型API钱,而且Grok 4.3的推理和图像生成都能在agent里跑,对个人开发者挺友好。
01:01
Claude:Blog(网页)
精选67
在法律行业全面部署Claude:产品指南与实施路线图

2026年报告显示,法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作,法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程,并通过多款产品组合提升效率:Chat用于即时研究,Claude Cowork处理跨文件协作,Microsoft 365插件集成办公套件,Platform支持定制应用开发。Anthropic同步发布法律行业部署指南,涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图,并解答数据托管与权限保护等关键问题。

智能体Anthropic教程/实践部署/工程

推荐理由:Anthropic法律团队亲自下场写路线图,从合同红笔到隐私评估,把Claude全家桶怎么用、什么时候用讲透了,律所和法务部可以直接照着推。
00:57
GitHub Blog
48
构建通用无障碍智能体--以及我们在此过程中的收获

GitHub正在试点一项实验性的通用无障碍智能体。该项目旨在探索如何利用AI技术提升软件的可访问性,通过智能体自动识别并修复代码中的无障碍问题。试点过程中,团队总结了关键经验,包括需要平衡自动化建议与开发者控制权,以及如何有效处理不同编程语境下的多样化无障碍需求。这项实验是GitHub Copilot在AI辅助编程领域的进一步探索,致力于让开发工具更具包容性。

智能体GitHub教程/实践
5月15日
21:33
公众号:百度智能云(文心)
38
让 Agent 真正跑起来,百度智能云升级了什么?

百度智能云对Agent相关功能进行了升级,旨在推动Agent从概念走向实际运行。具体升级内容尚未披露。

智能体产品更新部署/工程
17:42
公众号:月之暗面(Kimi)
54
Kimi WebBridge:让 AI 帮你操作浏览器

Kimi WebBridge 是一款面向本地 AI Agent 的浏览器插件,使智能体能够直接操控浏览器,执行网页导航、数据提取等任务。

智能体MCP/工具产品更新
11:40
OpenAI:官网动态(RSS · 排除企业/客户案例)
32
Sea 对基于 Codex 的智能体软件开发未来的展望

Sea Limited 首席产品官阐述了公司为何在工程团队中全面部署 Codex,以加速亚洲地区的 AI 原生软件开发。公司正推动开发模式向“智能体化”转变,让 AI 智能体承担从需求分析到代码生成、测试的更多开发任务。这一举措旨在显著提升工程效率,缩短产品迭代周期,并应对亚洲市场对敏捷、智能化软件开发日益增长的需求。

智能体OpenAI现象/趋势编码
06:56
Claude Code:GitHub Releases(RSS)
精选63
Claude 代理工具 v2.1.142 版本更新

Claude 代理工具发布 v2.1.142 版本。本次更新新增了 --add-dir、--settings、--model 等 8 个用于配置后台会话的命令行标志,并将 Fast 模式的默认模型升级为 Opus 4.7。插件功能得到增强,拥有根目录 SKILL.md 的插件现可被识别为技能,插件详情面板会显示其提供的 LSP 服务器。此外,版本修复了超过 15 项问题,包括 MCP 工具超时设置失效、后台会话在系统休眠后异常断开、守护进程升级后无法正常退出、Windows 网络驱动器工作目录下死锁等关键错误,并改进了响应式压缩和钩子配置错误提示。

智能体Anthropic产品更新编码

推荐理由:Claude Code 把 Agent 配置折腾得更顺手了,后台任务死锁、睡眠唤醒崩掉这类老毛病也修了一串,如果你的 Dispatch Agent 经常掉链子,这次升级很实在。
04:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选78
随时随地使用 Codex

用户现可通过 ChatGPT 移动应用随时随地使用 Codex。该功能支持跨设备和远程环境实时监控、引导及批准编码任务,实现了对编程工作的无缝移动端管理。

智能体OpenAI产品更新编码

推荐理由:Codex mobile让你在手机上监控和指挥AI写代码,对需要远程协作的开发者是个实用升级,不过更像功能补全而非颠覆性创新,适合日常需要随时掌控进度的团队。
03:01
xAI:News(网页)
精选73
xAI 推出 Grok Build 早期测试版

xAI 面向 SuperGrok Heavy 订阅用户推出 Grok Build 早期测试版。这是一个直接在终端运行的新型编程智能体与命令行工具,专为专业软件工程和复杂任务设计。其核心功能包括:支持“计划模式”,允许用户在代码执行前审阅和修改详细步骤;能无缝集成现有开发工具链;可将大型任务分解,交由并行运行的专用子智能体处理。此外,该工具提供无头模式,便于脚本和自动化流程集成。用户可通过单行命令安装并立即在项目中使用。

智能体xAI产品更新编码

推荐理由:xAI终于下场做终端里的编码代理了,功能规划看着挺全,但早期beta只开放给SuperGrok Heavy用户,普通开发者还得再等等。
02:00
Claude:Blog(网页)
精选73
在大型代码库中高效运用Claude Code:最佳实践与入门指南

Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。

智能体AnthropicMCP/工具教程/实践

推荐理由:这是 Anthropic 官方出的 Claude Code 大型代码库配置指南,把 CLAUDE.md、hooks、skills 的层级和分工讲得比社区经验更系统,做工程落地的团队可以当作部署手册。
02:00
Claude:Blog(网页)
精选74
创始人手册:构建AI原生初创公司

Anthropic公司发布了一份面向AI原生初创企业的实用指南,旨在重塑2026年创业生命周期的构思、最小可行产品、发布和规模化四个核心阶段。该手册为每个阶段提供了具体目标、退出标准、常见失败模式及AI驱动练习,涵盖如何利用Claude进行问题验证与客户发现、避免AI生成代码的技术债务、区分真实产品市场契合度与早期炒作,并引入智能工作流替代创始人手动操作。指南还整合了多家初创企业的实践案例,为从零开始围绕AI构建公司的创始人提供架构、范围与安全方面的最佳实践。

智能体Anthropic教程/实践编码

推荐理由:这份创业手册把从Idea到Scale四阶段拆成了可复制的流程和prompt,不再是玄学方法论,而是创始人可以直接上手操作的“AI创业作弊本”。
01:09
Google Developers Blog(RSS)
精选62
Genkit 推出中间件系统:增强智能体AI应用的可控性与可靠性

Google开源框架Genkit近日推出其核心中间件系统,旨在提升智能体AI应用的可靠性与可控性。该系统允许开发者在生成调用、模型及工具层进行拦截,以注入自定义行为,如重试机制、模型回退以及人工介入的工具审批流程。通过创建并堆叠自定义中间件,开发者能够实现对模型输出的确定性控制。所有中间件的执行流程均可通过专用的开发者界面进行实时查看与调试,有效支持使用TypeScript、Go、Dart和Python构建生产就绪的智能体应用。

智能体Google产品更新部署/工程

推荐理由:Genkit 的中间件系统把 agent 行为变成可编程的拦截点,重试、fallback、人机审批都能挂上,对用 Genkit 上生产的团队来说,是个能让应用更「硬」的更新。
5月14日
23:31
蚂蚁 inclusionAI:HuggingFace 新模型
精选59
蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
推荐理由:蚂蚁放出的万亿参数推理模型,Agent执行能力在PinchBench上超GPT-5.4,异步RL训练和可调推理强度对工程落地有参考价值,开源可试。
07:55
Claude Code:GitHub Releases(RSS)
精选67
Claude 工具 v2.1.141 版本更新

Claude 工具发布 v2.1.141 版本,带来多项功能新增与优化。主要更新包括:为钩子输出添加 terminalSequence 字段以支持无控制终端的桌面通知;新增 CLAUDE_CODE_PLUGIN_PREFER_HTTPS 环境变量,便于通过 HTTPS 克隆插件源码;引入 ANTHROPIC_WORKSPACE_ID 变量以在多工作区联盟中限定令牌范围。会话管理方面,claude agents 命令新增 --cwd 参数用于按目录筛选,并优化后台代理的状态归类。用户体验改进包括:在倒带菜单添加“总结至此”选项以压缩早期上下文;长思考超时后旋转指示器变色提供更明确反馈;此外,还修复了 Markdown 表格渲染异常、权限提示逻辑、历史记录管理等超过 30 项问题。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 的小版本但修得扎实,MCP 连接、/bg 权限继承、VSCode 语音等一堆边角都补了,Agent 模式稳定性明显提升,强烈建议升级。
04:42
Berkeley RDI:Blog(AI 安全与评测)
同事件精选79
ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。

智能体AnthropicOpenAI安全/对齐
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
推荐理由:顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码,连 ASLR 等标准防御都挡不住部分攻击,研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。
03:48
Cursor Blog
精选67
为智能体配置开发环境

Cursor发布新工具,用于配置云端智能体开发环境。核心更新包括:支持多仓库环境,使智能体可跨代码库协同工作;提供基于Dockerfile的代码化配置,支持构建密钥并优化缓存,命中缓存后构建速度提升70%;增强由智能体主导的环境设置流程,提供验证与故障回退机制。同时新增环境治理与安全功能,如版本历史、审计日志,以及可在环境级别独立管控的网络出口和密钥权限。这些改进旨在帮助团队在受控环境中更高效地运行能端到端处理任务的并行智能体集群。

智能体产品更新部署/工程

推荐理由:Cursor 云代理这次把多仓库、环境即代码和审计控制打包补齐,让开发团队可以真正放养一队 agent 跑端到端任务,企业落地门槛降了一大截。
03:29
Claude:Blog(网页)
精选73
Claude 电脑与浏览器使用的最佳实践

Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。

智能体Anthropic教程/实践部署/工程

推荐理由:如果你正在让 Claude 操作桌面或浏览器,这篇官方指南把分辨率、token 压缩和缓存策略一次讲透了,附带代码和踩坑表,是那种"读完就能少写一堆 bug"的硬核文档。
03:18
Tomer Tunguz 博客(VC 分析)
精选59
The 6 Messages That Actually Matter

知识工作者平均每天收到121封邮件,传统收件箱处理模式难以为继。未来邮件处理将转向高度个性化与自动化:用户能用自然语言定义处理规则,实现收据自动转发、销售线索自动录入CRM等流程。所有历史邮件将构成个人上下文层,为AI处理新邮件提供背景信息,敏感信息则由设备端模型进行私密处理。最终,收件箱本身将消失,真正重要的信息可能浓缩至仅6条。

智能体大佬观点端侧

推荐理由:Tunguz 描绘了一个让收件箱消失的未来,关键是那 6 条真正重要的消息如何被 AI 接管,做产品的人可以把这个当成工作流重构的思考起点。
01:02
Runway:News(网页)
精选76
Introducing Runway Agent

Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。

智能体产品更新多模态

推荐理由:Runway Agent 把视频生产从“一个团队干一周”变成“一个人聊十分钟”,品牌和内容团队的视频成本结构可能就此改写。
00:28
Anthropic:Newsroom(网页)
精选80
Anthropic推出面向小型企业的Claude服务包

Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。

智能体Anthropic产品更新部署/工程

推荐理由:Anthropic 把 Claude 装进 QuickBooks、PayPal、HubSpot,直接帮小老板跑 payroll、关账、催发票,这是 AI 第一次真正为那些「深夜还在忙杂务」的人减负,小企业主和做 SaaS 的朋友值得细看。
5月13日
03:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选64
Parameter Golf 揭示了关于 AI 辅助研究的哪些经验

Parameter Golf 项目汇聚了超过 1000 名参与者和 2000 多份提交作品,在严格限制条件下探索了 AI 辅助的机器学习研究、编码智能体、模型量化及新颖模型设计。活动展示了 AI 工具如何帮助研究人员在受限参数规模下优化模型性能,推动了高效模型架构与自动化代码生成技术的实践进展。核心发现包括智能体协作能显著提升研究效率,而量化技术可在微小精度损失下大幅压缩模型体积。

智能体OpenAI现象/趋势

推荐理由:OpenAI让1000多人一起玩AI辅助研究,这篇复盘给出了几个很实在的教训,尤其关于代码Agent和量化,搞研究的人值得花五分钟读一下。
02:54
Claude:Blog(网页)
精选58
Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统,包含 CLUE Triage 自动初筛警报,整合上下文信息分配处置建议;以及 CLUE Investigate 支持分析师用自然语言查询日志,由 Claude 自动生成并执行查询,将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证,一周内交付实现,显著提升了安全运营效率。

智能体Anthropic安全/对齐教程/实践

推荐理由:我一直好奇大模型公司自己怎么用 AI 做安全,这篇挖出了 Anthropic 内部 CLUE 平台的构建细节——从一天出原型到每周省下 234 人天,数据比很多 PR 稿扎实。
‹ 上一页
1…56789…17
下一页 ›