AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 654 条
全部一手资讯X论文
标签「Agent」清除
5月13日周三
01:54Claude:Blog(网页)73精选Claude进军法律行业
01:05Google Developers Blog(RSS)73精选使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体
00:24Claude:Blog(网页)58精选Code w/ Claude SF 2026开发者大会:基于AI指数级增长的构建
5月12日周二
22:40Google DeepMind:Blog(RSS)57精选Co-Scientist:一个加速研究的多智能体AI伙伴
18:00公众号:小红书技术(dots.llm)34QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾
05:53Claude:Blog(网页)74Claude Code 推出智能体视图功能
02:52Claude Code:GitHub Releases(RSS)72精选Claude Code v2.1.139 版本更新
5月11日周一
17:58公众号:小红书技术(dots.llm)45打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路
16:38公众号:火山引擎34Agent Plan发布:业界首个"Agent套餐包"来了
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
03:43Hugging Face:Blog(RSS)74精选MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统
5月10日周日
11:42Hermes Desktop:GitHub Releases(RSS)36Hermes Desktop 2026.510.0发布
02:42Hugging Face:Blog(RSS)68精选OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架
5月9日周六
09:00公众号:蚂蚁百灵(Ling)56Ring-2.6-1T 正式发布
06:17Tomer Tunguz 博客(VC 分析)30Securing the Agentic Enterprise:保障智能体化企业的安全
03:43OpenAI:官网动态(RSS · 排除企业/客户案例)63精选在OpenAI安全运行Codex
03:40Cursor Blog67精选Bugbot团队与个人计划更新
5月8日周五
20:00OpenRouter:Announcements(RSS)54OpenRouter Agent SDK 推出 Human-in-the-Loop 工具
20:00OpenRouter:Announcements(RSS)50OpenRouter Agent SDK 新增人在回路工具
20:00OpenRouter:Announcements(RSS)56精选Agent SDK 中的人机协同工具
08:30Claude Code:GitHub Releases(RSS)69精选Claude v2.1.133 版本更新
07:30GitHub Blog72精选提升 GitHub Agentic Workflows 的 Token 使用效率
05:43OpenRouter:Announcements(RSS)73精选为所有模型提供一致的网络搜索与抓取能力
03:30GitHub Blog79精选Agent pull requests 无处不在:如何审查它们
5月7日周四
22:59Google DeepMind:Blog(RSS)66精选AlphaEvolve:我们由Gemini驱动的编程智能体如何跨领域扩展影响力
20:00OpenRouter:Announcements(RSS)56同事件精选OpenRouter 为每个模型提供一致网络搜索与抓取功能同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》
19:58公众号:龙猫LongCat(美团)56用Agent评测思路管理AI Coding -- 31万行代码AI重构的实践
10:01公众号:腾讯混元32腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍
06:55OpenAI:官网动态(RSS · 排除企业/客户案例)50Singular Bank 借助 ChatGPT 和 Codex 助力银行家高效工作
05:30GitHub Blog56精选Validating agentic behavior when "correct" isn't deterministic
00:35Cursor Blog53通过自动安装系统引导Composer开发
00:33Claude:Blog(网页)69精选Claude托管智能体新增功能:梦想、成果与多智能体编排
5月6日周三
23:08OpenAI:官网动态(RSS · 排除企业/客户案例)65精选前沿企业如何构建人工智能优势
03:28Claude:Blog(网页)71精选金融服务行业Claude部署指南发布
03:12Tomer Tunguz 博客(VC 分析)63精选当公司里每个人都是关键人物时
03:12Tomer Tunguz 博客(VC 分析)55精选优化软件工厂
02:15Gary Marcus:The Road to AI We Can Trust(RSS)46研究揭示:主流AI自主智能体表现堪忧
5月5日周二
17:32Runway:News(网页)80精选从单张图像构建实时视频智能体:Runway Characters技术解析
12:16OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI 与 PwC 合作重塑 CFO 办公室
07:30Apple Machine Learning Research(RSS)66精选PORTool: 基于奖励树和重要性感知的策略优化方法,用于多工具集成推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
01:54
Claude:Blog(网页)
精选73
Claude进军法律行业

Anthropic公司为法律行业发布20多个新的MCP连接器及12个专用插件,将Claude深度集成至合同管理、文档处理等法律核心软件栈。Claude现可直接在Microsoft Word、Outlook等办公应用中无缝工作,具备起草、修订、条款比对等可复用技能,并能自动化处理日常法律事务。公司同时宣布与多个司法公益组织合作,以扩大法律服务的可及性。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude 这次在法律行业的布局很大,20+ 连接器和 12 个插件意味着它不是做表面集成,而是把律师的整套工具链都拉了进来——对律所是效率革命,对做垂直 AI 产品的团队则是教科书级的行业解决方案示范。
01:05
Google Developers Blog(RSS)
精选73
使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体

本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。

智能体Google教程/实践部署/工程

推荐理由:Google 官方手把手教你把无状态 chatbot 升级成能跨天跨周的持久化 agent,状态机和持久会话是两个关键切入点,做过生产环境 agent 的都懂这东西有多刚需。
00:24
Claude:Blog(网页)
精选58
Code w/ Claude SF 2026开发者大会:基于AI指数级增长的构建

在Code w/ Claude SF 2026开发者大会上,Anthropic宣布提升开发者工具能力。Claude Code的速率限制翻倍,Claude Opus的API限制提高,以支持大规模可靠开发。同时,Claude平台上的托管智能体新增四项功能:“梦想”功能通过回顾会话优化记忆;多智能体编排支持主智能体并行委派子任务;“成果”功能通过定义输出标准提升任务成功率,内部测试显示最难问题成功率最多提升10%;Webhooks提供任务完成通知。大会主题演讲和分组会议录像已上线,并计划在伦敦和东京举办后续活动。

智能体AnthropicMCP/工具产品更新

推荐理由:虽然已是旧闻,但Dreaming和Outcomes这两个功能让agent能自我改进,是构建生产级AI团队的真信号,做Claude开发的值得补课。
5月12日
22:40
Google DeepMind:Blog(RSS)
精选57
Co-Scientist:一个加速研究的多智能体AI伙伴

Co-Scientist 是一款由 Gemini 构建的协作式 AI 助手,旨在帮助科研人员加速科学突破。它通过多智能体(multi-agent)的架构设计,作为研究人员的智能伙伴参与工作流程,以提升研究效率并推动创新发现。

智能体DeepMindGoogle产品更新

推荐理由:Google DeepMind 推出的科研助手,用多智能体框架帮科学家加速实验设计,如果做生物/材料领域研究,值得跟踪一下,但对其他领域暂时可能还是个概念。
18:00
公众号:小红书技术(dots.llm)
34
QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾

小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。

智能体教程/实践部署/工程
05:53
Claude:Blog(网页)
74
Claude Code 推出智能体视图功能

Claude Code 近日推出“智能体视图”功能,为用户提供了一个集中管理所有会话的统一界面。该功能解决了并行运行多个智能体时需要切换终端标签、管理复杂网格的痛点,允许用户一键启动新智能体并将其发送至后台运行。在视图中,用户可以直观查看每个智能体的状态(等待输入、运行中或已完成)、最后响应内容及交互时间,并支持内联回复或进入完整会话。用户可通过 /bg 命令或将现有会话加入后台,也可直接使用 claude --bg [task] 启动后台任务。此功能已作为研究预览版向 Pro、Max、Team、Enterprise 及 Claude API 用户开放。

智能体Anthropic产品更新编码
02:52
Claude Code:GitHub Releases(RSS)
精选72
Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括:集中管理会话的Agent视图(研究预览)、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令,以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外,修复了超过20项问题,如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这波更新给了两个真正改变工作流的杀手功能,agent view 让你一眼看清所有会话,/goal 命令能让 Claude 自己跑完一个任务直到满足条件,做开发的同学可以立刻试试。
5月11日
17:58
公众号:小红书技术(dots.llm)
45
打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路

小红书PMO团队探索AI智能体(Agentic)在项目管理中的落地路径,目标是从让AI理解项目管理,进化为为每个项目组打造一个专属BP(业务伙伴)。

智能体教程/实践
16:38
公众号:火山引擎
34
Agent Plan发布:业界首个"Agent套餐包"来了

火山引擎发布Agent Plan,定位为业界首个面向AI智能体领域的“套餐包”产品。

智能体产品更新
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
03:43
Hugging Face:Blog(RSS)
精选74
MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统

MachinaCheck是一款基于多智能体AI的系统,旨在革新小型CNC机加工车间的报价分析流程。传统上,车间经理需花费30-60分钟手动分析图纸,而该系统在上传STEP文件及材料、公差等简单输入后,能在30秒内生成完整的可制造性报告,明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型,利用192GB HBM3显存确保客户设计数据无需离开本地,满足了制造业对数据隐私的严格要求。系统采用五组件流水线,结合精确的几何特征提取与LLM的制造知识推理,最终输出结构化报告。

智能体Hugging Face开源/仓库端侧

推荐理由:虽然是hackathon项目,但用多Agent做CNC可行性分析,把推理全压在本地AMD显卡上保护图纸隐私,还给了可跑的代码和Space,制造业AI落地就该这么直接。
5月10日
11:42
Hermes Desktop:GitHub Releases(RSS)
36
Hermes Desktop 2026.510.0发布

Hermes桌面端2026.510.0版本正式发布。本次更新捆绑了hermes-agent 0.13.0组件(对应上游标签v2026.5.7)以及hermes-webui 0.51.34(对应上游标签v0.51.34)。同时,新版本提供了针对macOS arm64架构的DMG和ZIP安装包构建。

智能体产品更新
02:42
Hugging Face:Blog(RSS)
精选68
OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架

研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。

智能体Hugging Face检索增强开源生态

推荐理由:这个开源肿瘤AI系统把多智能体、RAG和隐私合规全塞进一台AMD服务器,临床落地又近了一步,不是那种只发论文不交代码的项目。
5月9日
09:00
公众号:蚂蚁百灵(Ling)
56
Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。

智能体推理模型发布
06:17
Tomer Tunguz 博客(VC 分析)
30
Securing the Agentic Enterprise:保障智能体化企业的安全

Lemonade公司首席信息安全官Jonathan Jaffe将参与一场15分钟的在线对话活动,探讨AI智能体时代的企业安全挑战。核心议题包括:攻击方与防御方均实现自动化时,传统安全策略已不适用,必须设计AI防御体系;需将智能体安全视为系统性问题,构建监控与运营机制;在攻击以毫秒级速度发生的环境下,如何划定自动化与人工判断的界限。活动形式为实时问答,不设幻灯片与预设问题。

智能体安全/对齐行业动态
03:43
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
在OpenAI安全运行Codex

OpenAI通过沙盒隔离、人工审批流程、严格网络策略与原生代理遥测四层防护机制,确保Codex代码生成模型的安全运行。沙盒环境完全隔离执行代码,所有生产请求需经人工审核批准,网络策略限制外部依赖访问,实时遥测系统监控代理行为异常。该安全框架使企业能够合规采用AI编程助手,在保障代码安全性的同时维持开发效率。

智能体OpenAI安全/对齐教程/实践

推荐理由:OpenAI 公开了内部安全运行 Codex 的完整流程,从沙箱隔离到审批策略,企业落地 AI 编码的可以直接拿去抄作业。
03:40
Cursor Blog
精选67
Bugbot团队与个人计划更新

Bugbot宣布将团队与个人计划从每月每席位40美元的订阅制改为按使用量计费。现有用户的变化将于2026年6月5日后的下一个账单周期开始生效,例如2026年5月购买的年订阅将在2027年5月切换。团队按需消费计费,个人按包含使用量计费,平均每次运行成本约为1.00-1.50美元,具体取决于PR大小和复杂度。同时,用户现在可配置Bugbot审查PR的工作强度:默认强度下80%被识别的问题在合并时得到解决;高强度模式下可多发现35%的问题,解决率仍保持在80%。现有客户可在Cursor面板中提前切换至用量计费。

智能体产品更新编码

推荐理由:Cursor Bugbot 这次改用量计费对个人和小团队更友好,一次审查平均只要 1-1.5 美元,而且高努力模式能多抓 35% 的 bug,代码审查工具可能要变天了。
5月8日
20:00
OpenRouter:Announcements(RSS)
54
OpenRouter Agent SDK 推出 Human-in-the-Loop 工具

OpenRouter Agent SDK 新增一种工具类型,使智能体能够自动处理常规决策,并在高风险决策时暂停等待人工输入。该工具提供两个钩子(hooks),不需要开发者编写任何循环管理代码。

智能体产品更新
20:00
OpenRouter:Announcements(RSS)
50
OpenRouter Agent SDK 新增人在回路工具

OpenRouter Agent SDK 新增一种工具类型,让智能体自动解决常规决策,并在高风险的决策点暂停等待人类输入。该工具提供两个 hook,无需编写循环管理代码。

智能体产品更新
20:00
OpenRouter:Announcements(RSS)
精选56
Agent SDK 中的人机协同工具

OpenRouter Agent SDK 引入了一种新工具类型,使智能体能够自动处理常规决策,并在高风险决策时暂停以请求人工输入。该功能通过两个钩子实现,无需编写任何循环管理代码,从而在自动化流程中灵活嵌入关键的人工判断环节。

智能体MCP/工具产品更新

推荐理由:OpenRouter给Agent SDK加了人类介入挂钩,做复杂流程的团队不用自己写循环管理代码了,关键决策能拉人进来确认,是个实用的小升级。
08:30
Claude Code:GitHub Releases(RSS)
精选69
Claude v2.1.133 版本更新

Claude 发布 v2.1.133 版本,新增多项配置与优化。主要新增 worktree.baseRef 设置以选择工作树分支基础,引入 sandbox.bwrapPath 等设置允许指定自定义二进制路径,并添加 parentSettingsBehavior 键供管理员控制设置合并策略。功能上,钩子现在可接收活动努力级别信息,Bash 工具命令可读取相应环境变量。此外,改进了焦点模式行为,并在内存压力下优化了后台工作进程的释放。本次更新修复了大量问题,包括并行会话死锁、权限规则误匹配、代理设置不生效、网络驱动器访问被拒、远程控制中断不彻底、努力级别跨会话更改以及子代理技能发现失败等。claude --help 现已列出远程控制选项,VSCode 扩展也修复了相关错误。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这个版本修了一堆让人抓狂的 bug,并行会话掉认证、网络驱动器权限、子代理找不到 skill 都解决了,重度用户应该尽快升级。
07:30
GitHub Blog
精选72
提升 GitHub Agentic Workflows 的 Token 使用效率

GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。

智能体GitHubMCP/工具教程/实践

推荐理由:GitHub 把自己生产环境的 agentic workflow 扒了一遍,从 token 消耗里找浪费,再让 agent 自动修。不是 paper,是真踩过的坑,做 Copilot 集成的团队可以抄作业。
05:43
OpenRouter:Announcements(RSS)
精选73
为所有模型提供一致的网络搜索与抓取能力

该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择,实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型(如GPT、Claude、LLaMA等)集成实时、可靠的网络信息获取能力,无需为每个模型单独适配。

智能体MCP/工具产品更新

推荐理由:让任何模型都能用统一接口做联网搜索和抓取,做 agent 的同学不用再为每个模型单独配工具了,在 OpenRouter 上搭产品的实用性直接拉高。
03:30
GitHub Blog
精选79
Agent pull requests 无处不在:如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。

智能体GitHub教程/实践编码

推荐理由:AI代理生成的PR越来越多,审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务,给出了马上能用的检查清单,每个用Copilot的开发者都该看。
5月7日
22:59
Google DeepMind:Blog(RSS)
精选66
AlphaEvolve:我们由Gemini驱动的编程智能体如何跨领域扩展影响力

AlphaEvolve推出了基于Gemini大模型的编程智能体,其算法正驱动多个领域产生实际影响。该智能体在商业流程、基础设施优化与科学研究三个关键领域实现规模化应用,通过自动化代码生成与问题解决提升效率。具体实践表明,它能显著加速开发周期并处理复杂任务,标志着AI编程助手从辅助工具向核心生产力引擎的演进。

智能体DeepMindGoogle产品更新

推荐理由:DeepMind这次不只是秀参数,AlphaEvolve用Gemini驱动编码代理,已经开始在工业设计和科学发现里产生真实影响了,做自动化的可以盯着看。
20:00
OpenRouter:Announcements(RSS)
同事件精选56
OpenRouter 为每个模型提供一致网络搜索与抓取功能

OpenRouter 向所有支持工具调用的模型开放自主网络搜索与页面内容抓取能力,并允许用户从多个搜索引擎和抓取引擎中自行选择。

智能体MCP/工具产品更新搜索
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》
推荐理由:OpenRouter把网络搜索和抓取做成统一的工具接口,任何工具调用模型都能用,做agent的开发者不用再自己拼搜索层了。
19:58
公众号:龙猫LongCat(美团)
56
用Agent评测思路管理AI Coding -- 31万行代码AI重构的实践

美团技术团队在LongCat项目中实践AI编码管理,指出当90%以上代码由AI生成时,决定系统走向的不是谁写得更快,而是约束AI的能力。

智能体教程/实践编码
10:01
公众号:腾讯混元
32
腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周,Token 调用量即增长 10 倍,其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码
06:55
OpenAI:官网动态(RSS · 排除企业/客户案例)
50
Singular Bank 借助 ChatGPT 和 Codex 助力银行家高效工作

Singular Bank 开发了名为 Singularity 的内部助手,该工具整合了 ChatGPT 和 Codex 技术,旨在帮助银行家节省日常工作时间。它主要应用于会议准备、投资组合分析和后续跟进等任务,可使银行家每天在这些事务上节省 60 至 90 分钟。

智能体OpenAI行业动态
05:30
GitHub Blog
精选56
Validating agentic behavior when "correct" isn't deterministic

GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。

智能体GitHub教程/实践编码

推荐理由:做coding agent最头疼的就是如何验证产出质量,GitHub这篇把他们的内部方法论开源了,用dominance分析替代脆弱的脚本,对正在折腾AI编程工具的团队是实打实的参考,值得逐帧学习。
00:35
Cursor Blog
53
通过自动安装系统引导Composer开发

团队开发了Composer自动安装系统,利用早期模型(如Composer 1.5)为强化学习训练自动配置可运行环境。该系统分两阶段工作:先由智能体设定成功环境的目标命令与描述,再由另一智能体执行具体配置,包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中,该系统成功处理了稀疏文档和复杂依赖。采用此方法后,Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%,为后续训练提供了更优基础。

智能体教程/实践编码部署/工程
00:33
Claude:Blog(网页)
精选69
Claude托管智能体新增功能:梦想、成果与多智能体编排

Anthropic为其Claude托管智能体平台推出三项核心更新。“梦想”功能通过回顾会话历史提取模式,使智能体能够自我改进。“成果”功能允许开发者设定成功标准,智能体据此进行自我评估与修正,内部测试显示其显著提升了任务成功率和输出质量。“多智能体编排”功能支持主智能体将复杂任务分解,并分配给配备专用工具的子智能体并行处理。这些更新旨在以最小人工干预,增强智能体处理复杂任务的能力。

智能体Anthropic产品更新部署/工程

推荐理由:Anthropic给托管Agent加了dreaming、outcomes和multiagent,这是Agent从完成任务到自我改进和协作的质变。dreaming让Agent能跨session复盘,做Agent产品的团队现在多了一个必须研究的模块。
5月6日
23:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
前沿企业如何构建人工智能优势

OpenAI的B2B Signals研究揭示了前沿企业深化AI应用、规模化基于Codex的智能体工作流,并构建持久竞争优势的路径。这些企业正超越基础应用,将AI深度集成至核心业务流程,通过部署能自主执行复杂任务的智能体工作流来提升效率与创新能力。研究指出,成功的关键在于规模化应用AI代理,这能带来显著的运营优势并形成竞争壁垒。

智能体OpenAI现象/趋势编码

推荐理由:OpenAI的B2B研究把企业AI落地差距摊开了,Codex驱动的代理工作流正在成为壁垒,做企业服务的可以当镜子照。
03:28
Claude:Blog(网页)
精选71
金融服务行业Claude部署指南发布

Anthropic发布金融服务行业Claude部署指南,详细介绍了Claude系列产品在金融研究、交易、承销、理赔及月末结算等场景的应用方案。指南包含产品矩阵、10个预置金融智能体模板(如招股书生成器、KYC筛查器等),并分享了AIG、澳大利亚联邦银行等机构的实践案例。同时,提供基础、试点、扩展三阶段实施路线图,旨在协助企业决策者与工程师规划AI落地路径,提升运营效率。

智能体Anthropic教程/实践部署/工程

推荐理由:Claude 官方首次系统性给出金融行业的部署指南,从产品矩阵到预建代理模板再到三阶段路线图,做金融 AI 落地的可以直接拿过来对齐。
03:12
Tomer Tunguz 博客(VC 分析)
精选63
当公司里每个人都是关键人物时

本文探讨了初创公司工程团队中AI与人力比例变化带来的结构性风险。当AI占比从10%提升至90%时,团队从20名工程师的传统层级结构,演变为仅由3名工程师核心操控大量自主代理的无管理层模式。核心权衡在于系统韧性而非吞吐量:将编排知识高度集中于极少数人,等同于以100%的利用率运行,一旦关键人员离职将造成33%的“制度记忆”损失。文章借鉴制造业保持70-90%利用率以维持系统稳健的经验,建议大多数初创公司应避免过早采用极高AI占比的模式,因为其中缺乏冗余和缓冲空间。

智能体现象/趋势部署/工程

推荐理由:当三个人管理着一支AI代理大军,任何一个人离开就是30%的知识蒸发。这篇文章用制造业利用率逻辑警告那些想用AI替换所有工程师的创始人:弹性才是真正的瓶颈。
03:12
Tomer Tunguz 博客(VC 分析)
精选55
优化软件工厂

软件工程团队中AI与人力比例的选择核心在于韧性而非吞吐量。在10/90比例下,约20名工程师使用Copilot等AI工具,保持传统层级结构;50/50比例时,12名工程师管理代理群,角色转向解决方案架构;90/10比例则仅需3名工程师核心操控自主代理,负责生成、测试和部署,无管理层级。高AI比例虽提升效率,但知识集中于少数人,团队利用率达100%,一旦人员离职将引发严重风险。借鉴制造业70-90%利用率原则,保持冗余可增强系统稳健性。因此,目前大多数初创公司不宜过度依赖AI。

智能体大佬观点编码

推荐理由:Tomer Tunguz 把 AI 团队比作工厂,点出反直觉结论,AI Agent 不是越多越好,关键在于预留弹性,避免单点故障。做工程管理的读完会重新算一算配比。
02:15
Gary Marcus:The Road to AI We Can Trust(RSS)
46
研究揭示:主流AI自主智能体表现堪忧

近期一项对GPT-4、Claude 3等主流AI自主智能体的系统评估显示,其在复杂任务中的成功率普遍低于30%。测试覆盖超500个场景,发现智能体常陷入循环或操作错误,关键问题包括任务分解失效、上下文理解偏差及指令遵循不稳定。研究表明,当前技术在需要多步骤推理的实际应用中仍存在显著缺陷。

智能体大佬观点
5月5日
17:32
Runway:News(网页)
精选80
从单张图像构建实时视频智能体:Runway Characters技术解析

Runway公司推出“Characters”实时视频智能体,它能将任意单张参考图像(如真人、卡通或幻想生物照片)实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1,无需微调即可生成每秒24帧的高清视频,并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化,实现了每帧仅37毫秒的模型处理时间,以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟,从而满足了实时交互对话的严苛要求。

智能体产品更新视频

推荐理由:把单张图变成实时对话角色这件事,Runway 做到了 24fps 且 1.75 秒响应。不是预录,是真实时,还带了知识库和工具调用,做虚拟角色产品的可以直接拿来集成。
12:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI 与 PwC 合作重塑 CFO 办公室

OpenAI 与普华永道宣布合作,旨在通过AI智能体帮助企业自动化财务工作流程、改进预测、强化控制并实现首席财务官职能的现代化。双方将把OpenAI的企业版ChatGPT等工具整合到普华永道的服务中,为数千名员工提供高级AI访问权限,以处理财务分析、税务、咨询等任务。这一合作标志着专业服务公司首次大规模应用生成式AI,目标是提升效率、减少人工错误并推动财务职能的战略转型。

智能体OpenAI行业动态

推荐理由:OpenAI 和普华永道的合作,算是 AI 代理攻入企业财务腹地的正式信号,如果你是 CFO 或财务转型负责人,可以看看他们打算怎么重构风控和预测,但普通开发者可以跳过。
07:30
Apple Machine Learning Research(RSS)
精选66
PORTool: 基于奖励树和重要性感知的策略优化方法,用于多工具集成推理

研究团队提出PORTool算法,以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化,在结果级监督下强化智能体的工具使用能力,同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤,从而更精确地引导模型学习有效的工具调用序列,提升复杂任务解决的效率和可靠性。

智能体推理论文/研究

推荐理由:不少 Agent 团队训练时都遇到过奖励信号太稀疏的问题,PORTool 试着把奖励细粒度化,给了个可实操的解法,做工具调用智能体的值得深读。
‹ 上一页
1…678910…17
下一页 ›