AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月23日周二
12:13HuggingFace Daily Papers(社区热门论文)48causal-learn+:智能体应辅助因果发现而非提供因果结论
09:13Berryxia.AI72成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成
08:13ginobefun48OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗
08:08Ethan Mollick55Fable 创造性问题解决与自知贪吃蛇游戏
08:00HuggingFace Daily Papers(社区热门论文)71精选SkillHone:基于持久决策历史的持续智能体技能演进工具
08:00HuggingFace Daily Papers(社区热门论文)45我们准备好迎接智能体原生记忆系统了吗?
08:00HuggingFace Daily Papers(社区热门论文)45MEMPROBE:基于隐藏用户状态恢复的长期记忆智能体探测基准
06:41Rohan Paul50Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍
05:35OpenRouter42OpenRouter 联手 Coinbase 引入稳定币支付
05:12Hacker News 热门(buzzing.cc 中文翻译)72精选Show HN:Oak--专为代理设计的 Git 替代方案
05:07elvis48Fugu Ultra 3D 渲染表现惊艳
05:07Elon Musk31Grok Build 发布升级版本
05:05TechCrunch:AI(RSS)61Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要
04:40MarkTechPost(RSS)65xAI 为 Grok Build 推出 /goal 模式,支持长周期自主编码与内置验证
04:26Chubby♨️57GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型
04:10Artificial Analysis60AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿
04:03Google Gemini31Gemini Spark 全天候个人AI智能体
03:56Chubby♨️59GLM 5.2 持续获胜
03:10MarkTechPost(RSS)76Sakana AI 发布多智能体编排系统 Sakana Fugu,对外表现为单一模型
03:07elvis52Sakana Fugu Ultra发布,性能匹配Fable和Mythos
02:40Artificial Analysis59GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
02:14The Decoder:AI News(RSS)46Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口
02:10Logan Kilpatrick73Google Interactions API 正式发布
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:35Google AI Developers62Google Interactions API 正式可用:统一端点、稳定 schema、Managed Agents 等新功能
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
00:56Chubby♨️43Delos Workers 让 AI 智能体拥有持久身份,像同事一样传递上下文
00:41Hacker News 热门(buzzing.cc 中文翻译)56Claude Code 的"扩展思维"只是总结,而非真实推理
00:40Rohan Paul57Delos推出Workers:将AI智能体转化为数字员工
00:36🚨 AI News | TestingCatalog46Claude移动端将获Cowork支持
00:33凡人小北42微信Agent:云端调度型智能体OS路径
00:12Berryxia.AI63Sakana AI 推出多智能体编排系统 Sakana Fugu
00:12Berryxia.AI75精选东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu
00:11xAI:News(网页)69精选Grok Build 推出 /goal 模式,支持长时间自主任务执行
00:11Artificial Intelligence News(RSS)56日本AI公司Sakana AI推出Fugu多智能体模型
00:08Google Developers Blog(RSS)61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性
00:02数字生命卡兹克61微信Agent"小微"灰度内测资格开放,具备多种AI能力
6月22日周一
23:09Nathan Lambert56GLM-5.2:开放智能体的DeepSeek时刻
22:37elvis53多智能体通信协议五维分类法报告发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
12:13
HuggingFace Daily Papers(社区热门论文)
48
causal-learn+:智能体应辅助因果发现而非提供因果结论

当前将大语言模型(LLM)与因果发现结合的做法,常让模型推断边方向、提出图结构或注入先验与约束,但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色:检查数据、检索上下文、解释方法假设并澄清图输出,而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现,协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体arXiv论文/研究
09:13
Berryxia.AI@berryxia
72
成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体MCP/工具开源/仓库教程/实践
08:13
ginobefun@hongming731
48
OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗

OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。

智能体OpenAI安全/对齐现象/趋势
08:08
Ethan Mollick@emollick
55
让 Fable 如此令人印象深刻的是其跨长期项目的创造性问题解决和良好判断力 你可以看到这一点:当我让它制作一个自知的贪吃蛇游戏时。我没有给它任何设计反馈,只是说"让它更好" 值得一试:https://snake-stable-build.netlify.app/
智能体大佬观点编码
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
SkillHone:基于持久决策历史的持续智能体技能演进工具

SkillHone 通过持久决策历史将技能修订与评估证据配对,记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能,并基于先前决策提出修订,实现跨会话改进。在深度研究基准上,SkillHone 无需预集成搜索栈,在 GAIA 上超越商业深度研究智能体 15.8 分,在 WebWalkerQA-EN 上超越 3.2 分,同时优于先前技能进化方法。内部工具中介分析场景中,平均准确率提升 18.8 分。

智能体论文/研究

推荐理由:SkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程,在 GAIA 上超越商业 agent 15.8 个点,做 agent 产品的团队该认真读一下。
08:00
HuggingFace Daily Papers(社区热门论文)
45
我们准备好迎接智能体原生记忆系统了吗?

从数据管理视角对LLM智能体记忆系统进行系统性实验研究,将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线,覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优,效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
MEMPROBE:基于隐藏用户状态恢复的长期记忆智能体探测基准

MEMPROBE是一个评估长期记忆AI智能体的新基准,通过隐藏用户状态恢复直接衡量记忆质量。基准在受控任务中模拟50个用户,每个携带31个隐藏维度(共1550个恢复目标),让配备记忆的智能体辅助完成任务,随后从记忆中重构用户状态,支持全存储与top-k两种访问模式。测试5种代表性记忆系统后,任务完成率几乎饱和(无记忆基线也达),但类别平衡恢复率仅约0.6,在top-k检索下进一步下降。MEMPROBE是首个直接研究记忆恢复的基准,将恢复率作为可优化目标。

智能体论文/研究
06:41
Rohan Paul@rohanpaul_ai
50
Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍

Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

智能体编码评测/基准
05:35
OpenRouter@OpenRouter
42
人类。智能体。同一结账流程。 我们很高兴与 @coinbase 合作,为我们的客户带来稳定币支付!

Coinbase Developer Platform🛡️: We're excited to announce that all Coinbase payments APIs are now agentic-enabled out of the box. Companies like @OpenRo...

智能体行业动态
05:12
Hacker News 热门(buzzing.cc 中文翻译)
精选72
Show HN:Oak--专为代理设计的 Git 替代方案

Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型,可选 SQLite 和 git 后端。以分支-会话为基本工作单元,用分支描述替代逐次提交,通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)及 Windows,可通过 curl 或 cargo 安装,Apache-2.0 开源。

智能体产品更新编码

推荐理由:专为 AI 代理打造的全新版本控制工具,分支作为会话单元、内容寻址懒加载,设计直接摆脱了 git 的包袱,用 agent 的开发者值得一试。
05:07
elvis@omarsar0
48
天哪!Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新多模态
05:07
Elon Musk@elonmusk
31
Grok Build 升级

skcd: /goal is live on Grok Build. We use a team of agents: - implementors - skeptics - code reviewers - planners and a mix of...

智能体xAI产品更新
05:05
TechCrunch:AI(RSS)
61
Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要

Claude Code创建者Boris Cherny在Meta @Scale大会上表示,AI智能体循环(loops)是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构,另一个寻找重复抽象并提交PR,循环永不停歇。这种循环类似递归函数,由子agent决定何时停止;一种实现是Ralph Loop,检查已完成工作是否达成目标。Loops本质是增加test-time compute,通过持续投入计算资源直到任务完成,但token消耗无上限、成本高昂。若设置得当,收益可能远超成本。

智能体Anthropic大佬观点编码
04:40
MarkTechPost(RSS)
65
xAI 为 Grok Build 推出 /goal 模式,支持长周期自主编码与内置验证

xAI 在终端编码智能体 Grok Build 中新增 /goal 模式。用户输入一条目标指令后,Grok Build 自动规划步骤、生成进度清单,逐一执行并验证(审查代码、检查网页或运行脚本)直至完成。期间可用 /goal status、/goal pause、/goal resume、/goal clear 命令监控与操控运行。该模式面向多文件迁移、重构、依赖升级等长周期任务,需 SuperGrok 或 X Premium Plus 订阅。与 Claude Code、OpenAI Codex CLI、Cursor Agent Mode 相比,/goal 的核心差异在于显式的可操控目标对象和内置验证步骤。

智能体xAI产品更新编码
04:26
Chubby♨️@kimmonismus
57
GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型

GLM-5.2(max)在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo,排名第三,仅次于 Claude Fable 5(1783)和 Claude Opus 4.8(1615),与 GPT-5.5(xhigh,1509)持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物,领先开源权重模型(下一名 MiniMax-M3 仅 1408),并超过 Google Gemini 3.5 Flash(1357)、Qwen 3.7 Max(1289)等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。

Artificial Analysis: GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from ...

智能体开源生态评测/基准
04:10
Artificial Analysis@ArtificialAnlys
60
AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。

智能体AnthropicDeepSeek推理
04:03
Google Gemini@GeminiApp
31
Gemini Spark 是您的 24/7 个人AI智能体,在您的指导下从头到尾处理繁重工作。 以下是我们团队使用 Gemini Spark 让生活更轻松、更高效的一些方式。🧵
智能体Google产品更新
03:56
Chubby♨️@kimmonismus
59
Kim指出,GLM 5.2是首个能以开放权重处理真实自动研究任务的模型,包括调试设置、跨多节点H100集群运行并比较RL训练实验。其局限在于缺少图像理解能力,需程序化分析原始WandB数据而非可视化图表。引用介绍称,GLM 5.2是其自动研究pipeline上首个能胜任实际研究的开源模型,在Fable 5对研究设限的背景下意义重大。演示中,它基于SkyRL在两台8×H100节点上完成Harbour代码竞赛的完全异步vs同位置同步RL训练,自动解决设置问题并生成吞吐量与奖励稳定性对比。

alphaXiv: Introducing GLM 5.2 for autoresearch GLM 5.2 is the first open weights model we've tried on our autoresearch pipeline th...

智能体开源生态评测/基准
03:10
MarkTechPost(RSS)
76
Sakana AI 发布多智能体编排系统 Sakana Fugu,对外表现为单一模型

今日 Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,对外表现为单一模型。用户通过 OpenAI 兼容端点发送请求,Fugu 内部决定直接求解或组建专家模型团队协作。提供两个变体:Fugu(平衡性能与低延迟,支持特定 agent opt-out)和 Fugu Ultra(针对困难多步问题优化,固定 agent 池,当前模型 ID 为 fugu-ultra-20260615)。在 11 项基准测试中,Fugu Ultra 在 SWE Bench Pro(73.7%)、TerminalBench 2.1(82.1%)、LiveCodeBench(93.2%)、Humanity’s Last Exam(50.0%)等 10 项上取得最高分,表现与 Anthropic 的 Fable 5 和 Mythos Preview 相当。Fugu 通过 OpenAI 兼容 API 调用,无需更换 SDK,并支持 opt-out 以应对合规和单供应商风险。

智能体产品更新编码
03:07
elvis@omarsar0
52
Sakana AI 推出 Fugu 多智能体编排系统,通过单个模型 API 即可访问。其 'Fugu Ultra' 模型性能匹配 Fable 和 Mythos,提供前沿能力且无出口管制风险。在生成程序化地形(Three.js)的对比中,Fugu Ultra 在一次生成(one-shotted)下表现突出。更多示例即将分享。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体模型发布
02:40
Artificial Analysis@ArtificialAnlys
59
GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型

智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。

智能体开源生态推理评测/基准
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
02:14
The Decoder:AI News(RSS)
46
Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口

Google DeepMind 宣布 Interactions API 正式可用,成为 Gemini 模型和智能体的默认接口。该 API 自 2025 年 12 月进入 Beta 测试,现取代 Google AI Studio 和文档中的旧 generateContent 接口;未来新智能体功能仅通过它提供。近期新增功能包括:自带 Linux 沙箱的 Managed Agents、后台执行、Google 搜索与地图工具链、图像/音乐/语音媒体生成。架构从旧的 "user"/"model" 角色简化为 typed steps,每步动作独立定义。开发者可选择 Flex 模式(成本降低 50%)或 Priority 模式(优化速度)。

智能体Google产品更新部署/工程
02:10
Logan Kilpatrick@OfficialLoganK
73
今天我们将 Interactions API 推向 GA,这是我们设计的新 API,可让您在同一个界面中编排跨模型和智能体,并将成为我们未来的默认 API。Interactions 为智能体新时代奠定了基础。

Google AI Studio: http://x.com/i/article/2069077093036576768

智能体Google产品更新
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:35
Google AI Developers@googleaidevs
62
Google Interactions API 正式可用:统一端点、稳定 schema、Managed Agents 等新功能

Google Interactions API 现已正式可用(GA),通过统一 /interactions 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 antigravity-preview-05-2026 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 background=True 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。

智能体Google产品更新多模态
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
00:56
Chubby♨️@kimmonismus
43
Delos Workers 让 AI 智能体拥有持久身份,像同事一样传递上下文

Delos Workers 突破传统 AI 智能体每次任务后重置上下文的限制,为每个智能体保留持久身份和记忆,独立拥有邮箱、电话和 Slack 句柄,能在任务间传递上下文,从而成为组织架构中可直接寻址的成员。引用 @pierre_dlgr 称其为“无限 AI 员工”,数天内实现 100 万美元 ARR,旨在取代邮件回复、CRM 更新等流程化知识工作。

Pierre de la Grand'rive: Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...

智能体产品更新现象/趋势
00:41
Hacker News 热门(buzzing.cc 中文翻译)
56
Claude Code 的"扩展思维"只是总结,而非真实推理

Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。

智能体Anthropic现象/趋势编码
00:40
Rohan Paul@rohanpaul_ai
57
Delos推出Workers:将AI智能体转化为数字员工

Delos发布Workers,将AI智能体转化为拥有专属邮箱、电话、Slack、Teams、电脑、记忆及公司训练的“数字员工”。每个Worker针对单一企业训练,学习其常规、工具、词汇、权限和交接模式。核心是持久身份与长期记忆,使同事可像联络人类同事一样找到它,并信任其记住过往决策与客户上下文。引用推文透露上线数天内已实现100万美元ARR,指出大多数知识工作本不该存在——大量工作仅为流程(回复邮件、跟进、更新CRM等),而Workers能像人类队友一样跨组织执行任务,软件与劳动力界限消失。

Pierre de la Grand'rive: Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...

智能体产品更新部署/工程
00:36
🚨 AI News | TestingCatalog@testingcatalog
46
ANTHROPIC 🔥: Claude for mobile 即将获得 Cowork 支持!
智能体Anthropic产品更新
00:33
凡人小北@frxiaobei
42
推文分析微信成为超级Agent OS的潜力。对比手机厂商(端侧感知型,偏向控制硬件,但服务碎片化)与微信(云端调度型,依靠小程序作为类MCP工具池,聊天作为天然上下文窗口)。微信可深度操控自身生态(页面跳转、功能触发),但缺端侧长期记忆和规划能力。结论认为真正跑得动的Agent应云负责理解、编排与聚合服务,端负责感知与控制,统一调用链、上下文管理与服务编排者有望成为智能体OS。

凡人小北: 很多人都在说 Agent 是未来的操作系统。但问题是,你让谁来当操作系统?看openai现在的骚操作就有点这个意思。 这就引出一个问题,现在的巨无霸们谁具备打造超级 Agent 的机会? 1)做个聪明的 Agent OS 不难,难的是你能真...

智能体MCP/工具大佬观点
00:12
Berryxia.AI@berryxia
63
Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,用户仅需调用单个模型 API。其 Fugu Ultra 版本在工程、科学、推理等硬核基准上性能匹敌 Fable 和 Mythos。系统内部自主拆解任务、挑选最优模型、递归调用自身或其他智能体、验证结果并合成答案,用户无需关心底层编排。关键优势在于动态编排全球各类模型,天然避开单一供应商的出口管制风险,将多智能体从复杂工程变为开箱即用的产品形态。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新推理
00:12
Berryxia.AI@berryxia
精选75
东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 是 2023 年成立于东京的 AI 公司,由前 Google Brain 的 David Ha(CEO)、Transformer 论文共同作者 Llion Jones(CTO)及前日本外交官 Ren Ito(主席)联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险,被视为将多智能体从复杂工程变为开箱即用的产品形态。

Berryxia.AI: 这个是小日子搞的嘛?Fugu? 今天被刷屏了很多次! Sakana直接发布了一个能匹配Fable和Mythos性能的多智能体编排系统,而且还是通过单个API调用。 地址:https://sakana.ai/fugu 他们推出的Sakana ...

智能体产品更新推理

推荐理由:Sakana 把多智能体编排变成开箱即用的 API,性能宣称对标 Fable/Mythos,更关键的卖点是靠集体智能自然规避单一供应商出口管制。这是把架构选择变成了地缘策略,做全球 Agent 产品的值得一看。
00:11
xAI:News(网页)
精选69
Grok Build 推出 /goal 模式,支持长时间自主任务执行

xAI 在 Grok Build 中引入 /goal 新模式。用户只需用一行命令设定目标,agent 便会自动规划方案、分解任务为进度清单并持续执行,直至目标完成且通过验证,期间可额外下达指令。该模式支持监控与引导命令,任务完成时清单全部勾选。即日起可用,用户可通过 curl -fsSL | bash 安装 CLI 并登录账号即可使用。

智能体xAI产品更新编码

推荐理由:把Grok Build从单步指令升级成可长期自主执行任务的Agent,对习惯把代码扔给AI就跑开的开发者很友好,但目前只有CLI,生态还没铺开。
00:11
Artificial Intelligence News(RSS)
56
日本AI公司Sakana AI推出Fugu多智能体模型

日本AI公司Sakana AI推出Fugu,一种编排语言模型,通过调用多种模型完成多步任务,帮助企业避免单一AI API依赖。用户通过单一OpenAI兼容端点访问,系统内部完成模型选择、委派、验证和整合。Fugu提供标准版和Fugu Ultra,后者在科学、工程和推理基准上表现与Fable 5及Mythos Preview等领先闭源模型相当。近500早期用户测试了网络安全评估和代码审查,一名工程师称Fugu Ultra“显著优于GPT-5.5”,能发现更多漏洞。Fugu通过可替换的智能体池动态路由流量,以应对出口管制等供应链中断风险,支持AI主权。

智能体产品更新
00:08
Google Developers Blog(RSS)
精选61
Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。

智能体Google编码论文/研究

推荐理由:AI 编码代理的评估从任务修复转向目标洞察,Google 这个思路让评估更接近真实开发场景,但实验还是内部数据,等公开 GitHub 版本再看落地效果。
00:02
数字生命卡兹克@Khazix0918
61
微信Agent"小微"灰度内测资格开放,具备多种AI能力

卡兹克获得微信Agent“小微”灰度内测资格。小微主入口在微信首页左上角,另有多个子入口(聊天加号菜单、公众号/视频号更多菜单)。主入口支持给好友发消息(需确认卡片)、发红包(需确认金额和收款人),不支持群聊和读取聊天记录。子入口支持读取聊天记录并给群聊发消息。小微可建立日程提醒、设置待办、读取朋友圈总结、配合公众号和视频号问答、读取收藏(仅限自己创建的笔记)。最核心的是内置“小工具”功能,用户可用AI直接创建小程序(暂无法发布)。同时支持调用第三方小程序。

智能体产品更新
6月22日
23:09
Nathan Lambert@natolambert
56
GLM-5.2 应该是智能体的"DeepSeek 时刻"。我们进入一个新世界,开放模型中拥有了顶尖智能体能力。 如果你关心开放,现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Interconnects: GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...

智能体开源生态模型发布
22:37
elvis@omarsar0
53
多智能体通信协议五维分类法报告发布

该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。

智能体arXivMCP/工具论文/研究
‹ 上一页
1…1415161718…50
下一页 ›