AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 657 条
全部一手资讯X论文
标签「MCP/工具调用」清除
🚨 AI News | TestingCatalog@testingcatalog · 4小时前63

Vellum has launched agent-to-agent communication in Slack, where each person runs their own assistant. > Each assistant carries their own user's history, preferences, and context. > Assistants can split tasks, negotiate dates, and gather input from the team. > Permissions stay isolated by default, shared only when a task needs it. AI coworkers that work autonomously are here!

译Vellum 在 Slack 中上线智能体间通信功能,每个智能体独立携带用户的历史记录、偏好和上下文。多个智能体可以拆分任务、协商日期、从团队收集输入,权限默认隔离,仅在任务需要时共享。测试中,两个智能体在一天内为 19 人的团队完成了 offsite 活动规划。该功能旨在实现自主协作的 AI 同事。

Ethan Mollick@emollick · 4小时前48

Fable: "you have Unity and access to MCP. I want you to build a game that is a unique twist on a FPS. You want the player to say "wow" & "so clever" and to enjoy the core gameplay loop" WebGL: https://swapshot-void.netlify.app/ * It had no assets so the graphics are procedurally generated

译Fable:“你有 Unity 和 MCP 的访问权限。我要你构建一个游戏,它是 FPS 的独特变体。你要让玩家说‘哇’和‘太聪明了’,并享受核心玩法循环” WebGL: https://swapshot-void.netlify.app/ * 它没有资产,所以图形是程序生成的

Rohan Paul@rohanpaul_ai · 10小时前52

You can now create ads directly inside Slack. Arcads turns Slack into an AI ad studio that also researches competitors and generates creatives. Claude Tag lets Slack users tag @ Claude and delegate work across connected channels and tools. MCP gives Claude a controlled way to call Arcads skills from Slack. Veo 3.1, Kling Motion Control, Nano Banana, and Sora 2 Pro become accessible from one interface.

译Arcads 将 Slack 转化为 AI 广告工作室,用户可直接在 Slack 内创建广告、研究竞争对手并生成创意。支持 Claude Tag(@Claude 跨频道跨工具委派任务)和 MCP(让 Claude 从 Slack 安全调用 Arcads 技能)。同一界面可调用 Veo 3.1、Kling Motion Control、Nano Banana、Sora 2 Pro 等视频生成工具。官方宣布 Claude x Arcads in Slack 即日上线,用户可在 Slack DM 中获取病毒式广告。

Rohan Paul@rohanpaul_ai · 21小时前69

Very timely paper. MCP servers need clear design patterns because LLMs get confused when too many tools or vague tools are shown. This paper explains how MCP servers should be structured so LLM tools stay useful, safe, and manageable. s MCP server design is not just normal API design, because the client is an LLM that chooses tools by reading plain-language descriptions. It groups real MCP servers into 5 useful patterns, such as servers that expose data, run workflows, keep session state, combine many servers, or translate messy domain APIs. The authors also warn about 4 common mistakes, especially giant all-purpose tools, vague tool descriptions, unsafe outside content, and slow tools that should return a job ID instead. They tested the pattern labels on 54 extra servers, measured transport delay, and studied how tool accuracy changes as more tools are shown. The key result is that too many visible tools hurt accuracy, with weaker models dropping below 90% between 10 and 15 tools. Good MCP design is mostly about making the tool list small, clear, safe, and stable enough for LLMs to choose the right action. ---- Link – arxiv. org/abs/2606.30317 Title: "MCP Server Architecture Patterns for LLM-Integrated Applications"

译该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

Perplexity@perplexity_ai · 1天前37

Claude Fable 5 is once again available in Computer as an orchestrator model.

译Claude Fable 5 再次可在 Computer 中作为编排模型使用。

凡人小北@frxiaobei · 1天前34

对于普通人,飞书 aily 已经足够好了。 CLI 是给要精细控制的专业人准备的。 大部分人的需求,在飞书生态里,对话几句 aily 就搞定了。 现在的 aily,懂飞书全套数据,MCP 接外部系统,自主调工具。生态内能想到的活儿,它基本都能接。

译推文推荐飞书 Aily,称其对普通人已足够好用。Aily 理解飞书全套数据,通过 MCP 连接外部系统,能自主调用工具,覆盖生态内各类任务。相比需要精细控制的 CLI,Aily 对话交互即可满足多数需求。引用推文则强调,用好飞书文档(类比20年前的 Office)和 AI 调用飞书 CLI,是学渣保住空调房工作的机会。两者共同指向飞书生态内 AI 工具的实用价值。

Andrew Milich@milichab · 1天前67

Build a voice agent connected to your scheduling app, knowledge base, and any custom MCPs or APIs Phone number included to get started!

译构建一个连接到你的日程应用、知识库以及任意自定义MCP或API的语音智能体 附带了电话号码,可以开始使用! [引用 @xai]

向阳乔木@vista8 · 1天前41

TLDR,帮大家简单总结下: MCP、API、CLI 本质上是同一件事,都是让 Agent 调用工具的方式 1. MCP 是目前唯一在协议层考虑 "人在回路"的方案。 协议层面就考虑了 Agent 交互的需求,比如回传会话、对话界面嵌入UI、等待人操作、状态通知等。 用 OpenAPI 或 bash 很难优雅实现。 2. API 适合 90% 的场景 API 的优势在本身携带了大量有用的元信息,如接口描述、可读状态,对 Agent 做决策很有帮助。 3. CLI 今天最好用,但长期是死路 CLI 现在对 Agent 来说确实最好用,原因是 bash 的可组合性极强,本地运行、调试方便、数据访问能力强。 CLI 的限制:需 Unix shell 环境,有依赖问题,也有CLI 命令踩坑问题,如等人类输入卡死等。

译MCP、API、CLI 本质都是让 Agent 调用工具的方式。MCP 是唯一在协议层考虑“人在回路”的方案,支持回传会话、UI 嵌入、等待人操作等。API 凭借接口描述、可读状态等元信息,适合 90% 场景。CLI 目前因 bash 可组合性强、本地调试方便而最好用,但长期是死路:需 Unix shell 环境,有依赖问题,易因等待人类输入卡死。

小互@xiaohu · 1天前71

好消息 : WordPress 发布 WPVibe 插件 可以让 Claude 等接管你的网站 只需连接您的网站,你已经付费的 Claude 就能接管整个系统。 包括文章、上传媒体、SEO、主题,甚至主题文件,都可通过自然语言让Claude 进行处理 无需二次 AI 订阅,使用你的Claude 订阅即可 ,无需本地安装。 整套 MCP 工具箱,40+ WP-CLI 命令,一次连接搞定 能做的事,: 写文章、改页面、传图片 装和管理插件、主题 给网站做体检(哪个插件有问题、PHP 版本、为什么卡) 甚至帮你搭一套主题出来

译WordPress 推出 WPVibe 插件,连接网站后即可让已付费的 Claude 等 AI 通过自然语言直接管理整个系统,包括文章、媒体、SEO、主题及主题文件。无需二次 AI 订阅或本地安装,自带 40+ WP-CLI 命令的 MCP 工具箱,支持写文章、改页面、传图片、管理插件和主题、网站健康检查(如插件冲突、PHP 版本、性能问题),甚至可搭建新主题。

elvis@omarsar0 · 2天前46

If you build with MCPs, this one is worth reading. (bookmark it) The paper covers five recurring MCP server patterns across fifteen independently developed servers. That taxonomy is useful because I see many AI teams rebuilding the same shapes without shared names. If you are building MCP servers, this is a practical reference for deciding whether your server is exposing resources, orchestrating tools, managing sessions, aggregating proxies, or adapting a domain workflow. Paper: https://arxiv.org/abs/2606.30317 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。

Chubby♨️@kimmonismus · 2天前56

Agents that can plan but can't pay are just expensive chatbots. No account, no API key, no human in the loop. The agent sends a request, pays in USDC, gets data back. That's actually new.

译能规划但付不了钱的智能体只是昂贵的聊天机器人。 无需账户,无需API密钥,无需人工介入。 智能体发送请求,用USDC支付,取回数据。这才是真正的创新。

Rohan Paul@rohanpaul_ai · 2天前65

Most AI products ask users to leave their workflow and enter a separate box of intelligence. ⌨️ Acti (@openacti1) reverses that direction by putting the agent inside the text field, where plans, questions, replies, reminders, links, and decisions already begin. The phone keyboard into an AI action layer. Becasue people already start many small tasks inside chats, but the phone still forces them to leave the chat, open another app, finish the task, copy the result, then come back. Acti changes that flow by using the keyboard itself as the command surface. A user types what they want, holds the Acti spacebar, and the agent reads the intent, calls the right app or service, then returns something useful inside the same text field. That could mean a map link, restaurant options, a sports comparison, a clean reply, a reminder, or a Notion page. The strongest part is that this does not need a separate chatbot app. The keyboard becomes the place where AI meets the user’s real workflow. There is also a Skill Key system, where a user can bind actions to keys, like holding N for Notion or L for a LinkedIn profile view. The most practical demo is the Maps one. Someone asks where to meet, the user types “Times Square Starbucks location,” holds the Acti spacebar, and gets a ready map link plus a sendable message without opening Maps. 🧵 1.

译Acti 把 AI 智能体直接放在手机键盘的文本输入区。用户输入意图后长按 Acti 空格键,AI 读取需求并调用相应应用或服务,在同一输入框内返回地图链接、餐厅推荐、体育对比、回复草稿、提醒或 Notion 页面等结果。该方案无需单独的聊天机器人应用,键盘成为 AI 与真实工作流交汇的界面。此外还有 Skill Key 系统,可绑定按键(如按住 N 打开 Notion,按住 L 查看 LinkedIn 资料)。最实用的演示是地图:输入“时代广场星巴克位置”,长按空格即可获得地图链接和可发送的消息,无需打开地图 App。

ClaudeDevs@ClaudeDevs · 2天前79

Claude Sonnet 5 is here. Top-tier performance on coding and tool use at Sonnet pricing, with a 1M context window. It's the new default in Claude Code for Pro users, and available everywhere on the Claude Platform, including the API and Managed Agents.

译Claude Sonnet 5 已推出。 以 Sonnet 定价提供顶级编码和工具使用性能,并拥有 1M 上下文窗口。 它已成为 Pro 用户 Claude Code 的新默认模型,并可在 Claude 平台所有位置使用,包括 API 和托管智能体。

Claude@claudeai · 2天前73

Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and runs autonomously at a level that just a few months ago required larger and more expensive models.

译介绍 Claude Sonnet 5,这是迄今为止最具智能体能力的 Sonnet。 它会制定计划、使用浏览器和终端等工具,并以几个月前还需要更大、更昂贵模型才能达到的水平自主运行。

Rohan Paul@rohanpaul_ai · 2天前60

Agents have been good at deciding what should happen next. They have been much worse at acquiring the tools needed to make it happen. x402 and Apify’s thsounds of Actors give that problem a practical solution.

译智能体擅长决定下一步行动,但缺乏获取所需工具的能力。x402与Apify的网页自动化工具合作解决了这一难题:通过x402,代理此前可购买约2,000个工具;现与Coinbase合作升级,工具数量10倍增至20,000+,且无需账户、API密钥或人工介入。

🚨 AI News | TestingCatalog@testingcatalog · 2天前48

Apify has partnered with Coinbase to add more than 20,000 of its web automation Actors to the x402 ecosystem, giving AI agents thousands of tools they can discover, pay for, and run on their own. When an agent calls an Actor, it gets back an HTTP 402, settles the payment in USDC on Base, and the Actor runs. Built on x402 by Coinbase.

译Apify与Coinbase合作,将超过20,000个Web自动化Actors接入x402生态系统。AI智能体可自主发现、支付并运行这些工具:调用Actor时收到HTTP 402状态码,通过Base链上的USDC完成支付后立即执行。此前x402生态仅有约2,000个工具(来自@apify),此次合作将可用工具数量提升10倍,无需账户、API密钥或人工介入。

elvis@omarsar0 · 2天前53

The gap in autonomous agentic loops that gets ignored: agents can plan and call APIs but can't acquire tools they don't have access to. x402 + Apify's 20,000+ Actors is a concrete fix for that. Worth paying attention to.

译自主智能体可规划和调用API,但无法获取未授权工具。x402协议与Apify的20,000+个Actors解决了这一缺口。此前智能体仅可通过x402购买约2,000个工具,如今Apify与Coinbase合作,将其10倍扩展至20,000+个,为自主智能体提供最大的网络自动化工具市场。无需账户、API密钥或人工介入。

meng shao@shao__meng · 2天前74

Flowith 团队推出「Matrix」:Agent 公司的操作系统,你定使命,Matrix 编排多 Agent 部门长期运转,目标是从创建、分发到变现的完整商业闭环。 Matrix 的核心主张 · 产品形态:自演化、多层级的 multi-agent runtime · 用户角色:战略负责人(设 mission),不是日常执行者 · 组织模型:CEO Office → OKR → 部门(Research / Engineering / Growth / Product)→ 证明与复盘 · 商业闭环:建站、接 Stripe、发邮件、投广告、产内容、收 revenue · 新指标:VPTD(Value Per Token Dollar)= 产出价值 ÷ token 成本 产品架构 1. Runtime 层 每个 Agent 有独立 browser、工具、文件、记忆;支持 Neo / Claude Code / Codex 等,强调 超长时运行 和 主动执行(不是一问一答)。 2. 协调层 用户输入 intent + 资产 → CEO Office 定目标与节奏 → OKR 分解任务 → 各部门并行 → 以 proof(文件、截图、上线页面、收入、流量)闭环。 3. 公司原语(Company Primitives) 内置:网站部署(*.matrix.site 或自定义域名)、Stripe 收款、Agent Wallet(预算与审批)、Agent Email。宣称可跳过传统公司注册、银行卡、域名等 setup。 4. 交付形态 目前 macOS 客户端,Web 版「coming soon」。 GDPval-Bench 数据 1. Matrix(GPT 5.5 + harness):95.45% 2. Codex CLI(GPT-5.5):84.9% 3. Claude Opus 4.7:80.3% GDPval 是 OpenAI 等提出的 benchmark,测的是 44 个职业、真实知识工作交付物(法律文件、工程图、客服对话等)

译Flowith 团队发布「Matrix」,定位为自演化、多层级的 multi-agent runtime。用户设定使命后,Matrix 通过 CEO Office → OKR 分解任务,驱动多个 Agent 部门(Research/Engineering/Growth/Product)并行执行,并以 proof(文件、上线页面、收入等)闭环。架构包含 Runtime 层(独立 browser/工具/记忆,支持 Neo/Claude Code/Codex,超长时运行)和公司原语(网站部署、Stripe 收款、Agent Wallet、Agent Email)。macOS 客户端已上线,Web 版 coming soon。在 44 个职业真实知识工作的 GDPval-Bench 上,Matrix(GPT 5.5 + harness)得分 95.45%。此前有限 beta 中用户已创建数万个零人公司。

🚨 AI News | TestingCatalog@testingcatalog · 2天前35

Bloome launched its instant messaging platform for agentic teams! Agents can draft, push back on one another, cross-check details, and refine the output until it is ready. Models like Claude, ChatGPT, and DeepSeek can run side by side with coding agents as well as custom agents built in @Bloome_im

译Bloome 推出了面向智能体团队的即时通讯平台! 智能体可以互相起草、反驳、交叉核对细节,并不断完善输出,直到准备就绪。Claude、ChatGPT 和 DeepSeek 等模型可以与编码智能体以及 @Bloome_im 中构建的自定义智能体并排运行。

AYi@AYi_AInotes · 2天前63

X 官方 MCP也来了,可以让 Grok、Cursor、Claude 等 MCP 兼容的 AI 工具,能零部署直接调用 X API,获取实时 X 数据(搜索、时间线、书签、发文等),全部走用户权限。 但不是完全免费喔,Grok Cursor 以及所有兼容 MCP 的工具,零部署就能直接调用 X API。 但它不是免费的,走的是 X Developer App 的按量计费模式,读帖读用户发帖各有单价,重度 Agent 使用很容易账单失控,写操作的限流也比读操作严格得多,很容易触发 429。 最稳妥的做法,先进开发者后台设好消费上限,小流量测清楚价值再考虑放量

译X 官方推出托管 MCP,使 Grok、Cursor、Claude 等 MCP 兼容 AI 工具无需部署即可直接调用 X API,获取搜索、时间线、书签、发文等实时数据,全程走用户权限。该服务并非免费,采用 X Developer App 按量计费模式,读帖和发帖各有单价,重度 Agent 使用容易导致账单失控;写操作限流比读操作更严格,易触发 429 错误。建议开发者先在后台设定消费上限,从小流量测试后再放量。

歸藏(guizang.ai)@op7418 · 2天前75

Twitter 终于有 MCP 了,这个非常有用! 如果你像我一样依赖 Twitter 信息的话,就可以让 AI 帮你自动整理、总结和对你的数据进行分析 不过依然需要你注册 Twitter 的 API,然后按量付费。 我今天早上配置了一下,它针对个人信息(就是你自己的信息)其实有一个比较大的优惠: 调用一次是 0.01 美元,也就是 1 美元可以调用 1000 次。我拉取了一下最近三天的书签,只花了 0.1 美元。 我大致做了几张图,简单写一下如何配置: 1. 创建 APP 与充值:去 Twitter 开发者后台创建一个 APP。注意,充钱是必须的。 2. 获取配置 ID (a) 创建完 APP 后,从侧边栏点进你创建的这个 APP。 (b) 在设置里填写并修改相关内容。 (c) 修改完成后,系统会弹窗显示两个 ID,这两个 ID 是需要在 MCP 里填写的,一定要记好。 3. 辅助配置 (a) 我的那张图片发给 Codex 或者 Claude,让他们帮你配置。 (b) 配置完后,让他们打开配置文件,你把那两个 ID 替换掉就可以了。 4. 授权启动 在启动时,第一次需要打开网页进行授权。如果你的 AI 没有自动打开网页,可以提醒它一下。

译X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。

Berryxia.AI@berryxia · 2天前76

Cursor iOS 版本正式来了,这下可以随时随地Vibe Coding了啊! 还有75折的优惠使用Composer 2.5 模型!

ginobefun@hongming731 · 2天前55

http://x.com/i/article/2071738413074771968 # BestBlogs 早报 · 06-30|智能体落地卡在验证回路与组织成熟度,Spotify、Block、Spring AI 各给一种解法 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。 ## 导语 今天几篇都绕着同一个问题:当智能体真正进入大型工程组织,卡点究竟在哪里。 Spotify 架构师复盘他们在 2000 万行后端 monorepo 里跑 Claude Code 的经验,给出一个很务实的判断——关键不在模型本身,而在配套的工程基建。内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK,把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的核心提醒是:标准化的代码库和可靠的验证体系,先帮到了人,现在同样帮智能体。 Block 的工程负责人则把「采用」和「影响」拆开看。约九成工程师在用 Goose 和 Claude Code,token 在烧,但功能并没有更快交付。她给出了成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定,三个月内把 AI 生成代码的占比提升了 69%,结尾反问自动化成功后裁员的社会代价,没有给出确定答案。 Spring I/O 2026 那场更适合 Java 工程师。它梳理 Spring AI 从简单的 LLM 调用走向生产级智能体生态的脉络——有用的系统需要围绕模型搭一层 harness,处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG、guardrails,到工具调用与 MCP 标准化集成,再到按需加载工具和子智能体的上下文优化,路线图指向 Spring AI 2.0 与 MCP GA。 其余几篇各有看点:腾讯研究院讲「Token 不经济」、小红书 RedKnot 重做 KV Cache、LangChain 推动态子智能体、autoresearch 让智能体自己跑训练实验,以及世界模型是否到了 GPT 时刻的讨论。 ## ★ 精讲一:Spotify 如何让智能体在 2000 万行代码库中运行:Claude Code、Honk 与工程验证体系 如果你还没有关注这家公司在工程基建上的动作,可以先这样理解背景:Spotify 的后端代码量超过 2000 万行,长期以 monorepo 形式组织,组件数量庞大、归属分散。架构师 Niklas Gustavsson 在这场分享里回顾,他们最早进入「自动化代码改动」领域不是因为智能体,而是因为代码库增长的速度远快于工程师编制——团队很早就做了一套 fleet management,用确定性脚本去批量推进 Java 升级、依赖更新、API 变更这类跨数千组件的迁移。确定性脚本在简单场景下管用,但随着 API 表面和边界情况变多,会撞到天花板。正是这层压力把他们推向了一连串 LLM 实验(包括 LLM-as-judge 循环),最终走向内部平台 Honk。 Honk 现在在 Kubernetes 里运行 Claude agent SDK,并把内部工具交给智能体,尤其是验证工具。Gustavsson 反复强调的一点是:智能体能不能跑得快,取决于周围的工程系统够不够强——CI、Linux 与 macOS 构建、模拟器工作流、组件归属、测试自动化、自动合并实践、可靠的部署基建,缺一环智能体就不敢放手做改动。Spotify 报出了一些 AI 归因的生产力信号,比如更高的 PR 频率和大量 AI 作者的 PR,但他们也在持续把这些信号和工作项、A/B 测试、灰度、用户价值、收入挂钩,避免把「PR 变多」直接读成「价值变多」。 这件事为什么值得认真看?因为它把一个被反复讨论的问题落到了具体动作上:智能体落地的瓶颈是「验证回路」,而不是模型参数。Honk 的价值不在于它跑了一个 agent SDK,而在于它把 CI、测试、组件归属、自动合并这些原本给人用的基建,重新组织成了智能体可以调用的工具。换句话说,是工程系统先升级到了「可被自动化验证驱动」的形态,智能体才能在 2000 万行代码里真正动手。 它和今天另外两篇的关系也很清楚。Block 谈的是组织层面怎么让 3500 名工程师走向智能体协作,关注的是人和流程;Spotify 谈的是技术层面怎么让智能体在巨大代码库里安全动手,关注的是验证基建;Spring AI 谈的是框架层面怎么把这种「围绕模型搭 harness」的能力产品化,给 Java 工程师一套可复用的 advisor、guardrail、MCP 抽象。三篇合起来,恰好是智能体进入大型系统的三个切面:组织、基建、框架。 给读者的建议:如果你是工程负责人或平台团队,重点看他对「验证回路」的拆解,以及他给领导者的提醒——不要跳过基本功,标准化的代码库、统一的框架、对齐的工具链、测试和验证,这些过去帮到人的东西,现在同样帮智能体。如果你是一线工程师,他个人的转变也值得读:他原本以为自己会怀念那种实现密度很高的旧工作方式,结果发现智能体反而让他能在不熟悉的代码库里贡献价值,把更多精力花在问题定义上。详见 ## ★ 精讲二:构建自主工程组织:Block 如何让 3500 名工程师走向智能体协作 要理解这场分享,先看背景:Block(前身 Square)是一个 3500 人的工程组织,旗下覆盖 Square、Cash App、Afterpay、Tidal 等多条业务线,横跨前端、后端、移动、数据、基础设施、monorepo 与小服务、遗留系统。工程负责人 Angie Jones 复盘的是,他们怎么把这个组织从「大家都在用 AI 工具」推进到「智能体可以作为主要生产手段交付可上线结果」。她给出的是一份既实用、又带警示意味的组织剧本——分享结尾反问:当自动化真的成功,人会怎样。 她最尖锐的判断是把「采用」和「影响」分开。Block 在语言模型还支持工具调用之前就开始做 Goose,并在 Model Context Protocol 最初发布前后与 Anthropic 合作,Goose 也成了 MCP 客户端的参考实现,让一批好奇的工程师很早就接触到编程智能体。几个月内,她说约九成工程师在常态化使用 Goose、Claude Code 或类似工具,token 账单证明工具确实在跑——但面向用户的功能并没有更快交付。问题出在整合:工程师把 AI 用在提问、补全、写样板代码上,却没有把它接进完整的交付系统。她把赋能拆成 experimentation、adoption、impact 三个阶段,高采用还没有转化为高影响。 为了定义「目的地」,她给出一个成熟度六阶段模型:阶段 0 工作流里没有 AI;阶段 1 有补全但没有 agent 模式;阶段 2 能和智能体对话,但没有智能体产出的 PR;阶段 3 可以把任务委派给智能体并 review 其产出;阶段 4 并行跑多个智能体;阶段 5 把完整任务委派出去、无需持续人工引导就拿到可上线结果。当时大多数工程师停在阶段 1 和 2。把几千人推向阶段 5 很难,因为实践每周都在变、员工有 AI 疲劳、领导层压力又容易把赋能变成「AI or die」的强制命令。 她的几个具体抓手值得记住。第一是 AI champions 项目,借鉴线上社区的 1-9-90 规则——少数人创造、稍大一群人互动、大多数人只是消费,要求每个个体都去独立发现最佳实践是没法 scale 的。她从关键团队和仓库里挑了约 50 名 champion,每个 champion 投入大约 30% 的时间,要能容忍「开箱即坏」的非确定性工具,并能代表公司的重要系统。第二是把可复用知识写进仓库,做 stage-three delegation 的前提:用 AGENTS.md 或 CLAUDE.md 解释仓库结构和期望,用 rules 提供护栏,用 slash command 和后续的 skills 固化可重复的工作;同一套配置并不适配所有仓库,monorepo 适合根级共享上下文加服务级分层,Web 和移动端不同,Android 有时也和 iOS 不同。她强调这是真正的杠杆点——一旦知识沉淀进仓库,每个贡献者和智能体都能复用 champion 学到的东西。报告里提到的信号是:三个月内 AI 生成代码占比提升 69%。 这件事和今天其他几篇的呼应:它和 Spotify 互为表里——Spotify 在讲「验证回路」这种技术基建,Block 在讲「AGENTS.md、champion、成熟度模型」这种组织基建,两者缺一不可。而腾讯研究院那篇「Token 不经济」恰好给 Block 的故事提供了反面注脚:当采用率高达九成、token 在大量消耗却看不到功能更快交付时,正是 Jones 所说的「高采用、低影响」的典型症状,也是组织需要从「鼓励使用」转向「把智能体接进交付系统」的信号。 给读者的建议:如果你在推动团队或公司的 AI 采用,重点看她的成熟度六阶段和 champion 机制,这两个工具可以直接拿来评估自己组织停在哪一档、以及怎么用少数人去撬动多数人。如果你关心自动化对人的影响,分享结尾那段关于「自动化成功后裁员的代价」的反问,比任何确定性的结论都更值得想。详见 ## ★ 精讲三:2026 年 Spring AI 生态全景:从 LLM 基础到智能体架构 如果你是 Java 或 Spring 工程师,对智能体的印象还停留在「调一个 chat 接口」,这场 Spring I/O 2026 的分享会把整条脉络理清楚。它的核心观点很直接:一个真正有用的系统不能只有模型,还需要围绕模型搭一层 harness,去处理状态、领域知识、结构化输出、安全、可观测和工具访问。分享沿着这条主线,从最基础的 chat pipeline 一路讲到智能体协议。 第一层是 advisor 模式。Advisor 像是模型调用周围的拦截器,让应用可以加上对话记忆、检索外部上下文、检查输入、转换输出、收集指标和 trace。Chat memory advisor 解决无状态模型的问题,在请求前追加对话历史、响应后保存;检索和 RAG 用同样的拦截思路,从文件、数据库、倒排索引、embedding 搜索或向量库里把相关领域上下文带进来。第二层是 guardrails 和结构化输出。因为 LLM 是非确定性的、天然是 text-in/text-out,Spring AI 可以用 schema、输出校验、确定性检查和反馈循环来提升可靠性——一个 guardrail 可以拦掉敏感输入、校验 JSON 输出,或者把错误回喂给模型再试一次;更复杂的循环可以用 judge 模型或 reflection 风格的 advisor 去评估答案是否真的满足原始请求。 从上下文走向动作是分享的后半段。工具调用让模型拥有受控的能力,比如查天气或调一个外部 API,把应用从「聊天交互」变成「能和环境交互的系统」。Model Context Protocol 则把这个集成问题一般化,标准化 AI 客户端如何连接既有系统。分享覆盖了 MCP 的工具、资源、prompts、completions、logging、roots、sampling、elicitation、progress、cancellation,以及 stdio transport、streamable HTTP、无状态部署、Spring 注解、安全集成,还有可以展示 UI、让模型通过它行动的 MCP apps。 最后一部分是上下文优化和智能体协议。Progressive tool disclosure 避免一开始就把几百个工具定义全塞进上下文,而是暴露一个「工具搜索」工具,让模型按需请求相关工具;agent skills 用类似方式做延迟加载的上下文,subagents 则隔离较小的任务,让主智能体的上下文保持干净。分享还提到 Spring AI 对 A2A 集成的支持,并介绍了 Agent Client Protocol 作为 IDE 和编程智能体之间的标准接口——把它类比成 LSP,给出了 Java SDK 和 Spring Boot starter,以及一个叫 Bud 的 Spring Boot 开发智能体如何捕捉用户意图并生成或修改应用。路线图指向 Spring AI 2.0 基础、MCP GA 支持,以及面向智能体应用的新抽象。 为什么值得看:它把「围绕模型搭 harness」这件抽象的事,落成了 Java 工程师可以直接对照的组件——advisor、guardrail、tool calling、MCP、subagent。这恰好是 Spotify 和 Block 两篇里反复出现的「验证回路」「AGENTS.md 约定」在框架层面的对应物。当 Block 用 AGENTS.md 写仓库约定、Spotify 用 Honk 接验证回路时,Spring AI 这套 advisor 和 MCP 抽象,给的是把这些约定和回路产品化、可复用的工程骨架。三篇读下来,你能看到同一个趋势在组织、基建、框架三个层面的不同投影。 给读者的建议:如果你是 Spring 工程师,重点看 advisor 模式和 MCP 集成这两段,它们是最能立刻用到现有项目里的部分;如果你在评估智能体框架的选型,分享里关于 progressive tool disclosure 和 subagent 上下文优化的内容,能帮你理解框架在「上下文管理」这件事上走到了哪一步。 roadmap 里 Spring AI 2.0 和 MCP GA 的时间点,适合放进技术选型的观察清单。详见 ## 速览 Token 不经济(腾讯研究院)这篇文章回应的正是 Block 那个「九成人在用、功能没更快交付」的症状。它把现象拆成几层:模型分层定价让同一档产品的调用价格悄悄抬升,Anthropic 凭编码能力建立了行业最强的定价权,OpenAI 和 Google 在追赶但短期仍需以价换量;下游则是企业内部管控不力、token 使用回报有限、Agent 架构本身的损耗(比如 skill 重复调用、长程任务内耗、多智能体协同成本)相互叠加。文章引用了一个分析:在 ChatDev 框架里,代码审查阶段消耗的 token 平均占到总消耗的 39.5%,意味着近四成花费在智能体之间反复传递已有信息上,而不是生成新内容。它的结论是:要让 token 净收益转正,供给端优化成本还不够,还得从需求端解决 token 在广泛产业场景里如何产生实际价值的问题。适合关心 AI 商业化和成本结构的读者。详见 让 KV Cache「按头分家」:小红书 RedKnot 如何重做长文本推理新引擎(小红书技术 REDtech)解决的是长文本推理的工程瓶颈。RAG 拼大量检索片段、编程 agent 积累工具调用历史、长会话系统塞进记忆和状态,都会让 KV Cache 变大、首字延迟(TTFT)变长、并发被拖住。RedKnot 换了个视角:KV Cache 的价值不是按 token 均匀分布的,而是强烈按注意力头分化,有些 head 要看完整上下文,有些主要只看局部。它沿「注意力头」这个维度把 KV Cache 拆开,配合稀疏 FFN 和段页存储,论文实验显示最高带来 1.6–3.54 倍 TTFT 加速、4.7–7.8 倍单卡并发提升,预填充阶段算力削减 67%–79.5%。适合做推理服务和 infra 的工程师。详见 Deep Agents 中动态子智能体的引入(LangChain Blog)讲的是智能体编排的下一步。普通 subagent 是主模型一次调一个,小规模可以,但要 spawn 几百个子智能体、或者编排逻辑带条件和多阶段时就崩了。动态子智能体的做法是让智能体写一段简短的脚本去编排和调用子agents,在一个轻量解释器里跑,把循环、分支、并发这些模型本来就擅长的代码模式用上。典型例子是 300 页文档每页一个 subagent——不是调 300 次工具,而是写一个循环。它解锁了基于工具调用的编排难以可靠交付的两件事:大规模和复杂多阶段工作流。适合在搭 agent pipeline 的工程师。详见 如何构建一个能自主运行 LLM 实验的 AI 智能体:autoresearch 实践指南(freeCodeCamp)解析的是 Karpathy 的开源工具 autoresearch。它把一个小而真实的 LLM 训练设置放进单个 Python 文件,让 AI 智能体去编辑这个文件、训练、读 loss、做判断、再循环。Karpathy 在 depth-12 的 nanochat baseline 上跑了大约两天,700 个实验里找到约 20 个真正改进模型的改动,且这些改动可以叠加。文章特别强调衡量成功的指标是关键——用 val_bpb(validation bits per byte)而不是 loss,因为它对不同 token 化方案更鲁棒。适合想动手让智能体跑自己 GPU 实验的读者,文末有完整 step-by-step。详见 World Model-世界模型也有 Scaling Law 吗?(屠龙之术)是一期适合想理清「世界模型」这个热词的播客。主播庄明浩系统对比了世界模型和大语言模型在数据、成本、安全等维度的根本差异,并以即将上市的自动驾驶公司 Momenta 为样本,论证物理世界 AI 的「GPT 时刻」尚未到来。他的终局判断包括:三线合一(视频、3D、具身、自动驾驶会收敛)、不会赢家通吃、GPT 时刻没到。如果你被各种「做世界模型」的说法绕晕了,这期给了一个相对冷静的分类框架。详见 Claude Tag:AI 交互范式的第三次重新设计?(宝玉 @dotey)整合了 Karpathy 和 Gergely Orosz 的观点,分析 Anthropic 新发布的 Claude Tag(在 Slack 里 @Claude 执行任务)。文章指出,真正的突破不是 Slack bot 本身,而是云端 AI 接入了公司内部系统——云端执行环境、持久记忆、工具集成、权限控制,Slack 只是入口。受益人群主要是新员工、非工程师和不熟悉代码库的开发者,而集成难度是产品成败的关键。这篇没有配图,但观点密度够高,适合关注 AI 产品形态和企业落地的读者。详见 3Blue1Brown 创始人:成为二手思考者的高昂代价(跨国串门儿计划)是一期数学科普频道 3Blue1Brown 创始人 Grant Sanderson 的深度对谈。核心是「源头思维」与「传声筒思维」的区分——你是源头,还是传声筒?他坦诚分享了对新颖性的祛魅、对算法的祛魅,以及为什么认为「行动先于动力」。在 YouTube 创作者普遍陷入倦怠和算法焦虑的当下,他靠专注常青内容、不追热点、不做团队,保持了十年的创作热情。这不是教做爆款的内容,而是关于如何在噪声时代做出经得起时间考验的作品的思辨。详见 ## 补充阅读 - 提示词工程悄然出错——提示词回归正是原因所在(Towards Data Science):指出一种「虚假改进」模式——整体准确率上升时关键类别却全面崩溃(v4 整体准确率 67.5% 看似最好,但否定句分类暴跌 66.7%)。文章给出一个零外部依赖、纯 Python、两秒内跑完的回归测试套件,用 40 条 golden queries 跨四个 prompt 版本做确定性校验。适合所有在生产里改 prompt 的人。详见 - AI 智能体如何管理记忆并避免遗忘(ByteByteGo Newsletter):系统讲清智能体记忆这件事的工程本质——模型本身每次都从空白开始,所谓「记住」是平台在每次调用前把上下文塞回去。文章覆盖无状态模型、分层记忆架构、四种功能记忆类型,以及成本、延迟、准确性之间的权衡,还提到 long context 里的「lost in the middle」问题。适合想从零搭记忆系统的工程师。详见 - 把前沿模型效果带到端侧:从大模型原型到小模型生产(AI Engineer):给出一套面向生产的做法——prototype big, deploy small。Rachel Lee Neighbors 论证把不必要的前沿模型调用换成本地或更小的模型,理由不只是 API 花费,还有敏感数据暴露、延迟破坏交互感、断网失效、能耗。关键是先定义黄金数据集和评测,再用 Phoenix 这类工具比较小模型候选直到达到产品门槛。适合在做模型选型和成本优化的团队。详见 - 收购仅一年即「决裂」!创始人贾扬清出走英伟达(AI 前线):剖析英伟达收购 LeptonAI 一年后贾扬清出走事件,揭示两个信号——GPU 可以靠稀缺性卖断货,但 AI Infra 无法复制这种垄断;当 AI 已经能自己写代码、管集群,以「降低工程门槛」为卖点的中间件平台正面临价值危机。文章细节丰富,适合关心 AI 基础设施行业格局的读者。详见 - 架构模式:从云原生迈向本地优先——Adam Wiggins 的见解(InfoQ):Heroku 联合创始人、Ink & Switch 创始人 Adam Wiggins 主张一种「local-first」架构,用 CRDT 兼顾云端的协作能力和本地软件的性能与数据所有权,并探讨混合 AI 未来里小型本地模型在核心生产力任务上的角色,反思对集中式云计算的过度依赖。适合关心架构范式演进的读者。详见 - 第一批一人公司,现在怎么样了?(量子位):通过采访多位独立开发者、创业者和投资人,报道 AI 时代「一人公司」(OPC)的现状、组织形态和上限。文章没有停留在概念炒作,而是落到独立开发者超级峰做 MotiClaw(帮人搭建「AI 员工」)这类具体案例,揭示一个人加一群 Agent 能不能像一家公司那样运转。适合关心 AI 时代个体创业的读者。详见 ## 今日阅读路径 如果你今天时间有限,建议按这个顺序读三篇: 1. Spotify × Honk——它最直接地回答了「智能体落地的卡点在哪」,把抽象的「验证回路」落成了 CI、测试、自动合并这些具体基建,是今天最值得工程负责人和平台团队花时间的一篇。 1. Block × 成熟度六阶段——它给了你一个可以立刻拿来评估自己组织停在哪一档的工具,以及用 champion 撬动多数人的具体打法,和 Spotify 互为表里。 1. Spring AI 生态全景——如果你是 Java 工程师,这篇能把 advisor、guardrail、MCP 这些抽象对应到你现有项目里,是前两篇「验证回路」和「仓库约定」在框架层面的落地。 时间更紧的话,至少把 Spotify 那篇对「验证回路」的拆解读完——它是今天几篇文章共同指向的那个核心问题。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。

译智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

Rohan Paul@rohanpaul_ai · 3天前55

The next marketing fight may be over which brands appear inside LLM-generated recommendations. @Crowdreply_io just introduced an AI search visibility platform that helps brands measure, track, and shape whether ChatGPT, Claude, Gemini, and Perplexity recommend them. Search used to mean ranking a webpage on Google, but AI answers now compress discovery, comparison, and recommendation into one generated response. CrowdReply’s is building around that gap

译CrowdReply.io 推出AI搜索可见性平台,帮助品牌衡量、追踪和塑造在ChatGPT、Claude、Gemini、Perplexity等AI推荐中的可见性。传统搜索是网页在Google上的排名,而AI回答将发现、比较与推荐压缩为单次生成响应。CrowdReply MCP是首个能分析并排名网站在AI搜索中表现的MCP,通过对话定位缺失项并自动处理实施方案。

Alibaba Cloud@alibaba_cloud · 3天前47

The transition to Agentic Cloud has begun. Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shared his perspective on what lies ahead: the next three years will be defined by the rise of the Agentic Cloud, where agents can leverage products and infrastructure to carry out sophisticated tasks. 🔗: https://int.alibabacloud.com/m/1000407809/

译智能体云的转型已经开始。 阿里云CTO兼国际业务总裁李飞飞博士分享了他对未来的看法:未来三年将由智能体云的崛起所定义,智能体可以利用产品和基础设施来执行复杂任务。 🔗: https://int.alibabacloud.com/m/1000407809/

宝玉@dotey · 4天前68

RepoPrompt 已经开源了,社区版(Community Edition)已上线 GitHub。 背后的故事是这样的:几个月前,OpenAI 开发者体验负责人 Romain Huet 找到 Provencher,邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件,要先安排好现有付费用户。于是 Repo Prompt 先免费开放,现在彻底开源。 Repo Prompt 最初只做一件事:帮开发者从代码仓库里挑选文件,拼成一段高质量的 prompt,然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单,但它切中了一个真实痛点:把整个代码库丢给 AI 模型,效果往往很差,超过 32K token 的 prompt 甚至会让模型变笨,你需要精挑细选,只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。 开源版本的变化很大。Provencher 把架构做了一个反转:不再让应用本身去调度 agent,而是让内置的 MCP server 成为主控,底层的命令行工具(Claude Code、Codex、OpenCode、Gemini CLI)变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解,然后把子任务分发给不同的 agent 并行执行,每个 agent 只看自己负责的那部分文件。 为了适应开源协作,很多老版本的手工拼 prompt功能被砍掉了,项目结构也从 Xcode 依赖中解耦出来,不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法,维护一个白名单,之前的付费用户只要同意就自动成为认证贡献者。 目前只支持 macOS,跨平台版本还在开发中,可以通过 Homebrew 安装(brew install --cask repoprompt-ce)。 社区版:https://github.com/repoprompt/repoprompt-ce 老版本:https://github.com/repoprompt/repoprompt-classic

译RepoPrompt 已开源,社区版上线GitHub。作者Provencher被OpenAI招安,条件是为付费用户做好安排:先免费再开源,付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt,解决超32K token使模型变笨的问题,称为“上下文工程”。开源版反转架构:内置MCP server为主控,底层CLI工具可替换,支持推理模型规划并并行分发子任务。目前仅支持macOS,可通过Homebrew安装。

OpenRouter@OpenRouter · 4天前61

Tip: OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models and publishes the results publicly. This informs our AutoExacto meta-benchmark, used by default when routing tool calls. Here, @Parasail_io and @Zai_org rank first: https://openrouter.ai/z-ai/glm-5.2#performance

译提示:OpenRouter 持续在大多数开源权重模型上运行 GPQA 和 TAU-Bench 评测,并公开发布结果。 这些结果用于构建我们的 AutoExacto 元基准,在路由工具调用时默认使用。 以下,@Parasail_io 和 @Zai_org 排名第一:https://openrouter.ai/z-ai/glm-5.2#performance

Rohan Paul@rohanpaul_ai · 5天前64

A Japanese dev spotted the trick: ask Claude Code to automatically Find Skills. Can match your goal to the right tool, using Vercel’s skills CLI across Claude, Codex, Cursor, and Gemini. so install skill like dev tools rather than rewritten by hand

译一位日本开发者发现了这个技巧:让Claude Code自动查找Skills。 可以跨Claude、Codex、Cursor和Gemini,使用Vercel的skills CLI将你的目标匹配到正确的工具。 所以像安装开发工具一样安装skill,而不是手动重写。

Chubby♨️@kimmonismus · 5天前67

BrowserBC, a new open-source project from the ViDA team, explores a more efficient way to run web agents. Instead of using a frontier model for every step of an agent workflow, BrowserBC records a human web flow once with a stronger model, distills it into a reusable skill, and then lets a smaller, cheaper model handle execution. The reported results are notable: on WebArena-Hard, tool calls drop by 27%, while success increases from 60% to 81%. A very good open source project at the right time.

译ViDA 团队开源的 BrowserBC 项目,探索更高效的 web agent 运行方式:先用强模型录制一次人类浏览器操作流程,将其蒸馏为可复用技能,再交给更小更便宜的模型执行。一次录制即可泛化技能。在 WebArena-Hard 上,tool calls 降低 27%,成功率从 60% 升至 81%。

Berryxia.AI@berryxia · 5天前65

周末窝在家里,花半小时学习它吧! 别光刷短视频, 看下Anthropic的上下文管理的视频! 2026年AI DevCon上,Anthropic的Lamis做了一场关于上下文工程的演讲。 整场演讲浓缩了过去一年Anthropic在上下文管理上的所有实践,从最简单的方案到最前沿的架构。 从Claude MD文件开始。 一个纯Markdown文件,放在会话开头,告诉Agent代码库结构、组织信息、个人偏好。 效果出奇地好:Anthropic的原话是"unreasonably effective"。(效果惊人出奇的好) 但问题也明显:文件越来越长,上下文膨胀,管理困难。 第二步是记忆工具。 让Agent自主决定何时读取、何时写入、何时更新记忆。全部在带内完成,也就是在会话上下文中进行。 Anthropic发现,在这种场景下,自主性运作得非常好。Agent比人类更擅长判断什么值得记住。 第三步是Skills。 核心思想是渐进式披露。 Agent只看文件顶部几行前言,决定是否需要加载整个文件。 Lamis的比喻很精准:就像房间里有一个书架,每次有人跟我说话,我扫一眼书单,看有没有相关书籍,然后取下来读。 不需要提前把所有知识塞进上下文。 第四步是文件系统。 把记忆系统建模为普通文件系统,用Markdown文件填充,Agent用bash和grep搜索。 不需要花哨的向量数据库,不需要专门的工具——Agent本来就擅长操作文件系统。 但当这些方案扩展到生产环境,问题就来了。 多个Agent同时写入同一个记忆文件怎么办。一个Agent写入错误信息到组织级上下文,所有Agent都会受影响。记忆过时了怎么办。 有人通过提示词注入向记忆中写入恶意内容怎么办。 Anthropic给出的解决方案是四个原则:版本控制(能回滚)、并发控制(哈希校验)、权限管理(组织级只读、个人级可写)、可移植性(干净的API,跨系统访问)。 然后是最有意思的部分:做梦。 带内记忆有一个根本性局限:Agent既要完成任务,又要管理记忆,这是两个竞争性目标。 而且Agent只能看到当前会话的信息,无法识别跨会话的模式。 做梦是一个带外的异步处理过程。 它取一段时间内的所有会话记录,交给一个专门的Agent分析。 这个Agent查看记忆存储,识别模式,提出更改建议。比如:所有地理学生都答错了同一个问题:说明课程中缺少了某个主题。 所有数学考试的答案都用弧度制而不是角度制,说明工具配置有问题。 做梦本质上是一个批量处理的"校长",审查所有"学生"的作业,发现问题,调整"课程"。 它有自己的专用资源,不和任务执行竞争上下文。 Anthropic已经在生产中运行这套系统。 他们发现:Agent第二次执行任务时做得更好,成本降低(因为能一次性完成),延迟下降。 做梦的额外token消耗被任务本身的效率提升抵消了。 最后Lamis说了一句话值得记住:上下文工程是过去一年才真正发展起来的领域。 模型智能本身不会产生复利:它需要上下文来执行你交给它的具体任务。 而上下文工程的效果是倍增智能,即使模型本身变得更聪明,这个投资依然有价值。

译在2026年AI DevCon上,Anthropic的Lamis介绍了上下文工程演进路径:从纯Markdown的Claude MD文件起步,到记忆工具(Agent自主读写)、Skills(渐进式披露)、文件系统(Markdown + bash/grep搜索)。生产环境中遇到并发写入、权限、注入等问题,通过版本控制、哈希校验、组织级只读/个人可写权限、可移植API解决。最后提出"做梦"——带外异步处理,由专门Agent分析跨会话模式并调整记忆。该机制已投产,可提升任务效率、降低延迟,额外token消耗被效率提升抵消。

elvis@omarsar0 · 5天前61

http://x.com/i/article/2069825847729508352 # Building Agents with Vercel's Eve Framework Vercel recently shipped Eve, an open-source framework for building, running, and scaling agents. The core idea is that you stop hand-rolling the same agent plumbing every time, and start treating an agent as something you can read off disk. This is the practical version of what Eve is, why it matters, and what building with it actually looks like, drawn from the free hands-on lab we just built around it. Below you can read some of my thoughts (written with the help of Claude) after spending a week building with Eve. If you want to try Eve without any setup, we built a free hands-on lab where you drive the real eve CLI in a live terminal with no API key of your own required. You can try it at Introduction to Eve. ## Where Eve comes from Eve comes from a team at Vercel and is open source under the Apache 2.0 license. The official Vercel documentation describes it as a filesystem-first framework for durable backend AI agents, and it is currently in beta, so the APIs can still change before general availability. > "Agents today are where the web was before frameworks, with everyone hand-rolling the same plumbing and nothing carrying over to the next one." The Eve team, Vercel. Introducing Eve, June 17 2026. That is the whole motivation. Durable sessions, a sandbox to run code, approvals, tracing, evals. Every team rebuilds these before their agent does anything useful, and none of it transfers to the next project. Eve ships that infrastructure as the framework, so production is built in from the first run instead of bolted on at the end. ## An agent is just a directory of files The core idea, and the one the lab keeps returning to, is that an agent is not a graph you wire together in code. It is a folder. > "An agent is a directory. A file's name and place in the tree are its definition." The tools an agent can call, the skills it knows, the subagents it delegates to, its schedules, and its evals all live on disk as plain files. You can open the folder and see exactly what your agent is, diff it, commit it, and hand it to a teammate. There is no hidden runtime state to reason about, because the file tree is the state. Two files at the root define the agent itself. agent/instructions.md holds the always-on system prompt, and the optional agent/agent.ts sets the runtime config such as which model to use. Every capability below them, the tools, skills, subagents, connections, channels, and sandbox, is a directory eve auto-discovers by name, so adding one is usually just adding a file. ## The parts you assemble In the lab, each capability is one file you drop into the project, and Eve wires it up with no registration step. Here is what those files actually look like. Tools are the agent's hands. A tool is a typed action the agent can call, defined in a file under agent/tools/. The lab ships save_note.ts. The model decides when to call a tool from its description. Your code decides what happens, and it runs in your app runtime with full access, not in the sandbox. That split is what keeps an agent both flexible and safe. Skills give the agent know-how instead of actions. A skill is a markdown file under agent/skills/, advertised by a one-line description and loaded into context only when a request matches. The lab's filing.md is a few lines. Ask the agent to "log" a note and it loads this skill, files the note, and signs it off with "Filed with eve." that you never asked for. This is progressive disclosure. A support agent can hold dozens of playbooks as skills and pull in only the one the ticket needs, so the prompt stays lean. Subagents let one agent delegate. Every agent gets a built-in agent tool, so the parent can fan three subtasks out at once and gather the results. This is exactly how V routes work across Vercel's fleet of Eve agents. Human-in-the-loop gates the actions that need judgment. Mark a tool needsApproval: always() and the run pauses for a person before it executes, burning no compute while it waits. The pause is durable, so a task can wait on a human for minutes or days and resume right where it stopped. That is the draft0 pattern. Move fast on everything low-risk, and keep a hand on the few actions that ship. Durable sessions are why all of this survives the real world. Every conversation is a checkpointed workflow, so it survives a crash or a deploy and resumes exactly where it stopped. In the lab the agent simply remembers a fact you gave it three messages ago. In production it is an agent whose work starts in Slack and continues on the web days later, with no state-management code that you wrote. Evals prove it still works. An eval drives the real agent through a session and asserts on what happened. Change a prompt or a tool, run the evals, and you catch the regression before your users do. They run locally and in CI, the same way unit tests do. Connections are the way out, and channels are the way in, each a single file. A connection points the agent at an external service, an MCP server or an OpenAPI-style API, and Eve brokers the auth so the model never sees the URL or credentials. A channel puts that same agent in Slack, Discord, Teams, or behind an HTTP API. The agent you built in the terminal is the agent that ships to Slack. You change where it lives by adding a file, not by rewriting it. The pattern is always the same. Drop a file, the agent reads it, behavior changes, and you commit the file alongside your code. ## What this looks like in production This is not a toy. The examples below come straight from Vercel's Eve announcement, where the team describes the fleet of more than a hundred agents they run internally. The lab uses these same agents as the reference for each concept you learn. - d0, an internal data agent, answers around thirty thousand questions a month through a single read-only SQL tool against the warehouse. - Vertex, a support agent, resolves about ninety-two percent of tickets on its own by reaching into the help center and internal tools through connections. - Athena, a sales agent wired to Salesforce and Snowflake, was built in six weeks with no engineers. - draft0 drafts and reviews content, but a human signs off before anything ships. - V sits in Slack, reads each incoming task, and routes it to the agent best suited to answer. Every one of these is the same shape you build in the lab. The difference between the agent in your terminal and the one resolving real support tickets is mostly which files are in the directory. ## A concrete first session You do not start from a blank page. In the lab you launch a working agent in a real terminal and talk to it in plain English. You ask it to build something, say a small welcome.html, and watch it call its write_file tool and save the result to its sandbox, never touching your real machine. Then you hand it the save_note tool above, ask it to file a note, and see it pick the tool on its own from the description. From there the lab layers on a skill, a subagent, an approval gate, an eval, and a connection, one file at a time, until you have walked the whole framework. ## From your laptop to production This is where the filesystem-first bet pays off. > "The same directory runs in production exactly as it ran on your laptop." It is a normal Vercel project. Eve compiles the agent/ directory into an app that runs on Vercel Functions, so the agent you built and tested locally is the agent that deploys. What changes is not your code but the infrastructure underneath it, and each piece maps to a documented Vercel service. - The sandbox graduates. Locally the agent runs in an isolated, bash-style sandbox. In production each agent gets a real isolated Vercel Sandbox, so it can run shell commands and write files without ever touching your application runtime. - Sessions become durable workflows. Eve persists session state on Vercel Workflows, so a run survives a deploy, recovers from a cold start, and can pause on a human approval for minutes or days, then resume exactly where it stopped. The docs put it plainly, sessions "resume after cold starts, deploys, or long pauses." - Schedules and channels go live. Your defineSchedule files start firing on cron, and the channels you added put the same agent in Slack, Discord, Teams, or behind an HTTP API. - Every run is traced. Vercel Observability shows each agent run with its sessions, turns, tools, reasoning, timing, and token usage, with no setup. - Models and auth are handled. Model strings route through AI Gateway with OIDC, so you never manage provider keys, and Vercel Connect brokers OAuth and API keys for your connections. - One agent becomes a fleet. The same shape scales horizontally, which is how Vercel runs more than a hundred of these agents at once, each one just a directory. You do not re-implement anything for production. You deploy the directory, and the framework handles durability, isolation, models, and scale. ## How to get started 1. Scaffold a project. Run npx eve@latest init my-agent to create the project, install dependencies, and start the dev server. You get an interactive agent in your terminal in seconds. Talk to it in plain English. 1. Give it a tool. Add a defineTool file like save_note, ask the agent to use it, and watch it call your code. 1. Teach it a skill. Write a short markdown file with a description that says when to use a procedure. This encodes know-how without writing logic. 1. Delegate with a subagent. Hand off a focused job through the built-in agent tool so your main agent stays clean. 1. Prove it with an eval, then schedule it. Add a defineEval file and a defineSchedule file with a cron line. Now you have a checked, recurring agent. 1. Connect and ship. Add a connection to reach a real service, a channel to put the agent in Slack, then deploy the same directory to Vercel. Here is the takeaway. Eve's bet is that an agent should be a set of files you can read, not a runtime you have to trust. That makes agents inspectable, versionable, and portable, and it moves the hard production concerns into the framework where they belong. If you see any errors or things that need further clarification, don't be afraid to reach out. ## Other Useful References - Eve documentation, the official docs - Eve concepts, how agents, sessions, tools, skills, connections, and sandboxes fit together - Introducing Eve, the Vercel announcement - vercel/eve, the open-source framework on GitHub - Introduction to Eve, our free hands-on lab

译Vercel 开源了框架 Eve,将智能体视为一个目录:`agent/instructions.md` 定义系统提示,`agent/agent.ts` 配置模型等运行时参数;工具(`agent/tools/` 下的类型化文件)、技能(`agent/skills/` 下的 Markdown 文件,按需加载)、子智能体(内置 agent 工具实现委托)和人工审批(`needsApproval` 标记)均以文件形式存放,无需注册步骤。Eve 内置持久会话、沙箱、追踪和评估等生产级基础设施。

向阳乔木@vista8 · 5天前42

装上了 @wey_gu 的nowledge mem,配置了MCP AI对话记忆,还有个人知识库还是挺关键的,等我试试体验下。 下载地址见评论区

译装上了 @wey_gu 的knowledge mem,配置了MCP AI对话记忆,还有个人知识库还是挺关键的,等我试试体验下。 下载地址见评论区

OpenRouter@OpenRouter · 6天前49

In this OpenRouter MCP demo, your agent finds the best model at design: 1. Pulls the top design models from @DesignArena, live, through the MCP 2. Spins up three subagents - GLM-5.2, Opus 4.7, Kimi 2.6 - each designing a self-portrait as a webpage 3. Opens all three for you to compare side by side 4. You choose your favorite

译OpenRouter 通过 MCP demo 展示智能体实时拉取 DesignArena 的顶级设计模型,并启动三个子代理——GLM-5.2、Opus 4.7、Kimi 2.6——各自生成自画像网页,并排展示供用户挑选。引用推文点出普遍痛点:不同模型各有擅长,但逐一注册、加载凭证、重复跑提示词过于繁琐,致 99% 用户只跟风他人推荐。OpenRouter MCP 提供更便捷的对比方式。

Andrew Milich@milichab · 6天前28

Check logs and triage issues with the official Axiom plugin

译使用官方Axiom插件检查日志并分类问题。

OpenRouter@OpenRouter · 6天前50

Example of how to use the OpenRouter MCP to build a model council. Tuned for your codebase and usecase!

译关于如何使用 OpenRouter MCP 构建模型理事会的示例。 针对你的代码库和用例进行了调优!

meng shao@shao__meng · 6天前46

终于让 ZCode 用上 Computer Use 了 给 ZCode 安装了 Cua 这个插件,以下草稿来自 @Zai_org ZCode + @trycua Cua 对 Chrome 的直接操作。 把开源 Computer Use 接进 ZCode,agent 现在能真正操作 macOS:截图、读无障碍树、点击、打字。绕开 Apple Events 权限死结,改走 CGEvent + Accessibility API。 它刚自己算了 7×6=42,又开了 Chrome 导航到微博和 X——就是发这条的浏览器。GUI 四十年都是给人设计的接口,现在正变成 agent 也能直接操作的界面。

译ZCode通过Cua插件接入开源Computer Use,agent可操作macOS:截图、读无障碍树、点击、打字,绕过Apple Events权限,改用CGEvent+Accessibility API。它自行计算7×6=42,并打开Chrome导航到微博和X。GUI正变成agent也能直接操作的界面。

AK@_akhaliq · 6天前44

Confidence-Aware Tool Orchestration for Robust Video Understanding

译面向鲁棒视频理解的自信感知工具编排

🚨 AI News | TestingCatalog@testingcatalog · 6天前44

Google has a hidden MCP integration config on Gemini for macOS but it is yet unclear if MCPs will ever become available over there. Tbh, I am not getting why it is that challenging to simply enable MCPs across Gemini products. It is quite an essential feature that opens up a ton of use cases. It would also let Google to get more data about tool use for training. Why? 👀

译Google 在 Gemini for macOS 上有一个隐藏的 MCP 集成配置,但目前尚不清楚 MCP 是否会在该平台上可用。 说实话,我不明白为什么在 Gemini 产品中直接启用 MCP 如此困难。 这是一个非常重要的功能,可以开启大量用例。 它也能让 Google 获取更多关于工具使用的数据用于训练。 为什么?👀

数字生命卡兹克@Khazix0918 · 6天前57

http://x.com/i/article/2070397668338307072 # 想玩Loop Engineering,可以先从这6个Hook玩法开始。 最近Loop Engineering越来越火了,也有好几个朋友问我,这个东西怎么入手,我们到底应该开始从哪设计一个loop。 这其实是一个非常有意思的问题,如果让我真说一个东西的话,我觉得是我之前文章中反复提到的一个东西。 Hook。 每一个Agent里,几乎都会有Hook这个东西,Claude Code和Codex的自动化里面,背后也都有。 loop的意思是循环,那我们任何循环,其实都有一个最基础最初始的东西,就是触发器,也就是如果你触发了某某动作,就会去执行某某命令。 其实非常像现在我们家里的一些智能家居,比如到了10点,窗帘就拉开,比如识别到我出门了,就关闭家里的所有的灯,等等等等。 这个触发的条件,就是一个Hook。 生活中也到处都是Hook,比如到公司,手机自动切换工作模式,早上闹钟到点了自己响,这些全是Hook。 Agent里面也是如此,你可以通过给Hook设置特定的规则,自动化做很多事。 比如让AI在编辑修改文件前,先检查命令有没有风险。 代码修改完毕后,自动跑lint检查质量。 以及跑长任务的时候,你切到别的页面干别的事,它干完了发推送告诉你。 当然,Hook的用途远远不止这些。 在Claude Code里也一样,把Hook挂在那些你关心的时刻上,提前设好什么时候做什么。 事情一来,它自己跑。你不在屏幕前也没关系。 打开Claude Code,在底部输入/hooks,会看到这个界面。 按下回车后,他会列出所有可用的Hook事件。 我记得年初看的时候只有13个,现在有将近30个了,翻了一倍多。 不过别被30这个数字吓到,我们日常真正会用到的,可能也就常用的那几个。 这里,我也整理了6个我觉得比较好玩的Hook玩法,希望抛砖引玉,能够给大家一些思路。 一、权限弹窗提醒 可能很多朋友都遇到过这种情况,不敢给Claude Code下了指令,切到别的页面干别的事。 过了十分钟回来一看,还没开始执行,卡在了请求权限那一步。 其实只需要跟Claude Code说一句: 帮我配置一个通知的Hook,每当需要我授权的时候,调用系统自带的工具给我来一个弹窗提醒。 发送给AI,它就会帮你配好了。 配完之后可以让Claude Code测试一下。当需要授权时,右上角会弹出提醒。再也不怕切走窗口时,AI卡住不动,白白浪费时间了。 这时候肯定会有人问了,那每次授予权限的时候都会弹窗提醒,那岂不是很浪费Token。 绝大多数的Hook,其实本质上就是个代码,是个写死的规则脚本,所以在运行的时候,跟AI几乎没有啥关系,所以是也不会耗啥Token。 当然,Hook能做的远不止弹个窗,还有其他我觉得更好玩、更有意思的。 二、开机日程播报 我们有时候打开Claude Code,看到的就是一个冰冷冷的界面,不好玩。 那你就可以在对话框输入: 帮我创建一个会话开始的Hook,每当我打开或恢复Claude Code的时候,输出一段元气满满的问候。告诉我北京朝阳区今天的天气,会不会下雨、要不要带伞,调用飞书CLI拉出当天的日程安排,内容要有趣一些。 重新打开Claude Code后,就自动弹出这个提醒,让原本枯燥的终端,多了点温度。 当然这只是一个前菜。 接下来这个,是我觉得最实用的一个。 三、摘要卡片 有天晚上,我想找Claude Code上周帮我改的一个方案,翻了半小时聊天记录,没找到。。。 我坐在那想了很久,我那天到底让它帮我干了什么,想了好久也没想起来。 因为每天我的Agent用的太碎了,我手上起码现在有4~5个是我长期在迭代的项目,有的时候经常会并行跑,甚至AIHOT这样的大型一点的项目,有时候是开着分支就并行着三个。 所以我经常就是确认完你的确认你的,来来回回,化身Agent鸡排哥,一天下来,你自己甚至都不一定记得今天到底发生了什么。。。 而且很多真正有价值的结论,都藏在那些长对话里,一旦上下文被压缩了,或者我一个/claer命令,后面再想找,就非常痛苦。 所以我做了个Hook,直接把这段话发给他: 帮我编写一个Hook,当上下文处于预压缩时,生成一张摘要卡片,记录当前上下文的概要内容,方便我后续查看,将文件保存到一个跨项目也可以查看的地方,总结完毕后打印到Claude Code中,方便我查看。 之后,在上下文快被压缩、还没丢掉的时候,他就会赶紧生成一张摘要卡片。 这玩意的意义还是很大的,聊天记录太长,回看成本极高,你根本不想翻。 但这不一样,它其实是一张AI替你写的工作日记。 以后你想找某天做过什么,不用翻几万字对话,翻这些看就行,一两分钟就能看完一天到底干了些啥。 能大大释放你的脑容量空间,非常好用,甚至还可以再加一个定时Hook,比如,每周五的时候,再把这些摘要日记,自动写成一个周报。 这个价值,你懂的。 四、文件自动整理 还有一个Hook的玩法我自己特别喜欢。 就是前段时间的时候,我整理电脑里面的下载文件夹,那玩意贼乱,截图、文档、PDF全混在一起,每次找东西都得翻半天。 然后我突然想到,为啥不让Claude Code帮我干这事呢,我自己每次手动整理,也太蠢了。 所以,我就做了一个Hook,逻辑特别简单,指定一个文件夹,每次有新文件丢进来,它自己看一下这是什么、内容是什么,然后自动重命名,再挪到该去的地方。 不过文件整理这件事,光靠简单代码搞不定,所以这里用了一个组合技,Hook+Skill。 Claude自己有个比喻我觉得特别准,Hook是门铃,Skill是开门以后真正干活的人。 门铃响了,说明有新东西来了。但来了以后怎么处理,还是需要模型的能力的,比如识别文件内容、判断归哪一类、按规则重命名、挪到对应文件夹等等等等,这些,靠的还是Skill最方便。 Skill也非常简单,你直接用嘴让Claude Code给你写就行了,因为每个人的需求不一样,所以还是写一个自己的是最好的。 这个Hook设置好以后,你只需要不关Claude Code,然后呢,它就会在后台帮你悄悄盯着那个文件夹。 但凡有一个新文件进来,等几秒确认传完了,它就开始干活,然后帮你自动处理完。 不管是PDF还是图片,它都能自己识别内容,会议纪要归到会议那栏,发票归到报销那栏,截图还会按内容起个看得懂的名字,然后帮你挪到对应文件夹。 整个过程你什么都不需要做,你只需要把文件丢进去了,然后它自己就整理好了。 这种感觉太爽了。 你想想看,这个模式不只我这种乱七八糟的下载文件夹整理能用。 盯着比如工作项目文件夹也行,新文件按客户名和日期自动重命名等等,有很多种自动化的变体玩法,很有意思。 五、久坐提醒 AI替你干活的感觉很爽,但他有一个副作用,就是太爽了,一坐就是十几个小时。 上周有一天,我早上九点打开Claude Code,想修一个小功能。 等我再抬头,下午四点了。 我那一刻,真的感觉回到了我十年前在学校打《文明6》的感觉。 然后我发现,这事不是我一个人,很多用AI写代码的人都这样。 以前沉迷打游戏,现在沉迷Vibe Coding。 所以,我当时就想,做一个久坐提醒的小东西,虽然Apple Watch也有久坐提醒,每隔一小时提醒一次,但在Vibe Coding上头的时候,有的时候不太感受的到。 所以,既然长期坐在电脑前,直接在电脑上推送不就行了。 于是简单描述了一下需求,只要我启动了Claude Code之后,只要过了一个小时,Claude Code就会给我发通知提醒我休息了。 健康还是很重要的,身体才是革命的本钱,Vibe Coding上头的时候,你根本想不起来需要站起来活动,有这么一个小提醒,还是很管用的。 这里也提醒大家,让AI帮你提高效率的同时,也要多多保重身体,坐久了就起来活动一下。 后面我其实还想做一个硬件,就是更加强制性的那种。。。 比如,直接给我把键盘关了之类的,强制站起来= = 六、长任务完成推送 然后还有一个我自己的刚需。 昨天去录了一趟严敏老师的综艺,在开始之前,我让Claude Code帮我做一个比较大的功能,场上要用的,而且还有点急的那种。 我坐在电脑前,看着它一行一行地出结果,看起来一切正常,就忙别的事去了,十几分钟后突然想起来,不知道有没有开发完,然后就回到电脑前一看,还在跑。 来来回回折腾好几轮。 我就想,得让它干完活了直接叫我。 于是让Claude Code帮我研究了一下,看看有没有什么办法能让它干完活了通知我一下,最好是可以和常用软件提示音区分开的。 然后它就跟我说了Bark。 这是AppStore直接下载就能用的推送工具。 免费,也不需要注册,装完给你一个推送用的链接,让AI帮你配置进去就行了。 于是我顺手让Claude Code帮我写了个调用Bark的Hook。 这下就舒服了。 手机和手表同时收到消息,还可以自定义推送声音,跟微信、飞书、短信这些区分开,一听声音就知道AI干完活了,可以切回去查看成果了,而且还是中文。 这个体验真的很爽。 有了这个,你就可以放心离开电脑去干别的事,根本不用惦记着切回来瞄一眼。 这个玩法也特别容易扩展,比如任务成功了发个轻松的提示音,任务失败了发个明显的提示音,让你知道要回去看看。 需要输入的时候,推送里直接写清楚它在等什么。 写在最后 未来越来越多的AI工作流,我觉得一定是事件驱动的。 新的一天开始了,它帮你启动,文件出现了,它去处理,上下文快满了,它先归档,任务完成了,它来通知,一天结束了,它自动总结。 包括现在Github上,很多项目是用Agent监控问题,别人提出了问题,它就调用Agent自动去修,修完了自动推送,推送完自动回复。。。 这件事一点都不玄乎,就是让AI从一个被动聊天框,慢慢变成你工作生活的一部分。 当然,我也不建议大家一上来就搞得太复杂。 Hook一旦开始接入真实工作流,就一定要注意稳定性和边界,尤其是涉及文件移动、删除、重命名、填表这种动作,别一上来就让它在你的重要文件夹里横冲直撞。 但只要你把边界设计好,它真的会非常好用。 Prompt解决的,是一次对话。 Skill解决的,是一类能力。 Hook解决的,是一个时刻。 从对话,到能力,到时刻,再到循环。 AI越来越成为一个替你运转的系统。 让你有时间,去做更有趣的事情。

译Hook 是 Claude Code 的触发器,可设置规则让 AI 自动执行操作,不消耗 Token。当前支持近 30 个 Hook 事件。文章整理了 6 种玩法:权限弹窗提醒、开机日程播报、上下文预压缩时生成摘要卡片、文件自动整理、久坐提醒,以及通过 Bark 工具向手机发送完成推送。

Rohan Paul@rohanpaul_ai · 7天前60

Microsoft just turned Copilot in Excel into a finance workflow system So it can follow team-defined methods, pull institutional data, and leave an audit trail for every workbook edit. The new connectors bring finance data from FactSet, Morningstar, PitchBook, CB Insights, Daloopa, and S&P/Kensho into Excel, which means analysts can start from licensed market, private-company, filing, research, transcript, and fundamentals data instead of copying numbers by hand. For Finance work its so important for AI to show the source, the formula path, or the exact cells it changed, because closing books, updating forecasts, and building valuation models depend on traceable numbers. Microsoft’s answer is skills, where a team writes a SKILL.md file that tells Copilot how to run repeatable jobs like DCF models, 3-statement models, board packages, variance analysis, and monthly reporting. Personalization and workbook rules make Copilot follow preferred formatting, naming, structure, and formula conventions, so the AI behaves less like a generic assistant and more like a junior analyst trained on the team’s house style. Plan with Copilot forces the model to state which ranges, sheets, formulas, and assumptions it wants to touch before it edits, while Show Changes now labels Copilot’s edits beside human edits.

译微软为 Copilot in Excel 新增 FactSet、Morningstar、PitchBook 等数据连接器,支持团队通过 SKILL.md 定义 DCF 模型、三表模型等可重复任务。Copilot 可遵循团队设定的格式、命名和公式规则。Plan with Copilot 强制模型在编辑前声明操作范围与假设,Show Changes 则标记 AI 与人工编辑。CEO Satya Nadella 称此举可通过 skills 扩展团队专业知识。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
03:05
🚨 AI News | TestingCatalog@testingcatalog
63
Vellum 在 Slack 中上线智能体间通信功能,每个智能体独立携带用户的历史记录、偏好和上下文。多个智能体可以拆分任务、协商日期、从团队收集输入,权限默认隔离,仅在任务需要时共享。测试中,两个智能体在一天内为 19 人的团队完成了 offsite 活动规划。该功能旨在实现自主协作的 AI 同事。

Marina · vellum.ai 👾: Today, we launched agent-to-agent conversations in Slack to give you real AI coworkers. Vellum assistants now talk to ea...

智能体MCP/工具产品更新
02:35
Ethan Mollick@emollick
48
Fable:"你有 Unity 和 MCP 的访问权限。我要你构建一个游戏,它是 FPS 的独特变体。你要让玩家说'哇'和'太聪明了',并享受核心玩法循环" WebGL: https://swapshot-void.netlify.app/ * 它没有资产,所以图形是程序生成的

Ethan Mollick: *Cracks knuckles*

智能体MCP/工具教程/实践
7月2日
21:37
Rohan Paul@rohanpaul_ai
52
Arcads 将 Slack 转化为 AI 广告工作室,用户可直接在 Slack 内创建广告、研究竞争对手并生成创意。支持 Claude Tag(@Claude 跨频道跨工具委派任务)和 MCP(让 Claude 从 Slack 安全调用 Arcads 技能)。同一界面可调用 Veo 3.1、Kling Motion Control、Nano Banana、Sora 2 Pro 等视频生成工具。官方宣布 Claude x Arcads in Slack 即日上线,用户可在 Slack DM 中获取病毒式广告。

arcads AI: Introducing Claude x Arcads in Slack: Get viral ads in your Slack DMs Available today for all Arcads users

AnthropicMCP/工具产品更新视频
10:05
Rohan Paul@rohanpaul_ai
69
MCP Server架构模式论文:LLM集成应用工具设计需遵循5种模式、避免4类错误

该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

arXivMCP/工具论文/研究部署/工程
06:01
Perplexity@perplexity_ai
37
Claude Fable 5 再次可在 Computer 中作为编排模型使用。
AnthropicMCP/工具产品更新
00:23
凡人小北@frxiaobei
34
飞书 Aily:普通人也能轻松驾驭的 AI 助手

推文推荐飞书 Aily,称其对普通人已足够好用。Aily 理解飞书全套数据,通过 MCP 连接外部系统,能自主调用工具,覆盖生态内各类任务。相比需要精细控制的 CLI,Aily 对话交互即可满足多数需求。引用推文则强调,用好飞书文档(类比20年前的 Office)和 AI 调用飞书 CLI,是学渣保住空调房工作的机会。两者共同指向飞书生态内 AI 工具的实用价值。

plantegg: 如果你是一个学渣,马上大学毕业,大学也差/专业也差,大概率找不到送外卖以外的工作的话,强烈建议你好好学习用好飞书文档,这大概就是 20 年的的 office,是你留在空调房最好的机会 顺便要是会用 AI 来调用飞书 cli 就基本不怕没工作...

智能体MCP/工具大佬观点
00:02
Andrew Milich@milichab
67
构建一个连接到你的日程应用、知识库以及任意自定义MCP或API的语音智能体 附带了电话号码,可以开始使用! 【引用 @xai】

xAI: Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...

智能体MCP/工具xAI产品更新
7月1日
14:21
向阳乔木@vista8
41
MCP、API、CLI 三种 Agent 工具调用方式对比

MCP、API、CLI 本质都是让 Agent 调用工具的方式。MCP 是唯一在协议层考虑“人在回路”的方案,支持回传会话、UI 嵌入、等待人操作等。API 凭借接口描述、可读状态等元信息,适合 90% 场景。CLI 目前因 bash 可组合性强、本地调试方便而最好用,但长期是死路:需 Unix shell 环境,有依赖问题,易因等待人类输入卡死。

Rhys: http://x.com/i/article/2070358283723141120

智能体MCP/工具现象/趋势
11:37
小互@xiaohu
71
WordPress 发布 WPVibe 插件,让 Claude 接管网站管理

WordPress 推出 WPVibe 插件,连接网站后即可让已付费的 Claude 等 AI 通过自然语言直接管理整个系统,包括文章、媒体、SEO、主题及主题文件。无需二次 AI 订阅或本地安装,自带 40+ WP-CLI 命令的 MCP 工具箱,支持写文章、改页面、传图片、管理插件和主题、网站健康检查(如插件冲突、PHP 版本、性能问题),甚至可搭建新主题。

智能体MCP/工具产品更新
06:05
elvis@omarsar0
46
MCP服务器五大模式论文发布

Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。

MCP/工具论文/研究
05:20
Chubby♨️@kimmonismus
56
能规划但付不了钱的智能体只是昂贵的聊天机器人。 无需账户,无需API密钥,无需人工介入。 智能体发送请求,用USDC支付,取回数据。这才是真正的创新。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具大佬观点
04:31
Rohan Paul@rohanpaul_ai
65
Acti 将 AI 智能体嵌入手机键盘,输入框即工作流

Acti 把 AI 智能体直接放在手机键盘的文本输入区。用户输入意图后长按 Acti 空格键,AI 读取需求并调用相应应用或服务,在同一输入框内返回地图链接、餐厅推荐、体育对比、回复草稿、提醒或 Notion 页面等结果。该方案无需单独的聊天机器人应用,键盘成为 AI 与真实工作流交汇的界面。此外还有 Skill Key 系统,可绑定按键(如按住 N 打开 Notion,按住 L 查看 LinkedIn 资料)。最实用的演示是地图:输入“时代广场星巴克位置”,长按空格即可获得地图链接和可发送的消息,无需打开地图 App。

智能体MCP/工具产品更新
02:28
ClaudeDevs@ClaudeDevs
79
Claude Sonnet 5 已推出。 以 Sonnet 定价提供顶级编码和工具使用性能,并拥有 1M 上下文窗口。 它已成为 Pro 用户 Claude Code 的新默认模型,并可在 Claude 平台所有位置使用,包括 API 和托管智能体。

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

AnthropicMCP/工具模型发布编码
关联讨论 12 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)
02:28
Claude@claudeai
73
介绍 Claude Sonnet 5,这是迄今为止最具智能体能力的 Sonnet。 它会制定计划、使用浏览器和终端等工具,并以几个月前还需要更大、更昂贵模型才能达到的水平自主运行。
智能体AnthropicMCP/工具模型发布
关联讨论 12 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)
00:00
Rohan Paul@rohanpaul_ai
60
智能体擅长决定下一步行动,但缺乏获取所需工具的能力。x402与Apify的网页自动化工具合作解决了这一难题:通过x402,代理此前可购买约2,000个工具;现与Coinbase合作升级,工具数量10倍增至20,000+,且无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
6月30日
23:27
🚨 AI News | TestingCatalog@testingcatalog
48
Apify与Coinbase合作,将超过20,000个Web自动化Actors接入x402生态系统。AI智能体可自主发现、支付并运行这些工具:调用Actor时收到HTTP 402状态码,通过Base链上的USDC完成支付后立即执行。此前x402生态仅有约2,000个工具(来自@apify),此次合作将可用工具数量提升10倍,无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
23:05
elvis@omarsar0
53
自主智能体可规划和调用API,但无法获取未授权工具。x402协议与Apify的20,000+个Actors解决了这一缺口。此前智能体仅可通过x402购买约2,000个工具,如今Apify与Coinbase合作,将其10倍扩展至20,000+个,为自主智能体提供最大的网络自动化工具市场。无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
23:00
meng shao@shao__meng
74
Flowith 推出「Matrix」:Agent 公司的操作系统,用户定使命,多Agent部门长期运转

Flowith 团队发布「Matrix」,定位为自演化、多层级的 multi-agent runtime。用户设定使命后,Matrix 通过 CEO Office → OKR 分解任务,驱动多个 Agent 部门(Research/Engineering/Growth/Product)并行执行,并以 proof(文件、上线页面、收入等)闭环。架构包含 Runtime 层(独立 browser/工具/记忆,支持 Neo/Claude Code/Codex,超长时运行)和公司原语(网站部署、Stripe 收款、Agent Wallet、Agent Email)。macOS 客户端已上线,Web 版 coming soon。在 44 个职业真实知识工作的 GDPval-Bench 上,Matrix(GPT 5.5 + harness)得分 95.45%。此前有限 beta 中用户已创建数万个零人公司。

Matrix: what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...

智能体MCP/工具产品更新
21:57
🚨 AI News | TestingCatalog@testingcatalog
35
Bloome 推出了面向智能体团队的即时通讯平台! 智能体可以互相起草、反驳、交叉核对细节,并不断完善输出,直到准备就绪。Claude、ChatGPT 和 DeepSeek 等模型可以与编码智能体以及 @Bloome_im 中构建的自定义智能体并排运行。
智能体MCP/工具产品更新
15:19
AYi@AYi_AInotes
63
X 官方推出托管 MCP,支持 Grok、Cursor、Claude 等工具零部署调用 X API

X 官方推出托管 MCP,使 Grok、Cursor、Claude 等 MCP 兼容 AI 工具无需部署即可直接调用 X API,获取搜索、时间线、书签、发文等实时数据,全程走用户权限。该服务并非免费,采用 X Developer App 按量计费模式,读帖和发帖各有单价,重度 Agent 使用容易导致账单失控;写操作限流比读操作更严格,易触发 429 错误。建议开发者先在后台设定消费上限,从小流量测试后再放量。

Developers: Announcing the hosted X MCP. Agents now have access to the best real-time information source in the world. Connect Grok,...

MCP/工具产品更新搜索
13:24
歸藏(guizang.ai)@op7418
精选75
X(Twitter)发布 hosted X MCP,AI 智能体可直连 X API

X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。

Developers: Announcing the hosted X MCP. Agents now have access to the best real-time information source in the world. Connect Grok,...

智能体MCP/工具产品更新

推荐理由:X官方推出的MCP让AI代理能直接读取Twitter数据,归藏实测了定价和配置流程,1美元可调用1000次个人数据,比官方公告更实在,依赖Twitter信息的开发者可以立刻上手。
08:27
Berryxia.AI@berryxia
76
Cursor iOS 版本正式来了,这下可以随时随地Vibe Coding了啊! 还有75折的优惠使用Composer 2.5 模型!

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

MCP/工具产品更新编码
关联讨论 1 条Cursor Blog
08:26
ginobefun@hongming731
55
BestBlogs 早报:智能体落地两大卡点--验证回路与组织成熟度,Spotify、Block、Spring AI 各给解法

智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

智能体MCP/工具现象/趋势部署/工程
01:28
Rohan Paul@rohanpaul_ai
55
CrowdReply.io 推出AI搜索可见性平台,帮助品牌衡量、追踪和塑造在ChatGPT、Claude、Gemini、Perplexity等AI推荐中的可见性。传统搜索是网页在Google上的排名,而AI回答将发现、比较与推荐压缩为单次生成响应。CrowdReply MCP是首个能分析并排名网站在AI搜索中表现的MCP,通过对话定位缺失项并自动处理实施方案。

CrowdReply: Today we're introducing the CrowdReply MCP. The first ever MCP that analyzes and ranks your website in AI search. Simply...

MCP/工具产品更新
6月29日
17:01
Alibaba Cloud@alibaba_cloud
47
智能体云的转型已经开始。 阿里云CTO兼国际业务总裁李飞飞博士分享了他对未来的看法:未来三年将由智能体云的崛起所定义,智能体可以利用产品和基础设施来执行复杂任务。 🔗: https://int.alibabacloud.com/m/1000407809/
智能体MCP/工具大佬观点
05:57
宝玉@dotey
68
RepoPrompt 已开源,社区版上线GitHub

RepoPrompt 已开源,社区版上线GitHub。作者Provencher被OpenAI招安,条件是为付费用户做好安排:先免费再开源,付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt,解决超32K token使模型变笨的问题,称为“上下文工程”。开源版反转架构:内置MCP server为主控,底层CLI工具可替换,支持推理模型规划并并行分发子任务。目前仅支持macOS,可通过Homebrew安装。

宝玉: RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

GitHubMCP/工具OpenAI开源/仓库
01:49
OpenRouter@OpenRouter
61
提示:OpenRouter 持续在大多数开源权重模型上运行 GPQA 和 TAU-Bench 评测,并公开发布结果。 这些结果用于构建我们的 AutoExacto 元基准,在路由工具调用时默认使用。 以下,@Parasail_io 和 @Zai_org 排名第一:https://openrouter.ai/z-ai/glm-5.2#performance
MCP/工具产品更新推理
6月28日
06:26
Rohan Paul@rohanpaul_ai
64
一位日本开发者发现了这个技巧:让Claude Code自动查找Skills。 可以跨Claude、Codex、Cursor和Gemini,使用Vercel的skills CLI将你的目标匹配到正确的工具。 所以像安装开发工具一样安装skill,而不是手动重写。
MCP/工具教程/实践编码
06:08
Chubby♨️@kimmonismus
67
BrowserBC开源:人类浏览器轨迹转可复用技能

ViDA 团队开源的 BrowserBC 项目,探索更高效的 web agent 运行方式:先用强模型录制一次人类浏览器操作流程,将其蒸馏为可复用技能,再交给更小更便宜的模型执行。一次录制即可泛化技能。在 WebArena-Hard 上,tool calls 降低 27%,成功率从 60% 升至 81%。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体MCP/工具开源/仓库
01:22
Berryxia.AI@berryxia
65
Anthropic Lamis谈上下文工程实践:从Claude MD到"做梦"机制

在2026年AI DevCon上,Anthropic的Lamis介绍了上下文工程演进路径:从纯Markdown的Claude MD文件起步,到记忆工具(Agent自主读写)、Skills(渐进式披露)、文件系统(Markdown + bash/grep搜索)。生产环境中遇到并发写入、权限、注入等问题,通过版本控制、哈希校验、组织级只读/个人可写权限、可移植API解决。最后提出"做梦"——带外异步处理,由专门Agent分析跨会话模式并调整记忆。该机制已投产,可提升任务效率、降低延迟,额外token消耗被效率提升抵消。

智能体AnthropicMCP/工具教程/实践
6月27日
23:29
elvis@omarsar0
61
Vercel 发布开源框架 Eve(Apache 2.0,beta),用于构建持久化 AI 智能体

Vercel 开源了框架 Eve,将智能体视为一个目录:agent/instructions.md 定义系统提示,agent/agent.ts 配置模型等运行时参数;工具(agent/tools/ 下的类型化文件)、技能(agent/skills/ 下的 Markdown 文件,按需加载)、子智能体(内置 agent 工具实现委托)和人工审批(needsApproval 标记)均以文件形式存放,无需注册步骤。Eve 内置持久会话、沙箱、追踪和评估等生产级基础设施。

智能体MCP/工具产品更新开源/仓库
16:40
向阳乔木@vista8
42
装上了 @wey_gu 的knowledge mem,配置了MCP AI对话记忆,还有个人知识库还是挺关键的,等我试试体验下。 下载地址见评论区
MCP/工具产品更新
06:17
OpenRouter@OpenRouter
49
OpenRouter 通过 MCP demo 展示智能体实时拉取 DesignArena 的顶级设计模型,并启动三个子代理--GLM-5.2、Opus 4.7、Kimi 2.6--各自生成自画像网页,并排展示供用户挑选。引用推文点出普遍痛点:不同模型各有擅长,但逐一注册、加载凭证、重复跑提示词过于繁琐,致 99% 用户只跟风他人推荐。OpenRouter MCP 提供更便捷的对比方式。

jacky: diff models are good at diff things, but how many of us actually compare them? you sign up for each provider separately,...

智能体MCP/工具教程/实践
03:22
Andrew Milich@milichab
28
使用官方Axiom插件检查日志并分类问题。

Neil Jagdish Patel: Axiom skills available in Grok Build 🔨

MCP/工具xAI产品更新
02:46
OpenRouter@OpenRouter
50
关于如何使用 OpenRouter MCP 构建模型理事会的示例。 针对你的代码库和用例进行了调优!

Lennox Saint: @jjacky @OpenRouter 🫡 can confirm: it rocks.

智能体MCP/工具教程/实践
6月26日
21:53
meng shao@shao__meng
46
终于让ZCode用上Computer Use了

ZCode通过Cua插件接入开源Computer Use,agent可操作macOS:截图、读无障碍树、点击、打字,绕过Apple Events权限,改用CGEvent+Accessibility API。它自行计算7×6=42,并打开Chrome导航到微博和X。GUI正变成agent也能直接操作的界面。

智能体MCP/工具教程/实践
20:26
AK@_akhaliq
44
面向鲁棒视频理解的自信感知工具编排
MCP/工具多模态论文/研究
18:16
🚨 AI News | TestingCatalog@testingcatalog
44
Google 在 Gemini for macOS 上有一个隐藏的 MCP 集成配置,但目前尚不清楚 MCP 是否会在该平台上可用。 说实话,我不明白为什么在 Gemini 产品中直接启用 MCP 如此困难。 这是一个非常重要的功能,可以开启大量用例。 它也能让 Google 获取更多关于工具使用的数据用于训练。 为什么?👀
GoogleMCP/工具行业动态
15:10
数字生命卡兹克@Khazix0918
57
Claude Code Hook 六大玩法:从自动化日程到异步通知

Hook 是 Claude Code 的触发器,可设置规则让 AI 自动执行操作,不消耗 Token。当前支持近 30 个 Hook 事件。文章整理了 6 种玩法:权限弹窗提醒、开机日程播报、上下文预压缩时生成摘要卡片、文件自动整理、久坐提醒,以及通过 Bark 工具向手机发送完成推送。

智能体AnthropicMCP/工具教程/实践
04:23
Rohan Paul@rohanpaul_ai
60
微软将 Excel Copilot 转变为金融工作流系统

微软为 Copilot in Excel 新增 FactSet、Morningstar、PitchBook 等数据连接器,支持团队通过 SKILL.md 定义 DCF 模型、三表模型等可重复任务。Copilot 可遵循团队设定的格式、命名和公式规则。Plan with Copilot 强制模型在编辑前声明操作范围与假设,Show Changes 则标记 AI 与人工编辑。CEO Satya Nadella 称此举可通过 skills 扩展团队专业知识。

Satya Nadella: Today we're bringing skills to Copilot for Excel, giving teams a new way to scale their expertise across every workbook.

MCP/工具Microsoft产品更新
‹ 上一页
123…17
下一页 ›