AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 658 条
全部一手资讯X论文
标签「MCP/工具调用」清除
小互@xiaohu · 5月6日63

嫌弃你的Codex 宠物太丑? 这个项目能帮你,它能给你的 Codex 换“终端小宠物” Petdex:一个Codex Pets 的宠物商店 你可以预览、下载、提交各种可以在 Codex 里使用的动态小宠物 用法很简单,选择你喜欢的宠物比如: npx petdex install boba 意思就是把一个叫 boba 的宠物装到你的 Codex 里... 然后你可以在 Codex 里进入 Settings → Appearance → Pets 选择宠物,也可以用 /pet 命令唤出或收起宠物。

译Petdex是一个专为Codex设计的宠物商店项目,允许用户更换终端小宠物。用户可预览、下载和提交各种动态宠物,通过命令行工具如'npx petdex install <宠物名>'快速安装。在Codex中,可通过Settings → Appearance → Pets界面选择宠物,或使用/pet命令唤出或收起宠物,实现个性化终端体验。

meng shao@shao__meng · 5月6日72

OpenAI Codex App 完全入门指南(5月最新版) 入门指南 + 7 天上手实战计划 + Cursor/Claude Code 平滑迁移教程 https://youtu.be/MQlCBlO_S14?si=LdOxesmyo892uLbR

译作者发布了最新的OpenAI Codex App完全入门指南,涵盖入门教程、7天实战计划以及从Cursor/Claude Code的迁移指导。为方便预览,已使用@editframe Skills工具制作了介绍视频并先行分享。由于将Markdown格式整理为X Article较为耗时,指南将先于公众号发布,后续再适配X Article格式。

Tencent Hy@TencentHunyuan · 5月6日76

Two weeks after release, Hy3 preview is #1 on @OpenRouter's weekly leaderboard with 3.66T tokens processed, up 298% week-over-week. #1 in overall usage, tool calls, and coding. 15.4% market share across all providers.🏆 Top apps running Hy3 preview: Hermes Agent, Claude Code, Kilo Code, OpenClaw, Cline.@NousResearch @claudeai @kilocodehq @openclaw @cline Huge thanks to every developer building with it. 🙏 Try it on OpenRouter: https://openrouter.ai/tencent/hy3-preview:free

译发布两周后,Hy3预览版以3.66T处理量在@OpenRouter周榜位列第一,周环比增长298%。 在总使用量、工具调用和编程领域均排名第一。全平台市场占有率达15.4%。🏆 运行Hy3预览版的热门应用:Hermes Agent, Claude Code, Kilo Code, OpenClaw, Cline。@NousResearch @claudeai @kilocodehq @openclaw @cline 衷心感谢所有基于此开发的开发者。🙏 请在OpenRouter上试用:https://openrouter.ai/tencent/hy3-preview:free

Berryxia.AI@berryxia · 5月6日64

我特么信你个鬼!!! 又是中国的小伙发财日记!!!

译一位中国开发者基于Claude Sonnet 4.6创建了由7个智能体组成的全自动化系统,专为小城镇无网站的小微企业提供落地页服务。系统通过Claude Code Router协调,每日扫描约220家企业并筛选30个潜在客户,自动生成诊断报告、制作落地页与宣传视频,并通过多渠道发送个性化营销信息。整个过程无需人工干预,仅在单笔交易超3000美元或回复率低于12%时通知开发者。该系统每月可服务约47家企业,每单收费400美元,显著降低了传统网页设计的成本与人力投入。

Peter Steinberger 🦞@steipete · 5月6日68

Me and codex were busy. 🔊 http://sonoscli.sh — Sonos 🗃️ http://wacli.sh — WhatsApp 🪶 http://birdclaw.sh — X archive 🧰 http://gitcrawl.sh — GitHub archive 🛰️ http://discrawl.sh — Discord archive 🎧 http://spogo.sh — Spotify 💬 http://imsg.sh — iMessage 🧳 http://mcporter.sh — MCP to CLI 🗣️ http://sag.sh — ElevenLabs voice 🧿 http://askoracle.sh — second opinion Upgrading the 🦞 OpenClaw army.

译我和codex正忙着。 🔊 http://sonoscli.sh — Sonos 🗃️ http://wacli.sh — WhatsApp 🪶 http://birdclaw.sh — X存档 🧰 http://gitcrawl.sh — GitHub存档 🛰️ http://discrawl.sh — Discord存档 🎧 http://spogo.sh — Spotify 💬 http://imsg.sh — iMessage 🧳 http://mcporter.sh — MCP转CLI 🗣️ http://sag.sh — ElevenLabs语音 🧿 http://askoracle.sh — 第二意见 升级🦞 OpenClaw大军。

meng shao@shao__meng · 5月6日80

Warp 团队这是要把开源进行到底了,在 Warp、Doc 开源后,又把团队用于加速工作流的 Oz Skills 开源了 @warpdotdev 👏🏻👏🏻 # Warp 团队的 15 个 Skills https://github.com/warpdotdev/oz-skills 1. Git/GitHub 协作流(最成熟的一类) · create-pull-request:检查 gh CLI、分析 commits、按项目惯例生成 PR 描述。 · ci-fix:定位失败的 GitHub Actions run → 拉日志 → 最小化修复 → 推到 ci-fix/<branch> 分支验证。强调"最小 diff"和不放宽 workflow 权限的安全约束。 · github-bug-report-triage:照 issue template 评估 bug 报告的可执行性,反馈缺失信息。 · github-issue-dedupe:用 gh search + 关键词/语义混合策略找重复 issue,可挂到 GitHub Action 里自动跑。 2. 数据/分析 · dbt-model-index:一份模板化的 dbt 模型索引(不是现成数据,而是教用户填自己的仓库结构),让 Agent 写 BigQuery SQL 前先选对表。 · analysis-artifacts:把"深度分析"流程标准化——analyses/<name>/ 目录下产出 SQL、可视化、README,确保结果可复现可分享。 3. Web 质量审计(直接调用 MCP 工具) · web-performance-audit:依赖 chrome-devtools-mcp,跑 Core Web Vitals、网络优化。 · web-accessibility-audit:按 WCAG POUR 原则审 a11y。 · seo-aeo-audit:技术 SEO + AI 引用优化(AEO,面向 LLM 检索时代的新概念)。 · webapp-testing:用原生 Playwright 脚本测本地 web 应用,自带 with_server.py 管服务生命周期。 4. 基础设施 / 工程规范 · terraform-style-check:照 HashiCorp 官方风格生成/审查 Terraform。 · mcp-builder:最厚的一个 skill——四阶段教 Agent 构建高质量 MCP server(Python FastMCP 或 TS SDK),重点强调 "workflow tools" 比 "API coverage" 更重要的设计哲学。 5. 通用生产力 · docs-update:扫描近 24h commits → 识别需要更新文档的变更 → 适配 Mintlify/Docusaurus/GitBook 等平台。 · scheduler:本地定时提醒(明确不做云端 agent 调度,划清边界)。 · slack-qa-investigate:只读模式深度调查代码并回答问题,强调"先验证再回答"。

译Warp团队在开源终端和文档工具后,进一步开源了内部使用的15个“Oz Skills”工作流加速工具集。这些工具覆盖五大领域:Git/GitHub协作(如自动创建PR、修复CI问题)、数据分析与标准化、Web质量审计(性能、无障碍访问、SEO/AEO)、基础设施规范(如Terraform风格检查)以及通用生产力(如文档更新、本地定时提醒)。团队强调其设计哲学是构建“工作流工具”而非简单API覆盖,并提供了便捷安装命令,旨在将提升内部效率的实践分享给开源社区。

小互@xiaohu · 5月6日69

釜底抽薪 OpenAI 搞了个 Migrate to Codex 功能 让你可以把其他编程工具,比如Claude Code、Cursor里里的配置,一键导入到 Codex 包括编程 Agent 里的配置、规则、技能、MCP、hooks、subagents、最近30天的所有会话等... 它会扫描用户级配置和项目级配置,把能自动映射的内容导入 Codex。比如 instruction files 会迁移到 AGENTS.md,settings.json 会迁移到 config.toml,MCP、hooks、skills、subagents 也都有对应入口。 更有意思的是,不能自动迁移的部分,Codex 会直接开一个新线程,让 Agent 继续帮你处理剩余迁移。

译OpenAI发布“Migrate to Codex”功能,允许用户将其他编程工具(如Claude Code、Cursor)的配置一键导入到Codex。该功能会扫描用户级和项目级配置,自动映射并迁移编程Agent的配置、规则、技能、MCP、hooks、子代理以及最近30天的所有会话等内容。对于无法自动迁移的部分,Codex会启动一个新线程,让Agent继续协助处理剩余迁移任务。

meng shao@shao__meng · 5月6日77

[OpenAI Codex 官方迁移指南] 从其他 AI Coding Agents 迁移到 Codex,把你的"Agent 资产"(指令、配置、技能、会话历史等等)一键搬过来! https://developers.openai.com/codex/migrate 迁移入口 Codex App → Settings → General → "Import other agent setup" → Import 迁移机制(关键设计) Codex 在两个层级同时扫描: · 用户级:本机上的全局配置文件 · 项目级:当前打开仓库内的配置文件 执行流程是一个带回检的四步循环: · 检测可识别的配置 · 直接迁移可处理的部分 · 迁移后再次检测 · 对剩余无法自动迁移的内容,另开一个新线程协助手动完成 这种"自动 + 残留兜底"的设计是文档最值得注意的地方——它承认不是所有概念都能 1:1 映射。 可直接迁移的对象映射表 指令文件(如 CLAUDE.md)-> AGENTS.md settings.json -> config.toml Skills -> Codex Skills 近 30 天会话 -> Codex threads / projects MCP 服务器配置 -> Codex MCP 配置 Hooks -> Codex Hooks Slash commands -> Codex Skills Subagents -> Codex agents 两个值得留意的设计取舍: · Slash commands 被归并到 Skills——Codex 不维护独立的斜杠命令体系,而是统一用 Skills 表达。 · 会话有 30 天窗口限制,更早的历史不会被带过来。 残留迁移的兜底机制 无法干净映射的内容,Codex 会用一个名为 migrate-to-codex 的官方 skill 在新线程里继续处理,并且用户级与项目级的剩余项分开列出,便于判断归属。 迁移后必须人工复核的五类内容 1. Skills 与 agents 中的工具权限和限制 —— 权限模型在不同智能体间语义不同,容易宽松化或失效 2. MCP 服务器的自定义认证、headers、环境变量、传输协议 —— 这些通常无法自动搬运 3. Hooks 行为差异 —— 触发时机和上下文未必一致 4. Plugins、marketplaces 等无对应概念的设置 5. 依赖参数、shell 插值、文件路径占位符的 prompt 模板或命令式提示

译OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 `migrate-to-codex` skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。

meng shao@shao__meng · 5月6日64

2026 年 Subagent 的四种管理模式 @_philschmid 把"主 agent 如何驱动其它 agents"按主 agent 对 subagent 生命周期的控制力从弱到强排成四档。模型能力越强,能驾驭的模式越复杂。 模式 1:Inline Tool —— subagent 就是一次函数调用 主 agent 通过 call_agent 工具派一个任务,等结果返回,跟调用 read_file 没本质区别。 · 同步:工具调用阻塞,结果作为 tool response 返回。 · 异步:工具立即返回一个 agent_id,结果完成后以"通知消息"形式注入对话。 适用:自包含任务 —— 资料检索、代码 review、文件分析、测试生成。绝大多数所谓"多 agents"需求其实到这里就够了。 局限:没法中途追加指令、查看进度或取消。任务理解错了,只能等结果出来才知道。 门槛:任何能调用工具的模型都行,包括小模型。 模式 2:Fan-Out —— 派发后再收集 把"派发"和"收集"拆成两个工具:spawn_agent 立即返回 ID,wait_agent 阻塞等结果。 关键差异:派发与等待之间,主 agent 可以做自己的事(读文件、再派新任务)。模型自己决定什么时候 wait_agent。 适用:多个互相独立、可并行的任务。 局限:如果模型一 spawn 完就立刻 wait,等于退化成模式 1。价值依赖模型能合理穿插自身工作。仍然是 fire-and-forget,无法中途纠偏。 门槛:模型要能推理"何时该等"。 模式 3:Agent Pool —— 持久化 agent + 消息通信 subagent 变成长寿命、有状态的成员。工具集扩展为 spawn / send_message / wait / list / kill。主 agent 可以反复给同一个 agent 发消息,对方保留完整上下文。 文中示例:研究员 agent-r 第一次被派去找资料,第二次被叫来对照刚写好的草稿做事实核查 —— 它仍记得上次找到的 5 个来源。 wait_agent 按消息粒度返回,主 agent 可以根据返回内容动态调整下一步指令。 适用:需要专家协作的多步工作流,主 agent 充当信息路由器。 局限:主 agent 要追踪多个 agent 的状态、决定何时发消息何时等待、记得 kill_agent 释放资源。前沿模型大概能 hold 住 2–4 个 agent。 模式 4:Teams —— agents 之间直接对话 主 agent 只负责组队、定角色、启动,然后退场。每个成员都拥有 send_message,可以直接互相寻址(层级路径、文件邮箱或 IPC)。 示例中主 agent 只对 planner 说一句"你的队友是 implementer 和 reviewer,做完汇报给我",之后 planner <-> implementer <-> reviewer 之间的协作完全发生在主代理上下文之外。主 agent 只在有 agent 显式向它汇报时才收到结果。 适用:协调逻辑本身已经超出单个 agent 能逐步管理的复杂度的大型任务。 局限: · 每个成员都需要前沿模型能力,不只是主 agent。 · 基础设施问题:环路检测(A 等 B、B 等 A)、写入冲突、关停协调。 · 调试极难,消息链难追踪,失败会级联放大。 # Philipp Schmid 的核心建议 1. 从模式 1 开始。大多数看起来像"需要多 agents"的任务,靠一个 prompt 写得好的内联工具调用就能解决。 2. 真正独立可并行才升级到模式 2。 3. 需要跨步骤协作才上模式 3。 4. 协调逻辑本身爆炸才考虑模式 4。 5. 每升一级,对模型能力的要求陡增。模型不够强,就停在 1 或 2。 6. 框架提供工具,编排由模型决定。今天要 4 个 agents 协作的任务,明天可能一个更强的单 agent 就能解决。 # How Agents Manage Other Agents: Four Subagents Patterns in 2026 https://www.philschmid.de/subagent-patterns-2026

译Philipp Schmid 将主代理管理子代理的模式按控制力分为四档。模式一为内联工具调用,子代理如同函数,适用于独立任务。模式二为派发后收集,主代理可并行处理其他工作。模式三为代理池,子代理持久化并通过消息通信,支持多步协作。模式四为团队模式,代理间直接对话,主代理仅负责初始组建。核心建议是从简单模式开始,逐级升级需谨慎,因为每升一级对模型能力要求陡增,且许多任务用模式一即可解决。

Rohan Paul@rohanpaul_ai · 5月6日69

So much of AI work is moving from chat boxes into computer-using agents. Sai just launched product which is basically a remote computer controlled by an AI agent, and you talk to it from your phone or laptop like you would talk to a teammate. Executes every step on a private remote desktop, navigating real apps, even while your laptop is closed. Gives the AI its own workspace, usually a VM, where it can open real apps, click buttons, type into fields, browse websites, inspect screens, and run workflows. For example, if someone sees “black text on a black button,” they can message Sai from iMessage instead of creating a full bug ticket. Sai can open the app in its VM, reproduce the issue, take screenshots, describe the broken state, and pass that verified task to Claude Code, which can then edit the code and open a PR. The big deal is not only “AI on your phone.” The big deal is that the phone becomes a remote control for real software work, while the heavy work happens inside an always-running computer in the background.

译AI工作正从聊天交互转向能直接操作计算机的智能体。Sai推出的新产品提供了一个由AI代理控制的远程计算机(通常是虚拟机),用户可通过手机或电脑与之交互。AI在私有远程桌面中自主操作真实应用程序,执行完整工作流。其核心突破在于手机成为真实软件工作的“遥控器”,繁重任务由后台持续运行的计算机完成。实际用例中,团队成员通过iMessage报告问题,Sai能在其虚拟机中复现问题、截图并交由Claude Code修改代码和提交PR,全程无需打开笔记本电脑,实现了在移动端发起并完成复杂工作。

Google AI Developers@googleaidevs · 5月6日68

We’re expanding the Gemini API File Search tool 🔍 with 3 new updates that enable developers to more easily build multimodal RAG systems with enhanced precision: + Multimodal Support: By leveraging our Gemini Embedding 2 model, File Search can now reason across image and text simultaneously. + Custom Metadata Filtering: Bring structure to unstructured data by tagging files with custom key-value labels. This pre-filters your data and boosts search speed. + Exact citations: File Search can now capture and return the exact source (down to the page number) for every piece of information indexed. See multimodal File Search in action with our example app in @GoogleAIStudio. Chat with your entire image and doc library, ask questions, and trace answers back to the source: http://goo.gle/4tKSz1k

译Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。

TestingCatalog News 🗞@testingcatalog · 5月5日61

Anthropic announced new ready-to-run Claude agent templates for Finance services. These tools can be used as plugins for Claude Code, Cowork, or via Managed hosted Agents.

译Anthropic 发布了适用于金融服务的新开箱即用 Claude 智能体模板。 这些工具可作为 Claude Code、Cowork 的插件使用,或通过托管式智能体进行部署。

Berryxia.AI@berryxia · 5月5日64

如今,最让人意外的是 你以为想在Claude Code里跑agentic coding,必须用Anthropic的闭源模型? Unsloth直接把这条路彻底打通了。 他们刚刚发布完整指南: 用Gemma 4和Qwen3.6的GGUF模型,在仅24GB RAM的机器上,就能本地跑起完整agentic coding。 支持自愈式tool calls、代码执行、网页搜索,全程通过Unsloth API端点 + llama.cpp驱动。 也就是说: 你既能享受Claude Code/Codex/OpenClaw的顶级桌面级交互体验, 又能把模型完全跑在本地,数据不离机,成本接近于零。 这波操作,直接把“本地开源模型”和“Claude高端界面”之间的最后一堵墙拆掉了。 以前你得在“性能”和“隐私/成本”之间二选一, 现在Unsloth告诉你:两者可以兼得。 完整指南在这里:https://unsloth.ai/docs/basics/api 当本地开源模型开始无缝接管Claude的agent工作流, 真正属于开发者的AI生产力时代,才算真正开始了。 未来不知道是不是全部可以让更多人享用自己的机器自己给算力管饱的时代?

译Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。

Berryxia.AI@berryxia · 5月5日78

这一波最让人意外的是: Ollama直接把Claude Desktop变成了开源模型的豪华驾驶舱。 一条命令就搞定: ollama launch claude-desktop 从此以后,Ollama Cloud里的所有模型(Kimi、DeepSeek、Qwen…)都能无缝跑在Claude Cowork和Claude Code里! 享受完整桌面级体验:本地文件读写、应用交互、代码智能体全都有。 以前你得在“本地开源模型”和“Claude高端界面”之间二选一,现在Ollama直接打通这个屏障! 想切回Anthropic原生模型?一句话: ollama launch claude-desktop --restore 这波操作,不只是技术整合,更是把AI工具链的最后一道壁垒彻底干掉。 文档在这里:https://docs.ollama.com/integrations/claude-desktop 真正的AI时代,不是谁的模型最强,而是谁能把模型最丝滑地塞进你的日常工作流。

译Ollama通过命令`ollama launch claude-desktop`,将Ollama Cloud中的开源模型(如Kimi、DeepSeek、Qwen)无缝接入Claude Desktop应用。用户可在Claude Cowork和Claude Code中直接使用这些模型,享受完整的本地文件读写、应用交互及代码智能体等桌面级功能,打破了以往在本地开源模型与Claude高端界面间必须二选一的限制。通过`--restore`参数可轻松切换回Anthropic原生模型。此举消除了AI工具链的关键壁垒,标志着AI竞争重点正转向工作流的无缝融合。

Peter Steinberger 🦞@steipete · 5月5日60

gog 0.16 is out. Google Workspace CLI for humans and agents. Lossless raw API output, sanitized Gmail reads, safer command profiles, Drive inventory, Docs tabs, Sheets tables, Gmail filter export, and official Docker images. https://gogcli.sh

译gog 0.16 版本现已发布。 面向人类与智能体的 Google Workspace 命令行工具。 无损原始 API 输出、净化的 Gmail 读取功能、更安全的命令配置、Drive 库存管理、Docs 标签页、Sheets 表格处理、Gmail 过滤器导出,以及官方 Docker 镜像。https://gogcli.sh

Berryxia.AI@berryxia · 5月5日75

Tom 总的最新 开源项目! 正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71 套 设计系统,支持所有的 code agent,包括 claude code、codex、openclaw 等 🔥 open design 可能是最全面复刻 claude design 的开源替代品,后续将保持持续的更新,开源地址 👉 https://github.com/nexu-io/open-design

译开发者 Tom 开源了 open claude design 项目,宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发,包含超过 18700 行代码和 30 多种设计技能,支持 71 套以上设计系统,并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品,后续将持续更新,代码已托管于 GitHub。

Berryxia.AI@berryxia · 5月5日67

兄弟们,这套手册赶紧下载下来! A社官方发布的Claude Skills指导手册,包含啊完整的 33页! 掌握Claude技能 完整指南,下载完整PDF 地址如下👇 https://resources.anthropic.com/hubfs/The-Complete-Guide-to-Building-Skill-for-Claude.pdf

meng shao@shao__meng · 5月5日74

Cursor 团队这篇「持续改进我们的 Agent Harness」,写的真不错,很实战: · 如何衡量 harness 的好坏? · 如何为不同模型定制 harness? · 中途换模型到底会有什么问题? · 对未来的判断:Multi-Agent 是 harness 问题 https://cursor.com/blog/continually-improving-agent-harness Cursor 团队对模型和 harness 的判断:模型的上限决定天花板,但 harness 决定模型实际能跑多远。 # 方法论:愿景驱动 + 实验闭环 · 先有一个"理想 agent 体验"的主观判断,再分解为可验证的假设。 · 通过线上 A/B 与离线 eval 双轨验证,靠仪表化判断每次改动是否真的更好。 · 大改动罕见,常态是"强迫症式地堆叠小优化"。 · 每当拿到新模型早期访问,会花数周专门为该模型重塑 harness,使同一模型在 Cursor 里更快、更聪明、更省 token。 # 上下文窗口的演进:harness 的核心战场 2024 年末的旧范式:守卫式 · 模型自己挑上下文能力差,所以 Cursor 加了大量护栏:每次编辑后回灌 lint/类型错误、读文件行数太少时自动改写、限制单轮工具调用次数。 · 静态注入大量上下文:目录结构、语义匹配的代码片段、被压缩过的用户附件文件。 2026 年的新范式:动态获取式 · 静态上下文大幅瘦身,只保留确实有用的(OS、git 状态、当前/最近查看的文件)。 · 拆掉护栏,把"取什么上下文"的权力交还模型,由它在工作中动态拉取。 · 现在的工作重心是给 agent 提供更多与世界交互的方式,而不是替它准备好一切。 关键启示:随着模型能力提升,harness 设计的趋势是 "减少喂养,增加感官"。 # 如何衡量 harness 的好坏 Cursor 用三层叠加的衡量体系: 1. 离线基准:公开 benchmark + 自研 CursorBench。快、可对比,但只是真实使用的近似。 2. 在线 A/B:把多个 harness 变体并行投放给真实用户。 3. 质量指标——重点在两个"模糊但更重要"的指标: · 留存率:agent 写的代码在固定时间窗后还有多少留在用户代码库里。被改动越多,说明初版质量越差。 · LLM 判读用户回应:用模型读用户的回复来判定满意度。"用户开始下一个功能" = 成功;"用户贴了个 stack trace" = 失败。 案例:他们曾试过用更贵的模型做上下文摘要,A/B 显示质量提升微乎其微,于是放弃。 # 把 harness 当生产软件来运维:错误分类与告警 随着模型与能力变多,harness 的状态空间膨胀,bug 面变大。工具调用是最大的 bug 表面,且工具错误会污染上下文,让后续决策一起劣化。 错误被分类管理: · InvalidArguments / UnexpectedEnvironment:模型自身错误或上下文矛盾 · ProviderError:第三方工具(如 GenerateImage、WebSearch)故障 · UserAborted / Timeout 等 告警策略: · 未知错误 = bug,超阈值即报警。 · 预期错误用按工具、按模型分别建立基线的异常检测,避免被代码库体量等因素误导。 · 每周跑一个 Cloud Agent Automation:让 agent 自己翻日志,发现新问题或激增问题,在 backlog 自动建/更新 ticket,再调度其他 Cloud Agents 去修。 · 一次专项 sprint 把"未知工具错误率"压低了一个数量级。 这就是他们说的 "agent harness 的自动化软件工厂"——用 agent 维护 agent。 # 为不同模型定制 harness Harness 的所有抽象都是模型无关的,但实际为每个模型重度定制: · 工具格式贴合训练分布:OpenAI 训练时用 patch 格式编辑文件,Anthropic 用字符串替换。给错工具会让模型多花推理 token、多犯错。 · Prompt 风格分化:OpenAI 模型偏字面、精确;Claude 更直觉化、容忍模糊指令。 · 新模型上手流程:从最接近的现有模型 harness 复制起步 → 离线 eval 找混乱点 → 团队真人试用 → 反复调。 · 真实模型怪癖案例:某模型出现 "context anxiety"(上下文焦虑)——窗口快满时拒绝继续、说"任务太大"。通过 prompt 微调缓解。 中途换模型(mid-chat switching)的难题 · 切模型 → 自动切到该模型对应的 harness(prompts + 工具集)。 · 但对话历史是别的模型生成的,对新模型而言是 OOD 输入。 · 解法:注入 "你正在中途接手另一个模型对话" 的指令;劝阻它去调用历史里出现但当前不属于自己的工具。 · 缓存难题:cache 是按 provider + model 的,切换 = cache miss,第一轮变慢变贵。试过切换时做对话摘要降本,但深度任务里摘要会丢细节。 · 官方建议:除非有理由,否则一段对话用一个模型到底。 · 替代方案:用 subagent 起一个全新上下文的子任务,可以指定模型。 # 对未来的判断:Multi-Agent 是 harness 问题 Cursor 认为 AI 编程的未来是多 agent 协作:规划一个、快速编辑一个、调试一个,各司其职。 让这套体系真正跑通的关键,不是某个更强的单一 agent,而是 harness——它要决定: · 派哪个 agent 接手 · 如何按目标 agent 的强项重新组织任务描述 · 如何把多 agent 的产出缝合为连贯工作流 结论:"harness 工程过去重要,未来只会更关键。"

译Cursor团队认为,模型能力决定上限,而Harness(模型控制框架)决定其实际表现。他们采用愿景驱动与实验闭环的方法,通过线上A/B测试和离线评估持续优化。随着模型能力提升,Harness设计正从“守卫式”转向“动态获取式”,即减少静态信息注入,赋予模型更多动态获取上下文的权力。衡量体系结合离线基准、在线A/B测试及留存率、LLM判读等质量指标。Harness需为不同模型重度定制,贴合其工具格式与Prompt风格。团队判断AI编程的未来是多Agent协作,其成功关键取决于能协调任务分配与工作流缝合的Harness工程。

Berryxia.AI@berryxia · 5月5日65

兄弟们!花半小时,一定要看完它! Claude Code的缔造者Boris Cherny,亲自站上台,用整整30分钟把这个工具的全部高级用法一次性讲透了。 免费、干货真的夯到爆!。 他从最基础的全局安装开始,一路讲到: - 如何通过CLAUDE.md在企业级、项目级、本地级层层注入上下文,让Claude真正“懂你的团队规矩” - 怎么把团队内部工具(日志、CI、数据库)无缝插进Agent工作流 - 优化终端设置、权限管理、语音输入、通知提醒等40多个隐藏细节 - 以及Claude Code SDK的完整使用姿势 最狠的是,他反复强调:你给Claude的上下文越多,它就越聪明。 而现实是:大多数人每天都在用Claude Code,却只发挥了它10%的实力,像用ChatGPT一样简单prompt,错过了真正让生产力起飞的工程级用法。 Boris这场30分钟的分享,含金量直接秒杀市面上任何1000美元付费课程。 想把Claude Code玩成生产力基础设施的人,这条视频必须立刻收藏、反复看。 你现在用Claude Code到什么程度了?是还在简单聊天,还是已经把它当成整个工程团队在跑? 欢迎讨论。

译Claude Code创始人Boris Cherny通过30分钟视频,系统讲解了该工具的高级工程化用法。核心观点是:为Claude提供越多上下文,它就越智能。视频详细演示了如何通过CLAUDE.md文件在企业、项目、本地层级注入上下文规则,如何将内部工具集成到Agent工作流,并优化了数十个终端设置与权限管理等细节。他指出,多数用户仅发挥其10%潜力,仅用于简单对话,而未能将其作为驱动整个工程团队的生产力基础设施。

TestingCatalog News 🗞@testingcatalog · 5月5日50

ANTHROPIC 🚨: Claude Cowork will get its own proactive assistant called "Orbit". > Users will get personalized insights from Gmail, Slack, GitHub, Calendar, Drive, Figma, and other apps, which Claude will generate proactively. > There are also mentions of "Orbit" apps, which users will be able to "deploy." > "Your deployed Orbit apps. Pin favorites for quick access." > OpenAI already has ChatGPT Pulse, while both Google and Perplexity are developing their own proactive assistants, too. > There is a high chance it will be released as Max-only. Thanks to @M1Astra and @btibor91 for the tips.

译Anthropic计划为其Claude Cowork平台推出名为“Orbit”的主动式AI助手。该助手能够主动分析用户来自Gmail、Slack、GitHub、日历、Drive、Figma等多个应用的数据,并生成个性化洞察。用户还可以部署“Orbit apps”并置顶常用功能以便快速访问。这一动向标志着AI助手正从被动响应转向主动服务模式,OpenAI的ChatGPT Pulse、Google及Perplexity也都在开发类似功能。据悉,Orbit很可能作为一项高级功能,仅向Claude Max订阅用户开放。

Chubby♨️@kimmonismus · 5月5日72

Everyone's building AI coding tools. KroWork does something different: it turns conversations into actual local desktop apps. Not code snippets. Not cloud links. Real software on your machine. They call it app solidification, and nothing else does this yet. Sounds intersting

译KroWork是一款创新的桌面AI智能体,其核心在于“应用固化”能力,能将对话直接转化为持久可用的本地软件。它不止于生成代码建议,而是端到端自主执行任务,并将完整工作流保存为名为“Kro App”的独立应用。用户一键安装后,该应用即可像常规软件一样运行,无需重复消耗tokens或重建流程。所有操作均在本地设备完成,无需编程背景,且数据完全脱离云端。这标志着AI从对话助手向能构建并交付实体软件的工具转变。

Berryxia.AI@berryxia · 5月5日66

兄弟们!Anthropic刚刚把“用AI建一家公司”的完整蓝图正式公开了。 画面直接炸裂: CEO只有1个人(而且可以去睡觉), 剩下的全部员工都是AI。 它们自己分配任务、自己决策、自己推进项目, 人类只需要设定目标,剩下的全交给AI团队自动跑。 这不是科幻,这是Anthropic联合Google Cloud刚刚发布的《Agent Stack》官方指南。 核心就是一套完整的“AI企业操作系统”: - ADK(Agent Development Kit):开源框架,3个文件就能跑起第一个AI员工(http://agent.py + .env + __init__.py),几分钟出结果。 - MCP协议:让AI能无缝调用任何外部工具(搜索、代码执行、内部数据库…),两行代码就搞定。 - Vertex AI Agent Engine:生产级部署神器,一键把AI扔进云端,自动监控、自动扩容、自动日志,彻底告别手动搭服务器的痛苦。 - A2A(Agent-to-Agent)协议:让不同框架的AI也能互相沟通,像真正的公司部门协作一样。 更狠的是工作流模式: - Sequential(串行)→ 一步接一步 - Parallel(并行)→ 同时干好几件事 - Loop(循环)→ 直到达成目标才停 - 再加上Session(短期记忆)+ Memory(长期记忆),AI不再是每次都失忆的机器人,而是真正“认识你”的长期员工。 实际案例已经跑通: 客服自动处理→内部数据分析→代码生成+PR提交… 以前要几小时甚至几天的事,现在AI几秒到几分钟就搞定。 Anthropic这次直接把“AI替你上班”这件事,从概念变成了可复制的工程模板。 工作真的在死去吗? 至少传统“一个人干一摊活”的模式,正在被“一个人类指挥一群AI”彻底取代。 当AI能24小时不睡觉、不休息、不抱怨地给你干活, 你还愿意继续用老方式工作吗? 这个蓝图值得每一个想用AI放大自己产能的人立刻存下来。 完整线程值得反复看。 你准备好让AI替你组建团队了吗?

译Anthropic联合Google Cloud正式发布《Agent Stack》指南,提供了一套完整的“AI企业操作系统”蓝图。该系统允许人类仅设定目标,由AI员工自主分配任务、决策并推进项目。其核心包括ADK开源框架、MCP工具调用协议、Vertex AI生产部署引擎及A2A智能体协作协议,支持串行、并行等工作流,并具备记忆功能。实际应用表明,AI能在几秒到几分钟内完成以往需数小时的任务,将“AI建公司”从概念转化为可复制的工程模板,推动工作模式向人类指挥AI团队转型。

阿绎 AYi@AYi_AInotes · 5月5日71

一个100行的文件,干翻了所有LLM编码prompt GitHub Trending第一,一周暴涨4.4万星🔥,目前已破11万星! 没有框架、没有依赖、零配置。 就一个 CLAUDE.md 文件,把 Andrej Karpathy 反复吐槽的 LLM 编码坏习惯,浓缩成4条铁律。 扔到项目根目录,Claude Code 启动自动读取,代码质量直接起飞。 以前你要写几百字长prompt反复纠正它。 现在一次配置,全项目终身生效。 四条规则,每一条都精准戳中开发者痛点: 1. 先思考再编码,不准默默做假设,模糊就提问,困惑立刻停下 2. 简约至上,只写最小可工作代码,不准搞没人要的抽象和灵活性 3. 手术式修改,只碰你要求的部分,不准顺便重构邻居代码 4. 目标驱动执行,先写成功标准,每一步都要可验证 再也不会让它加个输入框,顺便重写整个表单。 再也不会让它改个bug,悄悄删掉三行关键注释。 再也不会让它写个工具函数,给你搞出五层抽象+十个配置。 为什么爆成这样? 因为全世界的开发者都受够了。 受够了哄模型、受够了反复说“别过度设计”、受够了它自作主张改代码。 这个仓库的爆火,本质是一场集体反叛,我们不再指望模型自己变聪明,我们直接给它定规矩。 最狠的是它的杠杆效应: 成本为零,diff更干净,返工更少,token浪费直接砍掉一半。 还能把团队规范直接追加在后面,实现全局统一。 这才是AI时代真正的生产力。 不是越来越复杂的Agent框架, 而是用最简单的方式,解决最痛的问题。 🔥 仓库直达:https://github.com/forrestchang/andrej-karpathy-skills 快去试试,看看 Claude 到底能听话到什么程度👀

译一个名为CLAUDE.md的百行文件在GitHub上迅速走红,一周内获得超4.4万星。它没有依赖和配置,仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则:先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录,Claude Code等工具便能自动读取并遵循,从而显著提升代码质量,减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛,以零成本方案为AI编码设定明确规范。

elvis@omarsar0 · 5月4日68

NEW paper from Sakana AI (ICLR 2026). A 7B Conductor model just hit SOTA on GPQA-Diamond and LiveCodeBench by orchestrating other LLMs instead of solving problems itself. (great paper! bookmark it!) The Conductor is trained with RL to do two things at once: design communication topologies between worker agents (open or closed source), and prompt-engineer focused instructions to each worker so it leverages their individual strengths. It's like training a special agent to take care of both collaboration and communication. Trained against randomized agent pools, it adapts to arbitrary mixes of agents at inference time. Even more interesting: when allowed to pick itself as a worker, it forms recursive topologies, unlocking a new form of dynamic test-time scaling through online iterative adaptation. The gains over the best individual worker on AIME25 and GPQA-D land in the ~3% range, which the authors note is consistent with entire generational improvements between frontier model versions, except this one comes from coordination, not pretraining. Why it matters? We can start to think of the orchestrator as the model now. Routing decisions aren't just a wrapper, they're a learnable policy. Paper: https://arxiv.org/abs/2512.04388 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。

向阳乔木@vista8 · 5月4日58

躺平神器开源!Xbox手柄秒变Mac万能遥控器~ 躺床上就能控制播放Youtube、B站视频,全屏、快进、快退、调整音量。 支持微信读书、浏览器,甚至任意Mac软件Tab切换,上下滚动、翻页等操作。 欢迎fork改造Switch手柄等其他硬件。 https://github.com/joeseesun/xbox-mac-ctrl

译一款名为“xbox-mac-ctrl”的开源工具,可将Xbox手柄转变为Mac电脑的通用遥控器。用户能通过手柄控制YouTube、B站等视频播放(全屏、快进、音量调节),并操作微信读书、浏览器及任意Mac软件(如Tab切换、滚动翻页)。该项目由开发者借助DeepSeek v4 Pro通过几轮对话编程实现,旨在满足躺卧时遥控刷小说、看视频的需求,并鼓励开发者fork以适配Switch手柄等其他硬件。

TestingCatalog News 🗞@testingcatalog · 5月4日62

xAI is rolling out Connectors for Grok 🔥 GitHub, Notion, Linear, Google, and Microsoft suites are available, as are custom MCP connectors!

译xAI 正在为 Grok 推出连接器 🔥 GitHub、Notion、Linear、Google 和 Microsoft 套件现已可用,自定义 MCP 连接器也已就绪!

阿绎 AYi@AYi_AInotes · 5月4日77

Claude终于补上了自己最大的短板,现在能真正看懂视频了。 不用等Anthropic官方慢吞吞的更新,现在通过Algrow的MCP平台,你只要扔一个YouTube、TikTok或者Instagram的链接,Claude就能完整看完整个视频,分析画面、音频、节奏、文字叠加,甚至给你出一份可落地的深度分析报告。 演示效果直接颠覆认知, 输入一个YouTube Shorts频道的URL,Claude会自动调用视频分析工具,批量拉取该频道所有短视频,生成包含标题、播放量、点赞率的完整数据表格。 接着它会做病毒化深度拆解,告诉你为什么有的视频爆了,有的却石沉大海。 它能精准识别出所有视频共用的模板、配音和动画风格,然后一针见血地指出:决定性差异从来不是后期特效,而是前2秒的hook概念冲击力。 最狠的是帧级留存分析,它会画出每一秒的观众流失曲线,标出哪些时间段是“死亡区”,观众会在这一秒毫不犹豫划走。 以前你要花三天时间,手动刷几十条视频、记满一本笔记、做无数个表格才能得出的结论。 现在一句话,30秒搞定。 Algrow的后端会自动完成视频下载、关键帧提取、音频转写,再把多模态数据完整喂给Claude。 通过MCP工具链,它能一口气跑完“看视频→抓数据→交叉对比→输出报告”的全流程,中间不需要你任何干预。 目前这个功能正处于免费无限试用的推广期。 正式上线后定价也非常亲民,1个积分可分析约8分钟视频,最低25美元/月的订阅就包含12小时以上的分析额度。 为什么这件事意义重大? 1. 大模型的战争已经彻底转向生态 Claude的文本推理能力一直是行业顶尖,但原生视频能力长期落后于Gemini。这次第三方开发者用MCP的方式,一夜之间就把Claude拉到了同一水平线,甚至因为工具链式调用能力变得更强。这证明未来的胜负手从来不是参数,而是谁的生态能长出更多杀手级应用。 2. 内容创作者迎来核武器级生产力工具 以后再也不用熬夜刷竞品了。让Claude帮你把同赛道所有爆款和扑街视频全看一遍,直接提炼出可复制的hook公式、转场节奏和内容结构。谁先用上这套工具,谁就能在流量战里领先别人一个身位。 3. 视频研究Agent的时代正式开启 视频是互联网上体量最大、最难处理的数据类型。一旦Claude能看懂视频,再结合MCP的工具链能力,很快就能诞生能自动监控全网流量趋势、生成完整内容策略、甚至迭代创意的AI Agent。内容分析这个曾经的人力密集型工作,正在被彻底重构。 当然它也有局限,对小众文化梗和细腻情绪的理解仍有误差,敏感内容不要随意投喂,免费期结束后算力成本可能会传导到价格上。 但这些都不重要,潘多拉的盒子已经打开了。

译借助Algrow的MCP平台,Claude现已能直接分析YouTube等平台的视频内容,自动生成包含数据表格、爆款拆解与留存曲线的深度报告。这标志着大模型竞争重点转向生态建设,第三方开发者通过工具链迅速弥补了Claude的原生视频短板。该功能为内容创作者提供了高效分析竞品、提炼爆款公式的生产力工具,并预示视频研究Agent时代的开启。目前处于免费试用阶段,未来订阅定价亲民。

Berryxia.AI@berryxia · 5月4日60

AI agent终于有专属的Slide框架了。 open-slide 直接把“prompt一下就出一整套精美幻灯片”变成了现实。 它不是简单生成Markdown,而是把每张幻灯片做成React组件,固定1920×1080画布,内置agent技能: - /create-slide:一句话prompt就能生成完整deck - /apply-comments:在浏览器里点元素留评论,agent一键应用所有修改 - 内置演示模式、演讲者笔记、定时器 - 一键导出HTML/PDF - 支持Claude Code、Cursor、Codex等任意编码agent 最重要的是,它把agent从“聊天生成文字”升级成了“真正能输出可呈现成品”的生产力工具。 GitHub:https://github.com/1weiho/open-slide Demo:https://demo.open-slide.dev/ 这波操作,直接填补了agent和真实产出之间的最后一公里。 你觉得agent时代,Slide生成会不会成为标配技能?

译open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。

meng shao@shao__meng · 5月4日70

OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 https://alignment.openai.com/auto-review # 要解决的真实痛点 传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python 脚本)都要人工点击批准。结果是:用户疲劳、长时间后台任务无法运行。 · Full Access 模式:彻底关闭审批。沙箱完全失效,恶意代码、数据外泄、凭据探测都不会被拦截。 更糟的是审批摩擦本身反向制造了安全漏洞: · 用户干脆切到 Full Access; · 用户写出过度宽松的前缀规则(文中提到"相当一部分用户允许任何以 python 开头的命令"); · 出于疲劳或不懂,用户盲目点同意。 # Auto-review 的核心设计 当主智能体试图越出沙箱时,请求被转给另一个独立的 Codex 智能体审批。它评估四个维度:用户意图、运行环境、安全策略、动作的可能影响。 为什么必须是"独立的"智能体? 文章给出了一个很重要的对齐理由: · 主智能体的优化目标是"完成任务",因此天然有动机把审批边界视为"待克服的障碍"; · 把审批决策抽离到独立模型调用中,让审批策略可被单独评估、监控、迭代。 这其实是把单智能体的目标冲突,重构成了多智能体的角色分工。 它使用 GPT-5.4 Thinking(low reasoning),并发现:模型越强,既更善于发现风险,也更善于理解用户合理意图。 # 关键运行机制 被拒绝时,审查者不是简单说"不",而是返回拒绝理由和上下文信号。结果: · 内部部署中,超过一半被拒绝的情况下,主智能体能自行找到更安全的替代路径继续执行,无需打扰用户; · 如果智能体反复尝试"绕过审查者"(gaming),系统会自动终止该轨迹。 # 效果数据 越界请求的自动批准率 | 99.1% 全部动作的整体批准率 | 99.93% 相比手动模式,打扰人类的频率 | 降低约 200 倍 智能体过度热心场景的拦截率 | 90.3% Prompt 注入攻击的拦截率 | 99.3% MonitoringBench(Hard)拦截率 | 96.1% 文档中举例的 1 万动作分布:9280 次留在沙箱内;720 次需审查;其中 713 次自动通过;7 次被拒,其中 4 次智能体自找替代方案,仅 3 次真正打扰用户。 目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。 # 团队坦诚的局限 OpenAI 罕见地用一整节明确边界,而不是只讲成绩: · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例,正在修复,但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming(策略性欺骗)。如果模型本身在策略性隐藏意图,它可能构造一个看起来无害的越界请求,或干脆只在沙箱内做坏事——审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中:相比传统安全系统牺牲了确定性,相比 Full Access 牺牲了速度。

译OpenAI Codex推出Auto-review新模式,解决传统人工审批与完全放权两种治理范式的缺陷。该模式在智能体越界时,由独立AI代理审批,评估用户意图、运行环境、安全策略和动作影响。拒绝时提供理由,超一半情况主智能体能自行找到更安全替代方案。效果上,自动批准率达99.1%,将打扰人类频率降低约200倍,有效拦截多数攻击。但团队坦承局限:非确定性安全保证,不能防御策略性欺骗,是安全与速度的折中。

Rohan Paul@rohanpaul_ai · 5月3日63

World2Agent just open-sourced a protocol that standardizes how Al agents perceive the real world. Install a sensor, your agent gets structured, real-time data. Swap sensors freely — they all speak the same schema. It's trying to give AI agents a standard perception layer, so they can notice outside events before a human writes a prompt. Most agents can already act through tools, but they still need someone to tell them what changed. W2A changes that loop with World → Sensor → Agent, where a sensor watches sources like GitHub, X posts, logs, research drops, meetings, stock moves, or deals, then sends the agent a structured signal. A signal is basically a clean event packet: what happened, where it came from, why it may matter, and what context the agent should read before deciding what to do. That removes a lot of messy glue code, because builders no longer need to rebuild polling, webhooks, schemas, deduping, and delivery logic for every new data source. The useful part is that sensors are reusable, so 1 GitHub sensor or X sensor can feed different agents without each team rewriting the same connector. W2A feels similar in spirit to MCP, but MCP is mainly about what an agent can do, while W2A is about when an agent should wake up and care. W2A now works with any agent (e.g. OpenClaw, Hermes), Claude Code, and Codex. Like agent skills, anyone can build their own W2A sensors and reuse sensors built by others. They’ve also open-sourced the sensors they built, as reference implementations to help developers build more complex sensors for proactive AI agents. W2A Protocol & W2A Sensors are meant to serve as building blocks for the broader proactive AI ecosystem. Architecture World → Sensor → Agent Sensors watch data sources and emit structured data following W2A Protocol. Your agent receives signals and decides what to do.

译World2Agent开源了W2A协议,旨在为AI代理建立标准化的世界感知层。该协议采用“世界→传感器→代理”架构,传感器从GitHub、X帖子、日志等多种数据源中提取信息,并生成包含事件内容、来源及背景的结构化实时信号。这使得AI代理能主动感知外部变化并自主响应,无需等待人类提示。传感器可重复使用,避免了为每个新数据源重复开发轮询、去重等逻辑。与侧重代理能力的MCP不同,W2A主要解决代理“何时应被唤醒”的问题。目前该协议已支持多种主流代理,并邀请开发者共同构建传感器生态。

阿绎 AYi@AYi_AInotes · 5月3日54

今天这份报告,相当于给所有吹AIAgent的人浇了一盆冰水。 Ora用ChatGPT、Claude、OpenClaw三个真实Agent, 扫描了8500个主流网站。 结果是,99%的互联网,对AI代理来说根本不可用。 中位数得分36分,73%的网站直接拿了D或F。 最讽刺的真相是,Agent能读几乎所有网站,但它们什么都做不了。 登录不行,交易不行,调用工具不行。 认证通过率30%,MCP集成率27%,用户体验22%。 你让AI帮你买个东西,它连结账页面都过不去。 现在很多人都在说,未来是AI Agent的时代。 但没有人告诉你,整个互联网的基础设施,还停留在给人类用的阶段。 代理只能靠浏览器模拟点击硬闯,成本是正常调用的100倍,速度慢10倍,网站一改版就彻底崩了。 目前估计只有1%的公司真正准备好了, 主要分两类, 一类是Attio、AgentMail这种Agent原生的新公司,从第一天就为代理设计。 另一类是Stripe、Cloudflare、Vercel这种基础设施巨头,早就把MCP、流式传输、代理认证做成了默认功能。 我觉得这才是今年最被忽略的趋势。 十年前,PageRank决定了你能不能被人找到。 十年后,Agent Readiness得分决定了你的产品会不会被AI代理推荐和使用。 预计到今年年底,B2B采购里,低于50分的公司连竞标资格都没有。 而且更可笑的是,现在有34%的公司说自己支持MCP😆😆 但说实话,真正符合规范、能被代理正常调用的,只有3%, 剩下的全是贴个标签的营销噱头。 现在到处都在说AI Agent会吃掉所有工作, 但没人告诉你,在那之前,所有不为AI Agent优化的公司,都会先被吃掉。 报告来源:Ora《The State of Agent Readiness》,2026 年 4 月 22 日发布 #AI代理 #MCP #AgentReadiness #Ora #人工智能

译Ora发布的《The State of Agent Readiness》报告指出,当前99%的互联网网站对AI代理基本不可用,中位数得分仅36分。代理在登录、交易等关键功能上失败率高,因互联网基础设施仍为人类设计,导致其操作成本高昂、效率低下。目前仅约1%的公司真正为AI代理优化,包括部分原生公司与基础设施巨头。报告预测,“Agent Readiness”得分将成为产品能否被AI代理推荐的关键指标,低分企业可能丧失竞争力。尽管许多公司声称支持相关标准,但实际符合规范者极少。

凡人小北@frxiaobei · 5月2日53

Stripe Treasury 的新方向很清晰,做多币种账户或稳定币只是一方面,把公司财务变成 AI 可调用的基础设施可能是终极态。 最关键一句是: Use Treasury from any AI app with the Stripe MCP. 以后 agent 可以查余额、付 invoice、创建卡、管理现金流,并通过 human-in-the-loop 控制风险。 AI-native finance ops 要来了。

译Stripe Treasury 的新方向致力于将公司财务转化为AI可调用的基础设施,超越多币种账户和稳定币等传统功能。通过Stripe MCP,AI应用可直接集成Treasury,使智能代理能执行查询余额、支付发票、创建卡片、管理现金流等操作,并借助人工介入循环机制控制风险,推动AI原生财务运营的发展。关键功能包括:支持多币种与稳定币持有、免费向美国企业转账、通过电子邮件向160个国家支付、赚取积分抵扣Stripe费用、使用Stripe卡消费并获得2%现金返还、在移动应用查看余额,以及从任何AI应用使用Treasury。

OpenAI Developers@OpenAIDevs · 5月2日60

To create your own pet, install the hatch-pet skill:

译要创建你自己的宠物,请安装hatch-pet技能:

TestingCatalog News 🗞@testingcatalog · 5月1日51

Notion is working on new triggers for custom AI Agents. It will be possible to invoke agents from Discord, as well as via file changes on Google Drive.

译Notion 正在为自定义 AI 代理开发新的触发器。 将可以从 Discord 调用代理,也可以通过 Google Drive 上的文件更改来调用。

Berryxia.AI@berryxia · 5月1日31

破案了,应该是美团的模型😄

译破案了,应该是美团的模型😄 [引用 @berryxia]:OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

阿绎 AYi@AYi_AInotes · 5月1日62

Google的前CEO Eric Schmidt说, “如果你真想赚钱其实很简单——创办一家代理式AI公司。” 很多人每天刷Hacker News和X,看到新框架新基准就兴奋,周末熬夜试新东西,结果半年下来什么都没做出来。 直到我看到这篇两年实战经验总结的Agent生存指南,才突然明白。 这个领域最稀缺的能力并不是学习,恰恰相反,而是不学习。 很反直觉对吧,咱们先看看现在的Agent领域有多疯狂? 每天都有新的"10x"框架发布, 每周都有新的基准被打破, 连Claude Code这种顶级产品, 都公开发过47%的性能回归。 因为没有稳定的地图,没有标准答案,所有人都在摸着石头过河。 目前大多数人的策略是"跟上所有东西"。 但作者说,这恰恰是最差的策略。 他给出了一个能过滤99%噪声的万能过滤器, 任何新东西出来,先问自己这五个问题: 1. 两年后它还重要吗? 2. 有我尊敬的人在生产环境写过诚实的事后复盘吗? 3. 它是否强制我抛弃现有的 tracing/重试/认证体系? 4. 跳过它6个月会怎样? 5. 我能量化它对我的Agent的帮助吗? 最有意思的是,大多数新东西在第一关就死了。 各种wrapper、CLI工具、Devin-for-X,两年后基本都会消失, 而协议、内存模式、沙箱机制,这些才是真正能长期存在的东西, 我觉得最难的技能是学会如何不耍酷装逼,不追热点。 那到底什么东西值得学? 作者列了7个学一次,可以终身受益的复利概念: • 上下文工程(不是提示词工程) • 工具设计 • Orchestrator-Subagent模式 • 评估体系+黄金数据集 • 文件系统状态+思考-行动-观察循环 • MCP协议 • 沙箱作为原语 不是说这些东西永远不会变, 而是它们的变化速度,比新框架慢100倍。 比如你花一个月吃透上下文工程,未来三年都能用。 但你花一个星期学一个爆火的新框架,可能三个月后就没人维护了🤣😅 这就是复利的力量。 兄弟们来看看2026年4月最无聊的技术选型: 编排:LangGraph(生产默认) 协议:MCP(全栈首选) 可观测性+评估:Langfuse / LangSmith 运行时+沙箱:E2B、Browserbase 模型:Claude Sonnet 4.6(性价比王) 原则:模型可换,工具MCP化,沙箱必开,评估从第一天就有。 然后是坚决跳过的清单: AutoGen、CrewAI、Semantic Kernel、DSPy 独立代码编写Agent、自主Agent pitch、Agent应用商店 水平企业平台、SWE-bench跑分、天真的并行多Agent 理由统一:demo好看,生产不行。 最后是最简单也最难的行动手册: 1. 选一个业务真正在意的可量化结果 2. 先搭 tracing + 评估 + 黄金数据集 3. 单agent循环起步,3-7个好工具足够 4. 用真实失败喂你的回归测试集 5. 失败模式驱动加复杂度 6. 每周只花30分钟读3个高质量来源 这篇文章最戳我的一句话是: AI把"2年经验工程师的工作"压缩到了几天, 22岁的新人跟35岁的资深工程师,现在站在同一起跑线上, 胜出者不是堆栈掌握者, 而是有品味、敢出货、专注复利原语的人。 现在传统的职业路径已经崩塌了, 学位→初级→高级→主管,这条路已经走不通了。 新的路径是:做出东西,放到网上,让作品替你说话, 你都不需要学会一切AI相关的技能, 只需要学会哪些东西会复利,然后把注意力死死钉在它们上面就行了, 剩下的一切都交给时间就好了。

译针对AI Agent领域框架频出、基准动荡的现状,一篇实战指南指出“跟上所有东西”是最差策略。核心建议是过滤99%的噪声,专注于变化缓慢、具有长期复利价值的基础概念,如上下文工程、工具设计、Orchestrator-Subagent模式、评估体系和MCP协议。应避免追逐短期热点框架。行动上,应从可量化的业务目标出发,优先建立可观测性与评估体系,用真实失败驱动迭代。在AI加速发展的背景下,胜出者将是能专注复利原语并产出实际作品的人。

Greg Brockman@gdb · 5月1日51

codex for the little things that you would otherwise spend lots of time on

译用户分享使用Codex的Computer Use功能处理家庭日程管理的实际体验。与常见的点餐、购物等代理任务不同,该功能能高效解析并录入复杂日程信息,例如将儿子数月的小联盟赛程和女儿游泳比赛截图中的日期、时间、地点等信息自动添加到Apple Calendar中。这一应用虽非革命性,但切实节省了数小时的手动录入时间,体现了AI在自动化琐碎事务上的实用价值。

向阳乔木@vista8 · 5月1日48

语言模型能说话但不懂数据,专用模型懂数据但不能说话,这是科学AI当下困境之一。 UIUC最新论文 Eywa 从《阿凡达》找到了答案。 纳美人通过"Tsaheylu"神经键跨越物种障碍,让山地歌鸟、雷兽各展所长。 Eywa 做的事情一样:给语言模型和专用基础模型之间建一个接口。 让 Chronos 做时序预测,让 TabPFN 处理表格,语言模型负责理解任务、调度工具、整合结果。 --- 从论文数据看,效果不错,短时间是一个MCP就能解决连接问题,但长期也不知道语言模型能否达到专用模型的水平。 论文见评论区

译针对通用语言模型懂交互却不懂数据、专用模型精通数据却缺乏交互能力的科学AI困境,UIUC团队受《阿凡达》“Tsaheylu”神经连接启发,提出了Eywa接口框架。该框架让语言模型负责理解指令与调度,调用如Chronos、TabPFN等专用模型处理数据,从而协同发挥两者优势。初步实验效果良好,长期挑战在于语言模型能否达到专用模型的领域性能。

歸藏(guizang.ai)@op7418 · 5月1日57

Codex 更新了,现在可以连接 Slack、邮箱以及你的谷歌云盘,从里面获取内容来执行任务,也可以把你的信息添加到谷歌日历。

Berryxia.AI@berryxia · 5月1日46

OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月6日
22:08
小互@xiaohu
63
Petdex:Codex终端宠物自定义商店

Petdex是一个专为Codex设计的宠物商店项目,允许用户更换终端小宠物。用户可预览、下载和提交各种动态宠物,通过命令行工具如'npx petdex install <宠物名>'快速安装。在Codex中,可通过Settings → Appearance → Pets界面选择宠物,或使用/pet命令唤出或收起宠物,实现个性化终端体验。

MCP/工具开源/仓库编码
19:34
meng shao@shao__meng
72
作者发布了最新的OpenAI Codex App完全入门指南,涵盖入门教程、7天实战计划以及从Cursor/Claude Code的迁移指导。为方便预览,已使用@editframe Skills工具制作了介绍视频并先行分享。由于将Markdown格式整理为X Article较为耗时,指南将先于公众号发布,后续再适配X Article格式。

meng shao: 写了一篇 OpenAI Codex App 入门指南 本来想把 Markdown 编辑为 X Article 格式分享,不过 X Article 的编辑体验还是太费时间了,明天先发公众号,再整理 X Article 格式(朋友们如果有好的 ...

MCP/工具OpenAI教程/实践编码
19:06
Tencent Hy@TencentHunyuan
精选76
发布两周后,Hy3预览版以3.66T处理量在@OpenRouter周榜位列第一,周环比增长298%。 在总使用量、工具调用和编程领域均排名第一。全平台市场占有率达15.4%。🏆 运行Hy3预览版的热门应用:Hermes Agent, Claude Code, Kilo Code, OpenClaw, Cline。@NousResearch @claudeai @kilocodehq @openclaw @cline 衷心感谢所有基于此开发的开发者。🙏 请在OpenRouter上试用:https://openrouter.ai/tencent/hy3-preview:free
MCP/工具编码行业动态

推荐理由:腾讯混元3不是靠宣传,而是靠数据跑到了OpenRouter第一,工具调用和编码双双登顶,国产模型在海外开发者的真实接受度比想象中高得多。
18:20
Berryxia.AI@berryxia
64
一位中国开发者基于Claude Sonnet 4.6创建了由7个智能体组成的全自动化系统,专为小城镇无网站的小微企业提供落地页服务。系统通过Claude Code Router协调,每日扫描约220家企业并筛选30个潜在客户,自动生成诊断报告、制作落地页与宣传视频,并通过多渠道发送个性化营销信息。整个过程无需人工干预,仅在单笔交易超3000美元或回复率低于12%时通知开发者。该系统每月可服务约47家企业,每单收费400美元,显著降低了传统网页设计的成本与人力投入。

Blaze: This Chinese guy created agents in Claude Code for landing pages and single-handedly serves 47 small businesses a month,...

智能体AnthropicMCP/工具教程/实践
14:04
Peter Steinberger 🦞@steipete
68
我和codex正忙着。 🔊 http://sonoscli.sh - Sonos 🗃️ http://wacli.sh - WhatsApp 🪶 http://birdclaw.sh - X存档 🧰 http://gitcrawl.sh - GitHub存档 🛰️ http://discrawl.sh - Discord存档 🎧 http://spogo.sh - Spotify 💬 http://imsg.sh - iMessage 🧳 http://mcporter.sh - MCP转CLI 🗣️ http://sag.sh - ElevenLabs语音 🧿 http://askoracle.sh - 第二意见 升级🦞 OpenClaw大军。
MCP/工具开源/仓库编码
11:34
meng shao@shao__meng
精选80
Warp团队开源15个内部工作流加速工具"Oz Skills"

Warp团队在开源终端和文档工具后,进一步开源了内部使用的15个“Oz Skills”工作流加速工具集。这些工具覆盖五大领域:Git/GitHub协作(如自动创建PR、修复CI问题)、数据分析与标准化、Web质量审计(性能、无障碍访问、SEO/AEO)、基础设施规范(如Terraform风格检查)以及通用生产力(如文档更新、本地定时提醒)。团队强调其设计哲学是构建“工作流工具”而非简单API覆盖,并提供了便捷安装命令,旨在将提升内部效率的实践分享给开源社区。

Warp: The Warp team uses a lot of Skills to speed up our workflow, so we open-sourced them. > npx skills add warpdotdev/oz-ski...

智能体MCP/工具开源/仓库

推荐理由:Warp把自己团队日常用的15个Skills全开源了,从Git协作到性能审计,一条命令就能装。搞AI工具链的可以直接抄作业,不用从零写。
11:06
小互@xiaohu
69
OpenAI推出Migrate to Codex功能,一键迁移编程工具配置

OpenAI发布“Migrate to Codex”功能,允许用户将其他编程工具(如Claude Code、Cursor)的配置一键导入到Codex。该功能会扫描用户级和项目级配置,自动映射并迁移编程Agent的配置、规则、技能、MCP、hooks、子代理以及最近30天的所有会话等内容。对于无法自动迁移的部分,Codex会启动一个新线程,让Agent继续协助处理剩余迁移任务。

智能体MCP/工具OpenAI产品更新
10:04
meng shao@shao__meng
精选77
OpenAI Codex 官方迁移指南:一键迁移 Agent 资产

OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 migrate-to-codex skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。

jason liu: https://developers.openai.com/codex/migrate

智能体MCP/工具OpenAI教程/实践

推荐理由:OpenAI 这次迁移工具不玩虚的,自动扫描两层级配置还能手动兜底,不过 slash commands 被吞进 Skills 的设计值得注意,切换前先把这条看清楚。
10:04
meng shao@shao__meng
64
2026 年 Subagent 的四种管理模式

Philipp Schmid 将主代理管理子代理的模式按控制力分为四档。模式一为内联工具调用,子代理如同函数,适用于独立任务。模式二为派发后收集,主代理可并行处理其他工作。模式三为代理池,子代理持久化并通过消息通信,支持多步协作。模式四为团队模式,代理间直接对话,主代理仅负责初始组建。核心建议是从简单模式开始,逐级升级需谨慎,因为每升一级对模型能力要求陡增,且许多任务用模式一即可解决。

Philipp Schmid: http://x.com/i/article/2051654332727037955

智能体MCP/工具现象/趋势
05:28
Rohan Paul@rohanpaul_ai
69
AI工作范式转变:从聊天框到可操作计算机的智能体

AI工作正从聊天交互转向能直接操作计算机的智能体。Sai推出的新产品提供了一个由AI代理控制的远程计算机(通常是虚拟机),用户可通过手机或电脑与之交互。AI在私有远程桌面中自主操作真实应用程序,执行完整工作流。其核心突破在于手机成为真实软件工作的“遥控器”,繁重任务由后台持续运行的计算机完成。实际用例中,团队成员通过iMessage报告问题,Sai能在其虚拟机中复现问题、截图并交由Claude Code修改代码和提交PR,全程无需打开笔记本电脑,实现了在移动端发起并完成复杂工作。

Sai: Been dogfooding Sai with Claude Code lately and the part that's actually stuck for us isn't just the responsiveness. It'...

智能体MCP/工具产品更新
02:56
Google AI Developers@googleaidevs
精选68
Gemini API 文件搜索工具推出三项新更新,助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。

GoogleMCP/工具检索增强产品更新

推荐理由:如果你在用 Gemini 搭 RAG 系统,这三项更新能直接改善搜索精度和可解释性,多模态搜索终于把图片和文档打通了,值得马上试试。
5月5日
23:59
TestingCatalog News 🗞@testingcatalog
61
Anthropic 发布了适用于金融服务的新开箱即用 Claude 智能体模板。 这些工具可作为 Claude Code、Cowork 的插件使用,或通过托管式智能体进行部署。

Claude: Each agent ships with the connectors, skills, and subagents the task needs, ready to use as-is or adapt to your firm's o...

智能体AnthropicMCP/工具产品更新
23:14
Berryxia.AI@berryxia
64
Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。

Unsloth AI: We made a guide on how to run open LLMs in Claude Code, Codex and OpenClaw. Use Gemma 4 and Qwen3.6 GGUFs for local agen...

智能体MCP/工具教程/实践编码
22:14
Berryxia.AI@berryxia
精选78
Ollama一键整合Claude Desktop,开源模型获豪华桌面体验

Ollama通过命令ollama launch claude-desktop,将Ollama Cloud中的开源模型(如Kimi、DeepSeek、Qwen)无缝接入Claude Desktop应用。用户可在Claude Cowork和Claude Code中直接使用这些模型,享受完整的本地文件读写、应用交互及代码智能体等桌面级功能,打破了以往在本地开源模型与Claude高端界面间必须二选一的限制。通过--restore参数可轻松切换回Anthropic原生模型。此举消除了AI工具链的关键壁垒,标志着AI竞争重点正转向工作流的无缝融合。

ollama: 🤯 Ollama now supports Claude Desktop via Claude's built-in third party inference. ollama launch claude-desktop This all...

智能体MCP/工具产品更新开源生态

推荐理由:Ollama一条命令把开源模型塞进Claude Desktop,以后在Claude Cowork和Code里直接用Kimi、DeepSeek,这是工具链壁垒最彻底的一次打通,开发者现在就能试。
16:26
Peter Steinberger 🦞@steipete
60
gog 0.16 版本现已发布。 面向人类与智能体的 Google Workspace 命令行工具。 无损原始 API 输出、净化的 Gmail 读取功能、更安全的命令配置、Drive 库存管理、Docs 标签页、Sheets 表格处理、Gmail 过滤器导出,以及官方 Docker 镜像。https://gogcli.sh
MCP/工具产品更新开源/仓库
15:14
Berryxia.AI@berryxia
精选75
Tom 开源 open claude design 项目,高还原度复刻 Claude Design

开发者 Tom 开源了 open claude design 项目,宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发,包含超过 18700 行代码和 30 多种设计技能,支持 71 套以上设计系统,并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品,后续将持续更新,代码已托管于 GitHub。

Tom Huang: 正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71...

MCP/工具开源/仓库部署/工程

推荐理由:Tom总用72小时逆向出Claude Design开源版,30+设计Skills、71套设计系统,直接塞进Claude Code或Codex就能用,前端开发者省下大量造轮子时间。
15:14
Berryxia.AI@berryxia
67
兄弟们,这套手册赶紧下载下来! A社官方发布的Claude Skills指导手册,包含啊完整的 33页! 掌握Claude技能 完整指南,下载完整PDF 地址如下👇 https://resources.anthropic.com/hubfs/The-Complete-Guide-to-Building-Skill-for-Claude.pdf
AnthropicMCP/工具教程/实践
10:26
meng shao@shao__meng
精选74
Cursor团队分享Agent Harness持续改进的实战方法论

Cursor团队认为,模型能力决定上限,而Harness(模型控制框架)决定其实际表现。他们采用愿景驱动与实验闭环的方法,通过线上A/B测试和离线评估持续优化。随着模型能力提升,Harness设计正从“守卫式”转向“动态获取式”,即减少静态信息注入,赋予模型更多动态获取上下文的权力。衡量体系结合离线基准、在线A/B测试及留存率、LLM判读等质量指标。Harness需为不同模型重度定制,贴合其工具格式与Prompt风格。团队判断AI编程的未来是多Agent协作,其成功关键取决于能协调任务分配与工作流缝合的Harness工程。

智能体MCP/工具教程/实践编码

推荐理由:Cursor 团队把 agent harness 的衡量与定制方法全盘托出,从上下文范式演进到错误分类告警,做 AI 编程工具的必读,这种坦诚的实战分享太稀缺了。
09:14
Berryxia.AI@berryxia
65
Claude Code创始人详解高级工程化用法,释放工具90%潜力

Claude Code创始人Boris Cherny通过30分钟视频,系统讲解了该工具的高级工程化用法。核心观点是:为Claude提供越多上下文,它就越智能。视频详细演示了如何通过CLAUDE.md文件在企业、项目、本地层级注入上下文规则,如何将内部工具集成到Agent工作流,并优化了数十个终端设置与权限管理等细节。他指出,多数用户仅发挥其10%潜力,仅用于简单对话,而未能将其作为驱动整个工程团队的生产力基础设施。

AnthropicMCP/工具教程/实践编码
07:58
TestingCatalog News 🗞@testingcatalog
50
Anthropic将为Claude Cowork推出主动式AI助手"Orbit"

Anthropic计划为其Claude Cowork平台推出名为“Orbit”的主动式AI助手。该助手能够主动分析用户来自Gmail、Slack、GitHub、日历、Drive、Figma等多个应用的数据,并生成个性化洞察。用户还可以部署“Orbit apps”并置顶常用功能以便快速访问。这一动向标志着AI助手正从被动响应转向主动服务模式,OpenAI的ChatGPT Pulse、Google及Perplexity也都在开发类似功能。据悉,Orbit很可能作为一项高级功能,仅向Claude Max订阅用户开放。

智能体AnthropicMCP/工具产品更新
01:18
Chubby♨️@kimmonismus
精选72
KroWork是一款创新的桌面AI智能体,其核心在于"应用固化"能力,能将对话直接转化为持久可用的本地软件。它不止于生成代码建议,而是端到端自主执行任务,并将完整工作流保存为名为"Kro App"的独立应用。用户一键安装后,该应用即可像常规软件一样运行,无需重复消耗tokens或重建流程。所有操作均在本地设备完成,无需编程背景,且数据完全脱离云端。这标志着AI从对话助手向能构建并交付实体软件的工具转变。

KroWork: Your AI chatbot can't ship. It answers. It suggests. It generates code you still have to wire up yourself. Close the tab...

智能体MCP/工具产品更新端侧

推荐理由:当别人还在帮你写代码,KroWork 直接把对话冻成 App 放在你桌面上。不建仓库不费 token,跟用 Excel 一样打开,这种 chat-to-software 的思路比所有 coding agent 都更接近普通人想要的 AI。
01:14
Berryxia.AI@berryxia
66
Anthropic发布《Agent Stack》蓝图:构建全AI员工公司的"操作系统"

Anthropic联合Google Cloud正式发布《Agent Stack》指南,提供了一套完整的“AI企业操作系统”蓝图。该系统允许人类仅设定目标,由AI员工自主分配任务、决策并推进项目。其核心包括ADK开源框架、MCP工具调用协议、Vertex AI生产部署引擎及A2A智能体协作协议,支持串行、并行等工作流,并具备记忆功能。实际应用表明,AI能在几秒到几分钟内完成以往需数小时的任务,将“AI建公司”从概念转化为可复制的工程模板,推动工作模式向人类指挥AI团队转型。

智能体AnthropicGoogleMCP/工具
00:14
阿绎 AYi@AYi_AInotes
精选71
一个100行的文件,干翻了所有LLM编码prompt

一个名为CLAUDE.md的百行文件在GitHub上迅速走红,一周内获得超4.4万星。它没有依赖和配置,仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则:先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录,Claude Code等工具便能自动读取并遵循,从而显著提升代码质量,减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛,以零成本方案为AI编码设定明确规范。

MCP/工具教程/实践编码

推荐理由:一个100行文件干翻一堆Agent框架,本质是开发者受够了哄模型,不如直接定规矩。如果你也用Claude Code,花一分钟扔进去,Token浪费砍半不是夸张。
5月4日
22:54
elvis@omarsar0
68
Sakana AI提出新型7B"指挥者"模型,通过协同多个智能体实现性能突破

Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。

智能体arXivMCP/工具推理
22:22
向阳乔木@vista8
58
躺平神器开源!Xbox手柄秒变Mac万能遥控器~

一款名为“xbox-mac-ctrl”的开源工具,可将Xbox手柄转变为Mac电脑的通用遥控器。用户能通过手柄控制YouTube、B站等视频播放(全屏、快进、音量调节),并操作微信读书、浏览器及任意Mac软件(如Tab切换、滚动翻页)。该项目由开发者借助DeepSeek v4 Pro通过几轮对话编程实现,旨在满足躺卧时遥控刷小说、看视频的需求,并鼓励开发者fork以适配Switch手柄等其他硬件。

向阳乔木: DeepSeek v4 Pro还是可以的。 几轮对话,实现一个工具,用xbox手柄控制电脑应用和浏览器。 当遥控器,躺床上刷小说和看视频。

MCP/工具开源/仓库教程/实践
17:23
TestingCatalog News 🗞@testingcatalog
62
xAI 正在为 Grok 推出连接器 🔥 GitHub、Notion、Linear、Google 和 Microsoft 套件现已可用,自定义 MCP 连接器也已就绪!
MCP/工具xAI产品更新
16:14
阿绎 AYi@AYi_AInotes
精选77
Claude通过第三方平台补足视频分析能力,开启AI应用新生态

借助Algrow的MCP平台,Claude现已能直接分析YouTube等平台的视频内容,自动生成包含数据表格、爆款拆解与留存曲线的深度报告。这标志着大模型竞争重点转向生态建设,第三方开发者通过工具链迅速弥补了Claude的原生视频短板。该功能为内容创作者提供了高效分析竞品、提炼爆款公式的生产力工具,并预示视频研究Agent时代的开启。目前处于免费试用阶段,未来订阅定价亲民。

AnthropicMCP/工具产品更新视频

推荐理由:第三方MCP插件让Claude终于能分析视频,做视频的一键生成爆款拆解和帧级留存分析,比手动刷三天视频强多了。
09:13
Berryxia.AI@berryxia
60
AI agent专属幻灯片框架open-slide发布

open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。

Yiwei Ho: Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...

智能体GitHubMCP/工具开源/仓库
08:19
meng shao@shao__meng
精选70
OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。

OpenAI Codex推出Auto-review新模式,解决传统人工审批与完全放权两种治理范式的缺陷。该模式在智能体越界时,由独立AI代理审批,评估用户意图、运行环境、安全策略和动作影响。拒绝时提供理由,超一半情况主智能体能自行找到更安全替代方案。效果上,自动批准率达99.1%,将打扰人类频率降低约200倍,有效拦截多数攻击。但团队坦承局限:非确定性安全保证,不能防御策略性欺骗,是安全与速度的折中。

Maja Trebacz: Clicking the "Approve permission" button is difficult. We show that agents can do that for you. Check out our alignment ...

智能体MCP/工具OpenAI产品更新

推荐理由:OpenAI 难得公开了 agent 安全机制的内部设计,不是靠人肉审批也不是完全撒手,用独立 Agent 审批越界行为,数据惊人(干扰降低 200 倍)。做 Agent 产品的该读,因为给出了治理范式的第三种选择。
5月3日
18:12
Rohan Paul@rohanpaul_ai
63
World2Agent开源W2A协议,为AI代理构建标准化感知层

World2Agent开源了W2A协议,旨在为AI代理建立标准化的世界感知层。该协议采用“世界→传感器→代理”架构,传感器从GitHub、X帖子、日志等多种数据源中提取信息,并生成包含事件内容、来源及背景的结构化实时信号。这使得AI代理能主动感知外部变化并自主响应,无需等待人类提示。传感器可重复使用,避免了为每个新数据源重复开发轮询、去重等逻辑。与侧重代理能力的MCP不同,W2A主要解决代理“何时应被唤醒”的问题。目前该协议已支持多种主流代理,并邀请开发者共同构建传感器生态。

LeahW: The future belongs to proactive agents. But without real-time perception, they're stuck reacting. "World2Agent" isn't a ...

智能体MCP/工具开源/仓库
14:12
阿绎 AYi@AYi_AInotes
54
报告揭示AI代理遭遇互联网可用性困境,99%网站不兼容

Ora发布的《The State of Agent Readiness》报告指出,当前99%的互联网网站对AI代理基本不可用,中位数得分仅36分。代理在登录、交易等关键功能上失败率高,因互联网基础设施仍为人类设计,导致其操作成本高昂、效率低下。目前仅约1%的公司真正为AI代理优化,包括部分原生公司与基础设施巨头。报告预测,“Agent Readiness”得分将成为产品能否被AI代理推荐的关键指标,低分企业可能丧失竞争力。尽管许多公司声称支持相关标准,但实际符合规范者极少。

智能体MCP/工具大佬观点
5月2日
12:18
凡人小北@frxiaobei
53
Stripe Treasury 的新方向很清晰,做多币种账户或稳定币只是一方面,把公司财务变成 AI 可调用的基础设施可能是终极态。

Stripe Treasury 的新方向致力于将公司财务转化为AI可调用的基础设施,超越多币种账户和稳定币等传统功能。通过Stripe MCP,AI应用可直接集成Treasury,使智能代理能执行查询余额、支付发票、创建卡片、管理现金流等操作,并借助人工介入循环机制控制风险,推动AI原生财务运营的发展。关键功能包括:支持多币种与稳定币持有、免费向美国企业转账、通过电子邮件向160个国家支付、赚取积分抵扣Stripe费用、使用Stripe卡消费并获得2%现金返还、在移动应用查看余额,以及从任何AI应用使用Treasury。

Stripe: Introducing the new Stripe Treasury: • Hold funds in multiple currencies and stablecoins. • Instantly transfer money to ...

智能体MCP/工具产品更新
03:46
OpenAI Developers@OpenAIDevs
60
要创建你自己的宠物,请安装hatch-pet技能:
MCP/工具OpenAI教程/实践
5月1日
23:17
TestingCatalog News 🗞@testingcatalog
51
Notion 正在为自定义 AI 代理开发新的触发器。 将可以从 Discord 调用代理,也可以通过 Google Drive 上的文件更改来调用。
智能体MCP/工具产品更新
22:11
Berryxia.AI@berryxia
31
破案了,应该是美团的模型😄 【引用 @berryxia】:OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

Berryxia.AI: OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

MCP/工具行业动态
22:11
阿绎 AYi@AYi_AInotes
62
AI Agent实战指南:专注复利原语,远离噪声追逐

针对AI Agent领域框架频出、基准动荡的现状,一篇实战指南指出“跟上所有东西”是最差策略。核心建议是过滤99%的噪声,专注于变化缓慢、具有长期复利价值的基础概念,如上下文工程、工具设计、Orchestrator-Subagent模式、评估体系和MCP协议。应避免追逐短期热点框架。行动上,应从可量化的业务目标出发,优先建立可观测性与评估体系,用真实失败驱动迭代。在AI加速发展的背景下,胜出者将是能专注复利原语并产出实际作品的人。

Rohit: http://x.com/i/article/2048881094637080576

智能体MCP/工具大佬观点
20:46
Greg Brockman@gdb
51
用户分享使用Codex的Computer Use功能处理家庭日程管理的实际体验。与常见的点餐、购物等代理任务不同,该功能能高效解析并录入复杂日程信息,例如将儿子数月的小联盟赛程和女儿游泳比赛截图中的日期、时间、地点等信息自动添加到Apple Calendar中。这一应用虽非革命性,但切实节省了数小时的手动录入时间,体现了AI在自动化琐碎事务上的实用价值。

Simon Smith: I've never used an agent for the cliches of ordering food, grocery shopping, or booking travel. But I repeatedly use Com...

智能体MCP/工具OpenAI教程/实践
20:17
向阳乔木@vista8
48
UIUC受《阿凡达》启发提出Eywa框架,连接语言模型与专用模型以破解科学AI困境

针对通用语言模型懂交互却不懂数据、专用模型精通数据却缺乏交互能力的科学AI困境,UIUC团队受《阿凡达》“Tsaheylu”神经连接启发,提出了Eywa接口框架。该框架让语言模型负责理解指令与调度,调用如Chronos、TabPFN等专用模型处理数据,从而协同发挥两者优势。初步实验效果良好,长期挑战在于语言模型能否达到专用模型的领域性能。

智能体MCP/工具论文/研究
11:13
歸藏(guizang.ai)@op7418
57
Codex 更新了,现在可以连接 Slack、邮箱以及你的谷歌云盘,从里面获取内容来执行任务,也可以把你的信息添加到谷歌日历。
智能体MCP/工具OpenAI产品更新
08:10
Berryxia.AI@berryxia
46
OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

OpenRouter: New stealth model: Owl Alpha! Owl is a high-performance foundation model designed for agentic workloads. Powerful tool u...

智能体MCP/工具模型发布
‹ 上一页
1…121314151617
下一页 ›