5月12日

17:33

凡人小北@frxiaobei

一位团队管理者表示，AI极大提升了程序员个体产出，导致工作量与事务激增，但团队规模未变。其核心矛盾在于开发层已实现AI化，而项目跟进、纪要整理、审批等协作层工作仍依赖人工，效率低下。为此，他利用飞书CLI近期密集更新的能力，为每位下属配置了专属Agent。现在，下属的Agent与他的Agent直接对话处理事务，他本人则转为旁观协调，以此应对管理事务过于“碎片化”的挑战。

智能体 MCP/工具教程/实践

17:22

向阳乔木@vista8

SkillsVote：解决AI Agent技能发现与安全运行痛点的基建工具

AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能，筛选出79万多个，并提取功能、环境及权限等关键信息。它不仅提供精准推荐，还能记录执行步骤、反馈结果以优化技能，并生成工作流组合建议，提升技能价值。相比Vercel仅支持发现安装，SkillsVote覆盖了从发现、适配、归因到迭代的全流程，支持多种Agent客户端，是AI Agent的重要基础设施工具。

智能体 MCP/工具开源/仓库

12:44

HuggingFace Daily Papers（社区热门论文）

Shepherd：一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型，将元智能体对目标智能体的操作形式化为函数，其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪，支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍，重放时提示缓存复用率超过95%。应用案例表明，其实时监督可将结对编程通过率从28.8%提升至54.7%；反事实元优化在四个基准测试中最高超出基线11个百分点，同时减少高达58%的挂钟时间；在Tree-RL训练中，于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体 arXiv MCP/工具开源/仓库

12:44

HuggingFace Daily Papers（社区热门论文）

面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架，用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量，通过留一验证评估技能边际贡献，并执行三项操作：保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中，SLIM平均超越最佳基线方法7.1个百分点。实验表明，策略学习与外部技能保留可共存：部分技能被策略内化，另一些则持续提供外部价值，验证了动态技能管理的普适性与优越性。

智能体 MCP/工具论文/研究

10:55

Hacker News 热门（buzzing.cc 中文翻译）

交互模型

2026年5月11日，thinkingmachines.ai发布关于交互模型的文章，在Hacker News上获得103点关注。交互模型作为人机交互的核心概念，可能涉及人工智能系统与用户互动方式的创新或改进。这一高关注度反映了技术社区对交互模型发展的兴趣，表明该主题在AI领域具有讨论价值。文章链接指向详细内容，但未提供具体技术细节或变化指标，仅从社区反馈可见其影响力。

智能体 MCP/工具现象/趋势

09:05

meng shao@shao__meng

Codex 发布 OpenAI Developers 插件

OpenAI 为 Codex 推出 OpenAI Developers 插件，将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能，支持开发者直接构建完整应用、创建并配置 API 密钥，以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体，实现从开发到提审的闭环工作流，提升开发效率。

OpenAI Developers: Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

智能体 MCP/工具 OpenAI 产品更新

08:49

ginobefun@hongming731

Claude Code 推出智能体视图，集中管理并行任务

Anthropic为Claude Code发布智能体视图功能，旨在解决开发者管理多任务时的认知负担。该功能将所有并行会话集中显示在一个面板中，用户主要在关键决策点介入，其余时间会话可自动运行。其核心亮点包括Peek功能，支持快速预览会话最新进展并直接回复，以及使用/bg命令将任务推至后台。该视图支持批量下发任务、管理长期运行Agent及快速处理子任务，从而将多任务协作的组织成本从开发者转移至工具本身，有望显著改变开发工作流。该功能目前以研究预览形式向Pro、Max、Team、Enterprise及API用户开放。

智能体 Anthropic MCP/工具产品更新

08:25

Chubby♨️@kimmonismus

发布不错。但现在看来，似乎只是为了每天发布*点东西*。

Claude: New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

智能体 Anthropic MCP/工具大佬观点

06:03

宝玉@dotey

Claude Code 推出 Agent View，统一管理 AI 编程会话

Claude Code 上线新功能 Agent View，允许开发者在单一界面集中管理所有正在运行的 AI 编程会话，解决了以往依赖多个终端标签页或 tmux 分屏、需手动记忆进度的繁琐问题。用户可通过按左箭头或运行 claude agents 命令进入总览界面，直观查看每个会话的状态（如等待回复、运行中或已完成）。其核心便利在于无需切换上下文即可直接回复特定会话，并能“偷看”进展后输入指令，不中断当前工作。此外，支持通过 /bg 命令将会话置于后台，或直接用 claude --bg 启动后台任务。该功能目前以研究预览形式向 Pro、Max、Team、Enterprise 及 API 用户开放。

Claude: New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

智能体 Anthropic MCP/工具产品更新

05:03

宝玉@dotey

Codex 的野心，MCP 和 Skill 的下一步

Codex、Claude等顶尖Agent应用均采用三栏界面，反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台，但用户需二次编辑AI生成内容。目前MCP解决工具连接，Skill解决执行方法，仍缺编辑闭环。作者认为，建立类似VSCode的插件生态是合理路径，将文件预览、专业编辑等能力开放给社区开发，实现商业化，从而为中小团队提供开发垂直插件的机遇。

智能体 MCP/工具 OpenAI 现象/趋势

05:03

🚨 AI News | TestingCatalog@testingcatalog

Sigma浏览器现已在隐私模式中支持Hermes智能体！ Hermes智能体可基于现有本地模型执行浏览器任务。用户可在设置菜单中选择OpenClaw或Hermes选项。选择Hermes团队还是OpenClaw团队？👀

Sigma Browser: Hermes agent running in private browser on free local models Private by design. Local. Open-source

智能体 MCP/工具产品更新端侧

03:52

Simon Willison 博客

精选80

在脚本的shebang行中使用LLM

本文介绍了一种创新方法，将LLM工具直接嵌入脚本的shebang行中执行指令。通过LLM的fragments模式，shebang行可执行简单任务，如生成SVG图像；使用-T选项能调用外部工具（如llm_time）创作包含当前时间的俳句；更复杂的是运行YAML模板，其中定义了Python函数作为工具进行数学计算，示例中演示了计算2344乘以5252加134的过程，并通过调试输出展示了分步结果，最终得到12,310,822。这展现了LLM作为脚本解释器的强大扩展性，能够支持从内容生成到数据查询的多样化任务。

MCP/工具教程/实践

推荐理由：Simon 这个 shebang 技巧让 LLM 直接变成脚本解释器，虽然是极客玩法，但对常写自动化脚本的开发者来说可以直接抄走，创意很妙。

02:52

Claude Code：GitHub Releases（RSS）

精选72

Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括：集中管理会话的Agent视图（研究预览）、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令，以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外，修复了超过20项问题，如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体 Anthropic MCP/工具产品更新

推荐理由：Claude Code 这波更新给了两个真正改变工作流的杀手功能，agent view 让你一眼看清所有会话，/goal 命令能让 Claude 自己跑完一个任务直到满足条件，做开发的同学可以立刻试试。

00:27

Google AI Developers@googleaidevs

谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块：“推理与行动”使AI应用能推理并执行复杂任务；“连接与自动化”通过函数调用将Gemini与现实世界工具集成；“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成，实现实际任务的自动化与系统集成，助力开发者快速上手。

智能体 DeepMind Google MCP/工具

00:02

凡人小北@frxiaobei

精选85

Anthropic在GitHub开源了金融服务行业AI解决方案完整模板库，包含10个端到端智能体、7个垂直行业插件及11家主流金融数据商的MCP连接器，覆盖投研、投行、风控等核心工作流。该库提供了从个人插件到企业API的部署方式，支持集成至Microsoft 365及私有云。此举为金融AI落地提供了开箱即用的标准作业程序，与OpenAI的消费级路线形成鲜明对比，凸显了其深耕企业场景、通过开源构建行业生态的战略意图。

Jason Zhu: Anthropic 真的惊为天人直接把金融服务行业的 AI 工作流模板全开源了投资银行 / 股票研究 / 私募 / 财富管理 / 基金管理 / KYC 风控七大业务线的参考 agent / 技能包 / 数据连接器全部公开这超出了 ...

智能体 Anthropic MCP/工具产品更新

推荐理由：Anthropic 把金融行业 AI 落地的完整 SOP 开源了，10 个 agent 加 11 家数据商 MCP 连接器，这不是 demo，是逼迫全行业在 Claude 轨道上长，金融 AI 格局就此定型。

5月11日

20:30

Peter Steinberger 🦞@steipete

Trimmy现已支持Claude代码提示优化功能。当然，如果你把提示词输入Codex效果会更佳，但我们要兼容并包嘛。对了，考虑到我意识到自己正在占据菜单栏，你现在可以完全隐藏那个图标了。 https://trimmy.app

MCP/工具产品更新编码

20:01

凡人小北@frxiaobei

对比研究Google Health API后的几点感受

作者在体验Apple Health后，认为其数据可控性与生态开放性不足。新推出的Google Health API提供了31种健康数据点、Webhook实时推送和精细权限控制，在数据颗粒度与开放程度上优势显著，为开发者构建健康AI Agent或自动化工作流奠定了强大基础。作者计划将其接入现有系统作为核心数据源，并强调未来将优先选择接入此生态的海外健康终端以掌握数据主权，同时暗示国内生态在开放性上存在差距。

Berryxia.AI: Google 把 Fitbit Air 的全新 Google Health API 直接开放了! 昨天 Fitbit Air 刚刚发布,但更重磅的是它自带了全新的 @googlehealth API,开发者现在可以直接在上面构建 AI Ag...

智能体 Google MCP/工具产品更新

19:48

Berryxia.AI@berryxia

小块有大智慧？这下真成真了！

一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体 arXiv MCP/工具推理

17:34

IT之家（RSS）

字节火山引擎 Agent Plan 发布：业界首个"Agent 套餐包"，每月 40 元起

火山引擎发布业界首个“Agent套餐包”Agent Plan，起售价每月40元。该套餐深度整合模型与工具能力，包含字节自研的Doubao-Seed系列SOTA模型及GLM-5.1、Kimi-K2.6等主流三方模型，原生支持文本、代码、图像、视频多模态任务处理。同时提供联网搜索、记忆增强等Harness工具，可自动适配Claude Code、OpenClaw等主流编程与Agent平台。套餐采用AFP（Agent燃料值）统一计费，设有40元、200元、500元和1000元四档月费阶梯。

MCP/工具产品更新行业动态

16:00

Peter Steinberger 🦞@steipete

使用OpenClaw对OpenClaw聊天完成端点的端到端测试改进发起挑战。在它工作时使用/side功能提出更多问题。

MCP/工具 OpenAI 其他编码

14:34

IT之家（RSS）

腾讯 QClaw 上线"文件空间"功能，打通本地文件、腾讯文档、ima 知识库

腾讯云QClaw正式上线“文件空间”功能，通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库，实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容，勾选多份文件交由AI处理，AI能生成可协作的活化文档并支持团队协同编辑。同时，用户可直接调取ima知识库文件进行分析，AI生成的方案也能一键保存回知识库，便于后续使用。

MCP/工具检索增强产品更新

12:34

阿绎 AYi@AYi_AInotes

中国移动上线AI中转站，国家队布局AGI时代智能电网

中国移动正式上线AI模型中转平台MoMA，标志着“AI国家队”入场，并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于，AI中转站被视为未来AGI时代的“智能电网”，是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析，预示着基础设施层面的竞争格局变化。

阿绎 AYi: http://x.com/i/article/2051958484304891904

MCP/工具政策/监管现象/趋势行业动态

11:34

阿绎 AYi@AYi_AInotes

GBrain升级客户端-服务器架构，MCP协议推动个人AI向基础设施演进

YC CEO主导的GBrain发布v0.31.1版本，实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议，用户可部署中央家庭服务器，让所有设备与AI Agent远程连接、共享记忆，解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug，该bug由CEO的个人AI在生产环境发现并记录，凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

Garry Tan: GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...

智能体 MCP/工具产品更新开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

RubricEM：超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架，将评分标准作为结构化策略执行、反馈与记忆共享的核心接口，以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识，并采用阶段结构化GRPO进行更密集的语义信用分配。同时，它训练一个共享骨干的反思元策略，将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异，超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体 MCP/工具数据/训练论文/研究

06:32

宝玉@dotey

深度拆解：AI Agent Harness 的构造

文章指出，将大语言模型转化为可靠智能体的关键在于其外围基础设施，即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构，包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU，是智能体得以自主运行的“机器”。Harness工程超越了提示词工程，涵盖了完整的应用架构，是解决智能体在生产环境中表现不稳定的根本方案。

智能体 Anthropic MCP/工具 OpenAI

04:58

elvis@omarsar0

作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码，并通过HTML构件实现交互式查看。作者认为，此类AI应用将指数级加速学习过程，并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

MCP/工具图像生成多模态教程/实践

03:58

elvis@omarsar0

苹果研究新突破：将评估嵌入执行循环，实时修正AI代理工具调用错误

苹果公司提出一种新型AI代理评估方法，将评估环节从事后分析移至执行循环内部。该方法部署一个专门的审查代理，在主代理执行每个工具调用前进行检查，若发现问题则注入反馈令其修正。研究引入了“帮助性-危害性”指标来权衡修正效果与新错误产生。在BFCL基准测试中，无关性检测准确率从84.9%提升至90.4%；在τ²-Bench多轮对话测试中，准确率从48.7%提升至55.8%。此方法的核心优势在于无需重新训练基础代理，仅通过优化审查代理的模型与提示工程即可实现显著性能提升，为生产部署提供了独立的优化杠杆。

智能体 MCP/工具论文/研究

03:37

Thariq@trq212

Jarred 尝试用 Rust 重写 Bun，新版本已通过现有测试套件 99.8% 的测试。这是一次涉及 96 万行代码的重写，代码在 Linux 上已实际运行并通过测试，其他平台也将跟进。整个过程并非简单地指令 AI 完成，未来将有博客文章详细阐述其对 Bun 性能、内存使用、可维护性的影响，以及具体的重写过程。

Jarred Sumner: there will be a blog post about this. on what this means for bun, benchmarks, memory usage, maintainability going forwar...

Anthropic MCP/工具产品更新编码

01:34

阿绎 AYi@AYi_AInotes

AI预测视频爆款：脑科学模型革新内容创作流程

Higgsfield发布Virality Predictor工具，利用基于700多人fMRI数据训练的AI模型，直接预测视频引发的人脑神经反应。它能分析15秒视频的整体病毒潜力、前3秒钩子得分及注意力曲线，并生成脑区激活热图。该工具可与Claude等AI结合，实现批量生成视频变体并自动筛选高分版本，使内容测试成本从高昂广告费降至极低token费。这标志着爆款创作从依赖灵感和人工测试，转向依靠系统化预测与高效淘汰机制，核心竞争力变为利用AI快速筛除非爆款的能力。

Higgsfield AI 🧩: Higgsfield releases Virality Predictor What does it mean: > Upload any clip up to 15s > Get viral potential, hook score ...

MCP/工具产品更新视频

5月10日

23:52

Chubby♨️@kimmonismus

当你卧病在床却有太多想法时的问题

Chubby♨️: I'd somehow completely forgotten that Karpathy introduced the wikiLLM a while back (obsidian + Claude code/codex). I'm s...

MCP/工具其他

21:03

meng shao@shao__meng

智能体表现差异的关键：模型之上的"外壳"

智能体表现差异的核心在于模型之上的“外壳”，它包括提示词、工具、上下文策略等工程组件。外壳为裸模型提供状态和执行能力，使其成为智能体。行业常将智能体失败归咎于模型，但实为可定位的配置问题。通过“棘轮”方法，每次失误都可转化为优化外壳的永久规则。没有通用的最优外壳，最佳外壳是为具体任务定制的。未来，行业焦点将从构建LLM API转向构建提供运行时环境的Harness API。

Addy Osmani: http://x.com/i/article/2050749611237847040

智能体 MCP/工具大佬观点编码

19:22

Chubby♨️@kimmonismus

我居然完全忘了Karpathy之前介绍过wikiLLM（obsidian + Claude code/codex）。我卧病在床，因为无事可做就搭建了一个。太喜欢了。我现在有了第二个大脑。真不可思议。

MCP/工具教程/实践

16:33

IT之家（RSS）

马斯克入局 AI 编程赛道：SpaceXAI 桌面编程应用 Grok Build 曝光

SpaceXAI（原xAI）的桌面编程应用Grok Build因网页端按钮意外泄露而曝光。该应用将支持macOS、Linux和Windows系统，直接对标Claude Code和Codex，主打智能体自主编程工作流。它支持插件、MCP、技能模块，并能管理Git仓库、启动开发服务器及处理本地文件。预计将搭载近期内测的Grok 4.3模型，其前端编程能力获好评。尽管具体上线时间未定，但功能泄露和内测权限发放表明发布已准备就绪。

智能体 MCP/工具 xAI 产品更新

11:13

小互@xiaohu

HTML比Markdown更利于人机协作与Agent工作理解

推文提出，在Agent工作流和人机协作交互场景中，HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频，并指出虽然生成的解说文案带有明显的AI风格，但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持，强调了HTML在提升人机交互清晰度方面的优势。

Thariq: http://x.com/i/article/2052796100608974848

智能体 MCP/工具 OpenAI 大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

LLM代理无需推理已知何时调用工具

针对工具增强型LLM代理过度调用工具的问题，研究提出了When2Tool基准，系统评估工具调用必要性。研究发现，尽管提示优化和“推理后行动”等免训练方法效果有限，但模型隐藏状态已线性编码了工具必要性信息（AUROC达0.89-0.96）。基于此提出的Probe&Prefill方法，通过轻量级线性探针读取隐藏信号并预填充引导句，在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果，远超现有基线。

智能体 GitHub MCP/工具论文/研究

07:57

Artificial Analysis@ArtificialAnlys

OpenRouter推出令人兴奋的新功能，采用Artificial Analysis基准测试设置请求中的`min_coding_score`参数，即可根据@ArtificialAnlys的排名，自动路由至符合要求且成本最低的编码模型。实时查看帕累托前沿的变化👇

OpenRouter: Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...

MCP/工具产品更新编码

07:44

Berryxia.AI@berryxia

Google 开放 Fitbit Air 的全新 Health API

Google 随新款 Fitbit Air 发布了全新的 Health API 并向开发者开放。该 API 提供了涵盖运动、睡眠、心率、血氧等维度的 31 种健康数据点，支持 Webhooks 实时数据推送、精细的读写权限控制以及按时间范围查询和汇总数据。开发者可利用该 API 基于个人真实健康数据构建 AI Agent、MCP Server、CLI 或实时监控系统等应用，从而创建实用的个人健康自动化工作流。官方已发布包含首次调用教学的入门指南。

Philipp Schmid: Yesterday Fitbit Air launched, but did you know it comes with a new @googlehealth API? You can build AI agents, MCP serv...