5月8日

05:43

OpenRouter：Announcements（RSS）

精选73

该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择，实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型（如GPT、Claude、LLaMA等）集成实时、可靠的网络信息获取能力，无需为每个模型单独适配。

智能体 MCP/工具产品更新

推荐理由：让任何模型都能用统一接口做联网搜索和抓取，做 agent 的同学不用再为每个模型单独配工具了，在 OpenRouter 上搭产品的实用性直接拉高。

03:36

Hacker News 热门（buzzing.cc 中文翻译）

智能体需要控制流，而不是更多的提示

当前AI智能体的开发过度依赖提示工程，导致系统复杂且脆弱。文章主张智能体应转向采用编程中的控制流结构，如条件判断、循环和函数调用，以实现更可靠、可维护的决策与行动序列。这一转变能减少提示长度和调试负担，提升智能体处理复杂、多步骤任务的能力，是构建下一代实用AI助手的关键。

智能体现象/趋势

03:30

GitHub Blog

精选79

Agent pull requests 无处不在：如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法，重点包括审查时应关注的代码变更点、问题常见隐藏位置（如逻辑错误或安全漏洞），以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交，确保代码质量，避免缺陷流入生产环境。指南强调主动审查策略，以应对AI代理在软件开发中日益普及的趋势。

智能体 GitHub 教程/实践编码

推荐理由：AI代理生成的PR越来越多，审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务，给出了马上能用的检查清单，每个用Copilot的开发者都该看。

01:22

HuggingFace Daily Papers（社区热门论文）

评估智能体创造性推理：基于可供性的工具重新利用基准CreativityBench

研究团队推出CreativityBench基准，以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库，生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明，模型虽常能选择合理物体，但在识别正确部件、其可供性及所需物理机制方面存在显著困难，导致性能大幅下降。模型规模扩大带来的改进很快饱和，通用推理能力与思维链等策略均未能有效提升创造性可供性发现，凸显该能力仍是当前模型的主要挑战。

智能体推理论文/研究评测/基准

01:06

Hacker News 热门（buzzing.cc 中文翻译）

AlphaEvolve：由Gemini驱动的编程代理，在各领域产生广泛影响

DeepMind发布了由Gemini驱动的编程代理AlphaEvolve。该代理能自动生成、测试和优化代码，显著提升了软件开发效率与质量。其影响已扩展至多个领域，包括科学研究和工业应用，在特定基准测试中展示了卓越的代码生成能力。该技术旨在通过自动化复杂编程任务，降低开发门槛并加速各行业的创新进程。

智能体 DeepMind 产品更新编码

5月7日

23:22

HuggingFace Daily Papers（社区热门论文）

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

研究团队推出SWE-WebDev Bench评估框架，从交互模式、机构角色和复杂度三个维度，通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷：存在将丰富业务需求过度简化的“规范瓶颈”；普遍存在前端与后端脱节，精美UI常掩盖缺失或故障的后端；生产就绪度陡降，工程质量得分无平台超过60%，且人工后期工作量差异大；安全与基础设施问题广泛，安全得分无平台超过65%，并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

智能体编码论文/研究评测/基准

22:59

Google DeepMind：Blog（RSS）

精选66

AlphaEvolve：我们由Gemini驱动的编程智能体如何跨领域扩展影响力

AlphaEvolve推出了基于Gemini大模型的编程智能体，其算法正驱动多个领域产生实际影响。该智能体在商业流程、基础设施优化与科学研究三个关键领域实现规模化应用，通过自动化代码生成与问题解决提升效率。具体实践表明，它能显著加速开发周期并处理复杂任务，标志着AI编程助手从辅助工具向核心生产力引擎的演进。

智能体 DeepMind Google 产品更新

推荐理由：DeepMind这次不只是秀参数，AlphaEvolve用Gemini驱动编码代理，已经开始在工业设计和科学发现里产生真实影响了，做自动化的可以盯着看。

20:16

IT之家（RSS）

中国信通院联合腾讯、华为等发起智能体可信握手协议（ATH），建立智能体开源社区

中国信通院联合中国电信、中国联通、中移九天、香港中文大学（深圳）、中兴、腾讯、华为等机构，共同发起“智能体可信握手协议（ATH）1.0”。该协议旨在解决多智能体跨平台协同交互中的信任与安全问题，构建了覆盖身份互验、权限管控和行为审计的标准化可信交互框架，秉持用户主权、三方参与、去中心化等六大设计原则。协议已在AtomGit和GitHub开源。同时，中国信通院牵头成立“智能体开源社区”，以汇聚产业力量，推动开源智能体技术的安全迭代与规模化应用。

智能体开源生态行业动态

20:00

OpenRouter：Announcements（RSS）

同事件精选56

OpenRouter 为每个模型提供一致网络搜索与抓取功能

OpenRouter 向所有支持工具调用的模型开放自主网络搜索与页面内容抓取能力，并允许用户从多个搜索引擎和抓取引擎中自行选择。

智能体 MCP/工具产品更新搜索

同一事件，精选展示《OpenRouter 通过 API 引入网页搜索功能》

推荐理由：OpenRouter把网络搜索和抓取做成统一的工具接口，任何工具调用模型都能用，做agent的开发者不用再自己拼搜索层了。