7月3日

06:21

Simon Willison 博客

Simon Willison 发布实验性库 llm-coding-agent 0.1a0，基于其 LLM 库演化为智能体框架，实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行，并提供基于 CodingAgent 类的 Python API。内置六种工具：edit_file（精确替换字符串并返回 diff）、execute_command（执行命令，超时 600 秒）、list_files（按 glob 列出文件，排除隐藏目录和 .gitignore 覆盖项）、read_file（分页读取，offset/limit 控制）、search_files（正则搜索，最多 100 条结果）、write_file（创建或覆盖文件，自动创建父目录）。已作为 slop-alpha 发布到 PyPI，支持 --yolo 等 recipe 参数。

智能体 GitHub 产品更新开源生态

05:08

MarkTechPost（RSS）

精选70

阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent，一个开源的 JavaScript 客户端库，嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同，Page Agent 不依赖截图或多模态模型，而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射，让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话，无需独立后端，并支持任意 OpenAI 兼容端点的模型（示例使用 qwen3.5-plus）。项目采用 MIT 许可证，适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景，但限于单页面范围，风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由：Page Agent 把浏览器自动化从外部驱动变成页面内 JS，读 DOM 而非截图，让 SaaS 内的 AI 助手成本更低、更精准，适合自己产品内嵌 copilot 的团队。

03:21

Simon Willison 博客

使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务（基于 Claude Fable 5）尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano，发现改进方向：模式列表仅给出表名，而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练

01:21

Simon Willison 博客

Geoffrey Litt 在 AIE 提出「理解以参与」理念：与编码智能体协作需避免认知债务

Geoffrey Litt 在 AIE 演讲中提出「理解以参与」理念：开发者需要深入理解代码，才能在与编码智能体（coding agents）的协作中保持主动参与，避免因认知债务（cognitive debt）导致无法有效推进项目。他认为，缺乏对代码的概念流畅性会显著限制参与能力。该演讲录像将于三周内陆续放出。

智能体大佬观点编码

01:08

Apple Machine Learning Research（RSS）

精选72

多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

7月2日

23:33

HuggingFace Daily Papers（社区热门论文）

性能优化基准是否可靠衡量编码智能体？

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现，跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498；SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致，SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外，在450个可重现任务中，至少一个提交已匹配或超越参考补丁的比例达85.3%，超越未优化基线达99.8%，揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准

20:45

The Decoder：AI News（RSS）

精选71

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

智能体 Anthropic OpenAI 现象/趋势

推荐理由：自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

20:34

TechCrunch：AI（RSS）

用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频，引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果，触发Claude自动生成Instagram试播视频，配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”，几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告，让AI智能体单方面控制账户存在隐私风险，强调需要人类参与审批。

智能体 Anthropic 开源/仓库教程/实践

18:31

公众号：千问APP（阿里）

精选62

千问团队朱达：C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent（千问App胶囊入口），总结“多快好省”方法论：支持信息搜集、研究分析等任务；执行时间降至初始1/3；通过搜索范式与上下文管理优化交付质量；Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务，构建User Memory、Environment、Task System、Assistant四大组件，指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering，下一站是A IWare Engineering，强调“低功耗，够用就行”。

智能体大佬观点部署/工程

推荐理由：千问C端团队分享的Agent工程实践很务实，从“多快好省”到AIWare Engineering的演进思路，对正在做复杂任务Agent的团队是一个有价值的参考系。