23:13

歸藏(guizang.ai)@op7418

测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错，尤其补上了此前在 Agent 和 Coding 方面的短板，将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准

23:12

AYi@AYi_AInotes

日本Fugu仅0.6B参数，本质是AI项目经理，自动拆分任务，从顶级模型池挑选选手，分配思考、执行、验证三种角色，多轮协作合成答案。API调用与普通模型无异，编排策略由训练习得。跑分超越Claude和GPT，绕过scaling law军备竞赛。缺点包括黑箱、复杂任务延迟高、简单题成本更高。信号意义在于多智能体编排从实验室玩具正式变为可用生产力工具，orchestration layer新赛道开启。

AYi: 全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...

智能体大佬观点推理

22:50

elvis@omarsar0

Microsoft Teams 刚刚跨过了一条我今年没预料到的界限。它现在运行一个 AI 员工，这个员工能完成工作，而不是回答问题的员工。以下是新内容：

智能体 Microsoft 产品更新

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

21:42

TechCrunch：AI（RSS）

Fika Jobs 获 400 万美元预种子轮，打造视频优先 AI 面试招聘平台

斯德哥尔摩初创公司 Fika Jobs 推出视频优先招聘平台，求职者连接 LinkedIn 后，AI 基于 Google Gemini 模型生成个性化问题并完成约 10 分钟视频面试。面试内容自动剪辑成短视频，组织成可被雇主发现和回访的动态档案。平台本周向求职者开放早期访问，秋季全面推出。对求职者免费，雇主在成功招聘后支付候选人首年工资的 10%。本轮 400 万美元预种子轮由 Luminar Ventures 领投，Alliance VC 及 King 联合创始人参与。已有超 100 家公司进入候补名单，超 50 家公司参与测试。

智能体行业动态

21:20

karminski-牙医@karminski3

Doubao-Seed-2.1-pro 发布，作者分享自我迭代 Agent 构建技巧

字节跳动发布 Doubao-Seed-2.1-pro 模型。作者分享自我迭代 Agent 技巧：用两个 Agent（打工+评审），打工 Agent 完成任务后，评审 Agent 输出结构化评分（JSON）并说明优劣；打工 Agent 根据评分修改，评审 Agent 再次打分，仅当新得分高于上次才合并修改。此方法基于 AI 反馈的强化学习雏形，类似吴恩达 Agentic Workflow 中的 Reflection 原则。最终利用 Seed-2.1 的强多模态与自我迭代能力，实现“上传城市相册即可建模整个城市”的 demo。

智能体教程/实践

21:20

Hugging Face：Blog（RSS）

精选73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

智能体 GitHub MCP/工具产品更新

推荐理由：CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

21:11

AYi@AYi_AInotes

EverOS 1.0.0：给AI Agent搭建持久记忆的开源本地记忆操作系统

EverOS 1.0.0是一款开源、本地优先的记忆操作系统，专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件（唯一可信来源），配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤，无需Docker或向量数据库集群。官方基准：LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取（PDF/图片/网页URL），任务可自我演化成可复用Skill，计划加入Knowledge Wiki和Reflection。用户通过CLI（everos init/server start）约30分钟上手。

智能体开源生态教程/实践部署/工程

19:11

AYi@AYi_AInotes

Sakana AI 发布 Fugu：0.6B 参数多智能体编排系统，性能超 Claude 和 GPT

日本团队 Sakana AI 推出 Fugu（Fugu Ultra），一个仅 0.6B 参数的多智能体编排系统，通过统一 API 调用。它不是单体大模型，而是 AI“项目经理”：简单任务自处理，复杂任务自动拆分，从全球模型池选择模型分配思考、执行、验证角色，多轮协作输出答案。编排策略由训练生成，而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT，性能匹敌 Fable 和 Mythos，绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具，开启编排层赛道。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新部署/工程

19:10

公众号：小红书技术（dots.llm）

小红书QEcon分享：Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%，新方案以Coding Agent为核心，采用逆向链式推导与知识库渐进式加载实现动态规划，Debug-first策略生成脚本，并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级，常见场景秒级完成，新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口，无需预设编排。

智能体推理教程/实践

19:10

公众号：千问APP（阿里）

精选60

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由：千问高考志愿Agent的测评报告，数据看着漂亮，但全是阿里自家实验室出品，参考意义不大，真填志愿还是得找独立第三方。