6月30日

08:00

HuggingFace Daily Papers（社区热门论文）

HealthAgentBench：面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布，包含54项医疗任务（7个类别），每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后，整体任务成功率低，最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难，而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体 Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoTrainess：自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体，将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口，通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上，AutoTrainess使用GPT-5.4（Codex）取得26.94平均得分，而纯CLI基线为23.21；该智能体还跨模型泛化，将DeepSeek-V4-Flash（OpenCode）的得分从12.13提升至19.58。

智能体数据/训练论文/研究

07:59

MarkTechPost（RSS）

OpenClaw 发布 iOS 和 Android 配套节点应用，手机变身自托管 AI 智能体网关的"外设"

OpenClaw 推出免费 iOS 和 Android 配套节点应用，手机成为自托管智能体网络中的节点（非独立聊天机器人）。核心 Gateway 用 TypeScript 编写，需 Node 24 或 22.19+，运行在 macOS、Linux 或 Windows（WSL2）上。通过 WebSocket 端口 18789 与手机配对，支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对，支持聊天、实时/后台语音模式、Canvas 表面，以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式（ElevenLabs 或系统 TTS）和实时 Canvas。隐私敏感命令默认关闭，需在配置文件中显式允许。

智能体产品更新开源生态端侧

07:28

Rohan Paul@rohanpaul_ai

Google 发布 Paper Assistant Tool：以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念：AI 加快论文产出，但人工核查成为瓶颈。为此推出智能体验证（agentic verification）方案，并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分，深入检查难点并汇总审稿意见，聚焦证明错误、实验漏洞、缺失对比等客观错误，而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中，该工具比单次模型调用发现更多证明错误；在 STOC 和 ICML 的面向作者试点中，许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体 arXiv Google 论文/研究

05:55

🚨 AI News | TestingCatalog@testingcatalog

OpenClaw 正式发布 iOS 与 Android 原生移动应用，支持智能体（Agents）、频道、任务和回复等核心功能，采用与网页版一致的 UI 设计。用户可在手机上随时随地运行 AI 智能体。

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体产品更新

05:35

Hacker News 热门（buzzing.cc 中文翻译）

Ornith-1.0：用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列，包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%，Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口，MIT 许可证，全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体 Hugging Face 开源生态模型发布

05:30

Microsoft Research@MSFTResearch

AI智能体无法记住过去的对话。它们必须不断加载或检索上下文，随着任务变得更长更复杂，效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题，该系统将存储的内容与检索方式分离开来：https://msft.it/6018vs3gC

智能体 Microsoft 论文/研究

05:26

Emad@EMostaque

本周的Moonshots播客与@PeterDiamandis、@alexwg和@DaveBlundin的讨论是我们进行过的最有趣的讨论之一真的值得花时间，即使这是最慢的时候一些变化即将到来，我们需要做出重大决定 https://youtu.be/-H7J_-zr7pA

智能体行业动态

04:26

OpenClaw🦞@openclaw

精选71

OpenClaw 现已登陆 iOS 和 Android 🦞 📱 原生移动应用，终于来了 💬 智能体装进口袋 🔔 频道、任务、回复，随时处理用你的大拇指，在任何地方运行智能体。 iOS： https://apps.apple.com/us/app/openclaw-ai-that-does-things/id6780396132 Android： https://play.google.com/store/apps/details?id=ai.openclaw.app

智能体产品更新端侧

推荐理由：OpenClaw 终于推出原生移动应用，智能体可以随时放进口袋，对已有用户是体验上的补完，但对新用户的吸引力可能有限。

03:29

MarkTechPost（RSS）

NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit，将蛋白质折叠（OpenFold3、Boltz‑2）、分子对接（DiffDock）、生成化学（GenMol）、序列设计（ProteinMPNN）、MSA 搜索、RFdiffusion 及基因组学模型（Evo 2）等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档，支持 MCP 服务器包装，可通过 npx skills add 安装至 Claude Code 等 agent。测试显示：接入技能后任务完成率从 57.1% 升至 100%，每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库

03:17

Chubby♨️@kimmonismus

下个版本的 Claude Code 中，子智能体将默认在后台运行，让你在子智能体工作时仍可继续与 Claude 对话。若想让智能体前台运行，只需告诉 Claude。Kim 对此表示非常期待，并喊话 Boris 继续发力。

Boris Cherny: In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while ...

智能体 Anthropic 产品更新编码

03:17

Chubby♨️@kimmonismus

AI 公司产品 Matrix 公测开放

Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%)，长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时，而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务，即日起向所有人开放公测。

Matrix: what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...

智能体产品更新推理

02:24

Berryxia.AI@berryxia

卧槽！我终于特么弄懂你们天天吹的循环工程了！！！【引用 @berryxia】：开始让美女助教卖课了😂 丝滑~

Berryxia.AI: 开始让美女助教卖课了😂 丝滑~

智能体其他

01:59

Boris Cherny@bcherny

下一版 Claude Code 中：子智能体默认在后台运行，因此你可以在子智能体工作时继续与 Claude 对话。如想让智能体在前台运行，只需告诉 Claude 即可。

智能体 Anthropic 产品更新编码

01:57

Cursor Blog

精选75

从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版，所有付费计划可用。开发者可在手机上启动始终在线的云端智能体，或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后，锁屏 Live Activities 和推送通知实时更新状态，完成或需要输入时提醒。云端智能体在隔离虚拟机中运行，可自动迭代生成合并就绪的 PR，并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣，优惠至 2026 年 7 月 5 日。

智能体产品更新编码

关联讨论 1 条

推荐理由：Cursor 移动端把 Agent 放到了云上，从手机就能启动和合并 PR，通勤灵感不再浪费，对经常离开桌面的开发者是真正的效率杠杆。

01:55

🚨 AI News | TestingCatalog@testingcatalog

Cursor 发布了 iOS 应用 🔥 > 用户将能够查看实时活动，并跟进正在进行的任务。 > 还将支持带有差异查看器的 PR 审查。不过看起来在欧盟地区无法使用。

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码

01:47

Chubby♨️@kimmonismus

Cursor for iOS 正式发布。用户可通过启动始终在线的云智能体在任何地方构建，或从应用远程控制电脑上的智能体。此外，Composer 2.5 在应用内享受75%折扣，持续至7月5日。主推文回应：没有 Composer 3，但有 Cursor for iOS，表示不确定。

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码

01:26

TechCrunch：AI（RSS）

Cursor 推出 iOS 移动应用，可随时随地指导编码智能体

Cursor 发布 iOS 移动应用，用户可通过手机直接提示编码智能体，或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新，使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示，他目前大部分编码工作都在手机上完成。

智能体产品更新编码

01:20

eric zakariasson@ericzakariasson

过去几周我一直在路上使用 Cursor Mobile，能随时随地访问所有云端智能体，真的太棒了。出去走走，有了想法，在应用中口述下来。走回来时智能体已经完成，可以直接进入其中。今天就试试吧！

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码

01:17

Simon Willison 博客

Ornith-1.0：用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0（MIT 许可），提供 9B、31B、35B MoE 及 397B MoE 四种规模变体，基于预训练的 Gemma 4 和 Qwen 3.5 构建，在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版（20GB），实测推理速度 103 tokens/秒，实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码

00:00

Meituan LongCat@Meituan_LongCat

你们有些人猜对了。👀 OpenRouter上的Owl Alpha--就是我们。自上线以来，其日活量已进入全球前三--并在 Hermes Agent 上排名第一、Claude Code 上第二、OpenClaw 上第三（月活量）。感谢所有在秘密阶段测试和使用 Owl Alpha 的人--你们帮助塑造了接下来即将到来的东西。 Owl Alpha 即将退役。但这并非终点--敬请期待！

智能体模型发布

6月29日

23:58

Rohan Paul@rohanpaul_ai

Giga 发布 Scout，一种以业务 KPI 为目标的 AI 智能体工具。用户用自然语言设定目标，Scout 自动构建智能体，从真实对话中学习（尤其是人工客服介入时），测试每次更改并保留有效部分。小型文案和策略修复可自动推送；涉及资金或系统的操作会带证据路由给团队审批。例如，金融科技公司将"资金存款"设为 KPI，Scout 智能体能自动触达未存款客户并促成存款，恢复流失收入。Scout 还能自行检测并修复自身集成故障，所有变更需用户批准后才生效。

Meer | AI Tools & News: You set the goal. Scout gets you there. most agent tools hand you the KPIs everyone already tracks. scout works backward...

智能体产品更新

23:31

StepFun@StepFun_ai

Step 3.7 Flash 在 Claw-Eval General 自主智能体评测中排名第二。我们在多步执行和长周期任务鲁棒性方面表现强劲，排名仅次于 Claude Opus 4.6。这是面向真实世界智能体工作负载的有前景的信号。

智能体评测/基准

23:24

Berryxia.AI@berryxia

Anthropic工程师在Code with Claude分享提示词工程实战手册

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点：维护已有提示词比从零写更常见，最佳起点是评估（Eval）而非直接改提示词。两个场景：客服机器人需用XML标签结构化，移除旧模型冗余指令，为精确计算提供工具；零售排班Agent应拆分成生成-评估-修复循环，使用更强推理模型（Opus）+自适应思考。强调评估是判断改动有效性的唯一严谨方式。

智能体 Anthropic 推理教程/实践

23:24

Berryxia.AI@berryxia

精选77

Anthropic工程师Margot Van Laar：提示词工程实战--调试生产提示词为主，评估是唯一严谨方式

An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战，核心观点：大部分时间在调试和维护已有生产提示词而非从零编写。两个场景：客服机器人维护中，用XML标签结构化清理，移除旧模型遗留的“禁止列表”指令（新模型会过度拟合），精确计算应调用工具，转人工决策需明确代价与收益；零售排班Agent从零构建时，拆成生成-评估-修复三个简单提示词更稳定，选用更强推理模型（Opus）。她反复强调：评估（Eval）是唯一严谨方式，没有评估就是碰运气。

Berryxia.AI: 睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...

智能体 Anthropic 推理教程/实践

推荐理由：Margot Van Laar把提示词维护讲到了工程级别，评估驱动迭代、清理旧指令、拆分任务循环，这些方法比死记prompt模板重要得多，做AI应用的人都该看一遍。

23:24

Berryxia.AI@berryxia

Anthropic工程师分享提示词工程实战手册

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点：生产提示词大多时间在调试维护，最好起点是评估而非直接修改。维护客服机器人提示词时，需用XML标签结构化，移除冗余补丁，明确输出格式；避免旧模型“禁止列表”指令在新模型上过度拟合；精确计算应赋予工具；升级决策需说明代价与收益。从零构建零售排班Agent，应拆分为生成-评估-修复循环，三个简单提示词各司其职；更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。

智能体 Anthropic 教程/实践

22:35

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Herdr：驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器，允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体 GitHub MCP/工具开源/仓库

推荐理由：这个工具把 AI 代理管理塞进终端，比开一堆浏览器标签自然，对命令行重度用户是个值得一试的 early idea。

22:24

Berryxia.AI@berryxia

开发者跑通AI视频讲解Skills，可自动生成内容

Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息，该技能就能自动生成基础的讲解视频。作者询问社区兴趣度，表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。

智能体教程/实践视频

18:58

MarkTechPost（RSS）

精选74

EverOS：开源Markdown优先智能体记忆运行时，支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS（Apache 2.0 许可）。它以可编辑的 Markdown 文件为记忆主体，经 SQLite 管理状态、LanceDB 实现混合检索（BM25 关键词 + 向量搜索 + 标量过滤）。每个完成的任务记录为 Case，离线提炼为可复用的 Skill，使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs（支持分类与话题搜索的 Markdown 页面）和 Reflection（跨会话优化 Profile 和 Skill）。据 EverMind 报告，LoCoMo 得分 93.05%，LongMemEval 83.00%，HaluMem 93.04%，p95 检索延迟低于 500ms。运行时可本地优先部署，也提供 EverOS Cloud 托管选项，兼容 OpenAI 协议端点。

智能体 MCP/工具开源/仓库

推荐理由：EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来，Markdown源真和自进化技能让本地开发更轻便，但基准全由团队自报，上手前最好自己测一下。

18:49

fofr@fofrAI

我现在用这个技能来处理 agent 写的所有内容。生活质量大幅提升。

fofr: I got tired of reading badly formatted agent written reports, so I put together a writing skill derived from the GOVUK s...

智能体教程/实践

18:31

Alibaba Cloud@alibaba_cloud

准备好参加 Qwen 全球 AI 黑客马拉松了吗？ 🚀 只需三步即可开启你的征程： ➡️ 在 Devpost 上注册 ➡️ 通过 API 访问，在五个赛道之一构建你的 Agent ➡️ 提交作品，赢取 7 万美元以上的奖池份额 🔗 立即点击加入全球竞技场：https://click.qwencloud.com/m/20000000281/

智能体行业动态

18:24

Berryxia.AI@berryxia

开源项目OpenMontage单日获3000 Star，将视频生产拆为12条pipeline，内置52工具和500+ agent skills。用户用自然语言描述需求，agent完成从调研到剪辑全流程，支持AI与真实素材混合工作流，具备预合成验证、后渲染自检等质量把控，渲染引擎Remotion+HyperFrames，普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体 GitHub 开源/仓库视频

18:19

fofr@fofrAI

我非常喜欢这个技能制作流程： - 设置能进行深度研究的子智能体 - 针对某事物不同角度要求进行X次研究运行 - 将研究报告蒸馏成一份SKILL.md文件 - 将研究内容与技能一同包含以供参考

智能体教程/实践

18:07

The Decoder：AI News（RSS）

精选73

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库中，对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本，打开反向 shell，攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容，开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体 Anthropic 安全/对齐编码

推荐理由：用 AI 编码工具克隆仓库就能被反向 shell 控制，这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚，每条修复建议开发者现在就能用。

18:01

IT之家（RSS）

蚂蚁阿宝 AI 助手正式上线，iOS/安卓版支付宝跨代升级至大版本 12，图标添加"AI"字样

6 月 29 日，蚂蚁阿宝 AI 助手在支付宝 App 正式上线。iOS 版支付宝跨代更新至 12.12.1 版本（此前为 10.8.76），安卓版同步升级至相同版本。支付宝 Logo 新增“AI”字样，名称改为“支付宝-你的 AI 生活伙伴”。用户可通过右滑进入 AI 版，以对话方式让“阿宝”执行任务，并可在 AI 版与经典版之间切换。目前该功能仍需邀请码才可体验。

智能体产品更新

17:19

MiniMax (official)@MiniMax_AI

MiniMax官方转发了Gradient、Parallax和GenericAgent团队的演示结果。他们在本地运行了MiniMax M3（428B参数模型），通过Parallax工具部署在3台Mac上，再由GenericAgent驱动一个约3000行代码的自主智能体，完成了创建5只股票投资组合并写入磁盘的任务。整个过程完全在本地进行，无云端调用、无API费用，数据未离开机器。MiniMax表示这是本地AI未来发展的一个缩影。

Gradient: A self-evolving agent + a 428B model + 3 Macs = ? Your own AI lab. We ran @MiniMax_AI M3 locally with @tryParallax, righ...

智能体教程/实践端侧

17:01

Alibaba Cloud@alibaba_cloud

智能体云的转型已经开始。阿里云CTO兼国际业务总裁李飞飞博士分享了他对未来的看法：未来三年将由智能体云的崛起所定义，智能体可以利用产品和基础设施来执行复杂任务。 🔗： https://int.alibabacloud.com/m/1000407809/

智能体 MCP/工具大佬观点

16:51

公众号：火山引擎

万得AI面向个人用户开放，基于豆包大模型2.0与火山引擎

万得推出面向个人金融从业者的AI原生工作平台万得AI，由豆包大模型2.0提供技术支撑，火山引擎提供弹性AI算力。万得AI采用多Agent推理模式，主智能体根据任务实时创建子智能体，调用数百个专业金融MCP工具和Agent，协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中，豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户，实现“一个账号即一支全建制金融团队”。

智能体产品更新

13:50

公众号：卡尔的AI沃茨

开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu（布谷）是一款macOS菜单栏应用，防止合盖后电脑休眠，通过心跳音效提示Agent的五个状态：接收任务（Accept）、运行中（Running）、成功（Done）、中断（Interrupted）和授权（Permission）。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发，Kimi Code在中等编码任务中达180 token/s，短上下文任务260 token/s，速度提升6倍，可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码