7月1日

06:01

MarkTechPost（RSS）

Anthropic 发布 Claude Sonnet 5：中端智能体模型，基准与定价详解

Anthropic 发布 Claude Sonnet 5，定位为最具智能体能力的中端模型，即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%（前代 58.1%），OSWorld-Verified 达 81.2%（前代 78.5%），HLE（带工具）57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token，之后 $3/$15。支持低/中/高/超高四档 effort 级别，低中 effort 下性价比最优。上下文窗口 1M token，采用新 tokenizer，相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体 Anthropic 推理模型发布

关联讨论 9 条

05:59

TechCrunch：AI（RSS）

OpenClaw 正式登陆 Android 和 iOS

免费开源 AI 智能体 OpenClaw 现已推出 iOS 和 Android 应用。用户通过 OpenClaw Gateway 将手机与智能体及所需工具、技能连接，可在移动端运行智能体完成编程、餐食规划等任务。OpenClaw 今年早些时候因 MoltBook（号称完全由智能体运营的社交媒体站）走红，其创建者 Peter Steinberger 随后加入 OpenAI。尽管 MoltBook 后被证实部分由人类伪装智能体运行，但此事件推动了智能体生态扩张，如今 AI 智能体已嵌入更多场景，包括手机端。

智能体产品更新开源生态

04:06

Ars Technica：AI（RSS）

AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking：通过诱导AI浏览器接受“正确即错误”（如2+2=5）的规则，使其进入幻境，安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效，六款AI智能体均未识别出违规。与传统聊天机器人越狱相比，AI浏览器因合并控制平面与数据平面，潜在危害更大。目前该攻击缺乏隐蔽性，属演示性质。

智能体安全/对齐

03:08

The Decoder：AI News（RSS）

Anthropic 发布 Claude Sonnet 5，号称最智能体版本，逼近 Opus 系列

Anthropic 发布 Claude Sonnet 5，称其为最智能体的 Sonnet 版本，能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6：SWE-bench Pro 达 63.2%，Terminal-Bench 2.1 为 80.4%，知识工作基准 GDPval-AA v2 得分 1618，略超 Opus 4.8。模型即日起在所有计划上线，开发者可通过 Claude Code 和 API 使用，支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日，输入价格 $2/百万 token，输出 $10/百万 token，之后恢复至 $3/$15。模型未针对网络安全任务训练，默认启用实时网络防护，幻觉和谄媚行为较前代减少。

智能体 Anthropic 模型发布

关联讨论 9 条

03:07

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 发布 Claude Science beta：专注严谨科学研究的 AI 应用

Anthropic 推出 Claude Science beta，专为科学研究设计。可运行分析、搜索数据库，追踪从数据处理到发表的每一步。内置科学渲染器原生查看蛋白质、结构、分子及 PDF，每个结果附带原始代码、环境和对话，确保完全可复现。后台审查器自动标记错误引用、不可追溯数字及代码不匹配的图表。支持自然语言标注修改图表。管理计算环境，可在笔记本、Linux 机器、HPC 集群或 GPU 上按需扩展。持久化 Python 和 R 内核，变量和数据框内存驻留。预配置基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域，可查询 60+ 科学数据库。支持将流程保存为可复用技能或连接实验室工具。当前提供 macOS 和 Linux 版本。

智能体 Anthropic MCP/工具产品更新

关联讨论 1 条

02:37

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 发布 Claude Sonnet 5：最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5，定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升，表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用，成为 Free 和 Pro 计划的默认模型，并支持 Claude Code 及 Claude 平台。API 推出优惠定价：每百万输入 token $2、每百万输出 token $10（持续至 2026 年 8 月 31 日），之后恢复为 $3 和 $15。安全评估显示，Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代，但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体 Anthropic 推理模型发布

关联讨论 9 条

02:28

TechCrunch：AI（RSS）

Anthropic 推出 Claude Sonnet 5，主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5，这是其中端模型的最新版本，具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8，但成本更低：即日起至 8 月 31 日，输入每百万 tokens $2，输出每百万 tokens $10，之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%（Opus 4.8 为 69.2%，Sonnet 4.6 为 58.1%），在知识工作基准上略超 Opus 4.8。安全方面，不当行为、幻觉和谄媚率低于 Sonnet 4.6，且更善于拒绝恶意请求和提示词注入攻击。

智能体 Anthropic 推理模型发布

关联讨论 9 条

02:02

Anthropic：Newsroom（网页）

精选81

Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体 Anthropic 模型发布编码

关联讨论 9 条

推荐理由：Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet，性能接近 Opus 4.8 但价格只有三分之一，这对开发者来说性价比飞跃。虽然还不是最强，但已经能让许多复杂任务从勉强可用变成可靠。

01:58

TechCrunch：AI（RSS）

精选72

Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘，可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式，如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构，默认不访问私人消息。公司获 530 万美元种子轮融资，由 BITKRAFT Ventures 领投，现已开放下载。

智能体 Google 产品更新端侧

推荐理由：Acti 想用 AI 代理重塑手机键盘，把 Gemini 塞进输入法，离不离开 App 都能用 AI 的思路很讨巧，但换键盘的阻力不小，目前更像一个有趣的试验品。刚拿到 530 万美元种子轮，有试错空间。

01:32

Anthropic：Newsroom（网页）

精选66

Claude Science 科研工作台正式上线

Anthropic 推出 AI 科研工作台 Claude Science，整合常用工具与计算资源，支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域；可在macOS/Linux本地运行，或通过SSH/HPC远程使用。生成含代码和环境的可审计成果（3D蛋白质结构、基因组浏览器轨迹等），内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型，也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

智能体 Anthropic MCP/工具产品更新

关联讨论 1 条

推荐理由：Anthropic 为科学家打造了一个整合 60+ 技能、可管理计算和审计输出的 AI 工作台，让 AI 从顾问变成可复现的实验合作者。

01:28

Claude：Blog（网页）

精选72

Claude Code 入门：智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 /goal 命令设定可验证完成标准与最大轮次）、time-based 循环（通过 /loop 按时间间隔重复执行，可用 /schedule 移至云端）、以及 proactive 循环（基于事件或计划自动运行，无人实时参与）。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码，让 Claude 进行端到端自检，减少 turn-based 循环中的手动操作。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic把agentic loops从模糊概念变成四种可复制的模式，附带SKILL.md和命令示例，Claude Code用户读完就能设计更自主的编码流程。

01:28

TechCrunch：AI（RSS）

Anthropic 推出 Claude Science 科学家 AI 工作台

Anthropic 于周二推出 Claude Science，一个面向科学家的 AI 工作台，运行现有 Claude 模型（含 Claude Opus 4.8），不提供新模型或特殊访问权限。工作台连接超过 60 个科学数据库，内置基因组学、蛋白质结构、化学等预构建工具包，主助手可创建子助手分工，事实核查器校验引用和计算。它能生成附有代码和环境的 3D 蛋白质结构等图表，支持自然语言编辑，并可在实验室本地基础设施上运行。早期用户已用来构建基因组浏览器和多智能体计算审查管道。Claude Science 现已向 Pro、Max、Team 和 Enterprise 订阅用户开放 beta 版，并提供 50 个项目、最高 3 万美元信用额度的资助申请机会。

智能体 Anthropic 产品更新

01:19

Simon Willison 博客

精选73

用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令，支持通过 storyboard.yml 文件定义操作步骤，并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制，解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调，将 --help 输出设计得足够详细，可使编码 Agent 直接利用该命令生成演示视频。

智能体 GitHub MCP/工具产品更新

推荐理由：Simon 把 agent 的产出从文字推到了视频，这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏，等于给自动化流程加了一双眼睛，开发者可以立刻用上这套 demo 生成方案。

01:17

Google Developers Blog（RSS）

精选67

ADK Go 2.0 发布：构建可靠的多智能体应用，新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布，引入了一类基于图的工作流引擎，用于组合复杂多智能体应用。新版本内置人工参与循环（HITL）编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后，单智能体应用与复杂图均运行在同一运行时上，简化了遥测与状态持久化。

智能体 Google 产品更新部署/工程

推荐理由：Google 给 Go 生态补上了多智能体编排的关键一环，图工作流引擎和人机协同直接内置，比之前拼积木的方式可靠很多，做 Agent 的 Go 开发者值得跟进。

01:17

Google Developers Blog（RSS）

Google发布新技能：从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能，将评估过程自动化成五阶段飞轮：准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发，开发者用自然语言描述测试目标，独立评估服务安全验证并统计实际性能提升。

智能体 Google 产品更新编码

6月30日

17:27

TechCrunch：AI（RSS）

加密货币交易所OKX推出AI市场，让AI智能体互相雇佣和支付

加密货币交易所OKX于周二发布AI市场“OKX AI”，允许AI智能体自主雇佣彼此、结算支付并建立可携带的链上声誉。该市场面向开发者开放，此前已吸引50家早期AI服务提供商内测。市场基于OKX已有技术构建，支持AI智能体持有数字钱包、使用稳定币支付和建立持久身份。早期合作方包括安全审计服务CertiK、实时市场数据提供商CoinAnk以及纠纷解决基础设施GenLayer。开发者可通过OKX的Onchain OS工具包访问该平台，无需OKX账户即可使用，并兼容Claude Code、Codex等AI编码工具。OKX认为“智能体经济”需要为自主软件设计的基础设施，计划分阶段推广该市场。

智能体产品更新行业动态

15:37

Hacker News 热门（buzzing.cc 中文翻译）

LongCat-2.0 开源：1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源，总参数 1.6 万亿，每 token 激活约 480 亿参数，采用 MoE 架构。新引入 LongCat Sparse Attention（LSA）和 N-gram Embedding 模块，支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练，消耗超 35 万亿 tokens，训练全程无回滚。在编码和智能体任务上表现优异，深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布

关联讨论 9 条

15:02

IT之家（RSS）

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试，模拟创业公司 500 天经营，启动资金 100 万美元，评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中，Claude Fable 5 期末现金达 4715 万美元，是唯一多次运行均高于初始余额的模型；Claude Opus 4.8 为 2778 万美元，GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天，DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体 Anthropic 推理评测/基准

15:02

IT之家（RSS）

AI 编程工具 Cursor 推出移动端应用，手机即可操控智能体

Cursor 本周一推出移动端应用 Cursor Mobile，用户可通过手机新建编程智能体，或对接电脑客户端已启动的智能体。该应用与去年 10 月发布的 Cursor 2.0 更新衔接，后者推动服务向独立代码生成智能体转型。此前，Anthropic 与 OpenAI 均已推出同类移动应用。Claude Code 业务负责人鲍里斯·切尔尼表示，自己目前大部分编码工作已在手机上完成。

智能体产品更新编码

12:26

HuggingFace Daily Papers（社区热门论文）

InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题，InnerZoom提出单前向跨层证据桥接框架，将原始前向中的目标线索压缩为跨层证据状态，在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优，OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6，分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点，对比两遍ZoomIn平均提升1.3点，端到端延迟降低31.8%，TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究

11:29

MarkTechPost（RSS）

Top 6 无代码 AI 工具速览（涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架）

Atoms 是无代码平台，支持零基础设施、多智能体架构并即时连接 GPT 与 Gemini。Sim AI 是开源可视化 AI 智能体工作流工具，提供拖拽画布、80+ 集成及 MCP 支持，可云托管或 Docker 自部署。RAGFlow 是检索增强生成引擎，支持多格式文件建立知识库，连接 LLM（API 或 Ollama），具备检索质量验证。Transformer Lab 是免费开源本地 LLM 与扩散模型工作站，支持下载、对话、图像生成、微调（含 RLHF）、RAG 及嵌入计算。LLaMA-Factory 支持 100+ 模型及 SFT、PPO、DPO、LoRA、QLoRA 等训练方法。

智能体教程/实践部署/工程

11:26

HuggingFace Daily Papers（社区热门论文）

精选77

Agents-A1：35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1，一个 35B 参数的 Mixture-of-Experts 智能体模型，通过扩展智能体 horizon（长轨迹与异构能力两个视角）达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施，生成平均 45K token 的智能体轨迹，并采用三阶段训练：全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏（含显著词汇对齐）。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro，Agents-A1 在 SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和 MolBench-Bind（56.8）上领先，并在 SciCode（44.3）、HLE（47.6）和 BrowseComp（75.5）上保持强竞争力。

智能体推理论文/研究

推荐理由：用35B模型追平1T参数模型，这条“扩展智能体视野”的路比无脑堆参数务实得多，做Agent和长程推理的团队必须认真读。

11:02

IT之家（RSS）

OPPO ColorOS 小布助手接入微信，一句话发消息、打电话

OPPO ColorOS 今日官宣，小布助手接入微信 A2A（Agent-to-Agent）协作机制，支持用户语音唤醒助手后，自动打开微信向联系人发消息或打微信电话，重名联系人可确认后再执行。该功能基于 A2A 协议，由厂商 AI 助手发起指令、微信负责执行并返回结果，全程采用双重授权机制，保障数据安全与隐私合规。相关能力正逐步向华为、荣耀、小米、OPPO、vivo 等厂商开放。

智能体产品更新

10:26

HuggingFace Daily Papers（社区热门论文）

GUICrafter：利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体，通过两阶段课程学习框架降低对人工标注的依赖：阶段1利用大规模未标注截图和网页学习视觉定位，阶段2使用少量高质量数据通过强化学习校准。实验显示，GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能；在相同标注数据量下，其表现超越所有先前方法（如GUI-R1）。代码、数据和模型已开源。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HealthAgentBench：面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布，包含54项医疗任务（7个类别），每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后，整体任务成功率低，最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难，而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体 Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoTrainess：自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体，将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口，通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上，AutoTrainess使用GPT-5.4（Codex）取得26.94平均得分，而纯CLI基线为23.21；该智能体还跨模型泛化，将DeepSeek-V4-Flash（OpenCode）的得分从12.13提升至19.58。

智能体数据/训练论文/研究

07:59

MarkTechPost（RSS）

OpenClaw 发布 iOS 和 Android 配套节点应用，手机变身自托管 AI 智能体网关的"外设"

OpenClaw 推出免费 iOS 和 Android 配套节点应用，手机成为自托管智能体网络中的节点（非独立聊天机器人）。核心 Gateway 用 TypeScript 编写，需 Node 24 或 22.19+，运行在 macOS、Linux 或 Windows（WSL2）上。通过 WebSocket 端口 18789 与手机配对，支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对，支持聊天、实时/后台语音模式、Canvas 表面，以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式（ElevenLabs 或系统 TTS）和实时 Canvas。隐私敏感命令默认关闭，需在配置文件中显式允许。

智能体产品更新开源生态端侧

05:35

Hacker News 热门（buzzing.cc 中文翻译）

Ornith-1.0：用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列，包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%，Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口，MIT 许可证，全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体 Hugging Face 开源生态模型发布

03:29

MarkTechPost（RSS）

NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit，将蛋白质折叠（OpenFold3、Boltz‑2）、分子对接（DiffDock）、生成化学（GenMol）、序列设计（ProteinMPNN）、MSA 搜索、RFdiffusion 及基因组学模型（Evo 2）等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档，支持 MCP 服务器包装，可通过 npx skills add 安装至 Claude Code 等 agent。测试显示：接入技能后任务完成率从 57.1% 升至 100%，每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库

01:57

Cursor Blog

精选75

从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版，所有付费计划可用。开发者可在手机上启动始终在线的云端智能体，或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后，锁屏 Live Activities 和推送通知实时更新状态，完成或需要输入时提醒。云端智能体在隔离虚拟机中运行，可自动迭代生成合并就绪的 PR，并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣，优惠至 2026 年 7 月 5 日。

智能体产品更新编码

关联讨论 1 条

推荐理由：Cursor 移动端把 Agent 放到了云上，从手机就能启动和合并 PR，通勤灵感不再浪费，对经常离开桌面的开发者是真正的效率杠杆。

01:26

TechCrunch：AI（RSS）

Cursor 推出 iOS 移动应用，可随时随地指导编码智能体

Cursor 发布 iOS 移动应用，用户可通过手机直接提示编码智能体，或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新，使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示，他目前大部分编码工作都在手机上完成。

智能体产品更新编码

01:17

Simon Willison 博客

Ornith-1.0：用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0（MIT 许可），提供 9B、31B、35B MoE 及 397B MoE 四种规模变体，基于预训练的 Gemma 4 和 Qwen 3.5 构建，在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版（20GB），实测推理速度 103 tokens/秒，实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码

6月29日

22:35

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Herdr：驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器，允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体 GitHub MCP/工具开源/仓库

推荐理由：这个工具把 AI 代理管理塞进终端，比开一堆浏览器标签自然，对命令行重度用户是个值得一试的 early idea。

18:58

MarkTechPost（RSS）

精选74

EverOS：开源Markdown优先智能体记忆运行时，支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS（Apache 2.0 许可）。它以可编辑的 Markdown 文件为记忆主体，经 SQLite 管理状态、LanceDB 实现混合检索（BM25 关键词 + 向量搜索 + 标量过滤）。每个完成的任务记录为 Case，离线提炼为可复用的 Skill，使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs（支持分类与话题搜索的 Markdown 页面）和 Reflection（跨会话优化 Profile 和 Skill）。据 EverMind 报告，LoCoMo 得分 93.05%，LongMemEval 83.00%，HaluMem 93.04%，p95 检索延迟低于 500ms。运行时可本地优先部署，也提供 EverOS Cloud 托管选项，兼容 OpenAI 协议端点。

智能体 MCP/工具开源/仓库

推荐理由：EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来，Markdown源真和自进化技能让本地开发更轻便，但基准全由团队自报，上手前最好自己测一下。

18:07

The Decoder：AI News（RSS）

精选73

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库中，对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本，打开反向 shell，攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容，开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体 Anthropic 安全/对齐编码

推荐理由：用 AI 编码工具克隆仓库就能被反向 shell 控制，这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚，每条修复建议开发者现在就能用。

18:01

IT之家（RSS）

蚂蚁阿宝 AI 助手正式上线，iOS/安卓版支付宝跨代升级至大版本 12，图标添加"AI"字样

6 月 29 日，蚂蚁阿宝 AI 助手在支付宝 App 正式上线。iOS 版支付宝跨代更新至 12.12.1 版本（此前为 10.8.76），安卓版同步升级至相同版本。支付宝 Logo 新增“AI”字样，名称改为“支付宝-你的 AI 生活伙伴”。用户可通过右滑进入 AI 版，以对话方式让“阿宝”执行任务，并可在 AI 版与经典版之间切换。目前该功能仍需邀请码才可体验。

智能体产品更新

16:51

公众号：火山引擎

万得AI面向个人用户开放，基于豆包大模型2.0与火山引擎

万得推出面向个人金融从业者的AI原生工作平台万得AI，由豆包大模型2.0提供技术支撑，火山引擎提供弹性AI算力。万得AI采用多Agent推理模式，主智能体根据任务实时创建子智能体，调用数百个专业金融MCP工具和Agent，协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中，豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户，实现“一个账号即一支全建制金融团队”。

智能体产品更新

13:50

公众号：卡尔的AI沃茨

开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu（布谷）是一款macOS菜单栏应用，防止合盖后电脑休眠，通过心跳音效提示Agent的五个状态：接收任务（Accept）、运行中（Running）、成功（Done）、中断（Interrupted）和授权（Permission）。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发，Kimi Code在中等编码任务中达180 token/s，短上下文任务260 token/s，速度提升6倍，可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码

09:01

IT之家（RSS）

惠普与 OpenAI 达成战略合作，全面部署 AI 智能体平台 Frontier

惠普宣布与 OpenAI 达成战略合作，将在全球业务中部署 OpenAI Frontier 平台，以提升客户体验并优化内部运营。Frontier 是 OpenAI 今年 2 月推出的企业级 AI 智能体构建与部署平台，提供共享上下文、入职培训、反馈式动手学习及权限边界等技能，支持与现有数据和应用程序集成，可通过 ChatGPT、Atlas 工作流或现有业务应用访问。惠普是首批采用 Frontier 的企业之一，其他包括 Intuit、Oracle、State Farm、Thermo Fisher 和 Uber。

智能体 OpenAI 行业动态