HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。
HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。
PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。
AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。
OpenClaw 推出免费 iOS 和 Android 配套节点应用,手机成为自托管智能体网络中的节点(非独立聊天机器人)。核心 Gateway 用 TypeScript 编写,需 Node 24 或 22.19+,运行在 macOS、Linux 或 Windows(WSL2)上。通过 WebSocket 端口 18789 与手机配对,支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对,支持聊天、实时/后台语音模式、Canvas 表面,以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式(ElevenLabs 或系统 TTS)和实时 Canvas。隐私敏感命令默认关闭,需在配置文件中显式允许。
Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。
NVIDIA 发布开源 BioNeMo Agent Toolkit,将蛋白质折叠(OpenFold3、Boltz‑2)、分子对接(DiffDock)、生成化学(GenMol)、序列设计(ProteinMPNN)、MSA 搜索、RFdiffusion 及基因组学模型(Evo 2)等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档,支持 MCP 服务器包装,可通过 npx skills add 安装至 Claude Code 等 agent。测试显示:接入技能后任务完成率从 57.1% 升至 100%,每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。
In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while ...
Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%),长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时,而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务,即日起向所有人开放公测。
what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...
Cursor 推出 iOS 原生公测版,所有付费计划可用。开发者可在手机上启动始终在线的云端智能体,或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后,锁屏 Live Activities 和推送通知实时更新状态,完成或需要输入时提醒。云端智能体在隔离虚拟机中运行,可自动迭代生成合并就绪的 PR,并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣,优惠至 2026 年 7 月 5 日。
关联讨论 1 条X:Berry Xia (@berryxia)Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
Cursor 发布 iOS 移动应用,用户可通过手机直接提示编码智能体,或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新,使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示,他目前大部分编码工作都在手机上完成。
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。
You set the goal. Scout gets you there. most agent tools hand you the KPIs everyone already tracks. scout works backward...
Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:维护已有提示词比从零写更常见,最佳起点是评估(Eval)而非直接改提示词。两个场景:客服机器人需用XML标签结构化,移除旧模型冗余指令,为精确计算提供工具;零售排班Agent应拆分成生成-评估-修复循环,使用更强推理模型(Opus)+自适应思考。强调评估是判断改动有效性的唯一严谨方式。
An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。
睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。 核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...
Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:生产提示词大多时间在调试维护,最好起点是评估而非直接修改。维护客服机器人提示词时,需用XML标签结构化,移除冗余补丁,明确输出格式;避免旧模型“禁止列表”指令在新模型上过度拟合;精确计算应赋予工具;升级决策需说明代价与收益。从零构建零售排班Agent,应拆分为生成-评估-修复循环,三个简单提示词各司其职;更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。
Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。
Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。
EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。它以可编辑的 Markdown 文件为记忆主体,经 SQLite 管理状态、LanceDB 实现混合检索(BM25 关键词 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill,使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs(支持分类与话题搜索的 Markdown 页面)和 Reflection(跨会话优化 Profile 和 Skill)。据 EverMind 报告,LoCoMo 得分 93.05%,LongMemEval 83.00%,HaluMem 93.04%,p95 检索延迟低于 500ms。运行时可本地优先部署,也提供 EverOS Cloud 托管选项,兼容 OpenAI 协议端点。
I got tired of reading badly formatted agent written reports, so I put together a writing skill derived from the GOVUK s...
这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...
安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本,该脚本运行时从 DNS 条目拉取命令并执行,恶意代码从未存在于仓库中,对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时,Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本,打开反向 shell,攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容,开发者应将第三方仓库的 setup 说明视为不受信任代码。
6 月 29 日,蚂蚁阿宝 AI 助手在支付宝 App 正式上线。iOS 版支付宝跨代更新至 12.12.1 版本(此前为 10.8.76),安卓版同步升级至相同版本。支付宝 Logo 新增“AI”字样,名称改为“支付宝-你的 AI 生活伙伴”。用户可通过右滑进入 AI 版,以对话方式让“阿宝”执行任务,并可在 AI 版与经典版之间切换。目前该功能仍需邀请码才可体验。
A self-evolving agent + a 428B model + 3 Macs = ? Your own AI lab. We ran @MiniMax_AI M3 locally with @tryParallax, righ...
万得推出面向个人金融从业者的AI原生工作平台万得AI,由豆包大模型2.0提供技术支撑,火山引擎提供弹性AI算力。万得AI采用多Agent推理模式,主智能体根据任务实时创建子智能体,调用数百个专业金融MCP工具和Agent,协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中,豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户,实现“一个账号即一支全建制金融团队”。
Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,通过心跳音效提示Agent的五个状态:接收任务(Accept)、运行中(Running)、成功(Done)、中断(Interrupted)和授权(Permission)。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发,Kimi Code在中等编码任务中达180 token/s,短上下文任务260 token/s,速度提升6倍,可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。