Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试,覆盖 12 个领域。问题无固定答案密钥,迫使模型通过多步工具调用自主验证证据,从而评估其真实性及弃权能力。当前智能体极少捏造引用(超 99% 可解析),但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上;在最难子集中同系列模型仅解决约 17%,而前沿智能体(Gemini-3-Pro、Opus-4.7、GPT-5.5)表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后,评分者间一致性从 Spearman 0.35 提升至 0.82。
NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。
客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
宝玉分享 baoyu-design Skill 的迭代过程:用户测试发现导出问题(样式表未铺满整页、渐变色丢失),他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖,修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图,支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图,并能连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。迭代循环:自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。
baoyu-design skill 更新:可以在制作 PPT、动画视频或者网站时调用 AI 生图技能配图了,当然需要你本地 Agent 有配置画图 Skill。 如果是 Codex 可以直接调用内置画图工具,如果你用 Claude Cod...
开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR:自动分诊判断价值,关闭无用的,复活过时的。每个被复活的 PR 同时运行两个线程——Build 线程负责修复冲突和更新代码,Review 线程负责审查代码,形成写手+审稿人的双保险,降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度,实现“睡觉时自动干活,醒来只看决策”。主推文作者拆解出三步:Triage 分诊、关闭无用、复活并行推进,可直接复制使用。
I underestimated how cool this workflow is. Had Codex go through a bunch of stale PRs last night. Closed all the useless...
GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
AI编程圈出现新主张:不应再手动提示编码智能体,而应设计循环自动完成提示、读取输出、判断完成,并在出错时重新提示。Boris Cherny(Claude Code创建者)和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态(ReAct、AutoGPT、ralph loop、/loop与/goal、编排),并拆解六大组装部件:触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。
http://x.com/i/article/2068004233849290752
搭AI Agent团队远非“5分钟教程”那么简单。环境配置(Python 3.10+等)劝退八成新手。Agent编排面临从众效应、角色不一致等缺陷,Anthropic采用Subagents模式,Cognition甚至发文称“不要构建多Agent”。上下文管理是最大隐性杀手,同一模型因上下文工程不同分差36个百分点。工具接入缺乏行为合约,API调用失败频发。低代码平台、单Agent SDK正降低门槛,但多Agent自由协作仍是难题。
印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。
关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。
SAP 与 Google Cloud 联合部署智能体商务架构,通过 Universal Commerce Protocol 标准化零售商、支付网关与自主智能体之间的数据交换,实现从搜索、交易到售后的全序列自动化执行。SAP Commerce Cloud 集成 Google Gemini 能力构建 Shopping Assistant,支持聊天、语音和文本交互,实时查询库存确保推荐可行。该架构基于 SAP Business Data Cloud Connect for Google BigQuery 的双向零拷贝数据链接,融合天气、位置等外部变量与客户画像、交易历史等内部行为数据,由 SAP Engagement Cloud 驱动自主智能体编排个性化互动。SAP 研究显示,78% 的企业认为 AI 对 2026 年保留客户至关重要,但仅 37% 的公司跨客户体验平台共享数据、39% 跨 CRM 共享。
Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。
该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。
设置一个编排器智能体,由它配置Gemini Managed Agents或modal cpu实例,在独立环境中启动子智能体。先执行深度研究任务,探索管理智能体团队的最佳实践(角色、技能、跨通信与规划),再将最佳推荐应用于各智能体。重复该循环(可逐步增加智能体数量)。之后给团队一个空代码仓库,挑战其构建产品、建立最佳实践,让智能体观察问题、提出修复建议并快速迭代,从而暴露竞争条件、完善规划方法。
Codex 上线 Record & Replay 新功能,解决用户写长 prompt 描述不清流程的痛点。用户在 macOS 上手动完成一次操作(如填写报销单、添加视频标签),AI 静默记录每一步,自动整理成可检查、可复用的 skill。下次执行时只需更换参数(如文件名、日期范围),其余步骤按既定规则自动完成。目前仅 macOS 可用,需开启 Computer Use 权限,详细指引见评论区。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
Codex 推出 Record & Replay 功能,用户可在电脑上演示一次操作流程,Codex 观察并自动生成可复用的 Skill。下次遇到同类任务,Codex 即可自动执行。官方以“发 YouTube 视频”演示:手动走完拉元数据、配缩略图和字幕、上传存为私密、核对等流程,新对话中 Codex 自动完成无差错。该功能适用于报销贴票、文件批量重命名归档、每周数据填报表、网上订票等重复性电脑操作,实现从“每次写提示词”到“演示一次就够”的跨越。
Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。
DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。
🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html...
美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。
GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...
研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。
ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。
TesterArmy 是一个 AI 代理程序,持续监控网站和移动应用的关键用户流程,并在出现问题时向团队发出警报。只需粘贴 URL 即可创建项目,无需 SDK、测试脚本或基础设施维护。用户用自然语言描述测试场景,AI 代理自动导航页面、填写表单、处理 OAuth 和 OTP 登录流程。支持通过 GitHub App 自动 PR 检查、定时运行生产监控或通过 webhook 触发。每次运行后提供截图、录屏和可操作的 bug 报告,可通过仪表盘、CLI 或 Pull Request 查看。设置只需不到 2 分钟。
OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。
DeductiveAI 同意被 Elastic 以最高 8500 万美元收购。这家 2023 年成立的初创公司用 AI 自动捕获和修复软件 bug,去年 11 月结束隐身模式并完成 750 万美元种子轮融资(CRV 领投,Databricks Ventures 等参投),当时估值 3300 万美元。DeductiveAI 技术将整合到 Elastic 的可观测性平台,帮助用户自动监控性能并实时解决系统故障。其年经常性收入约 100 万美元。收购反映了传统科技公司通过收购 AI 原生初创公司融入智能体技术的大趋势。
姚金刚使用高级agent Codex连续38小时、提交301个分支,将自己创建其他skill的元Skill(yao-meta-skill)重构并升级至2.0版本,已推送到GitHub。Codex持续拆解任务、修复问题,产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升,所有文档公开。此次升级本身成为典型案例:高级agent已能参与“如何更好地使用agent”的框架迭代。
终于完成了对元Skill(创建skill的skill)的2.0升级 已推送到GitHub 这两天又进行了一些微调和测试,欢迎体验 相关资源与文档分享: 1、元skill仓库:https://github.com/yaojingang/yao...
OpenAI Codex 上线 Record & Replay,通过录屏演示一次操作(如发布 YouTube 视频),自动提炼为可复用的浏览器工作流。Claude Code 新增 Artifacts 功能,会话进展实时生成可分享的可视化页面(如事故排查面板),支持版本历史和实时刷新,Beta 期面向 Team/Enterprise。Google A2A 智能体协作协议满一周年,强调安全边界、零上下文污染和分布式架构,Python/Go SDK 达 1.0 正式版。
OpenAI为Codex上线Record & Replay,演示一次完整操作即可复用浏览器工作流;Claude Code支持Artifacts渲染,会话实时生成可视化页面并自动更新,Beta面向Team/Enterprise组织;Google A2A协议满周岁,Python/Go SDK已达1.0 GA,以FoldRun为例展示智能体协作。其他动态:MosaicLeaks基准测试揭示深度研究智能体隐私泄露风险;SGLang-JAX在TPU v7x上优化Ling-2.6-1T MoE模型,延迟降低53%。
http://x.com/i/article/2067749290982936576
BioInsight 是一个多智能体系统,将静态生物医学报告生成转变为交互式、以证据为中心的界面生成。给定疾病名称、蛋白质关联表和可选队列元数据,系统通过类型化中间产物(排名通路、文献证据包、蛋白质级推理笔记、引用报告、仪表盘模式和交互界面)组织疾病特异性证据。它将证据检索与机制推理分离,通过确定性组件规范化引用,并将报告中的结构化证据转换为交互界面。在标准化生物医学问答、蛋白质功能推理和端到端证据综合评测中,BioInsight达到最佳性能,表明生物医学AI系统应转向保留来源的交互式证据制品。
DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。
PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。
Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。
现有嵌入模型是静态的,孤立编码文本片段,忽略上下文与时间顺序。EvoEmbedding 生成可演化表征,专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆,并与原始内容共同生成演化嵌入,使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索,构建了训练数据集 EvoTrain‑180K,并引入记忆队列防止表征崩塌,结合分段批处理加速训练 3.8 倍。实验表明,该模型在长上下文检索基准上超越更大规模专用模型,并可泛化至上下文长 10 倍的下游任务;集成至简单 RAG 管线即可超越专用智能体记忆系统。
大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...