Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。
Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。
现有嵌入模型是静态的,孤立编码文本片段,忽略上下文与时间顺序。EvoEmbedding 生成可演化表征,专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆,并与原始内容共同生成演化嵌入,使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索,构建了训练数据集 EvoTrain‑180K,并引入记忆队列防止表征崩塌,结合分段批处理加速训练 3.8 倍。实验表明,该模型在长上下文检索基准上超越更大规模专用模型,并可泛化至上下文长 10 倍的下游任务;集成至简单 RAG 管线即可超越专用智能体记忆系统。
大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器(Browser Use Cloud),实现网页浏览、点击、填表等操作,并通过 browser-harness 实时可视化执行过程,支持调试。模板已发布在 GitHub,可直接 clone 使用,支持初始化 skills 和 MCPs。开源免费,降低了开发可观测、可干预的 browser agent 的门槛。
Introducing B, a browser agent template! Built on Eve by @vercel. Give any agent a real Browser Use Cloud browser. Watch...
Cursor 推出 /automate 技能,开发者用自然语言描述任务即可自动配置触发器、指令和工具,生成可运行的 automation。支持 Slack emoji 触发、GitHub issue/review/workflow 触发,新增 cloud agents 的 computer use 能力。以前需手动配置,现在只需描述目标,Cursor 自动生成完整流程。该功能降低了 agent workflow 的搭建门槛,将 agent 从一次性聊天工具推向长期运行的自动化系统。
Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Matthew Berman推出Loop Library,一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板,开发者可直接搜索使用,也可提交自己的循环。该库由http://here.now合作托管,旨在解决agent开发中循环结构设计(退出、验证、失败处理)的重复劳动,推动agent开发从“每次重新发明轮子”转向“搭积木”模式。
Just launched Loop Library - a curated list of agent loops you can use right now. Find loops, submit your own, tokenmaxx...
OpenAI Codex 推出 Record & Replay 功能。用户录制一次工作流(如报销、请假),Codex 自动将其转化为可检查、可编辑的 skill(技能)。后续同类任务可直接调用该 skill,无需重复教学。用户控制录制起止,技能可继续编辑优化。目前仅支持 macOS,欧洲国家暂不支持。该功能将“示范教学”直接转化为可积累的 agent 技能,降低了从手写 prompt 到“演示即交付”的门槛。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...
Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。
Claude Code 新增 Artifact 功能,可将终端会话中的 PR 走查、调试时间线等过程生成实时更新的交互页面,并通过私有链接分享给团队成员。Artifact 利用当前会话的完整上下文(代码库、外部工具、对话),随会话自动更新,支持历史版本回溯。默认私有,仅同组织认证成员可见。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放,通过 CLI 和桌面应用生成,个人用户暂不可用。Anthropic 内部测试显示调试场景最高频。
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
OpenAI Codex 新增 Record & Replay 功能。用户在 Mac 上演示一遍重复性操作(如报销填单),Codex 自动生成可检查、可编辑的 Skill 文件,内含触发条件、输入参数、执行步骤和验证方式。重放时,用户在新对话中指定该 Skill 并提供不同参数,Codex 即结合 Computer Use、浏览器和已连接 plugin 完成任务。目前仅支持 macOS,欧盟地区暂不可用,使用前需开启 Computer Use。该功能无需精确指令,通过“做一遍”替代“写说明书”实现工作流复用。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Atomic Mail 发布 API-first 邮箱,专供 AI 智能体独立使用,不再借用人类邮箱。智能体通过 MCP、Agent Skill 或 JMAP/REST API 一键获取收件箱,支持 Claude Desktop、Cursor、OpenAI 等主流 Agent。典型场景包括新闻监控、求职、发票处理和客户支持。防滥用机制采用 PoW(工作量证明)+ 声誉系统:智能体发信前需执行小额计算,对合法 Agent 成本低,但批量垃圾发送成本高昂;声誉随行为动态调整,可疑发送者被限速或封禁。目前免费公测中。
API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...
hermes claw migrate 命令可将 OpenClaw(及遗留的 Clawdbot/Moldbot)配置导入 Hermes,包括角色(SOUL.md)、工作区指令(AGENTS.md)、长期记忆、用户画像、技能(来自 4 个来源)、默认模型、自定义提供商及 API 密钥等。迁移前会展示完整预览并确认。支持 --dry-run 预览、--preset full 全量迁移(API 密钥需额外指定 --migrate-secrets)、--overwrite 覆盖冲突、--no-backup 跳过备份等选项。默认读取 ~/.openclaw/,旧版目录自动检测。技能冲突可设为跳过、覆盖或重命名。迁移前自动创建 ~/.hermes/backups/ 备份,可用 hermes import 恢复。
API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。
Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。
@theo Honestly just use Devin. It's really really good now
Introducing autoresearch for arXiv papers Change 'arxiv' to 'autoarxiv' in any paper URL An agent deploys to resolve set...
Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
关联讨论 1 条X:Anthropic (@AnthropicAI)用 Codex 写代码时,将 Review 前置可显著降低返工率。作者总结三个层级:零成本版(粘贴提示要求先复述任务再执行)、官方内置版(/plan 或 Shift+Tab 触发计划)、持久化版(AGENTS.md 写入前置规则)。UCSD 黄碧薇教授深耕因果 AI 12 年,提出 AI 四代演进:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型。其团队开发的 causal-learn 入选 Apple Scholar。今日 Aether AI 完成首轮融资,被视为从堆参数转向下一代 AI 范式的信号。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...