6月19日

08:00

HuggingFace Daily Papers（社区热门论文）

Counsel是首个公开的智能体任务元评估数据集，包含开源权重LLMJ在tau-bench（客服）和DA-Code（编程）两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”，一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性：最强模型位置标注一致率约88%，推理标注约65%。数据集使用开源权重模型生成并采用宽松许可，可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

EvoEmbedding：用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的，孤立编码文本片段，忽略上下文与时间顺序。EvoEmbedding 生成可演化表征，专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆，并与原始内容共同生成演化嵌入，使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索，构建了训练数据集 EvoTrain‑180K，并引入记忆队列防止表征崩塌，结合分段批处理加速训练 3.8 倍。实验表明，该模型在长上下文检索基准上超越更大规模专用模型，并可泛化至上下文长 10 倍的下游任务；集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CalVerT：带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整，导致过早给出自信但无支撑的回答，或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数，提供更完整的状态空间视图。在四个QA基准上，无需训练即可提升F1，既触发对过度依赖参数知识的检索，又减少冗余检索。经强化学习训练后，添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究

07:58

Rohan Paul@rohanpaul_ai

精选75

AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入（无销售团队、未大规模推广），现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI：用户无需学习、无需提示词，像 @同事一样提及即可获得完整工作成果，甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户，助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用，含 100 美元信用额度，无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体产品更新

推荐理由：Viktor 带着 $20M ARR 进入 Teams，把 AI 员工的门槛降到零，对于被困在审批流程里的前线员工是个真实解法。

07:54

Ethan Mollick@emollick

Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准，未饱和且含私有保留测试，同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布，测试模型在多周、多任务项目中的能力，输入含数万条 Slack 消息和数千封邮件。模型排名：Claude Fable 5（已不可用）以 1587 Elo 居首，Claude Opus 4.8（1356）第二，GLM-5.2 max（1266）第三。结果凸显难度：最佳模型仅 3% 任务满足全部标准，31/91 任务无模型超过 50%，成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体 Anthropic 推理评测/基准

07:48

Chubby♨️@kimmonismus

团队协作AI智能体Viktor正式登陆Microsoft Teams。此前已在Slack上线，仅靠单一应用实现2000万美元年化收入运行率（无销售团队、无推广）。Viktor主打零门槛：用户无需学习、无需提示，像@同事一样提及Viktor即可完成任务，甚至无需主动提及，价值自动送达。面向全球3.2亿Microsoft Teams用户，面向大公司一线运营与管理者。新用户获赠100美元启动积分，无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体 Microsoft 产品更新

07:48

Berryxia.AI@berryxia

Browser Use 开源浏览器 agent 模板 B

Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器（Browser Use Cloud），实现网页浏览、点击、填表等操作，并通过 browser-harness 实时可视化执行过程，支持调试。模板已发布在 GitHub，可直接 clone 使用，支持初始化 skills 和 MCPs。开源免费，降低了开发可观测、可干预的 browser agent 的门槛。

Browser Use: Introducing B, a browser agent template! Built on Eve by @vercel. Give any agent a real Browser Use Cloud browser. Watch...

智能体 GitHub MCP/工具产品更新

07:48

Berryxia.AI@berryxia

Cursor 推出 /automate 技能，支持自然语言配置自动化流程

Cursor 推出 /automate 技能，开发者用自然语言描述任务即可自动配置触发器、指令和工具，生成可运行的 automation。支持 Slack emoji 触发、GitHub issue/review/workflow 触发，新增 cloud agents 的 computer use 能力。以前需手动配置，现在只需描述目标，Cursor 自动生成完整流程。该功能降低了 agent workflow 的搭建门槛，将 agent 从一次性聊天工具推向长期运行的自动化系统。

智能体产品更新编码

07:24

Artificial Analysis@ArtificialAnlys

AA-Briefcase 基准发布：评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase，用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景（每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文）及一个公开演示场景。评测结果：Claude Fable 5 以 Elo 1587 领先，其次为 Claude Opus 4.8（1356）、Opus 4.7 及智谱 GLM 5.2（max，1266）。成本方面，Claude Fable 5 平均每任务 $31，Opus 4.8 为 $10.40，GPT-5.5 (xhigh) 为 $3.68，GLM 5.2 (max) 为 $2.40，DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准，31/91 个任务无模型得分超 50%，显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体 Anthropic Hugging Face 推理

06:53

🚨 AI News | TestingCatalog@testingcatalog

OPENAI 🔥： Codex 现在有了一个新的 Record & Replay 插件，它可以捕获你的操作，并将你的工作流程转换为可执行的技能。我的工作流程 👀 * 尚不可在 EEA、UK 和瑞士使用。

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体 OpenAI 产品更新

06:48

Berryxia.AI@berryxia

Matthew Berman 推出 Loop Library

Matthew Berman推出Loop Library，一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板，开发者可直接搜索使用，也可提交自己的循环。该库由http://here.now合作托管，旨在解决agent开发中循环结构设计（退出、验证、失败处理）的重复劳动，推动agent开发从“每次重新发明轮子”转向“搭积木”模式。

Matthew Berman: Just launched Loop Library - a curated list of agent loops you can use right now. Find loops, submit your own, tokenmaxx...

智能体产品更新开源生态