Role-Agent框架让单个大语言模型同时充当智能体和环境,实现自举式共同进化。包含两个组件:World-In-Agent(WIA)让LLM作为智能体并在每次动作后预测下一状态,将预测与实际状态的对齐作为过程奖励,激励环境感知推理;Agent-In-World(AIW)则从失败轨迹中分析失败模式,并检索具有相似失败模式的任务,重塑训练数据分布进行针对性练习。在多个基准测试上,Role-Agent平均比强基线提升超过4%。
Role-Agent框架让单个大语言模型同时充当智能体和环境,实现自举式共同进化。包含两个组件:World-In-Agent(WIA)让LLM作为智能体并在每次动作后预测下一状态,将预测与实际状态的对齐作为过程奖励,激励环境感知推理;Agent-In-World(AIW)则从失败轨迹中分析失败模式,并检索具有相似失败模式的任务,重塑训练数据分布进行针对性练习。在多个基准测试上,Role-Agent平均比强基线提升超过4%。
Berry Xia表示,学完Harness后接触Loop Engineering,认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享,但Smith(@smithandai)已发表相关文章,推荐阅读。
http://x.com/i/article/2064229409247358976
Data2Story是一个多智能体框架,将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是:每个声明通过Inspector链接到数据、代码或外部参考,实现基于证据的归因;文章可多模态生成,如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行:人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性(代码验证器重新执行语句并与参考对照)。Data2Story产出有竞争力且证据可追溯的多媒体故事,在透明度和可审计性上表现突出,但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者,代码和演示已公开。
EEVEE是首个面向LLM智能体的多数据集测试时提示学习框架,用于在真实任务流下自改进。为解决跨数据集干扰,它引入路由器将异构输入流划分到任务簇并分配适配提示配置,并通过路由器‑提示协同进化策略(交替执行路由器和提示学习阶段)优化二者依赖。实验表明,EEVEE在保持单基准学习能力与效率的同时,提升异构数据流鲁棒性:平均多基准得分比Qwen3-4B-Instruct高10.38分,比DeepSeek-V3.2高24.32分,超越SOTA方法GEPA和ACE最高达37.2%和48.2%。
作者分享使用AI agent AllyHub拆解小红书对标账号的方法:第一步从57个候选筛出10个够得着且变现的账号(平均粉丝5.8万);第二步以「AIGC猫大人」为例,扒出7篇点赞过5000的爆款,发现赛道封面规律是“无文字纯视觉”短视频;第三步算变现,约85%收入来自蒲公英接广(合作李锦记、兰蔻等),3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。
Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。
小红书上线 RED Skill 功能,创作者可在笔记中挂载原创或分享的 AI 技能组件。用户点击组件后一键复制口令,即可将 Skill 安装到自己的各类 Agent 中使用,无需跳转第三方平台。创作者开通该功能需满足三个条件:粉丝量不小于 1000、账号注册时长不小于 6 个月、账号状态健康且无违规,并完成实名认证,之后可申请 Skill 上传和挂载权限。
微软向骁龙X2系列设备推送Windows 11 26H1的KB5095051更新,版本号升至Build 28000.2269。新增XBOX模式,可通过Win+F11进入全屏游戏界面;文件资源管理器支持uu、cpio、xar及NuGet包归档;兼容触控笔在PPT对齐、窗口吸附时提供触觉反馈;任务栏可监控智能体进度(首批用于Microsoft 365 Copilot Researcher);企业状态漫游支持Windows Backup策略管理;可动态移除预装MSIX/APPX应用;移除跨签名驱动默认信任以提升安全性;FAT32格式化大小上限提升至2TB。
Cohere 推出首个开源编程模型 North Mini Code(MoE 30B/3B,128 专家,每 token 激活 8 个),支持 256K 输入/64K 输出,最低 1×H100(FP8)。训练采用三阶段后训练:级联 SFT(含 Agent 工具调用与推理数据)→ RLVR(CISPO 算法,异步采样,Terminal+SWE 双环境联合训练)→ 跨脚手架泛化。Agent 编程方面,Artificial Analysis Coding Index 达 33.4,同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等,超过 Nemotron 3 Super 120B,稍低于 Qwen3.6 35B-A3B(约 35.2)。推理速度对比 Devstral Small 2 最高约 2.8×,词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。
Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance...
我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...
Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。
We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...
同一事件,精选展示《Perplexity与哈佛:AI智能体提效87%降本94%》开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具,让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON(public/lottie.json),通过 Skottie 渲染引擎在浏览器中实时验收。安装命令:npx skills add diffusionstudio/lottie。技术特点:输出标准 Lottie JSON,使用 Skottie 渲染(非 lottie-web);基于 Vite 热重载实现自动刷新闭环;支持通过 Skottie Slots + controls.json 调整颜色、尺寸;Agent 可用 URL 参数 ?frame=60&paused=1 精确定位帧截图。Prompt 指南包括:给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效;不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。
Introducing text-to-lottie: an open source skill and harness for generating production ready Lottie animations with code...
Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。
JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》为填补现有AI智能体在真实科研场景中评估的空白,SciAgentArena被提出,包含约200个跨领域科学任务,支持逐步验证与交互式评估。测试发现,当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用,但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架,相关代码、任务与数据集已开源。
用户依赖执行轨迹观察AI智能体行为并确保问责,但轨迹细节可能泄露私有过程技能(公式、阈值、策略)。为此,研究构建了CapTraceBench基准(75个长周期任务、154个跨领域技能)来量化风险,并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据,同时嵌入行为水印用于溯源。在代表性轨迹复用方法上,RedAct将标准化技能转移(NST)从原始轨迹的44.7–67.1%降至无技能基线以下,同时保留审计证据。其行为水印真阳性率达93.6–100%,假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。
Orchestra-o1是一种全模态智能体编排框架,支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制,实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上,Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化(DA-GRPO),一种高效智能体强化学习方法,用于训练Orchestra-o1-8B,该模型在所有现有开源全模态智能体中达到最优性能。
TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。
FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
Evoflux是一种推理时进化搜索方法,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平;ReAct可达更高峰值但方差和token成本更高。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更可靠。
Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
http://x.com/i/article/2064485562875260928
Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。
zero2claude 正式推出简体中文版。 已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。 感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。
Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。
Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...
Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
Wes McKinney 开发的 AgentsView 是一个用于追踪本地编码智能体 token 使用情况的工具。由于近日发布的 Claude Fable 5 尚未被收录进 AgentsView 的定价数据库,作者利用 Fable 逆向工程,找到了为该模型设置自定义价格的方法,并展示了 Fable 5 当天在不同本地项目中的使用量树状图。
该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。
一篇来自 oneusefulthing.org 的文章,探讨了与 Mythos 合作的个人感受。原英文标题为 “What it feels like to work with Mythos”,中文译为“与Mythos合作是一种怎样的体验”。该文章在 Hacker News 上获得 101 个点赞,发布于 2026 年 6 月 9 日。
AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。
Claude Managed Agents 今日在 Claude Platform 公开测试两项新功能:代理可按 cron 计划自动执行周期性任务(如夜间数据同步、周度合规扫描、每日摘要),无需用户自建调度器,支持暂停、恢复、归档或按需触发;vaults 新增环境变量支持,允许代理通过 CLI 进行认证请求,真实密钥仅附加在网络边界,代理无法读取。已集成的 CLI 包括 Browserbase、KERNEL、Notion、Ramp 和 Sentry。Rakuten、Actively AI、Ando、Milana 等团队正在使用这些功能实现自动化数据报表、跨账户搜索、招聘提醒等场景。
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。
Mythos 5 agents started killing other agents over resources - and "to avoid being killed themselves"
OpenRouter 发布 advisor 服务器工具,允许一个快速、便宜的模型在生成过程中咨询一个更强大的模型。具体而言,可用 GPT-4o Mini 处理日常例行工作,在关键时刻调用 Claude Fable 解决真正重要的问题,从而实现成本和质量的动态平衡。
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)