Bug fixes shipping to Grok Build 0.2.20 (release notes will be available in the TUI and on change-log website) • Elimina...
Bug fixes shipping to Grok Build 0.2.20 (release notes will be available in the TUI and on change-log website) • Elimina...
OpenAI Codex 推出“Build iOS Apps”官方插件,将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载,无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流,支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目:serve-sim(提供 streaming simulator 能力)和 SnapshotPreviews(用于提取 SwiftUI previews 集成工具链)。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。
Elvis Saravia 逆向工程了动态工作流(Dynamic Workflows)并集成到自研智能体编排器中,同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样,是实现复杂长期任务的关键原语,不仅限于编码,还可扩展至商业、科学等领域。
Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故,重置所有付费计划额度。Codex 按推理时间计费:Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口,GPT-5.3 约 60 分钟。重置常将下个计费周期提前,导致精打细算攒的额度被覆盖,立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗,建议本地模型兜底、云端冲峰值,夺回生产力控制权。
Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...
主推文批评国内面向开发者的平台文档结构混乱、搜索功能几近无效、智能助手输出空洞,用户常常只能找售前要链接。作者将这一现状与“全民龙虾化之后的Skills化”趋势关联,期待平台能借此机会规范文档体验。
全国1.3万多家肯德基门店以第三方Skill形式接入千问APP。用户对千问说出“帮我点附近肯德基的疯狂星期四,到店取”即可自动匹配门店与套餐,并显示距离和取餐时间。千问还与肯德基会员权益打通,下单时自动使用大神卡及匹配的优惠券。
Nous Research 以公开预览版形式推出 Hermes Desktop,支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆,用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆,能规划任务、调用工具、观察结果,并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端,内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具,同时支持通过 MCP 接入外部工具。
AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
通用 Agent 就是未来的操作系统了,就像现在我们操作电脑需要借助操作系统,以后我们跟 AI 通信会通过 Agent OS。 App 会有几种结局: - 消亡:Agent 自己就有能力,不需要独立的 App - 变成 CLI 或者 MCP...
OpenClaw 推出 Skill Workshop,将 Agent 的 Skill 定位为可复用工作流。机制为先提案后生效:Agent 生成提案,用户可修改措辞、补充步骤、调整支持文件,确认后才写入正式 Skill,避免错误固化。提供 Board 视图(按 pending/applied/rejected/stale 分栏管理)和 Today 视图(快速过审)。Tweak 微调功能允许围绕同一提案反复修订。Skill 可捆绑 assets、scripts 等支持文件,路径规则严格禁止绝对路径和目录穿越。引用 OpenClaw:Agent 应学习重复工作,但非静默改写未来运行;Skill Workshop 将可复用经验变成可审查提案。
Agents should learn repeated work, but not by silently rewriting future runs. Skill Workshop turns reusable agent lesson...
大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。
ToolMaze是一个评估LLM智能体在工具失效场景下动态路径发现与错误恢复能力的基准测试。其采用双维度设计:DAG拓扑复杂度与2×2工具扰动分类(显式/隐式、瞬时/永久)。评估显示,几乎所有模型在扰动下性能均下降,隐式语义失效导致扰动恢复率(PRR)骤降约37%,复杂拓扑则使智能体陷入无效试错循环。关键发现:智能体容错能力随模型规模提升的速度比基本任务执行慢3.66倍,动态重规划成为模型扩展无法解决的独立瓶颈。数据和代码已公开。
Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。
Nitrosend 推出 AI 原生邮件平台,通过 MCP 协议与 Claude 连接。用户只需一条提示词,Claude 即可完成构建、设计、受众分组和发送完整邮件活动,而非仅生成草稿。该平台无传统仪表盘,Claude 直接控制系统工作流,包括设计、逻辑、目标定位和投递。引用推文显示,已有用户通过一条提示词成功向 10,000 人发送发布公告。
I just sent our launch announcement to 10,000 people. It took one prompt in Claude. Today we're launching @nitrosendx - ...
Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。
Kimi Work Beta版随Kimi最新Mac和Windows客户端推出,是基于Kimi Code的通用型本地Agent。它内置Kimi WebBridge浏览器操作方案,支持安装和使用Skill、运行定时任务,并能根据任务复杂度自主创建最多300个子Agent的团队。开发中使用的Kimi K2.6模型支持13小时连续编码、4000余次工具调用,累计产出超5万行有效代码,其中92%由AI自主生成。用户可用自然语言描述目标,Kimi Work即可拆解任务、并行执行、调用工具、操作浏览器,交付文档、表格、PPT等工作产物。
关联讨论 4 条IT之家(RSS)X:Berry Xia (@berryxia)X:Kimi.ai (@Kimi_Moonshot)公众号:月之暗面(Kimi)EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。
For interactive login, the CLI supports "ant auth login". This runs a browser OAuth flow, scopes the token to a workspac...
Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。
国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。
Hermes Desktop 是一款免终端的图形界面,与 Hermes Agent CLI 共享同一智能体核心、技能和记忆。
荣耀成为首个支持微信 A2A 助手能力的手机品牌。目前,荣耀 Magic8 系列、500 系列和 X70 的全系列机型均已支持该功能。用户需将荣耀 YOYO 智能体更新至 90.10.30.063 及以上版本,微信更新至 8.0.72 及以上版本,即可通过唤醒 YOYO 实现给微信好友发送消息、发起语音或视频通话。据悉,荣耀目前 50% 的活跃设备都已支持此能力。
阿里千问 App 宣布向第三方 Agent 和 Skill 全面开放,所有企业均可在千问中运营自己的品牌 Agent。首批接入的企业包括瑞幸咖啡、肯德基、蜜雪冰城和东方航空,正在进行服务测试。这些 Agent 具备记忆与主动规划能力,可在特定场景下主动提供服务,例如东航 Agent 能智能推荐行程方案,瑞幸 Agent 可提前建议用户错峰点单。
千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务,用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent,自定义人设与服务边界,以对话形式提供服务。Agent具备记忆与主动规划能力,可在特定场景主动提供服务,如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案,瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。
Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。
We've added a CLI for Claude Platform to make every API endpoint runnable from your terminal. Call the Messages API, sta...
OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。
OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...
OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。
OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...
Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。
http://x.com/i/article/2061850535708483585
Introducing Devin Desktop: the next generation of Windsurf Manage fleets of local and cloud agents from one surface Supp...