We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
针对如何给Codex写Goal指令的问题,作者发布了一个Skill,可将一句话需求自动转化为目标,实现“睡前写指令、模型自动开发、第二天收菜”。安装命令:npx skills add joeseesun/qiaomu-goal-meta-skill。源码免费开源(见评论区),旨在简化4w字文档的阅读负担。
Introducing Parloa's Agent Skills: a better way for CX leaders to connect AI agents to the enterprise systems they need ...
Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。
We use previous generations of Composer to train future ones. Our autoinstall system has earlier Composer models set up ...
该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。
Visa 将支付基础设施接入 ChatGPT,使 AI 智能体能够推荐零售产品并执行金融交易。该部署去除了零售漏斗最后阶段的人工干预——自主智能体将处理用户提示、评估商家目录,并利用 Visa 支付通道在任何支持商户处完成结账流程。
Xebia全球CTO Niels Zeilemaker指出,为组织引入AI智能体加速流程必须从数据基础着手——让数据可供AI消费。Agentic AI的规模取决于数据强度,忽视这一点将无法推进。
Claude Fable 5(Mythos 安全公开版)6月22日前对 Pro/Max/Team 订阅用户开放,之后转 API。作者用 100 美元/月的 Max 会员,让 Fable 5 开发了开源“鲁班 Skill”,专用于打磨其他 AI Skill。该 Skill 通过前提验证(真实问题、安装理由、唯一性)、并行搜索同类(GitHub/ClawHub/skills.sh 等)、横纵分析、Darwin 式 9 维度评分(权重最高的实测表现)、SkillOpt 式单方向改写等步骤,将作者已有的 ai-news-radar 项目升级至 v0.7。Fable 5 自动录制操作视频并剪辑,追加了热点模式和时间轴模式,改进了消息评分算法并公开回测工具。鲁班 Skill 已开源至 github.com/LearnPrompt/luban-skill,强调 Skill 本质是清晰提示语而非复杂脚本。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克京东6月11日发布国内首个智能体自主支付协议A2P2,将支付自主化划分为L0至L5六个等级,重点聚焦L3和L4。L3智能体可在单一任务内自主发起支付请求;L4在预设范围内自主完成支付。协议引入任务委托凭证(Mandate),将自然语言指令转为可校验凭证。资金安全方面首创ARI机制,支付时绑定真实用户、智能体身份与运行环境,三方核验通过才放行。另设专用隔离账户限制金额、场景、有效时间等。支付后形成证据闭环,通过存证链确保每笔AI交易可审计。
最近把小米的MiMo 2.5 的模型接到Bloome 中当Agent 来使用! 发现把技能配置好,自主执行任务也是不错的!关键是真的便宜啊! 这不又来整活儿了? 他们把MiMo-Code直接开源,这终端原生AI coding助手带跨会话永久...
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
Nous Research 为 Hermes Agent 仪表盘新增 Profile Builder,用户可在单一流程中构建包含身份、模型、技能和 MCP 服务器的完整 Agent 配置文件,替代以往多步 CLI 配置方式。
阿里云今日推出 Meoo(秒悟)开源命令行工具 Meoo CLI,面向开发者,支持 Claude Code、Codex、Cursor 等本地 AI 编程助手。通过调用阿里云云端能力,可自动完成数据库接入、用户登录、文件存储及项目发布,将本地项目一键部署上线并生成可分享的访问链接。该工具定位为本地 Agent 与秒悟云端能力的连接入口,已开放下载,支持主流 Linux、macOS 及 Windows 平台。
阿里云宣布推出ApsaraDB Enterprise Agents,即内置于数据库中的AI原生智能体,可自主执行分析、治理、数据准备等运维任务,无需人工干预;具备企业级安全能力(细粒度访问控制、数据脱敏、token管控),并能自我学习适应。相关活动将于2026年6月24日10:00(UTC+8)线上举办,时长30分钟。
据彭博社报道,Meta 已完成与 Manus 的运营分离,停止两家公司数据共享。自本月初起,Meta 禁止 Manus 及其员工访问其内部数据系统,Meta 员工也无法再为内部项目使用 Manus 工具。去年 12 月,Meta 宣布以约 20 亿美元收购 Manus 母公司蝴蝶效应;今年 4 月,中国外商投资安全审查机制禁止该交易,要求撤销收购。今年 6 月,Manus 将总部迁至新加坡并停止国内运营。今年 5 月报道称,Manus 创始人肖弘、季逸超、张涛正考虑融资约 10 亿美元回购公司。
追觅生态品牌Eclix负责人俞雷透露,团队已与国内头部大模型厂商达成合作,预计2026年9月发布第一代AI手机,双十一前上市,定价5000元以上。首代产品出货量控制在5万-10万台,京东线上首发,目标极客用户。盈利模式为AI算力服务订阅,按token消耗实时计费。当前最大妥协是无法打通所有App,需为微信等超级App保留“旧世界逃生窗口”,传统App界面作为兜底方案。
距离世界杯开幕战不到 12 小时,BestBlogs 的两位站长制作了世界杯特刊(https://www.bestblogs.dev/worldcup),方便球迷在看球前快速了解信息、赛后闲聊。此外还做了一个「普神」Agent 来预测每场比赛胜负,用户也可参与选择。
推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。
WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。
你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude...
如何让多个 Agent 之间真正互相学习、互相帮助? 现在很多 Agent 都开始有自己的记忆,但问题是: 这些记忆彼此不连通。 Codex 记住的坑,Claude 不知道;Hermes 总结的方法,OpenClaw 也用不上。 最后每个 ...
Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。
Arbor是一个结合长期协调器、短期执行器和假设树优化(HTR)的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察,将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor均取得最佳留出结果,平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到86.36%的Any Medal,为对比中最优成绩。
Xcode 27 Beta 新增原生谷歌 Gemini 集成,成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具或窗口,即可在 Xcode 内完成构建新功能、审查代码和修复 Bug 等复杂多步骤任务。通过 Intelligence 设置面板配置 Gemini 后,Gemini 能理解项目上下文、辅助生成样板代码,并根据项目文档和文件结构更新整个项目。
视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
该综述系统研究了大语言模型智能体的环境工程生命周期,涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径;归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角,总结四种智能体演化路径(记忆中心、编排中心、轨迹中心、探索中心)与三种环境演化范式(神经驱动、难度驱动、规模驱动)。最后展望环境即服务(EaaS)、多智能体环境和神经符号环境等方向。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。
WorkBuddy是面向国内用户的通用Agent产品,支持Windows和Mac,提供免费版和58元/月个人专业版,企业版已推出。内置代码开发、日常办公、设计创意三种场景模式及100多个行业领域AI专家。模型集成腾讯混元、DeepSeek(推荐V4 Pro)、GLM、Kimi等国产大模型,也支持接入兼容OpenAI协议的外部API。拥有Skills市场和MCP连接器生态,可打通QQ邮箱、腾讯会议、腾讯文档等服务。教程通过公众号周报生成和功能网页开发两个案例演示实际用法。
关联讨论 1 条公众号:数字生命卡兹克小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。
A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。
@jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/
Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。
BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...