一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。
OpenAI 正筹备 ChatGPT 自 2022 年上线以来最大规模改版,从聊天机器人转向超级应用/Agent 平台,整合编程工具 Codex、图像生成及第三方应用(Canva、Booking)。高管称“聊天已死”,目标成为跨平台个人 AI 助手,未来甚至省去用户输入提示词。改版预计未来几周在网页和手机端上线。商业压力:ChatGPT 有 9 亿周活用户、5000 万付费用户、月收入 20 亿美元但未盈利;企业客户贡献约 40% 收入,目标年底达 50%;Codex 桌面版周活超 500 万。竞争对手 Anthropic 估值已达 9650 亿美元。OpenAI 刚完成 1220 亿美元融资,估值 8520 亿美元,IPO 目标估值可能超 1 万亿美元。
根据《金融时报》报道:Open AI 正在筹划对ChatGPT推出以来的最大规模改革 "聊天已死" AI的未来不在于回答问题的聊天机器人,而在于能够为用户执行任务的智能体,也就是Agent!
关联讨论 2 条Ars Technica:AI(RSS)X:Rohan Paul (@rohanpaul_ai)论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
华为云发布全新 Agentic AI 云入口“智果园”,集成云码道 CodeArts 代码智能体、华为云 OfficeAce 办公智能体和 WorkAgent 文档智能体。用户可通过智果 AgentArts 平台打造自定义智能体,利用 Skills、AI Shell 调用华为云能力。平台支持一键调用 DeepSeek-V4-Pro、智谱 GLM-5.1、月之暗面 Kimi-K2.6、千问 Qwen-Image 等主流大模型,并推出 Token Plan 订阅计划覆盖主流模型与 AI 工具。此外还提供智慧医疗、具身智能、科学计算等 AI 梦工厂适配多行业场景。
一位软件工程师在个人博客中直言,大型语言模型(LLM)正逐步侵蚀其软件工程职业生涯,令其感到无所适从。文章标题为“LLMs are eroding my software engineering career and I don‘t know what to do”,在Hacker News上引发关注,获得125个点赞。作者通过亲身经历表达了对AI取代开发工作的忧虑,但未提出明确解决方案。
OpenAI 正筹备其 ChatGPT 迄今最大规模的改版,目标将其打造成集编码、AI 智能体、图像生成和企业软件于一体的超级应用。改版将在未来几周内开始推出,重点加强编码工具 Codex,使 ChatGPT 成为企业软件、自动任务和编码工作的主要入口,以推动更高利润的企业收入,为潜在 IPO 做准备。此举显示 OpenAI 策略向 Anthropic 靠拢,后者凭借企业产品快速增长并将在今年 IPO 路演中突出这一方向。Codex 工程负责人 Thibault Sottiaux 表示:“它将超越当前界面……我们正在构建的是每个人都拥有自己的个人智能体,能在生活与工作中提供帮助。”
推文介绍一套内容整理范式:将推文、文章等拆解为知识原子(问题、概念、观点、案例),而非单纯归类文件。通过严格结构的纯文本Markdown作为“运行时”,让AI Agent按既定方法论检索、重组内容,使过往积累从死库存变为可反复调用的资产库。核心纪律:先审计再建工程,结构先于规模,避免全量乱跑(仅X推文就一万两千条)。这标志着内容创作者的护城河从写作能力转向内容资产的工程化可调用能力。
http://x.com/i/article/2061721924875825152
OpenAI 正计划对 ChatGPT 进行自发布以来最大规模的改造,将其打造成一个“超级应用”,整合编程工具、AI 智能体以及 Canva、Booking.com 等合作伙伴应用。公司内部称“聊天已死”,认为未来属于能自主处理任务的 AI 智能体。
京东与腾讯近期联手,围绕 AI Agent 展开合作。京东商品供应链与履约服务体系将对接腾讯入口资源。京东 AI Agent 已与华为、OPPO、荣耀等终端厂商完成对接,通过 A2A 合作,用户可在终端原声智能体内提出购物需求,由京东履约服务承接,形成体验闭环。腾讯方面,微信正与华为、荣耀、小米、OPPO、vivo 等厂商合作推出 A2A 助手能力,并将推出一款 AI 智能体,计划本月启动合规审批流程,上线时间取决于监管审批进度,微信 14 亿用户体量可能使合规更严格。
Her(हेर)是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后,Her 用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器,并结合 Anthropic 与社区最佳实践给出改进建议(仅在有明确可修复模式时)。内置“Ask Her”问答功能,支持单会话与跨会话项目分析。工具不调用第三方 AI API,使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行,评估引擎完全确定,模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库,自动识别会话中使用的工具,并对部署工具、数据库客户端等执行活动进行标记提醒。
Perplexity 的 "Search as Code" 架构放弃固定搜索 API,改为让 AI 模型在 Python 沙箱中自主编写搜索例程,自行完成过滤和去重。该方案在关键基准测试中超越 OpenAI 和 Anthropic 的模型,并将 token 成本削减高达 85%。
一篇arXiv论文提出Tokenomics框架,量化分析模型token在智能体软件工程各环节的使用分布,揭示不同任务对token消耗的差异。
据英国《金融时报》报道,OpenAI 计划对 ChatGPT 进行最大规模升级,打造超级应用,新增 Codex 代码工具和 AI 智能体功能。界面将重新设计并搭配新提示词,引导用户使用代码、图像生成及 Canva、Booking.com 等第三方服务。Codex 功能未来数周在网页端和移动端上线。目前有 200 万企业客户贡献四成营收,预计年底升至 50%。ChatGPT 周活跃用户超 9 亿,付费用户超 5000 万。OpenAI 计划数周内向美监管机构秘密提交 IPO 申请。
据英国金融时报报道,OpenAI正在准备对ChatGPT进行推出以来最大规模的一次改版。该公司计划将ChatGPT转型为结合编码工具和AI智能体的“超级应用”,并添加高管们认为能够创造更多收入的产品。
Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章,6月6日发布于 openai.com,在 Hacker News 上获得 102 点热度。
BestBlogs 整理了对外交流和发布入口,包括微信交流群、微信公众号、飞书群、小宇宙(中英文版)、Apple Podcasts、公开仓库(GitHub)、作者博客以及 Gino 和小光的推特。适合对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣的用户关注,可获取产品动态、订阅源、技术架构和独立开发思考等内容。
http://x.com/i/article/2063420344678158336
本期聚焦三大Agent工程议题:1)Emergent通过多智能体编排+定制容器,6个月实现1亿美元ARR,覆盖190国850万无编程背景用户;2)Chrome DevTools团队为MCP设计Agent接口,提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界;3)OpenClacky创始人指出每个Agent功能都是一个缓存失效面,第一代RAG架构因90%召回率不足和嵌入成本高而失效。
邵猛作为AI产品/研发负责人,每天需关注最新AI Agent信息。他尝试过手动刷X、Reddit、Hacker News、Huggingface等网站——体感直接但效率低;也试过Perplexity等工具——效率高但信息深度不够。他提出疑问:是否有既高效又保证信息完整度和深度的、专门面向Agent的搜索产品?
PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
Astral Labs
Anthropic 年度开发者大会上,Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变:他曾经手写所有代码,现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话,让 Claude 构建功能、测试并展示结果,然后给出修改指令。更进一步,他不再手动 prompt,而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。
博主阿易 AI Notes 强烈推荐桌面智能体(Agent)Codex,认为它优于国内大厂产品。他逐一批评了字节 Coze(不智能、仅支持命令行)、阿里悟空(内测不好用)、腾讯 workbuddy(基础不智能)和腾讯马维斯(能力较全面但仅限浏览器操作)。文章断言国内外众多桌面 Agent 中“只用 Codex 就够了”,特别适合零基础小白和文科生,无需折腾其他方案。
http://x.com/i/article/2063237792746831872
MIT论文(F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026)提出Self-Revising Discovery Systems框架,使AI科学家能自主识别当前思维模式不足并添加新科学概念,而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物(typed provenance),从而区分三种模式:retrieval(添加已知对象)、search(探索固定模式)和discovery(可验证的模式转换)。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化,使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
MIT团队提出自我演进AI科学家框架,核心创新是让AI识别当前推理空间过小并主动添加新科学概念,而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact,明确区分检索(添加已知对象)、搜索(探索固定schema)和发现(可验证的模式扩展)。通过类型化copresheaf与Kan障碍理论证明,真正发现是可验证的schema扩展:旧证据由左Kan扩展传输,创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
文章指出,安装 create-plan、gh-fix-ci 等核心 Skill 后,Codex 能从会写代码的聊天机器人变成靠谱的工程师团队。核心资源仓库包括 openai/skills 和 ComposioHQ/awesome-codex-skills(star 数均 20k+)。按场景精选 Skill:规划元能力、GitHub/CI/CD、测试/安全等。安装推荐用 Codex 内置工具,也可手动将 Skill 文件夹放入对应目录后重启。进阶玩法包括任务组合多张 Skill、自定义单一职责的 SKILL.md、跨平台迁移至 Claude Code/Cursor 等。持续更新资源可关注 skillregistry.dev 等。
Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。
持续学习领域投入多但进展缓慢。CL-Bench(持续学习基准)在六个由专家验证、包含共享可学习结构的领域上测试,发现简单的上下文学习(ICL)基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果,结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出,若普通ICL基线超过你的记忆架构,则该架构增加的是开销而非学习。论文:arxiv.org/abs/2606.05661。
不少账号使用AI生成与推文内容相关的评论,几乎出现在各个博主下面。这种行为疑似购买某种服务,目的是命中X算法或引起博主关注。但这些AI生成的评论内容质量拙劣,极易被识别。