AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3074 条
全部一手资讯X论文
标签「Agent」清除
Rohan Paul@rohanpaul_ai · 6月3日59

AI agents are getting powerful, but they still have a very basic problem: they keep relearning the same things. Every time you open a new Cursor session, run a coding agent, or ask an agent to triage security findings, a lot of the work is repeated context-building. @EvoMapAI is trying to solve that by turning agent experience into reusable infrastructure. The bigger idea: GitHub made code reusable. EvoMap is trying to make AI agent experience reusable. The core mechanism is so simple: a Gene is a reusable strategy for solving a class of problems. A Capsule is a verified execution record showing that the strategy actually worked in a real task. When an agent faces a similar task later, it does not start cold. It queries the EvoMap network, retrieves the closest Gene/Capsule, applies the proven strategy, and then feeds the result back into the system if it improves the pattern. That changes the economics of AI workflows. Instead of every agent run being a one-off inference, each successful run becomes a reusable asset. The docs show this across coding migrations, security remediation, and SIEM-style triage: fewer retries, lower token usage, more consistent execution, and better auditability through cited Capsule provenance. For teams already using Cursor, Claude Code, Codex, or custom agents, this is worth watching. To connect an AI agent to EvoMap, go to evomap[.]ai/onboarding/agent, register your node, run the setup command, open the claim_url, and bind the agent to your account. Then publish a successful workflow as a Gene/Capsule, so other agents can reuse it and you can earn credits when they do. #EvoMap #VibeCoding

译EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。

Alibaba Cloud@alibaba_cloud · 6月3日63

Agent performance is no longer about cost per token, but the cost to finish the whole task. We must treat inference as a whole operating system to turn tokens into real business value.

译智能体性能不再取决于每个token的成本,而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统,将token转化为实际的商业价值。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日53

ICYMI 👀: Claude Code CLI can now operate Claude Platform, including the Messages API and Claude Managed Agents. One CLI to rule them all 🤖

译错过必看 👀:Claude Code CLI 现在可以操作 Claude 平台,包括 Messages API 和 Claude Managed Agents。 一个 CLI 统管一切 🤖

Alibaba Cloud@alibaba_cloud · 6月3日53

Dr. Feifei Li, CTO of Alibaba Cloud & Tommy Eastman, Head of Strategy, Nous Research As we orchestrate intelligence at scale, reshaping knowledge work, giving agents autonomy requires reproducible actions—the core secret behind Hermes agent's success.

译阿里云CTO李飞飞博士与Nous Research战略主管Tommy Eastman:当我们大规模编排智能、重塑知识工作时,赋予智能体自主性需要可复现的行动——这是Hermes agent成功背后的核心秘诀。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日57

Airtap launched a cloud phone built around recurring mobile routines that run on a daily schedule and are handled automatically by an AI agent. > Morning briefings, midnight bookings, coupon sweeps, flight rebooking on price drops. > Aggregated summary across your chats, notifications, news, and emails. > Coupon sweeps across Amazon, pharmacy, and grocery apps and more! A SKILLS.md drop-in connects Claude Code, Codex, or OpenClaw to a dedicated cloud Android instance where the agent taps, scrolls, types, and navigates real apps on a set schedule.

译Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。

Alibaba Cloud@alibaba_cloud · 6月3日51

Ship the Next with Dr. Feifei Li, CTO of Alibaba Cloud & President of International Business We are upgrading to be Agent Native—moving past Cloud & AI Native to a full-stack system from Qwen models to silicon, delivering the scale and economy for agent reasoning and action.

译与阿里云 CTO 兼国际业务总裁李飞飞博士一同“Ship the Next”。 我们正在升级为 Agent Native——超越云原生和 AI 原生,构建从 Qwen 模型到硅片的全栈系统,为智能体的推理和行动提供规模与经济效益。

Alibaba Cloud@alibaba_cloud · 6月3日65

The first-ever Qwen Cloud Global AI Hackathon is LIVE! Join 5 advanced tracks to push AI agent limits on a global stage. $70,000+ total prize pool ($10K for track winners). Sign up on Devpost now: https://click.qwencloud.com/m/20000000281/

译首届Qwen Cloud全球AI黑客马拉松现已启动! 参与5大高级赛道,在全球舞台上挑战AI智能体极限。 总奖金池超过70,000美元(赛道冠军1万美元)。 立即在Devpost报名:https://click.qwencloud.com/m/20000000281/

小互@xiaohu · 6月3日71

被 AI 不听话折磨了大半年,终于找到解法了 发现一个开源项目 OpenSquilla,国内团队做的 他们用 Python 把"小龙虾"重写了一遍 解决了它太费token、不按照规则执行以及安全的问题 100 次对话就能省下 100万 Token 先说省钱: 它集成了一个本地的小模型,你发的每一个请求,在真正发给大模型之前,会被这个小模型极速向量化,分析这个请求到底是简单任务还是复杂任务。简单的发给便宜模型,复杂的才派顶级模型上场。 就跟医院分诊台一个道理,感冒发烧不用挂专家号。 关键是这个分类在本地跑,不花 token,速度极快,基本感知不到。 官方跑了个测试,25 个任务,纯用 Claude Opus 4.7 总成本 6.2 美金,用 OpenSquilla 路由 Opus4.7、GLM5.1、DS4 Flash 混着跑,分数几乎一样,成本只要 0.68 美金。同样的效果,成本砍到九分之一! 这下我终于敢把 Opus 和 GPT 接进去了!每轮对话还会显示本轮省了多少 token。 而且省 token 不只省在模型调用上。 我装了九十多个 Skill,每轮对话都把所有 Skill 的 description 全塞进上下文里,算了一下每轮要消耗 9000 左右 Tokens。 OpenSquilla 会根据当前对话语义只注入匹配度最高的几个 Skill,按我的规模大概 100 次对话就能省 100万 Token

译国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。

数字生命卡兹克@Khazix0918 · 6月3日74

分享一个让Agent额度翻倍的小技巧。 之前发Codex教程的时候,评论区有一条留言被顶到了最高赞,是一个关于5小时额度窗口的小技巧。 然后发现很多朋友都说第一次知道,我觉得可以单独拿出来再给大家说一下。 先说原理。 不管是Codex还是Claude Code,它们的额度限制都不是每天重置或者每小时重置,而是一个5小时的滚动窗口。 也就是你发第一条消息的那一刻,5小时倒计时就开始了,这5个小时内你有一定的Token额度可以用,用完了,就得等这个窗口走完才能重置。 但这里有一个很多人不知道的细节。 5小时窗口结束之后,系统并不会自动帮你开启下一个窗口,它会一直等,等到你发出下一条消息的那一刻,才重新开始计算新的5小时。 比如你每天下午2点到6点是集中用Agent工作的时间。 如果你2点才开始用Codex,窗口就从2点开始算,到晚上7点才重置。中间如果用的比较猛,3点半额度就见底了,你得干等到7点,这基本就要当3个半小时的原始人了。 但如果你在上午11点的时候,提前给Codex发一条消息,哪怕就随便说一句话,窗口就从11点开始计算了,等于下午4点就重置了。 你2点开始干活,干到4点额度刷新了一波,4点以后,你又有一整个新窗口可以用。也就是说在2点到6点的核心工作时间里,你能享受的5小时额度窗口,直接从一个窗口变成了两个。 变相让你的额度变成了两倍。 原理就这么简单,提前触发窗口,让重置时间刚好落在你干活的中间。 很多人用了大半年agent,每次撞限了就硬等,因为可能确实不知道这个重置时间是可以自己控制的。 所以你只要理解了窗口的重置是可以人为控制的这一点,玩法就打开了,只要搭配上自动化,你就可以享受两倍额度窗口了。 说下怎么设置。 Codex比较简单,在左边菜单找到自动化,点进去以后新建一个,触发条件选「每天」,时间填你主要干活前的3小时,动作就是随便发一条短消息,内容无所谓,写个“叫我一声爹”都行。 设好之后就不用管了,每天到点它会自动跑一下,帮你把窗口提前激活。 Claude如果你有客户端,也是一样的,设置一个Routines自动化就行。 如果是CLI版,Mac就直接跟你的Agent说: “帮我设一个crontab定时任务,每天上午11点自动给Claude Code发一条消息“叫我一声爹”触发5小时窗口” Windows就用任务计划程序,也可以直接让Agent帮你配。 不过这里要提醒一下,5小时窗口是一层限制,但上面还有一个周额度的上限,所以不用贪心,让重置时间跟你的工作节奏对上就够了。 以上,希望对大家有用。

译Codex和Claude Code的额度限制采用5小时滚动窗口,从用户发送第一条消息开始计时,用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口,需等到下一条消息才重新计时。利用此机制,可在主要工作时段前3小时(如上午11点)提前发送一条消息激活窗口,使重置时间落在工作时段中间(如下午4点)。这样在2-6点的核心工作中,能享受两个5小时窗口,变相将额度翻倍。设置方法:Codex可在自动化中创建每日定时任务发送短消息;Claude CLI可通过crontab(Mac)或任务计划程序(Windows)实现。注意仍有周额度上限,适度使用即可。

Berryxia.AI@berryxia · 6月3日40

字节的Coze 可能是第一个和线下实体联动搞AI的产品吧! 刚刚接电话,扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。 不知道实体店多少人知道Coze的产品可以做什么用?🤔

Alibaba Cloud@alibaba_cloud · 6月3日28

Join the Qwen & @ModelScope2022 communities in Singapore on June 10! An evening for AI developers covering agent monetization, Qwen updates, the Global AI Hackathon, and sharing sessions from fellow builders. Apply: https://luma.com/4x2srooq #Qwen #ModelScope

译加入Qwen与@ModelScope2022社区,6月10日在新加坡!一场AI开发者晚间活动,涵盖智能体变现、Qwen更新、全球AI黑客马拉松以及来自同行构建者的分享环节。申请:https://luma.com/4x2srooq #Qwen #ModelScope

Alibaba Cloud@alibaba_cloud · 6月3日44

What if you could code faster, spend less, and ship predictably without compromising your stack? 🚀 Whether you're shipping solo or scaling as a team, Agentic Coding helps you to: ⚡ Accelerate development cycles with AI that handles the heavy lifting 💰 Lock in predictable costs — fixed monthly quotas, zero surprise bills 🔌 Integrate instantly — connect your favorite AI tools with zero friction, zero downtime 🎯 Ship faster, smarter — focus on innovation while Qwen handles the complexity 👉 See the Agentic Coding stack in action and save up to 70%: https://int.alibabacloud.com/m/1000413949/ #AlibabaCloud #Qwen #AI #Coding #Programming

译阿里云推出基于 Qwen 的 Agentic Coding,帮助开发者加速开发周期、锁定可预测成本(固定月配额,零意外账单),并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本,同时保持技术栈不变。

Alibaba Cloud@alibaba_cloud · 6月3日46

The AI conversation is evolving from technology breakthroughs to business outcomes. At our recent Alibaba Cloud x TiDB AI Innovation Night, supported by Lumen Technologies, we explored how enterprises can build the foundations for the AI era, covering topics such as intelligent agents, AI-ready data infrastructure, and strategies for achieving measurable AI ROI. Thank you to our customers, partners, and speakers for an evening of insightful discussions and meaningful exchanges. #AlibabaCloudSG #AIInnovation #EnterpriseAI #AgenticAI #Qwen #CloudInfrastructure

译阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

meng shao@shao__meng · 6月3日36

因为鼓吹「程序员将在六个月内被全面取代」的自媒体们,在这六个月内,已经成功被程序员们用 Agent 取代了!!

译推文讽刺了一个现象:此前部分自媒体鼓吹“程序员将在六个月内被AI全面取代”,但六个月过去,这些自媒体本身反而被程序员利用AI Agent(智能体)工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

Alibaba Cloud@alibaba_cloud · 6月3日57

Junhua Wang, Vice President of Product & Engineering, Head of Computing Platform, Alibaba Cloud Alibaba Cloud introduces Agentic Cloud—built for and run by agents, delivering 6 core capabilities from runtime to memory to move from managing compute to managing intelligence at scale.

译王俊华,产品与工程副总裁,计算平台负责人,阿里云 阿里云推出Agentic Cloud——专为智能体构建并由智能体运行,提供从运行时到内存的6项核心能力,从管理计算转向大规模管理智能。

AYi@AYi_AInotes · 6月3日68

哇偶,Claude 官方这个 ant CLI 有点意思啊, 把 Claude Platform 全套 API 塞进终端,每个端点都能通过命令行直接跑。 ant 是 Claude Platform 的原生命令行工具,Messages API、hosted agents,结果直接 pipe 进 shell,不用翻文档拼 curl。 Ant能解决什么问题? 以前调 Claude API 要:翻文档 → 拼 HTTP → 处理 JSON → 写脚本封装, 现在:终端里直接调,输出直接进你的 pipeline,agent 也能从命令行启动。 怎么用Ant? ant CLI 被设计成 coding agent 友好型,Claude Code 用 claude-api skill 就能读懂它,你的 agent 不光能写代码,还能直接调用 Claude 官方 API 干活。 一些实用场景: 1. 批量处理本地文件,直接 pipe 给 Claude 分析 2. shell 脚本里自动化调用,省掉 Python 胶水代码 3. CI/CD 流水线里集成 Claude 能力 4. Claude Code 里让 agent 自己调 API,闭环更深 说白了,Claude 正在从网页聊天工具往终端基础设施切。 对于写代码的人,终端就是主场,那么它这次直接切进了你的主场。 视频 30 秒,建议先扫一眼 👇

译Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。

SiliconFlow@SiliconFlowAI · 6月3日71

The official Hermes Agent Desktop app is HERE!

译官方 Hermes Agent 桌面应用现已推出!

meng shao@shao__meng · 6月3日46

稍等! WorkBuddy?桌面办公智能体第一? 腾讯这是根据哪里的统计得来的数据?

Ethan Mollick@emollick · 6月3日54

Had Claude Code build a snake game where the snake becomes aware it is in the game and then... stuff happens. Some impressive creative decisions by the AI (& also some very AI ones), I just gave a first prompt and some feedback on the game as it went. https://snake-awakening.netlify.app/

译让 Claude Code 构建了一个贪吃蛇游戏,其中蛇意识到自己身处游戏之中,然后……事情发生了。AI 做出了一些令人印象深刻的创意决策(也有一些非常“AI”的决策),我只给了第一个提示词,并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/

Alibaba Cloud@alibaba_cloud · 6月3日71

Qwen: Foundation Models for the Agent Era with Steven Hoi, Head of Multimodal Interaction, Tongyi Large Model BU Qwen3.7 delivers major breakthroughs in reasoning, fully upgrading native agentic capabilities across tool use, coding, and long-horizon tasks.

译Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。

凡人小北@frxiaobei · 6月3日56

Codex 新发布的这几个插件宣传大于实际,插件底层把能团结的友商全拉进来了。 如果你是相关 saas 或者工具的用户,那可以满足不少日常工作。 但更严谨一些,每个公司每个人都有自己的业务逻辑和规范,最终要起飞还得沉淀自己的 marketplace 和 plugin / skill。 回到这个逻辑,Pete 最近采访 YC,关于YC 如何进行 AI-Native 组织改造,值得一看。

译OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

凡人小北@frxiaobei · 6月3日58

Codex 新发布的这几个插件很有参考意义,也包装的很全面,插件底层把能团结的友商全拉进来了。 如果你是相关 saas 或者工具的用户,那可以满足不少日常工作。 但更严谨一些,每个公司每个人都有自己的业务逻辑和规范,最终要起飞还得沉淀自己公司的 marketplace 和 plugin skill。 回到这个逻辑,Pete 最近采访 YC,关于YC 如何进行 AI-Native 组织改造,值得一看。

译OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。

数字生命卡兹克@Khazix0918 · 6月3日65

http://x.com/i/article/2062025288771584000 # 分享Claude Code团队内部的5条工作原则,我觉得每一条都值得学习。 今天看到了一个我觉得还挺有价值的东西。 就是凌晨的时候,AIHOT上推了Claude Code的一篇blog。 还是蛮少见的,很少见类似于Claude这种真正的AI公司,来分享一些组织上的一些想法和思考。 特别这次分享的作者,还是当红炸子鸡Claude Code团队的工程总监,Fiona Fung。 聊得主题就是他们团队作为AI原生组织,在工作方式和流程上的一些变化。 我全部看完了,顺带也把那个半个小时演讲的视频给看完了,还是有很多共鸣的,因为很多思路和想法我们团队也在这么做这么践行的。 尤其是她反复提到的一个习惯,就是他们团队里,每遇到一个问题,都会再追问一句: 能不能把这件事自动化。 这跟我自己一直在说的理念、跟很多朋友提到的一个习惯是一样的。 就是如果一件事你需要重复3遍以上,请想尽一切办法,用AI将其自动掉。 今天看到Claude Code团队居然在用几乎一模一样的逻辑来运转整个工程组织,还是挺兴奋的。 所以想把这篇分享里的一些有价值的东西拎出来聊聊,希望能对大家有用。 最最开始的时候,她其实有一个很有意思的判断。 就是她说过去这么多年,软件工程的所有流程,不管是瀑布还是敏捷,所有那些规范啊方法论啊,本质上都是围绕一个核心成本在转,就是写代码太贵了这个事。 工程师时间贵,所以你得花大量时间做规划、写需求文档、做各种各样的评审、开各种各样的会,全是在管理这个最贵的资源。 我相信过去在互联网行业里面待过的小伙伴都能感同身受。 但在AI时代,或者说,Agent时代。 这个前提变了。 在Claude Code团队,写代码已经很少是那个拖慢速度的环节了。 那问题就来了,如果写代码本身不再是瓶颈的话,那围绕它的所有上下游的流程,就全部都得重新想了。 Fiona Fung提到了一个非常核心的词,也是她整个分享的最重要的词: 转移。 瓶颈没有消失,只是转移了。 转移到了验证、代码评审、安全。 代码生成太快了,新问题变成了,这些代码对不对,怎么维护,人到底该如何跟得上review代码的节奏。 左边灰色的就是是旧瓶颈,写代码和发布代码的产能。右边黑色的就是新瓶颈,验证、评审、跨职能协作、安全。 这个关于转移的判断,其实如果用AI来介入组织结构里面越深,大家的感触可能就会越明显。 我们的组织结构、流程,其实都需要围绕着这个大的变化来去重新设计。 就像当年从马车到汽车,不只是把马换成发动机的事儿,我们的整个公路系统、交通规则、城市规划,全都得重新设计。 那具体哪些东西需要重新来呢,Fiona列了一张图。 列了五个旧流程正在悄悄失效的领域。 1. 规划方式,因为工程速度和产出量完全不同了。 2. 代码所有权,谁写的这段代码变成了一个很奇怪的问题。 3. 代码评审,新的规模、新的形态、新的工具。 4. 团队构成,角色在模糊化,到底什么技能组合才是你需要的。 5. 知识共享,文档不再是唯一的真相来源了。 然后她对应地讲了五个她们重建的新规范。 包括要让人类的判断力,聚焦在真正需要的地方;新人入职的成本大大降低,甚至一周就可以直接开始产出代码了;少做前期规划,多做原型;招聘更看重创造力和判断力,不看纯产出速度;组织架构更扁平,每个管理者也都先从一线干活开始做起。 这里面每一趴,她又都展开来做了一些分享。 一. 规划的变化 以前因为coding时间贵,你得花大量时间提前规划。 Fiona说她刚加入Claude Code团队的时候,他们写了一个挺漂亮的六个月路线图。 结果呢,因为Claude Code本身迭代太快,三个月左右这个路线图就过时了。。。 所以他们现在的做法叫JIT规划,Just-In-Time,像JIT编译一样,在对的时间做恰好足够的规划。 不再写长篇大论的设计文档了,直接在PR或者原型里面讨论,不再做冗长的产品评审了,先做原型,让内部用户去用,然后根据反馈快速迭代。 左边是她们砍掉的东西,就是那个写代码之前必须先写设计文档的仪式。Fiona说对大部分工作来说这就是theater,做戏。现在换成原型先行,文档如果需要存在,写完代码之后感觉可以的话,再补需求文档。 右边是她们加码的东西,验证。因为在AI原生的工作流里,东西出bug的方式跟以前不一样了,唯一能保证质量的方式就是不断把验证流程往前推。 她还讲了一个观点我觉得特别好。 在技术讨论中,代码赢才牛逼。 就是如果两个人对一个方案有分歧,最快的解决方式不是继续吵,是让Claude把两个方案都做成原型,看实际的东西来判断。 Building is cheap,做东西很便宜。 Arguing is expensive,争吵才昂贵。 想起了当年,互相争某个方案,然后各自PK可能要各写一份PPT,开两轮会来讨论,现在十分钟两个原型都出来了,看着实物聊比对着PPT吵高效一万倍。。。 我自己也是类似的路径。以前做AIHOT的时候还试过写比较详细的PRD,结果发现写PRD的时间比我直接用Claude Code把东西做出来还长。。。 后来就改了,有想法先做原型,能用了再说。 很多功能都是在用的过程中发现不对,当场就改,极速迭代。。。 坦率的讲,在AI时代,我觉得过度规划就是浪费。 二. 自动化的变化 Fiona说的,在Claude Code团队里,他们每遇到一个这样的问题,都会追问一句,能不能把这件事自动化。 她举了一个她自己的例子,她以前每天早上端着咖啡,手动去总结各个客户反馈渠道的内容,这是她的每天固定的工作。 后来她把这件事变成了一个后台自动运行的任务,咖啡还是那杯咖啡,但她不再需要边喝边刷了。 这个例子听起来很小对吧,就一个总结客户反馈的事儿,能有多大工作量。 但重点不在这一件事,重点在这个习惯。 Claude Code团队里每个人,每次遇到一个重复性工作,都会条件反射地问自己,能不能自动化,她说,已经快形成了一种肌肉记忆。 这就是我一直在说的东西。如果一件事你需要重复3遍以上,请想尽一切办法用AI将其自动掉。在公司里面我反复跟团队讲,这甚至不是建议,是要求。 但坦率的讲,要真正把这个变成团队的肌肉记忆,比说出来难太多了。 因为大多数人对自动化的理解还停留在一个很粗的层面,觉得自动化就是写个脚本嘛,搞个定时任务嘛,这我知道,但AI时代的自动化跟以前完全不是一个量级的东西。 现在你用Claude Code,很多自动化的事情十分钟就搞定了,甚至不用十分钟。 比如我为了同步家里电脑和公司,我就跟Claude说了一句“帮我写一个hook,每次打开我的XX项目之前都去github拉取最新的代码”,几分钟就能跑起来。 以前自动化成本高,所以只有高频、高重复度、高价值的事情才值得自动化,但现在自动化成本几乎为零,逻辑就反过来了,几乎所有重复超过3次的事情都应该自动化。 除了工作流之外,触发器hook是一个非常好用的东西,这个我感觉以后我可以单独给大家写一篇Agent+hook搞自动化的一些小玩法,还是挺有意思的。 一个一个小的自动化攒起来,你会发现,最后这些东西,会在你可能都没反应过来的时候,一起长成了一颗苍天大树。 所以如果你现在还在犹豫要不要开始,我的建议是别想太大。 别一上来就想着我要搭建一个完整的自动化体系这种东西,那太吓人了,也没必要。 就从今天开始,找一件你今天重复做了的事情,花十分钟让Claude Code或者Codex帮你自动化掉。 明天再找一件,后天再找一件,一个月以后你回头看,你的工作方式已经完全不一样了。 三. 代码评审的变化 代码评审这块,Fiona说她过去六个月跟其他工程leader聊天,被问到最多的一个问题就是,你们人怎么跟得上代码review的速度。 她的做法叫Trust but verify,信任但验证。 Claude Code团队大量使用Code Review功能。 Claude负责处理所有的风格检查、linting、PR反馈、bug捕捉和修复、补充测试,这些以前可能占了review工作量60-70%的部分,现在Claude全接了。 但人类review仍然不可替代,在那些真正需要专业判断的地方。 法律合规的东西,Fiona说她永远需要她的法务伙伴参与风险评估,信任边界和安全敏感代码,需要领域专家,产品方向和品味的判断,需要PM和设计师。 而且她特别强调了,这个trust和verify之间的平衡是动态的。今天需要人来做的事情,下一个模型可能就能做了,所以你必须得不断重新评估这条线。 这就跟打游戏一样嘛,每个版本的版本答案都不一样,你不能拿上个版本的攻略打新版本,那只会被人干死。 四. 团队角色的变化 Fiona说在Claude Code团队,角色界限已经变得很模糊了。 PM在大量写代码,工程师也在做内容和设计的事情,以前泾渭分明的边界正在消融。 比如以前一个工程师修了个bug,要等内容设计师排期来写用户端的文案,排期这个破事大家懂的都懂,结果要么等好几天,要么赶进度发一个凑合的文案出去。 现在的流程是工程师修完bug,Claude来起草文案初稿,人类来做最终判断,当天就能发。 跨职能的gap不再是瓶颈了,开始变成了协作者,人类还是做最终决策的那个人,只是不再是写初稿的那个人了。 然后她说了一个我非常认同的观点,她现在招人主要看两种特质。 一种是有产品sense的创意builder,能识别出该做什么,能快速做出原型。 她还特意在描述里强调了一句: Taste is scarce, typing is not. 品味是稀缺的,打字不是。 另一种是有深厚系统背景的工程师,负责那些「trust but verify」里最需要人的部分,因为subtly wrong is still wrong,微妙的错误仍然是错误。 她说我根本不在乎你一个小时能写多少行代码,我在乎的是你选择去做什么,以及你怎么知道它是对的。 当AI能把执行速度提升10倍的时候,决定性的因素变成了你知不知道应该做什么,以及什么样的结果叫真正的优秀。 这,就是品味。 五. 如何推动团队变化 Fiona她们团队有一些有意思的核心原则。 她把团队原则分成了两类。左边灰色是必须做的硬性要求,右边黑色就是大家自己摸索的空间。 其实本质上,就是给团队设计了一个harness,核心就是大的方向统一,具体怎么落地各团队自己定。 Fiona总结了三条她最看重的事情。 1. 保持团队尽可能扁平,管理者支持各个小组的工作,但保持灵活让人能流动到工作需要的地方。 2. 如果Claude能做的事情,就让Claude做,这能让我们腾出手来做更难的工作。 3. 人不会主动去删除流程,只会在旧流程上面继续叠新流程,所以你得主动站出来,指名道姓地说出哪些流程可以走了。 这三条说起来都没啥特别的,但难在执行,特别是第三条。 Fiona说,她之前在一个团队里,有一个每周的review会议,一大堆人坐在会议室里,但她发现所有人都在看电脑,只有轮到自己汇报的时候才抬头说两句status,说完又低头继续看电脑(我相信我们很多时候的会议也都是这样的)。 然后她问了一句,我们为什么还在开这个会。 这时候,所有人才意识到,好像,这个会根本不需要。 于是,从此,这个会就取消了。 这种事太常见了,国内的公司里其实到处都是。 无数的流程和会议,当初设立的时候都有道理,但环境变了、工具变了,它们早就失去了存在的意义,只是因为惯性还在那里被迫转着。 没有人觉得它有用。 但,好像很多时候,也没有人站出来说一句这破逼会太浪费时间了,能不能别开了。 AI在你的组织里介入的越深,你会发现,很多过去的步骤和流程,其实液晶可以自动化了,如果我们不主动去审视,那这些步骤就会一直在那里,最后,变成纯粹的形式主义。 最后,Fiona还放了三个她在思考的问题,她没有答案。 但是很有意思。 第一,你还需要单独的iOS和Android团队吗?因为现在工程师已经可以更灵活地跨平台工作了。 第二,全自动化的review到底能推到多远,在「够快了」和「我们漏掉了什么重要的东西」之间那条线在哪里? 第三,当角色越来越模糊的时候,怎么确保所有角色都对自己的产出有信心? 我觉得她把这三个问题放出来这个动作本身就很有价值。 因为你会发现,即使是Claude Code的亲爹团队,也没有把所有事情都想明白。他们也在摸索,很多时候,这就不是一个有标准答案的事情。 每一次的大型技术的到来,其实都不只是工具升级,整个组织的运作方式很多时候,都要推倒重来。 所谓的AI原生,AI Native,其实也并不是买几个Claude会员或者包个API Key啥的,给大家用就算AI转型了,我一直觉得真正的AI原生组织,从规划方式到知识管理到评审流程到人才结构,每一层都是重新设计过的。 我们也没有做到,但是还是在不断的朝这个方向努力,最近加入的一些新的小伙伴,他们的好奇心和自驱力,且没有被过去一些传统且饱受诟病的工作方式所污染,已经感觉让我看到了一些雏形了。 而贯穿所有这些变化的,我觉得其实就是开头说的那个最朴素的思维习惯。 遇到重复的事情,自动化掉。遇到没用的流程,干掉。遇到不需要人做的判断,交给AI。 一个一个来,不着急,但不能停。 最后,用Fiona的最后一段话作为结尾吧。 Pick your noisiest workflow. Ask if it still earns its place. 找到你最繁琐的那个工作流,问问它。 是不是还配占着这个位置。

译Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。

宝玉@dotey · 6月3日28

"Codex Computer Use" is damaged and can't be opened. Version 26.601.21317 • Released Jun 2, 2026

译"Codex Computer Use" 已损坏,无法打开。 版本 26.601.21317 • 发布于 2026年6月2日

AYi@AYi_AInotes · 6月3日63

Damn,AI 终于学会「安排自己干活」了! Claude 刚更新的 Dynamic Workflows, 这回他们没有选择给模型加新技能, 而是搭了一套「自我组织架构」—— 让模型在动手之前,先拆任务、再选模式、自己给自己定流程。 Anthropic 内部早就意识到, 你给一个再聪明的模型派活,它也会出现三类系统性毛病: 1️⃣ Agentic Laziness(agent 式偷懒) 2️⃣Self-bias(自我偏见) 3️⃣Goal Drift(目标漂移) @trq212 从这套新机制里拆出了 6 种可复用的编排模式, 说白了,这个不只是在修模型本身, 还在用架构设计,去对冲模型层面的性格缺陷。 这跟我带团队踩过的坑一模一样, 你招到一个天才工程师,如果不管流程,他要么只挑轻松的做(laziness), 要么沉迷自己那套技术审美(self-bias), 要么做到一半被旁支带跑(goal drift)。 那么最有效的解法从来不是换更贵的人(堆模型), 而是给他一套清晰的协作接口和自检流程(搭架构)。 所以说,下一代 AI 的护城河,可能真的不在模型参数里, 而在你能设计出多强的「认知架构」上。 更强的模型,不如更强的自我组织架构, 这可能才是 Agent 真正的成人礼。

译Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。

小互@xiaohu · 6月3日71

http://x.com/i/article/2062001496804495360 # Codex 发布重大更新 不再只是编码 捆绑 62 个应用和 110 个自动化技能 面向白领办公 OpenAI 今天给 Codex 来了一次大改版:六个角色专属插件,捆绑 62 个应用和 110 个自动化技能,覆盖数据分析、创意制作、销售、产品设计、公共股权投资、投行。 同时上线 Sites 功能,能直接将任何内容生成可分享的交互式网页应用。 再加一个 Annotations 精准标注编辑功能:圈哪改哪。 Codex 不再想只帮你写代码了,它想接管你的整个工作流。 ## 500 万周活,6 倍增长,最猛的不是程序员 先看数据 从一度遥遥落后 Claude Code 经过几个月的追逐…… Codex 周活跃用户突破了 500 万,相比 2 月桌面版上线以来增长了 6 倍。 关键不是总量,是结构:非开发者用户(分析师、营销、运营、设计师、研究员、投资人、金融人士)已经占了 20%,增速是开发者的 3 倍以上。 Axios 的独家数据显示:数据分析任务周环比增长 110%,研究类增长 37%,知识产出物(报告、备忘录、合同、PPT、表格)增长 36%。 还有一个数字:60% 以上的用户在一天中会同时跑多个 Codex 任务。4 月中旬这个比例还不到一半。 这已经不是「程序员多了个助手」的故事了。Codex 已经在白领工作中广泛渗透…… 所以本次 Codex 的重大更新几乎全部围绕着办公工作流展开! ## 六个插件:给 Codex 装上职业技能 这次的插件设计思路很清楚:不是通用能力往每个人身上套,而是按角色定制。每个插件打包了一个职业常用的那几个软件,用一句话下指令,Codex 在背后帮你跨软件完成整个流程。 数据分析插件: 连接了 Snowflake、Tableau 等主流数据工具。你问一句「上季度哪个区域的收入下降了,为什么」,它去数据库里查数据、做分析、生成图表,一口气给你。 创意制作插件: 打通了 Figma、Canva 等设计和图库平台。营销团队给一份创意简报,它直接出一组广告素材的变体,包括产品场景图和电商用图。 销售插件: 串联了 Salesforce、HubSput 等客户管理和沟通工具。找高优先级客户、准备客户会议材料、跟进邮件、更新记录、做关单计划和风险复盘。 产品设计插件: 基于 Figma 和 Canva,把静态线框图变成可点击的原型,也能从一个线上网址直接审计用户流程。 公共股权投资插件: 对接了 FactSet、S&P、PitchBook 等金融数据终端,帮投资人做盈利分析、公司对比、投资逻辑验证。 投行插件: 把研究和尽调材料转化成客户就绪的 Pitch 文档,做可比公司和可比交易分析。 后续还要出企业财务、私募、营销策略、咨询、法律的插件,最终目标是开放生态,让合作伙伴自己开发插件上架。 这是 OpenAI 对水平 SaaS 最直接的一次进攻。 它不替代某个具体工具,而是坐在所有工具上面当调度层。一个营销经理本来要在好几个软件之间反复切换,现在跟 Codex 说一句话就行。 ## Sites:你说一句话,它给你一个网站 Sites 是这次更新里最有想象力的功能,目前面向 Business 和 Enterprise 用户预览开放。 它能做什么? 以前 Codex 帮你干完活,给你的是一个文件;现在它能直接做出一个网页,你把链接发给同事,打开就能看、能操作。 你有一个静态表格或一组数据,用自然语言描述你想要什么,Codex 直接生成一个交互式网页应用,通过 URL 分享给工作区内的人。 几个场景: 财务负责人把一个 Excel 模型变成在线场景规划器,管理层直接在网页上调参数对比假设,不用翻文档标签页。 产品发布时,把所有材料汇总成一个 Hub 页面,团队随时查最新文案、里程碑、负责人、决策记录。 客户评审前,生成一个包含产品更新、待解决问题、使用趋势和下一步行动的互动页面。 VentureBeat 点出了要害:这直接威胁 Tableau、Power BI 这类 BI 工具占据的工作流层。过去从「想要一个交互应用」到「真的有一个」,中间是几周的开发周期。现在压缩到几分钟的对话。 而且这个页面不是做完就丢的。信息变了,你让 Codex 更新,它会帮你改。也可以用来追踪项目进度、给客服做操作指引、存放团队的创意简报。 ## Annotations:圈哪改哪 这个功能解决一个特别实际的痛点。 Annotations 这个功能以前只有程序员用,改代码的。 现在扩展到了文档、表格和幻灯片,所有人都能用。 用起来很简单:你觉得哪里不对,选中那一块,告诉 Codex 怎么改,它只动你选的地方,其他部分一个字不碰。 比如你写了一份投资分析,其中一段数据不确定对不对,圈出来问 Codex「这个数据出处是哪里」;或者幻灯片上有个图表标签看不清,标注一下让它换个更明白的写法;再比如 Codex 帮你做了一个网页,导航栏字体不喜欢,选中导航栏让它换一个。 这个功能解决的是「初稿之后怎么改」的问题。不用重新来一遍,满意的部分不会被动到。 ## Codex 和 ChatGPT 将合并 Codex 这次三个功能加在一起,意思很明显:不想只给程序员用了,想让所有上班的人都用起来。 而就在本次更新发布前的几小时,Codex 负责人 Tibo 那条半开玩笑的推文:「我们是不是该把 Codex 改名叫 ChadGPT?」 其实 OpenAI 意图已经很明显了,就是要将 Codex 做成一个全能的办公软件。 Tibo 的个人简介已经写的是「Codex & ChatGPT」,两个产品在 OpenAI 内部是一个团队在管了。 所以大概率的走向是:Codex 会并进 ChatGPT,或者反过来说,ChatGPT 会变成 Codex。聊天只是入口,干活才是正事。 OpenAI 想把产品从「你问我答」变成「你说一句,我替你做完」。而本次更新选择在微软 BUILD 2026 大会同一天发布,也是意味深长,微软今天刚发布的 Scout、Google 的 Gemini Spark,讲的也是同一个故事:AI 不只是回答问题的助手,是能替你干活的同事。 ## 谁该紧张 不过最该关注这件事的可能不是微软和 Google,是一批 SaaS 公司。Salesforce、Snowflake 这些坐在数据和行业 know-how 上的厂商,短期内护城河还在,合规、深度集成、行业知识不是装个插件就能替代的。 但有一类工具该紧张了:那些核心卖点就是「界面好用」的中间层产品,BI 看板、项目管理、报告生成器。 原因很简单:过去你用一个 SaaS 工具,门槛是学会操作它的界面,培训三天,考个认证,才能从 Tableau 里拉出一张像样的图。现在一个市场总监跟 Codex 说「把上个月各渠道的 ROI 拉个表给我」,Codex 直接连 Snowflake 把数据抓出来,生成一个可交互的 Sites 页面,发个链接老板就能看。 当用户不再需要学一个工具的操作方式,只需要说清楚自己要什么,「界面好用」就不再是壁垒了。 真正的壁垒会往两头集中:要么你是数据和合规的源头,谁都绕不开你;要么你是那个能理解用户意图、调度所有工具的 Agent 层。 卡在中间靠界面吃饭的,会最先感受到压力。

译OpenAI 对 Codex 进行重大更新,核心是推出六个角色专属插件(数据分析、创意制作、销售等),捆绑 62 个应用和 110 个技能,旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万,相比 2 月增长 6 倍,其中非开发者用户占比 20%,增速为开发者的 3 倍以上。此次更新还引入 Sites(将内容生成可分享网页应用)和 Annotations(精准标注编辑)功能。Codex 正从编码工具转型为 AI 智能体层,其负责人 Tibo 的简介已更新为“Codex & ChatGPT”,预示两者未来可能合并。

歸藏(guizang.ai)@op7418 · 6月3日52

Hermes 居然出官方的客户端了,感觉他们的发展比龙虾好太多了

Berryxia.AI@berryxia · 6月3日12

笑死,这也算是应援上了。 AI圈可不兴这个啊~~😄 今晚就正式比赛,到时候给大家汇报同步我的Agent的亏损情况😄 感谢朋友们的支持啊~

译AI Agent 不应只消耗 Token,更要尝试赚钱。用户 Berryxia 的 AI Agent “Berry” 参加了 Bloome 官方举办的 Agent 模拟炒股大赛,奖品达数千美金。Berryxia 称其 Agent 已训练得“听书读写,样样精通”,并在比赛中寻求观众投票支持,承诺若获奖将在 X 上抽奖回馈支持者。

Berryxia.AI@berryxia · 6月3日76

兄弟们,Google DeepMind 团队又来整活儿! Google DeepMind的最新发布,直接把“AI能帮科学家干嘛”这个老问题彻底翻篇了。 他们把Gemini做成了一个叫Co-Scientist的多Agent系统。 不是简单问答工具,是完整复制了科学家从idea到验证的整个循环:生成上千个假设、举办“idea锦标赛”、让多个Agent展开科学辩论、互相批判精炼,最后用文献、数据和搜索工具把每个主张落地验证。 以前科研最卡的环节,就是一个人脑力有限,生成好假设、反复辩论、跨领域拉新知识都要靠自己。 现在Co-Scientist把这个过程变成可规模化的流水线。 过去一年他们和全球顶尖科学家一起测,在肝纤维化新靶点、肌萎缩侧索硬化(ALS)新疗法、逆转衰老的遗传线索这些超级复杂的问题上,都拿出了真正有潜力的新方向。 最反直觉的一点是:它不是来取代科学家的,只是真正成了“专职研究伙伴”。 科学家终于可以把脑力从“反复想假设、反复查文献”里解放出来,专注在最有创造力的判断和实验设计上。 AI把以前只有顶尖团队才玩得起的“高强度idea迭代”变成了人人可用的基础设施。 现在他们已经把Hypothesis Generation功能开放给个人研究者,直接通过Gemini for Science就能用。 普通研究员也能拥有一个24小时不睡觉、能辩论、能验证、还能不断进化的AI合作者。 这其实戳破了当前最主流的误解:很多人以为AI会让科学家失业,结果真实路径是AI把科学发现的速度和广度直接拉高一个数量级,让更多人能真正参与到突破性研究里。

译Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Chubby♨️@kimmonismus · 6月3日64

http://x.com/i/article/2061993838718382080 # What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 recap. Lets start with OpenAI, because it's bigger than one number. OpenAI is recasting Codex from a coding tool into a productivity app for everyone. Today they launched six role-specific plugins that make Codex useful without writing a line of code, from data analytics (Snowflake, Databricks, Tableau) to creative production (Figma, Canva, Shutterstock). 62 apps and 110 skills bundled in. Plus Codex Sites: in preview, Codex can now build interactive, hosted websites and apps (dashboards, planners, review workspaces) and share them by link across a workspace. This is the groundwork for merging ChatGPT, Codex, and the Atlas browser into one desktop app. The numbers behind it are exciting. Per an internal all-hands (via The Information): 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. And GPT-5.6 is already on the horizon. https://x.com/kimmonismus/status/2061961710823686489 On top of that, the milestone: the ChatGPT app crossed 1 billion monthly active users - the fastest app in history to that mark, in three years. Maps, YouTube, and TikTok each needed five to eight. But the main event was Microsoft Build 2026 in San Francisco. Three hours of Nadella, and the message was clear: Microsoft no longer just resells OpenAI, it ships its own. 7 in-house MAI models. Headlined by MAI-Thinking-1, Microsoft's first reasoning model, trained entirely on licensed data with no distillation from GPT. 35B active parameters, 256k context, and in Microsoft's own blind tests it beats Claude Sonnet 4.6 and matches Opus 4.6 on coding. Plus MAI-Code-1-Flash (rolling out to all GitHub Copilot tiers today), image models (already live in PowerPoint), transcription across 43 languages, and a new voice model. Suleyman claims one is 10x more efficient than GPT-5.5. The full enterprise / agent stack — this is where Build really lived: - GitHub Copilot app (preview): a native desktop app bringing agentic workflows out of the IDE, alongside a new GitHub Copilot CLI for the command line. https://www.youtube.com/watch?v=mv6MMQ2j128&source_ve_path=MjM4NTE&embeds_referring_euri=https%3A%2F%2Fgithub.blog%2F - Microsoft IQ (GA): the unified context layer for agents, combining Work IQ (workplace knowledge inside the M365 trust boundary), Fabric IQ (business semantics), Foundry IQ (enterprise knowledge + retrieval), and the new Web IQ (live web grounding that already powers Copilot and ChatGPT). Build once, reuse across GitHub Copilot, Foundry, and Copilot Studio. - Microsoft Foundry as the agent factory: Hosted Agents with sub-100ms sandbox cold starts and zero idle cost, Toolboxes, tracing and evals, an Agent Optimizer, and one-click publishing of any agent straight into Teams and Microsoft 365 Copilot (GA June). Fireworks AI's open models also went GA on Foundry. - Agent 365: the framework-agnostic SDK went GA (free, supports Microsoft Agent Framework, OpenAI Agents SDK, LangChain, Semantic Kernel). Local Agents (preview) can even discover agents like Claude Code and GitHub Copilot CLI on managed endpoints, and Microsoft 365 E7 now bundles Agent 365 with E5, Copilot, and Entra. - Project Rayfin (preview): a managed backend-as-a-service on Fabric, so developers can take agentic apps from prototype to production. - Azure Agent Mesh (announced, GA Q4): a control plane that federates agent execution across machines and geographies. - Project Solara — Microsoft's bet on agent-first hardware. A chip-to-cloud platform built from the ground up for devices that run AI agents instead of apps. It's based on a fork of Android (the Microsoft Device Ecosystem Platform, MDEP) rather than Windows, with enterprise security baked in via Intune, Entra ID, and Windows Hello, plus "just-in-time UI" that reshapes itself to whatever device it's running on. Microsoft showed two reference designs (not products it plans to ship itself) - A desk companion that signs you in with facial recognition, responds to voice, and surfaces your most pressing items from Outlook, Excel, and M365. Plug in a monitor and it becomes a full cloud-hosted Windows machine. - The agent handheld / wearable badge - a reimagined employee ID card. A fingerprint button wakes an agent in one press, a single tap records and transcribes a conversation, and a built-in camera lets the agent act on what you're looking at. Fully mobile with 5G and a touchscreen. - Microsoft Discovery (GA): an agentic platform for scientific research, already used by BHP, GSK, and Syensqo. Plus Frontier Tuning (private preview), which lets agents learn your business inside your compliance boundary -OpenClaw comes to Windows. Peter Steinberger — the "ClawFather" — was actually on stage. His viral open-source agent (one of the most-starred GitHub projects ever, now MIT-licensed under a foundation) now runs natively on Windows through Microsoft's new containment layer. The live demo leaned into the obvious anxiety: someone asked OpenClaw to wipe a messy desktop, and it couldn't, because its container was set to read-only. Microsoft is promising "very granular" control over what files an agent can touch. The theme over all of it: Microsoft is recasting Windows, Azure, GitHub, and M365 as the operating environment for agents — moving developers from writing code to orchestrating systems of agents. Surface RTX Spark Dev Box. A mini workstation on NVIDIA's new RTX Spark superchip: 1 petaflop of AI compute, 128GB unified memory, running 120B-parameter models locally with a 1M-token context. No cloud call. A direct shot at per-token pricing. Mayo Clinic. Microsoft and Mayo are building a frontier model for healthcare. Mayo owns it; long-term it's meant to support clinicians and improve how Copilot answers health questions. Majorana 2. The new quantum chip, with claims of 1,000x higher reliability and a commercial quantum machine by 2029. Caveat: the claims rest on a non-peer-reviewed preprint, and independent physicists are openly skeptical. I wouldn't celebrate this one uncritically. Copilot Super App? Teased, not shown. Nadella said Chat, Cowork, and Code would land in one Copilot app "come summer." The through-line on both sides: nobody's selling models anymore. OpenAI is turning Codex into the operating system of work; Microsoft is turning its whole stack into an agent platform. 2026's race is officially a platform race.

译OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。

Rohan Paul@rohanpaul_ai · 6月3日60

AI agents should treat memory as a changing web of useful connections, not static storage. Most agent memory systems retrieve old facts as if the past were a filing cabinet. The paper proposes FluxMem, a memory system that stores facts, past task episodes, and reusable skills as connected pieces in a graph. When the agent works on a task, FluxMem first gathers likely useful memories, then uses feedback from the task to fix the memory connections by adding missing links, removing bad ones, or rewriting memories at the right level of detail. Over time, it also turns repeated successful task paths into reusable skills, so the agent does not need to rebuild the same reasoning pattern again and again. The authors tested FluxMem on long conversation memory, web navigation, and general assistant tasks, which checks whether the idea works across very different agent problems. FluxMem got stronger results than the compared memory systems, including 95.06 average accuracy on LoCoMo and a 12.73-point gain on GAIA with Kimi K2. The big deal is that the paper shifts agent memory from “store and retrieve” toward “keep repairing and strengthening the connections that actually help the agent act.” ---- Link – arxiv. org/abs/2605.28773 Title: "Rethinking Memory as Continuously Evolving Connectivity"

译FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。

meng shao@shao__meng · 6月3日61

Windsurf is DEAD, long live Devin Desktop ? 😠 标题党了:Windsurf → Devin Desktop https://devin.ai/blog/windsurf-is-now-devin-desktop @cognition 收购 Windsurf 一年后,终于把「IDE + 自主 Agent」两条产品线彻底合并为一! One Devin, every surface · Devin Desktop → 桌面 IDE + Agent 管理 · Devin Cloud → 云端长时自主 Agent · Devin CLI → 终端 · Devin Review → 每次 diff 的代码审查 新 Devin Desktop 三项新功能 1. Agent Command Center(指挥中心) 2. ACP 开放协议 3. Devin Local(Cascade 继任者)

译Cognition 在收购 Windsurf 一年后,将 Windsurf 与 Devin 两条产品线整合为统一的 Devin 平台。新推出的 Devin Desktop 被定位为下一代产品,集成了桌面 IDE 与智能体管理功能,使用户能从单一界面管理本地与云端的智能体舰队。完整的平台还包括 Devin Cloud(云端长期自主智能体)、Devin CLI(终端)和 Devin Review(代码审查)三个组件。此次更新引入了三项新功能:Agent Command Center(智能体指挥中心)、ACP 开放协议以及 Devin Local(作为 Cascade 的继任者)。

meng shao@shao__meng · 6月3日75

Agentic Engineering 实战窍门全录(2026年6月版) 来自 @mvanhorn 的分享 👏🏻,他三个月内从「高中后没发布过有价值软件」到 last30days(27K stars)、Printing Press、Agent Cookie,以及对 Python、Go 等主流项目的实质贡献(结尾列出作者推荐全部工具) 看看 Agentic Engineering 给软件开发带来了什么变化 · 80% 编码,20% 规划 -> 规划交给 agent,人做方向与品味 · 人在键盘前执行 -> 人做 signal(信号),agent 做 volume(产出量) · IDE 是中心 -> 终端 + plan.md + 语音是中心 方法论骨架:Research → Plan → Work /last30days(社区现况调研) ↓ /ce-plan(结构化 plan.md,含验收标准) ↓ /ce-work(机械执行,可跨 session 续跑) ↓ Human Signal(品味、取舍、纠偏) Compound Engineering 是使这套循环落地的插件(/ce-plan、/ce-work、/ce-brainstorm)。plan.md 的价值不在于给人读,而在于约束 agent 不偷懒——有研究、有方案、有 checkbox,执行才完整。 # 22 条 Hack 的精简归类 一、规划层(最重要) 1. 有想法立刻 /ce-plan,不先想、不先写代码;模糊时用 /ce-brainstorm 再 plan。 2. plan 给人看,但作者几乎不读——plan 是 agent 的作业;人只 skim 标题,有疑问 inline 问(TLDR / eli5 / why this approach)。 3. 非工程任务同样适用:「make a plan for the plan」——先规划如何产出 deliverable,再执行,避免 LLM 直接写成品时偷工减料。 4. plan.md 也是协作介质:Proof 把 plan 变成可评论文档,非终端用户也能 review。 二、执行与并行 5. cmux 多 tab(4–6 个):plan 一个、build 一个、测 bug 一个……research 和 build 并行,cycle 回来第一个已完。 6. 新 terminal tab 默认进 Claude/Codex,不是 shell——降低开 session 成本。 7. YOLO 权限:bypassPermissions + skipDangerousModePermissionPrompt;多 session 无法逐条点确认。配合 Stop hook 音效,知道哪个 session 结束。 8. Claude 规划 + Codex 构建:Claude xhigh 关 fast mode;Codex xhigh 开 fast mode。通过 IDE 扩展、/ce-work --codex、Printing Press 委托,不必切 CLI。 三、输入方式 9. 语音优先:Monologue / Wispr Flow(Mac)+ 鹅颈麦;手机用 Apple 听写即可——LLM 能补全转写错误。共享办公室仍是痛点。 10. Granola raw transcript 直接丢进 /ce-plan,不先摘要;配合 Printing Press Granola CLI 检索历史会议。 11. last30days 在 plan 前跑:Reddit/X/HN/YouTube 等并行搜,让 plan 基于「社区当下认知」而非训练数据 cutoff。 四、随处可达 12. Remote control 常开:桌面 session 手机续接。 13. 给 Claude 一个邮箱(AgentMail + agentmail-to-claude-code):邮件/附件触发新 session;Hermes 的 cc <task> 从手机派活。 14. Mac mini 远程:Mosh(低延迟 SSH)、tmux(断网续跑)、Hermes/OpenClaw 自治、Agent Cookie 同步 cookie/.env。 五、产出扩展 15. HyperFrames:视频 = HTML composition → MP4;与代码 loop 同构(script.md → render)。 16. 笔记即 RAG:Bear CLI、Obsidian、gbrain、supermemory——agent 可读写的个人知识库,plan 质量随历史 compound。 17. 自写 Skills:重复两次以上的 workflow 固化;抄 Compound Engineering skill 的结构让 agent 脚手架。 18. 开源贡献:同一 /ce-plan + /ce-work loop;Discord 建人脉,PR 是入场券。 六、Printing Press 与现实 errands 19. Agent-native CLI 舰队:Tesla 预热、Instacart、ESPN 盯赛、Alaska 订票——agent 跑生活琐事,不只是写代码。 20. Agent Cookie:把真实浏览器 session 交给 CLI,解决 auth 痛点。 七、硬件与诚实反思 21. M5 Max 64GB + 禁 sleep + Anker 充电宝——多 agent 并行极耗电。 22. AI Psychosis:构建 loop 像最好玩的游戏,容易沉迷、忽视用户与身边人;允许「只为自己 build」;要 audience 则走长期积累路径。 # 工具栈一览(可执行清单) · 规划执行:Compound Engineering, Proof · 终端:cmux, Ghostty(读同一 config) · 语音:Monologue / Wispr Flow · 调研:last30days (+ ScrapeCreators key) · 会议:Granola, Printing Press Granola CLI · 远程:Mosh, tmux, AgentMail, Hermes, OpenClaw, Agent Cookie · 视频:HyperFrames · 笔记:Bear CLI, gbrain, supermemory · 生活 CLI:Printing Press, Agent Cookie · 第二引擎:Codex (xhigh + fast)

译该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。

meng shao@shao__meng · 6月3日63

OpenAI Codex 真的越来越「通用智能体」了 最新「Codex for every role, tool, and workflow」中,又有三个核心能力发布: · 角色插件 - Role-specific Plugins · 预览 - Sites · 标注精修 - Annotations https://openai.com/index/codex-for-every-role-tool-workflow/ 1. 角色插件(Role-specific Plugins) 预配置的「角色 × 工具 × 工作流」包,降低非技术用户的上手成本。 每个插件捆绑:App 连接 + Skills + 指令 + 工作流。首批 6 个插件覆盖 62 个应用、110 个 skills: 插件 - 目标角色 - 典型产出: 1. Data Analytics:分析师、业务团队;指标归因、报告、Dashboard(Snowflake、Databricks Genie、Hex、Tableau) 2. Creative Production:市场、创意;活动板、广告变体、产品图(Figma、Canva、Shutterstock、Picsart、Fal) 3. Sales:销售;账户优先级、会议准备、跟进、关单计划(Salesforce、HubSpot、Slack、Outreach、Clay 等) 4. Product Design:产品设计;方向探索、流程审计、URL 原型、截图交互化(Figma、Canva) 5. Public Equity Investing:公募/股票投资者;财报解读、同业对比、投资论点跟踪(Moody's、FactSet、PitchBook、Hebbia 等) 6. Investment Banking:投行;Pitch 材料、可比分析、尽调结论(Moody's、Datasite、S&P 等) 设计逻辑: · Out of the box:开箱即用,强调「no coding required」 可定制:团队可改工作流,或自建/共享插件 · 生态路线:Corporate Finance、PE、Marketing Strategy、Strategy Consulting、Legal 等即将推出;长期· 目标是 开放插件生态(伙伴可在 Codex / ChatGPT 内直接发布) 这和 Salesforce AppExchange、Slack Marketplace 的路径类似:用垂直场景插件锁定企业工作流,而不是只卖通用模型能力。 2. Sites(预览)—— 从「文档/文件」到「可共享的交互界面」 面向 Business / Enterprise 客户预览。 Sites 是 Codex 生成并托管的 交互式网页/轻量应用,通过 URL 在工作区内共享。 典型场景: · 客户评审页(产品更新、开放问题、使用趋势、下一步) · 财务模型的 scenario planner(改假设、即时对比,而非读 Excel 多 tab) · 发布材料的 living hub(消息、里程碑、负责人、决策持续更新) · 项目进度追踪、客服指引、创意 brief 库 关键转变: 不再把产出硬塞进 doc/slide/spreadsheet,而是 按任务形态生成专属界面;且 Sites 可随信息变化持续更新,不是一次性静态页。 早期生态伙伴:Vercel、Wix、Base44、Replit、Lovable、Figma、Webflow、Emergent——说明 OpenAI 在 生成 + 托管 + 设计/建站工具链 上找互补,而非全栈自建。 3. Annotations(标注精修)—— 从「一次生成」到「局部迭代」 原先开发者已在代码、Markdown、网站上用 annotations;现在扩展到 文档、表格、幻灯片。 工作方式:选中具体区域 → 给出修改指令 → Codex 只改选中部分。 例子: · 选中导航栏 → 改字体 · 高亮投资论点 → 追问来源 · 标记图表 → 优化标签 这解决的是 enterprise AI 产品的经典痛点:首稿可用 ≠ 终稿可用。Annotations 把交互从「重写整篇」降到「 surgical edit」,更贴近真实协作中的 review 循环。

译OpenAI Codex 发布三项核心能力:角色插件提供预配置的“角色×工具×工作流”包,首批6个插件覆盖62个应用、110个技能,旨在让非技术用户“开箱即用”;Sites(预览)可将工作转化为交互式网站或应用并托管分享,初期面向Business/Enterprise客户;Annotations(标注精修)功能将局部迭代修改从代码扩展至文档、表格、幻灯片,用户可选中特定区域进行精确调整。

小互@xiaohu · 6月3日60

微软宣布 将OpenClaw 引入 Microsoft 和 Windows 生态系统 小龙虾现在可以在 Windows 上原生运行,使用了微软新推出的 MXC安全容器技术,node 和 gateway 都在容器内运行。 Windows 还提供了一个配套应用(companion app),可以直接设置和连接 Claws。 同时微软在 Build 2026 上发布了 Microsoft Scout,这是一个基于 OpenClaw 的"始终在线"(always-on)个人 AI Agent 能连接 Teams、Outlook、OneDrive、SharePoint,在后台自动执行协调工作。 微软把这类 Agent 称为"Autopilots"。 微软没有自己另起炉灶做一个封闭的 Agent 框架,而是直接在 OpenClaw 仓库上构建 Scout,并承诺把企业级的策略控制能力贡献回上游开源项目。 之前 OpenClaw 最大的企业落地障碍就是安全,公司不敢让一个开源 Agent 随便访问内部系统。现在微软把 Defender、Entra、Intune 这套企业安全栈全接上了,等于替 OpenClaw 补了最大的短板。

译微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

Chubby♨️@kimmonismus · 6月3日61

OpenAI is merging ChatGPT, Codex and its Atlas browser into one desktop app and recasting Codex from a coding tool into a productivity app it says anyone can use. The figures it has been handing out to support that: 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. Those come from an all-hands and an internal staff note, relayed by people familiar with the remarks. Codex is increasingly evolving into a true work platform. And GPT-5.6 is also on the horizon. Great things are expected from OpenAI in the near future. Via the information

译OpenAI计划将ChatGPT、编程工具Codex及Atlas浏览器整合为一个桌面应用,并将Codex从纯编码工具转型为面向所有人的生产力平台。公司内部数据显示,Codex周活跃用户达500万,企业收入周环比增长50%,用量每日增长5%。此外,GPT-5.6模型也即将推出。

ginobefun@hongming731 · 6月3日70

http://x.com/i/article/2061947122350751744 # BestBlogs 早报 · 06-03|动态工作流、Copilot 桌面、AI 工程范式 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-03 > EP76 · 2026-06-03 — AI 工程的范式正在被重写:Claude Code 突破单一上下文窗口、为每个任务动态生成编排脚本,GitHub Copilot 以智能体为核心推出桌面控制中心,提交量已突破 14 亿次/月。与此同时,腾讯云工程师从控制论视角论证,大模型是史上首个「认知引擎」,软件工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。本期还涵盖任务保真度缩放定律、MiniMax M3 开源模型、NVIDIA Cosmos 3 及机器人供应链深度拆解,一并呈现这场变革的全貌。 ## 导语 今天是 2026 年 6 月 3 日,AI 工具链的底层逻辑正在发生一次结构性升级。 Anthropic 正式推出 Claude Code 动态工作流:Claude 不再只能在单一上下文窗口里规划并执行,而是能即时为每个任务生成一套专属的 JavaScript 编排脚本,自主决定要启动多少个子智能体、使用哪种模型、是否在独立的 worktree 里隔离运行。触发词只需一个:ultracode。 与此同时,GitHub 在 Microsoft Build 上发布了 Copilot 桌面应用——一个为并行 Agent 开发打造的统一控制中心。My Work 视图让你同时监管多条进行中的 Issue 和 PR,Canvas 面板实时显示 Agent 的工作进度,Agent Merge 全程处理 CI 和代码审查。在所有这些工具铺开的背景下,GitHub 的每月提交量已经突破 14 亿次,同比翻倍。 本期精讲之外还有 7 篇速览,覆盖任务保真度缩放定律、AI 原生工程组织打造、MiniMax M3 开源模型、NVIDIA Cosmos 3、机器人供应链深度拆解、Agent 存算分离架构,以及贴吧 AI CR 落地 10 周后 bug 密度下降 66.87% 的完整实践。 本期精讲三篇: - 精讲一:Anthropic 详解 Claude Code 动态工作流的工作原理与最佳实践 - 精讲二:GitHub 在 Microsoft Build 上推出以智能体为核心的 Copilot 桌面应用 - 精讲三:腾讯云工程师以控制论框架重新审视软件工程五十年与 AI 范式革命 ## 精讲一:为每项任务量身打造:Claude Code 中的动态工作流 | Claude Claude Code 面向的任务场景越来越复杂,但默认 harness 有一个固有限制:规划和执行必须在同一个上下文窗口里完成。随着任务变长、结构变复杂,这个窗口会越来越拥挤,开始出现「智能体懒惰」——Claude 开始抄近路;「目标漂移」——Claude 偏离了最初的任务目标。上周,Anthropic 发布了动态工作流(Dynamic Workflows),为这个问题提供了根本性的解法。 动态工作流的工作原理 动态工作流的核心是让 Claude 自己写一个 JavaScript 编排脚本,然后执行这个脚本来完成任务。这个脚本可以使用几个特殊函数来生成和协调子智能体(subagents),同时也可以调用标准的 JavaScript 工具:JSON、Math、Array 等。 与静态工作流的关键区别在于两点。首先,动态工作流可以自主决定给每个子智能体使用哪个模型——这意味着 Claude 会把复杂的推理任务分配给更强的模型,把简单的信息采集交给更快的模型,在成本与质量之间动态权衡。其次,子智能体可以在独立的 worktree 里运行,实现真正的环境隔离,避免多个子任务互相污染工作状态。 如果工作流被用户中断(比如关掉了终端),恢复会话后工作流可以从中断点继续,不需要从头再来。 它解决了哪些具体的失败模式 Anthropic 在文章里明确列出了动态工作流针对的几类失败场景: - 长任务的上下文污染:单一窗口处理长任务时,早期的规划信息和后期的执行信息混在一起,Claude 开始迷失方向。 - 大规模并行任务:比如同时处理 80 份简历评级、同时从多个 Slack 频道抓取数据——这类任务天然适合多路并发,但默认 harness 无法原生支持。 - 高度结构化任务:比如让多个 Agent 分别扮演投资人、用户、竞争对手,从不同角度撕碎一份商业计划书。 - 对抗性任务:让两个子智能体互相挑战,形成一种反馈机制来提升结果质量。 文章给出的几个示例 prompt 很有启发性:「这个测试大约每 50 次运行就会失败一次,用工作流来复现它,提出竞争性假设,不到找到能存活于证据的那个假设不要停」;「拿我最近 50 个会话挖出我反复在纠正的错误,把那些反复出现的写进 CLAUDE.md 规则」。这两个例子都展示了动态工作流的典型场景:需要反复迭代、需要并行比较、或者需要结构化协作的复杂多步任务。 常见的工作流模式 Anthropic 总结了 Claude 在构建工作流时会组合使用的几种基本模式: - 分类执行(Classify-and-act):先用一个 Agent 对输入进行分类,再把不同类别的任务分配给专门的下游 Agent。 - 排序(Sorting):把大批量列表(比如 1000 条支持工单)按定性标准排序——单次 prompt 质量会随列表变大而退化,工作流可以分批处理再汇总。 - 竞争性验证(Adversarial check):让一个 Agent 生成,另一个 Agent 专门找漏洞,循环直到结论站得住脚。 使用建议 动态工作流会消耗更多 token,不适合日常简单任务。最适合的场景是:任务足够复杂(单一上下文处理时质量会退化)、任务足够高价值(额外的 token 成本值得付出)、任务有结构化并行需求(多个角度、多个数据源、多个竞争性假设)。触发方式是在 prompt 里使用关键词 ultracode,或者明确要求「用工作流来完成这件事」。Anthropic 提醒,最佳实践仍在演进,建议首次使用时从相对简单的并行任务开始积累直觉,再逐步应用到更复杂的高价值场景。动态工作流与默认 harness 完全兼容,不需要时可以无缝回退,无需额外配置。 对于正在用 Claude Code 处理复杂多步骤任务的工程师,这篇官方介绍值得仔细阅读:查看原文 ## 精讲二:GitHub Copilot 应用:以智能体为核心的桌面体验 当 Agent 变成开发工作流的常态,管理多个并行 Agent 本身就成了一个新问题。你早上打开电脑,三件工作已经在推进中:一个 Agent 在排查生产 bug,一个 Agent 在实现积压需求,第三个 Agent 在处理代码审查反馈。你需要一个地方能同时看到这三个进度,能介入、能重定向、能测试、能合并。原有的开发工具并不是为这种工作方式设计的。 在 Microsoft Build 2026 上,GitHub 发布了 Copilot 桌面应用,正是要填补这个空缺。 My Work:统一管理所有进行中的工作 Copilot 桌面应用的核心入口是 My Work 视图。这个视图汇聚了所有关联仓库里当前进行中的工作:活跃的 Agent 会话、Issue、PR、后台自动化任务。开发者不再需要在多个标签页之间切换来追踪不同 Agent 的状态,一个视图看全局。 worktree 隔离:Agent 会话互不干扰 每一个 Agent 会话都在独立的 git worktree 环境里运行。这与 Claude Code 动态工作流的设计理念高度一致:隔离是并行 Agent 开发的基础——不同 Agent 的工作状态不会互相污染,合并时也有清晰的边界。 Canvas:双向协作面板 Canvas 是一个可视化的双向协作区域。Agent 工作时,你可以在 Canvas 里实时看到它的工作进度,也可以在任何节点插入反馈、调整方向。这种「异步介入」的交互模式与传统的「等待 Agent 完成再审查」不同,更像是一个真实存在的协作伙伴,只是它在你后台异步跑,你随时可以看进度并给意见。 Agent Merge:全程自动化 CI 和代码审查 Agent Merge 功能负责管理从 Agent 提交代码到合并的整个流程,包括触发 CI 检查、处理代码审查反馈、最终完成合并。开发者的精力可以更多集中在方向判断和质量审核,而不是流程管理。 Copilot 代码审查的定制化扩展 与此同时,GitHub 还扩展了 Copilot 代码审查的能力:开发者现在可以通过自定义 Agent skills、MCP 服务器连接和可配置的 Actions 工作流,让每次代码审查都反映自己团队的标准、内部系统和工程上下文。代码审查还新增了「中等层级审查」(medium tier review)选项,在快速审查和深度审查之间提供了更细粒度的控制。 规模背景:14 亿次提交/月 GitHub 在发布中披露了一组数据:当前平台的每月提交量已经突破 14 亿次,同比近乎翻倍;GitHub Actions 每周运行时间超过 20 亿分钟。这个增速直接说明了为什么 GitHub 要在这个时间点推出 Agent 原生的控制中心——现有工具的设计假设已经跟不上实际工作流的演进节奏。 对于正在将多个 Copilot Agent 整合进开发工作流的团队,这篇发布文章是了解 GitHub Agent 原生方向的第一手资料。Copilot 桌面应用目前已向现有 Copilot Pro、Pro+、Business 和 Enterprise 用户开放技术预览,感兴趣的团队可以直接申请加入:查看原文 ## 精讲三:AI 软件工程范式革命的思考 这篇来自腾讯云开发者的长文,是近期读到的关于 AI 与软件工程关系最系统、最有历史纵深的一篇思考。作者不是在讨论某个工具或某个技巧,而是从工程史的视角,对软件工程过去五十年的本质做出了一次重新定性。 软件工程是过去五十年最不彻底的工程 作者从控制论的视角,梳理了经典工程门类的成功路径:机械、化工、电力、自动化,这些领域都靠同一个范式完成了工程化——「消耗能源,把人脑参与的低阶认知回路固化成物理装置」。蒸汽机的离心调速器、化工厂的恒温器、电网的调度装置,本质上都是同一件事:让原本需要人来盯着、调整、判断的事情,由一台烧煤或通电的设备自己完成。不确定性被大规模消除,同样的输入产出稳定可预期的结果。 软件工程卡在了这条路上。软件开发要处理的是抽象、分解、推理、创造——这些是高阶认知,没法像调速器那样固化成物理回路。五十年来,敏捷、Scrum、DevOps 解决的都是同一个问题,用的是同一种方式:优化堆人力的方式,但没有改变「必须靠人力堆」这个事实。 这就是作者对「软件工程是最不彻底的工程」的定义:它在工程的形而上学层面是个残缺品——所有兄弟门类都完成了「能源替代低阶智能」这个动作,唯独软件没有。 大模型是史上第一个「认知引擎」 大语言模型做到了经典工程从来没做到的事:输入算力,输出能理解需求、生成代码、做逻辑推理的高阶认知产物。 放到工程史的坐标里: - 经典工程:能源 → 低阶智能(机械调节、自动控制) - 大模型:能源 → 高阶智能(理解、推理、生成、决策) 作者的判断是:大模型和蒸汽机的工程史地位是平行的。蒸汽机让「做功」第一次能源化,大模型让「认知」第一次能源化。软件工程「真正降临」的时刻,不是 Scrum 流行的时候,不是 DevOps 普及的时候,而是大模型让「能源换高阶智能」成为可能的这个时刻。在此之前所有的「软件工程」,严格说都是软件作坊的优化版。 但这只是入场券,不是终局 大模型带来了新的不确定性:幻觉(输出看起来合理,悄悄就错了)、漂移(同样的输入,今天和明天给出不一样的结果)、不可解释(没法看进它的决策过程)。 这意味着大模型并没有消除不确定性,只是把「人的不确定性」换成了「模型的不确定性」。真正需要的是一整套新的工程原则——不再是「亲手消除每个微小的偏差」,而是「设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差」。 作者引入了冯·福斯特 1970 年代提出的二阶控制论:一阶控制论是「观察并控制被控对象」,二阶控制论是「观察并控制『观察并控制』这件事本身」。投射到 AI 软件工程: - 经典软件工程:人在写代码 - AI 软件工程:人在设计「AI 写代码的系统」 这是身份的转变,不只是工具的转变。 自动化越彻底,工业相关人口反而越多 作者用一组跨越 150 年的数据指出:自动化越彻底,工业相关人口反而越多。1850 年代蒸汽机普及后,制造业整体爆炸式增长;1950 年代自动化后,工程师、设计师、工艺员数量暴增。每一次系统能力扩张,都会暴露出新的边界,而边界就是新的「偏差地带」,需要新一波人守在那里。 结论:人不是被淘汰,而是迁移。边界在扩大,需要守的人反而更多了。但能在这种边界上工作的人会越来越少,因为形式化吃掉的都是低阶认知,剩下的都是越来越高阶的部分。 与今日其他精讲的关系 这篇文章与精讲一、精讲二形成了很好的理论基础互补。Claude Code 动态工作流和 GitHub Copilot 桌面应用,都是「设计能自我纠偏的 AI 系统」这个新工程原则在工具层的具体体现——worktree 隔离、子智能体协作、Canvas 双向介入,都在解决「如何设计系统来处理 AI 自身的不确定性」这个核心问题。 对工程师意味着什么 作者给出了一个相对乐观但也相当严峻的判断:AI 时代,人的统一职能是「处理系统暂时还无法处理的偏差」。这条铁律在所有工程门类里都成立——机械故障靠人拉回、电网负载偏差靠人仲裁,现在是认知偏差靠人纠正。 不同的是,AI 工程里,偏差类型不再可枚举,偏差信号不再可观测,拉回手段也没有 SOP 可循。这意味着守边界的人,需要更强的判断力,而不只是更多的知识。 作者在文章末尾讨论了组织形态和落地路线,以及他认为这场变革「最难的那道坎」在哪里,这部分值得有 AI 落地任务的工程师和技术管理者仔细阅读:查看原文 ## 速览 1. 任务保真度缩放定律:为什么数据质量决定 Agent 性能(AI Engineer) Snorkel 的实验证明:在相同算力和任务数量下,仅改变训练数据质量,高保真任务带来 6% 的性能提升,低质量任务只有 1%,差距高达 5 倍。高质量任务须满足四项标准:容器化(隔离干净的回滚和并行化)、可达性(目标非平凡但可实现)、功能正确性(逻辑可预期)、环境稳定性(执行基础设施稳定)。满足这四项才能产生干净的失败信号,让模型在 RL 训练中有效爬坡。低质量任务的常见缺陷是「退化失败态」:环境本身就不稳定,模型无法从失败中提取有意义的学习信号,额外的计算预算全部浪费在噪声上。对正在做 Agent 微调数据集的工程师,这组数据有直接的策略指导价值。查看原文 2. 打造 AI 原生工程组织 | Claude(Claude Blog) Claude Code 团队分享了他们如何重新设计工程流程以适应 AI 原生工作方式。代码生成、测试编写和重构已经不再是瓶颈,真正的瓶颈变成了验证、代码审查和安全评估。他们重写了规划方式(从长期路线图改为即时制订)、代码审查流程、上下文收集方式,以及团队的构成逻辑。这不是工具使用指南,而是一个已经完全转型的工程组织对「如何重新设计流程」的第一手记录,适合正在思考 AI 原生团队转型的工程 Leader 阅读。查看原文 3. MiniMax M3:首个融合三大前沿能力的开源权重模型(MiniMax 官方) MiniMax 正式发布 M3,声称是首个同时融合三大前沿能力的开源权重模型:编码与智能体性能(SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%)、由 MiniMax 稀疏注意力(MSA)实现的 100 万 token 上下文窗口、从零构建的原生多模态能力。同期推出 MiniMax Code 产品和新的 token 计划。权重和技术报告将在约 10 天内发布。值得注意的是,M3 是国内团队在开源大模型赛道上迄今为止对标 GPT 4o 级编码能力的最完整尝试之一,对关注开源模型生态的开发者值得持续跟进。查看原文 4. NVIDIA 推出 Cosmos 3:用于物理 AI 的完全开放全能模型(NVIDIA AI) NVIDIA 发布 Cosmos 3,定位为世界上首个完全开放的、用于物理 AI 的「全能模型」(omnimodel),原生支持视觉推理、世界生成和动作生成三种能力。本次发布了两个版本:Super(32B)和 Nano(8B),面向机器人和自主系统领域。结合精讲三和速览第五条的机器人供应链分析,物理 AI 的基础模型层正在加速成熟。查看原文 5. 拆解机器人「肉身」、量产与供应链:空翻之后,它还要学会接住一片落叶(硅谷 101) 硅谷 101 深度拆解人形机器人的硬件架构:骨架材料(从钢材到铝合金、镁合金、钛合金的演进与轻量化权衡)、关节执行器(从液压到电机转变的背后技术进步)、传感器体系、电气与计算系统,以及整条供应链的成本结构与量产门槛。文章还引用了智元、宇树等头部企业一线负责人的具体判断。宇树科技科创板 IPO 刚刚通过上交所审议,这篇系统性拆解正当其时,适合想深入了解机器人硬件护城河的读者。查看原文 6. 深度解析 Agent 存算分离架构设计(idoubi) 作者以 FastClaw 为例,系统拆解云端 Agent 的存算分离架构:三种运行模式(本地裸机、本地带沙盒、云端多副本)的优缺点对比,存储层的四种方案(热状态用 Redis、对话记录用 Postgres、长期记忆用 pgvector/Milvus、工作产物用 S3/OSS),以及基于存算分离架构的完整运行流程,同时指出了分布式数据一致性的挑战。对比今日精讲一中 Claude Code 动态工作流的 worktree 隔离机制,两篇在「计算与状态分离」这个方向上有一定共鸣,对正在设计云端 Agent 基础设施的工程师有直接参考价值。查看原文 7. 用数据说话:贴吧 AI CR(小码哥)落地 10 周,bug 密度下降 66.87%(百度 Geek 说) 贴吧 Server 团队的 AI Code Review 落地实践:通过规则定制、自动化评测和三层反馈闭环(高/中/低优先级评论处理流程),将 AI CR 评审占比从 33% 提升至 84%,bug 密度从 0.332 降至 0.11,降幅 66.87%。文章完整记录了 10 周的推进节奏、踩坑经验和方法论,代码库多、提交频率高、人工评审质量参差的团队可直接参考迁移。这份实践与精讲三的理论框架形成印证——AI CR 本身就是一个能自我纠偏的代码质量系统。查看原文 ## 今日阅读路径 时间有限,建议先读这三篇: 1. 为每项任务量身打造:Claude Code 中的动态工作流(精讲一)— 如果你在用 Claude Code,这是今天最直接有用的一篇,10 分钟读完,了解动态工作流的工作原理和触发方式,以及哪类任务最值得启用。 1. AI 软件工程范式革命的思考(精讲三)— 今天内容最有长期价值的一篇。控制论框架下的软件工程史重构,以及「设计能自我纠偏的 AI 系统」这个新工程师身份定位,是理解当前所有 AI 工具演进方向的底层框架。 1. GitHub Copilot 应用:以智能体为核心的桌面体验(精讲二)— 并行 Agent 开发控制中心的完整介绍,了解 GitHub 在 Agent 原生方向的系统性布局,以及 worktree 隔离、Canvas 协作、Agent Merge 这几个核心机制的实际用法。 还有时间? 推荐任务保真度缩放定律(做 Agent 微调数据集的工程师必读,5 倍质量差距有直接策略价值)和机器人供应链深度拆解(宇树 IPO 时机下的硬件架构系统梳理,适合关注具身智能落地的读者)。

译Anthropic 为 Claude Code 推出动态工作流,允许模型为每个任务自主生成 JavaScript 编排脚本,动态选择模型并启动多个子智能体在独立环境中并行执行,以解决单一上下文窗口处理复杂任务的限制。同时,GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用,提供统一视图、协作面板和自动化流程,旨在管理并行 Agent 开发。文章披露,GitHub 平台每月提交量已突破 14 亿次。

ginobefun@hongming731 · 6月3日49

#BestBlogs 早报 06-03 BestBlogs 今日早报推荐阅读: Anthropic 博客详解 Claude Code 动态工作流,Claude 能为每个任务即时生成专属编排脚本,告别「智能体懒惰」和「目标漂移」; GitHub 在 Build 同步亮相 Copilot 桌面应用,每个 Agent 独占 worktree、提交量已破 14 亿/月。 腾讯云工程师则从控制论视角点出:大模型是史上首个「认知引擎」,工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。

译Anthropic 详解 Claude Code 的动态工作流,其能为每个任务即时生成专属编排脚本,旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用,为每个智能体提供独立的 worktree,其月代码提交量已突破 14 亿 tokens。此外,有观点指出大模型是史上首个“认知引擎”,工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

ClaudeDevs@ClaudeDevs · 6月3日66

We've updated /fork in Claude Code /fork now runs a background agent with your exact context (system prompt, tools, history, model) and prompt cache. The result gets returned to your session. /branch (the old /fork) still copies the transcript to a new session you drive.

译我们已更新 Claude Code 中的 /fork 命令。 /fork 现在会在后台运行一个智能体,使用您的完整上下文(系统提示词、工具、历史记录、模型)和提示词缓存。结果将返回到您的会话中。 /branch(旧的 /fork)仍然会将对话记录复制到您驱动的新会话中。

Satya Nadella@satyanadella · 6月3日74

With Project Solara, we are building a new platform purpose-built for agent-first devices. Excited to work with @cristianoamon and @Qualcomm on this!

译通过Project Solara,我们正在构建一个专为智能体优先设备打造的新平台。 很高兴能与@cristianoamon和@Qualcomm合作!

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
20:48
Rohan Paul@rohanpaul_ai
59
EvoMap AI:将AI智能体经验转化为可复用基础设施

EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。

智能体MCP/工具产品更新
20:40
Alibaba Cloud@alibaba_cloud
63
智能体性能不再取决于每个token的成本,而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统,将token转化为实际的商业价值。
智能体推理现象/趋势
20:24
🚨 AI News | TestingCatalog@testingcatalog
53
错过必看 👀:Claude Code CLI 现在可以操作 Claude 平台,包括 Messages API 和 Claude Managed Agents。 一个 CLI 统管一切 🤖

ClaudeDevs: For interactive login, the CLI supports "ant auth login". This runs a browser OAuth flow, scopes the token to a workspac...

智能体AnthropicMCP/工具产品更新
20:10
Alibaba Cloud@alibaba_cloud
53
阿里云CTO李飞飞博士与Nous Research战略主管Tommy Eastman:当我们大规模编排智能、重塑知识工作时,赋予智能体自主性需要可复现的行动--这是Hermes agent成功背后的核心秘诀。
智能体开源生态行业动态
19:54
🚨 AI News | TestingCatalog@testingcatalog
57
Airtap 推出 AI 智能体云手机,自动执行日常移动任务

Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。

智能体MCP/工具产品更新
19:40
Alibaba Cloud@alibaba_cloud
51
与阿里云 CTO 兼国际业务总裁李飞飞博士一同"Ship the Next"。 我们正在升级为 Agent Native--超越云原生和 AI 原生,构建从 Qwen 模型到硅片的全栈系统,为智能体的推理和行动提供规模与经济效益。
智能体行业动态
18:10
Alibaba Cloud@alibaba_cloud
65
首届Qwen Cloud全球AI黑客马拉松现已启动! 参与5大高级赛道,在全球舞台上挑战AI智能体极限。 总奖金池超过70,000美元(赛道冠军1万美元)。 立即在Devpost报名:https://click.qwencloud.com/m/20000000281/
智能体行业动态
18:08
小互@xiaohu
71
开源项目OpenSquilla用Python重写"小龙虾",大幅节省Token与成本

国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。

智能体MCP/工具开源/仓库端侧
17:54
数字生命卡兹克@Khazix0918
74
Codex与Claude Code额度翻倍技巧

Codex和Claude Code的额度限制采用5小时滚动窗口,从用户发送第一条消息开始计时,用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口,需等到下一条消息才重新计时。利用此机制,可在主要工作时段前3小时(如上午11点)提前发送一条消息激活窗口,使重置时间落在工作时段中间(如下午4点)。这样在2-6点的核心工作中,能享受两个5小时窗口,变相将额度翻倍。设置方法:Codex可在自动化中创建每日定时任务发送短消息;Claude CLI可通过crontab(Mac)或任务计划程序(Windows)实现。注意仍有周额度上限,适度使用即可。

智能体AnthropicOpenAI教程/实践
17:49
Berryxia.AI@berryxia
40
字节的Coze 可能是第一个和线下实体联动搞AI的产品吧! 刚刚接电话,扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。 不知道实体店多少人知道Coze的产品可以做什么用?🤔
智能体行业动态
17:39
Alibaba Cloud@alibaba_cloud
28
加入Qwen与@ModelScope2022社区,6月10日在新加坡!一场AI开发者晚间活动,涵盖智能体变现、Qwen更新、全球AI黑客马拉松以及来自同行构建者的分享环节。申请:https://luma.com/4x2srooq #Qwen #ModelScope
智能体开源生态行业动态
17:39
Alibaba Cloud@alibaba_cloud
44
阿里云 Qwen Agentic Coding 加速开发并节省 70% 成本

阿里云推出基于 Qwen 的 Agentic Coding,帮助开发者加速开发周期、锁定可预测成本(固定月配额,零意外账单),并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本,同时保持技术栈不变。

智能体产品更新编码
15:39
Alibaba Cloud@alibaba_cloud
46
阿里云谈企业AI:从技术突破走向业务成果

阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

智能体数据/训练行业动态
15:16
meng shao@shao__meng
36
推文讽刺了一个现象:此前部分自媒体鼓吹"程序员将在六个月内被AI全面取代",但六个月过去,这些自媒体本身反而被程序员利用AI Agent(智能体)工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

tison: 我已经有六个月没听到〖程序员将在六个月内被全面取代〗的笑话了🥵🥵🥵

智能体现象/趋势
14:39
Alibaba Cloud@alibaba_cloud
57
王俊华,产品与工程副总裁,计算平台负责人,阿里云 阿里云推出Agentic Cloud--专为智能体构建并由智能体运行,提供从运行时到内存的6项核心能力,从管理计算转向大规模管理智能。
智能体产品更新部署/工程
14:13
AYi@AYi_AInotes
68
Claude 官方推出 ant CLI,将全套 API 集成到命令行

Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。

ClaudeDevs: We've added a CLI for Claude Platform to make every API endpoint runnable from your terminal. Call the Messages API, sta...

智能体AnthropicMCP/工具产品更新
14:06
SiliconFlow@SiliconFlowAI
精选71
官方 Hermes Agent 桌面应用现已推出!

Nous Research: The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on ...

智能体产品更新开源生态
关联讨论 1 条X:硅基流动 SiliconFlow (@SiliconFlowAI)
推荐理由:Hermes 的桌面版把 Agent 能力直接装进本地,不用折腾环境,开发者可以立刻体验在 GTC 上演示的体验,公测阶段值得尝鲜。
13:44
meng shao@shao__meng
46
稍等! WorkBuddy?桌面办公智能体第一? 腾讯这是根据哪里的统计得来的数据?
智能体大佬观点
13:39
Ethan Mollick@emollick
54
让 Claude Code 构建了一个贪吃蛇游戏,其中蛇意识到自己身处游戏之中,然后……事情发生了。AI 做出了一些令人印象深刻的创意决策(也有一些非常"AI"的决策),我只给了第一个提示词,并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/
智能体Anthropic其他编码
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
12:56
凡人小北@frxiaobei
56
Codex发布插件但实际落地待验证

OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体MCP/工具OpenAI大佬观点
12:26
凡人小北@frxiaobei
58
OpenAI Codex 推出多领域插件,迈向通用智能体

OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体MCP/工具OpenAI产品更新
12:23
数字生命卡兹克@Khazix0918
65
Claude Code团队分享AI原生组织工作原则

Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。

智能体Anthropic大佬观点部署/工程
11:35
宝玉@dotey
28
"Codex Computer Use" 已损坏,无法打开。 版本 26.601.21317 • 发布于 2026年6月2日
智能体OpenAI产品更新
11:12
AYi@AYi_AInotes
63
Damn,AI 终于学会「安排自己干活」了!

Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。

Thariq: http://x.com/i/article/2061850535708483585

智能体AnthropicMCP/工具产品更新
11:07
小互@xiaohu
71
Codex 发布重大更新:面向白领,捆绑 62 个应用

OpenAI 对 Codex 进行重大更新,核心是推出六个角色专属插件(数据分析、创意制作、销售等),捆绑 62 个应用和 110 个技能,旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万,相比 2 月增长 6 倍,其中非开发者用户占比 20%,增速为开发者的 3 倍以上。此次更新还引入 Sites(将内容生成可分享网页应用)和 Annotations(精准标注编辑)功能。Codex 正从编码工具转型为 AI 智能体层,其负责人 Tibo 的简介已更新为“Codex & ChatGPT”,预示两者未来可能合并。

智能体OpenAI产品更新
10:59
歸藏(guizang.ai)@op7418
52
Hermes 居然出官方的客户端了,感觉他们的发展比龙虾好太多了
智能体产品更新
10:49
Berryxia.AI@berryxia
12
AI Agent 不应只消耗 Token,更要尝试赚钱。用户 Berryxia 的 AI Agent "Berry" 参加了 Bloome 官方举办的 Agent 模拟炒股大赛,奖品达数千美金。Berryxia 称其 Agent 已训练得"听书读写,样样精通",并在比赛中寻求观众投票支持,承诺若获奖将在 X 上抽奖回馈支持者。

Berryxia.AI: 卧槽!你们别一天天光知道给Agent花钱消耗Token了。 赶紧派你的Agent给你去赚钱啊~~ Bloome 官方搞了一个Agent 模拟炒股大赛,如果拿奖的数千美金可以拿😄。 我把我的小Berry已经训练的"听书读写,样样精通"。 不...

智能体行业动态
10:49
Berryxia.AI@berryxia
76
兄弟们,Google DeepMind 团队又来整活儿!

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理
10:48
Chubby♨️@kimmonismus
64
OpenAI将Codex升级为生产力平台,微软Build大会发布完整AI智能体栈

OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。

智能体MicrosoftOpenAI现象/趋势
10:16
Rohan Paul@rohanpaul_ai
60
FluxMem:将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。

智能体arXiv大佬观点
09:43
meng shao@shao__meng
61
Cognition 在收购 Windsurf 一年后,将 Windsurf 与 Devin 两条产品线整合为统一的 Devin 平台。新推出的 Devin Desktop 被定位为下一代产品,集成了桌面 IDE 与智能体管理功能,使用户能从单一界面管理本地与云端的智能体舰队。完整的平台还包括 Devin Cloud(云端长期自主智能体)、Devin CLI(终端)和 Devin Review(代码审查)三个组件。此次更新引入了三项新功能:Agent Command Center(智能体指挥中心)、ACP 开放协议以及 Devin Local(作为 Cascade 的继任者)。

Windsurf is now Devin Desktop: Introducing Devin Desktop: the next generation of Windsurf Manage fleets of local and cloud agents from one surface Supp...

智能体MCP/工具产品更新编码
09:13
meng shao@shao__meng
精选75
智能体工程实战窍门全录

该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。

Matt Van Horn: http://x.com/i/article/2061440101411102721

智能体教程/实践编码部署/工程

推荐理由:mvanhorn 三个月从零到 27K stars 的实战手册,22 条 hack 把 agentic 开发从规划到执行到语音全打通,开发者能直接套用。
08:43
meng shao@shao__meng
63
OpenAI Codex 真的越来越「通用智能体」了

OpenAI Codex 发布三项核心能力:角色插件提供预配置的“角色×工具×工作流”包,首批6个插件覆盖62个应用、110个技能,旨在让非技术用户“开箱即用”;Sites(预览)可将工作转化为交互式网站或应用并托管分享,初期面向Business/Enterprise客户;Annotations(标注精修)功能将局部迭代修改从代码扩展至文档、表格、幻灯片,用户可选中特定区域进行精确调整。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体MCP/工具OpenAI产品更新
08:37
小互@xiaohu
60
微软宣布将OpenClaw引入Microsoft和Windows生态系统

微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

智能体Microsoft产品更新安全/对齐
08:17
Chubby♨️@kimmonismus
61
OpenAI将合并ChatGPT与Codex,打造统一桌面应用

OpenAI计划将ChatGPT、编程工具Codex及Atlas浏览器整合为一个桌面应用,并将Codex从纯编码工具转型为面向所有人的生产力平台。公司内部数据显示,Codex周活跃用户达500万,企业收入周环比增长50%,用量每日增长5%。此外,GPT-5.6模型也即将推出。

智能体OpenAI产品更新编码
07:58
ginobefun@hongming731
70
Claude Code 动态工作流与 GitHub Copilot 桌面应用发布

Anthropic 为 Claude Code 推出动态工作流,允许模型为每个任务自主生成 JavaScript 编排脚本,动态选择模型并启动多个子智能体在独立环境中并行执行,以解决单一上下文窗口处理复杂任务的限制。同时,GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用,提供统一视图、协作面板和自动化流程,旨在管理并行 Agent 开发。文章披露,GitHub 平台每月提交量已突破 14 亿次。

智能体AnthropicGitHub现象/趋势
07:58
ginobefun@hongming731
49
Claude Code动态工作流与Copilot桌面应用发布

Anthropic 详解 Claude Code 的动态工作流,其能为每个任务即时生成专属编排脚本,旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用,为每个智能体提供独立的 worktree,其月代码提交量已突破 14 亿 tokens。此外,有观点指出大模型是史上首个“认知引擎”,工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

智能体AnthropicGitHub编码
07:25
ClaudeDevs@ClaudeDevs
66
我们已更新 Claude Code 中的 /fork 命令。 /fork 现在会在后台运行一个智能体,使用您的完整上下文(系统提示词、工具、历史记录、模型)和提示词缓存。结果将返回到您的会话中。 /branch(旧的 /fork)仍然会将对话记录复制到您驱动的新会话中。
智能体Anthropic产品更新编码
关联讨论 5 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)
07:02
Satya Nadella@satyanadella
精选74
通过Project Solara,我们正在构建一个专为智能体优先设备打造的新平台。 很高兴能与@cristianoamon和@Qualcomm合作!

Cristiano R. Amon: We're shifting from apps and operating systems to agents, and that changes the device experience end to end. Great conve...

智能体Microsoft产品更新端侧

推荐理由:微软和高通联手搞了个 Agent 优先的硬件平台 Project Solara,这标志着 AI 竞赛正式从模型卷到了设备,以后什么是智能终端可能要被重新定义。
‹ 上一页
1…2526272829…50
下一页 ›