AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3064 条
全部一手资讯X论文
标签「Agent」清除
ginobefun@hongming731 · 5月23日39

#BestBlogs 早报 05-23 今日主题: - Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027); - Notion 以爵士乐队模式和哑铃型人才重新创业(Ivan Zhao × Sequoia) - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例(智谱 × TileRT)

ginobefun@hongming731 · 5月23日61

http://x.com/i/article/2057993057891655680 # BestBlogs 早报 · 05-23|Agent 架构分化、Notion 重组、GLM-5.1 高速版 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-23 ## 导语 今天是 2026 年 5 月 23 日,欢迎收听 BestBlogs 早报 EP65。 本期早报聚焦三条主线:Agent 架构的生产端分化​、SaaS 公司在 AI 时代的组织重构​,以及推理速度的新基准。LangChain 在 Interrupt 2027 主题演讲中,正式点名 Agent 生产分裂为两类——长时程知识型与亚秒延迟响应型,两条路径的工程取舍已趋于清晰。Notion CEO Ivan Zhao 则把 SaaS 公司「重新创业」的经历讲成了一门组织课,「爵士乐队」取代「行进乐队」,哑铃型人才结构上线。智谱同期发布 GLM-5.1 高速版,400 tokens/s 打破「快的模型必然更小」的行业惯例,让 Coding Agent 密集调用场景第一次有了旗舰质量加持。 此外,阿里云在 2026 年峰会亮出全栈 Agent 化升级、Spotify 把 AI 开发体验推广到 3000 名工程师、李飞飞团队发布 ESI-Bench 挑战 AI 空间智能,以及 OpenAI 与 Anthropic 截然不同的财务走势——这些内容都在今天的速览与补充阅读中等你探索。 ## 精讲一:AI 智能体的未来:展望 Interrupt 2027 来源:LangChain 两类 Agent 的生产分叉 如果说 2024 年是 Agent 的「探索期」,那么 2026 年已经进入「生产分化期」。LangChain 在 Interrupt 2027 主题演讲中,清晰描绘了 Agent 在生产环境中分裂为两个截然不同类别的格局: 长时程知识 Agent(Long-Horizon Knowledge Agents) 的设计目标是跨越分钟、小时乃至数天的任务周期。它们需要安全沙箱环境来执行代码、多层子 Agent 协同、以及多 Agent 框架支撑,核心追求的是长期结果而非单次提示的响应。典型场景包括大型重构、深度调研、多步骤自动化流水线。 延迟敏感型客户体验 Agent(Latency-Sensitive CE Agents) 则以亚秒延迟为硬性约束,服务于用户互动、支持自动化、销售流程等实时场景。这一路径正在加速推动行业向原生语音模型(Voice-to-Voice)转型,告别「STT → Text LLM → TTS」的拼接架构,转向更低延迟的端到端原生语音交互。 LangSmith Fleet:让领域专家无需写代码就能构建 Agent 演讲中同步发布的 LangSmith Fleet 是「托管式 Agent 规模落地」的一个具体基准。它让领域专家通过自然语言而非代码来构建 Agent,内置 200+ 集成与 7500 个长尾工具。内测数据显示:商机合格率提升 240%、每位销售工程师每月节省 40 小时。这不是演示 demo,而是在生产环境中跑出来的数字。 持续学习循环:三层优化框架 LangChain 提出了一个 Agent 系统持续优化的三层框架,这是目前工程实践中最具指导价值的部分之一: - 模型层(Model Layer):面向特定领域的基础模型微调(如针对代码调试场景的 Qwen 系列)。关键洞察是针对领域特定任务的微调可以同时提升精度和响应速度 - Harness 层(Harness Layer):连接 LLM 与工具/沙箱的结构化应用代码。研究表明 Agent 驱动的 Harness 迭代(在 Terminal Bench 2 测试的方案)可以在不更新基础模型的前提下持续超越人工工程优化——这意味着应用层的架构优化有时比升级底层模型更高效 - Context 层(Context Layer):运行时行为调整所需的外部引导文件、本地记忆资产与配置摘要。这一层是成本最低、迭代最快的优化通道,也是长期积累的重要资产 三层叠加的关键优势在于:每一层都可以独立迭代,团队可以根据瓶颈位置针对性地投入优化资源,而不需要等待底层模型版本更新。 为了集中研究自动化优化系统,LangChain 同步宣布了内部研究部门 LangChain Labs,专门追踪生产 trace 历史以优化执行 Harness。这个部门的成立本身也说明:Agent 系统的优化已经复杂到需要专职团队持续研究。 开源模型的成本优势正在放大 演讲中还有一个值得关注的信号:在 token 密集型场景(如代码调试)中,开源基础模型的基础性能已逼近前沿闭源模型,而运营 token 成本显著更低。更重要的是,开源架构允许团队在私有用户 trace 上进行后训练与微调,这对需要公司特定领域知识的 Agent 场景具有战略价值。 LangChain 的整体判断是:未来两年 Agent 工程的核心挑战,不在于「能不能跑起来」,而在于「如何在长时程与低延迟两类截然不同的约束下,分别做到最好」。沙箱执行环境、多 Agent 协调框架、Native Voice 实时交互——这三个方向将成为 Agent 基础设施演进的主轴,决定下一代 Agent 应用的能力天花板。对于正在构建 Agent 系统的团队,认清自己的产品属于哪一类,将直接影响技术栈的选型方向。 观看完整视频 → ## 精讲二:Notion 创始人 Ivan Zhao:重塑公司的艺术 来源:Sequoia Capital 从「行进乐队」到「爵士乐队」 Notion CEO Ivan Zhao 在 Sequoia 的深度对话中,把过去三年的组织转型概括为一句话:「我们想成为一支爵士乐队,而不是行进乐队。」 行进乐队的运作方式是:有固定脚本,人人按部就班,指令自上而下流动。爵士乐队则不同——有底层结构,但个体在共享上下文中高度自主,可以即兴发挥,可以互相补位。这个比喻精准描述了 Notion 内部的组织信条:分布式决策、共享上下文、自律而非管控。 「酿啤酒 vs 造桥」:AI 产品为何抵制传统 PM 流程 Ivan 提出了理解 AI 产品开发本质的核心比喻: 造桥(Classic Software):可预测的工程过程。能设计出来的,基本都能造出来。传统 PM 收集需求 → 设计师出方案 → 工程团队实现,流水线清晰。 酿啤酒(AI Software):高度实验性,充满不确定性。你不能「命令酵母按你要的口味发酵」,只能投入最好的人才,持续做 eval,看模型最终能产出什么。 这个认知让 Notion 彻底调整了产品开发模式——不再以客户需求为唯一驱动,而是技术优先加实验驱动。PM 开始直接参与 token 消耗分析和模型 eval,设计师开始写代码,工程师开始做产品判断。 哑铃型人才结构:架构师 + 初级 IC 随着 AI 编程能力的成熟,Notion 重构了整个工程团队的人才结构,形成所谓「哑铃型分布」: 一端:高级架构师,提供方向感、审美判断、系统设计,以及语言模型无法模拟的领域 taste。 另一端:初级独立贡献者(IC),高能量、充满好奇心,同时驱动 4 到 6 个 Coding Agent 并行工作,充当 Agent 编排者而非纯粹的代码执行者。 中间的「经验层」被大幅压缩——不是因为他们不重要,而是这个能力区间已经被 AI 工具基本覆盖。 解散 CMO,品牌嵌入产品 另一个令人印象深刻的决策是:Ivan 解散了 CMO 职位,把品牌叙事的责任直接嵌入产品团队。背后逻辑是:在 AI 时代,品牌的塑造越来越发生在产品体验的每一个触点,而不是独立的营销活动。产品即品牌,品牌即产品,二者不应再由两个分离的组织来驱动。 与今日其他主题的关联 Ivan Zhao 的分享与今天早报的另外几个主题形成了有趣的共鸣。 LangChain 对 Agent 架构分化的描述,印证了 Notion 内部「酿啤酒」式开发方式的合理性——当底层模型本身具有不确定性时,严格的 PM 流程确实会成为阻碍而非支撑。而哑铃型人才结构的「初级 IC 驱动 4-6 个 Coding Agent」场景,直接依赖 GLM-5.1 高速版这类推理速度提升——只有当模型响应足够快,并行驱动多个 Agent 才能在体感上从「等待」变成「协作」。 从产品公司 CEO 的视角来看,Ivan 的这场分享本质上是在回答一个问题:当 AI 让「执行」的边际成本趋近于零,公司的核心竞争力应该沉淀在哪里?他的答案是:沉淀在共识(Shared Context)、判断力(Taste)与信任(Trust)之中——这些是模型无法复制的东西。 观看完整视频 → ## 精讲三:GLM-5.1 高速版:400 tokens/s,顶尖模型跑出最快速度 来源:智谱 打破「快 = 小」的行业惯例 长期以来,AI 推理领域有一个默认共识:高速模型 = 轻量模型,想要极致低延迟就必须牺牲能力。GLM-5.1 高速版正面打破了这一惯例——在完整保留 GLM-5.1 旗舰能力的前提下,将输出速度推至 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。 这个数字意味着什么?一位作者连续伏案数天才能写完的文字量,它在 1 分钟内交付完毕;一名工程师埋头敲键盘 3 天才能完成的开发任务,在喝一杯咖啡的时间里完成。 为什么 Coding Agent 特别需要高速模型 Coding Agent 是这次发布最重要的受益场景。原因在于 Agent 的任务特性: 一个 Coding Agent 任务往往需要经历数十轮模型调用。单轮响应只要慢上几秒,整体耗时就可能拉长十几分钟。面对大型重构项目,每一步响应慢 1 秒,逐步累加又是几分钟的空等。 GLM-5.1 高速版带来的体感改变是质变而非量变:模型开始真正成为可以实时协作的伙伴,「和你坐在一起盯着画布调参」。这是之前无论是小模型的快还是大模型的慢都无法实现的体验。 TileRT:系统级优化的三层架构 400 TPS 是稳定生产能力,不是峰值数字。背后是智谱 GLM 团队与 TileRT 团队联合的系统级优化,在三个层面同时发力: 推理引擎层:针对 GLM-5.1 的架构特点,重写核心推理路径,提升单卡吞吐能力。 调度系统层:动态批处理、请求合并与 KV 缓存调度优化,大幅降低高并发场景下的尾延迟。 基础设施层:推理集群部署、网络链路、负载均衡的协同优化,确保高速能力在生产环境稳定可用。 TileRT 的设计核心是在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel,彻底抛弃 Runtime 层的动态调度开销。算子间的中间结果不再写回 Global Memory,而是经由寄存器、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步全部压进同一个常驻 kernel——这是速度大幅提升的技术根因。 在多卡尺度上,TileRT 进一步将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑,不同 GPU rank 不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同 worker,进一步榨取集群整体吞吐。 适用场景与当前开放状态 GLM-5.1 高速版当前面向智谱 MaaS 平台部分企业客户开放,模型 ID 为 GLM-5.1-highspeed。重点适用于以下延迟敏感场景: - AI 编程:多轮 Coding Agent 调用中每轮节省数秒,整体任务时长显著压缩 - 实时交互:3D 场景根据用户输入实时建模,此前因延迟无法实现的产品形态开始具备落地可能 - 实时语音:作为原生语音 Agent 的后端推理引擎,低延迟响应是音质之外的关键体验要素 - 商业决策辅助:高并发场景下的实时分析与方案生成 400 TPS 与旗舰能力的同时达成,把「速度 vs 质量」的权衡从一道单选题变成了可以同时满足的工程目标。这对整个行业的推理架构方向有示范意义。 阅读原文 → ## 速览 以下 7 篇精选内容,每篇约 150 字导读,覆盖 Agent 工程实践、组织变革、AI 基础设施与产业财务等多个维度。 1. Spotify 如何把 AI 开发体验扩展到团队与 Agent:Claude Code、Honk、Backstage 与 MCP Spotify 工程基础设施负责人 Niklas Gustavsson 分享了公司如何将 AI 辅助开发规模化到 3000 名工程师的完整路径。关键数据:引入 Claude 3.5 Opus 后,99% 的工程师每周使用 AI 工具,94% 表示 AI 直接提升了交付表现,PR 频率上升 76%。Spotify 的做法是把 Claude Code、标准化代码库(Fleetshift)、内部工具平台(Backstage)、验证闭环与 MCP 整合成一套系统——不是单点替换工具,而是重构整个开发者体验的架构层。对于正在规模化 AI 开发工具的工程团队,这是少有的「大规模落地」案例。 观看视频 → 2. 阿里李飞飞首秀:一口气面向 Agent 发了 32 个新品 阿里云 CTO 李飞飞在 2026 年峰会上完成首秀,发布超 50 项新品。核心是「芯 - 云 - 模型 - 推理」全栈 Agent 化升级:自研芯片真武 M890(性能较上一代提升 3 倍)、Agentic Cloud(运行时、编排、治理、安全、记忆、数据平面六大能力模块)、旗舰模型 Qwen3.7-Max(Arena 国产第一),以及面向 Agent 友好的新产品「千问云」。这是国内云厂商首次围绕 Agent 进行全栈产品发布,从面向人的云服务向面向 Agent 的云基础设施的战略转向信号明确。 阅读原文 → 3. 专业化胜过规模:大多数 AI 采购决策忽视的战略变量 一个 30 亿参数的专业化模型,在结构化 OCR 基准测试中以约五十分之一的成本,超越了所有商业前沿 API 的表现。核心结论:当模型的训练分布足够贴近部署任务时,参数规模不再是决定性变量。这一发现对企业 AI 采购决策有直接启示——对于有明确领域边界的任务,专业化小模型在性价比上可以碾压通用旗舰。文章提供了结构化 OCR 的完整对比数据,包括生产稳定性与退化率指标,结论扎实可复现。 阅读原文 → 4. AI 原生工程 Meta Reality Labs 旗下 Horizon Experiences 团队负责人 Ian Thomas 分享了构建「AI 原生工程」文化的案例。核心愿景是将工程师从「建造者」转变为「探索者与创新者」——用 AI 消化大量日常性工作(更新测试、修复 bug、处理平凡的代码变更),释放人的时间聚焦于真正需要创造力的问题。演讲分享了从小型社区到大规模应用框架的结构化路径,以及可量化的生产力提升数据。对于正在思考如何在团队层面而非个人层面推广 AI 工程实践的技术管理者,值得参考。 阅读原文 → 5. Agent 核心技术概念与范式发生了哪些演变以及背后的思考 来自阿里云开发者的系统性梳理,覆盖 Agent 从 2023 年早期 ReAct 架构到 2026 年自进化阶段的四个演进阶段。每个阶段都有明显的技术特征标志:被动式响应 → 结构化工作流 → 多 Agent 协同 → 自进化。文章从 Prompt、Planning、Memory、Tools、Workflow、Environment 六个核心维度,深入分析了技术概念前后变化及其背后的工程化逻辑。对于仍在用「早期 Agent 框架思维」理解当前 Agent 系统的开发者,这篇文章能帮助重新校准认知坐标。 阅读原文 → 6. 李飞飞再出手,空间智能的 ImageNet 来了 李飞飞团队发布 ESI-Bench,一个专门评测具身空间智能的新基准,包含 10 个任务类别、29 个子类别、3081 个任务实例。与此前 benchmark 不同的是,ESI-Bench 第一次把「观察者」变成「行动者」,要求 AI 智能体主动行动才能获取解题信息。核心结论清晰:感知不是瓶颈,行动才是。当前最强多模态模型(含 GPT-5 和 Gemini 系列)在主动探索任务上的表现远低于给定最优视角时的得分,说明 AI 能「看懂」但仍然「不知道该怎么动」。 阅读原文 → 7. OpenAI「赚一块亏一块二」,Anthropic 已开始赚钱 两家 AI 巨头同期亮出底牌:OpenAI Q1 营收 57 亿美元,但运营利润率为 -122%,每赚 1 美元亏损 1.22 美元;Anthropic Q1 营收 48 亿美元,Q2 预测营收 109 亿美元,并实现约 5.59 亿美元运营利润,成为 AI 模型公司中率先摸到盈利门槛的案例。差异根源在于客户结构——OpenAI 需要补贴庞大的 9 亿周活免费用户群,Anthropic 几乎全部收入来自企业和开发者。两种模式的财务命运正在快速分化,这篇文章是理解当前 AI 商业格局的精要读本。 阅读原文 → ## 补充阅读 以下 9 篇内容作为延伸阅读,适合有特定兴趣方向的读者深入探索。 从 0 到 1 搭建 Agent:Agent 原理分析及个人助手实践(长文干货)(阿里技术) 系统覆盖 Agent 全链路原理,包括记忆系统、RAG、Function Calling 与 MCP,并附带个人助手项目的完整实践方案。约需 50 分钟阅读时间,适合想亲手构建 Agent 系统的开发者作为入门参考手册。 阅读原文 → 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率的诀窍:Mermaid 无限画布 × 上下文卸载(腾讯技术工程) 解决 Agent 长任务中上下文快速耗尽的实际工程问题。「上下文卸载 + Mermaid 无限画布」的组合方案,在超长 Session 实验中节省 61% Token 并将任务通过率从 33% 提升至 50%。适合正在处理 Agent 长任务内存压缩问题的工程师。 阅读原文 → Gemini 负责人:在智能体时代从执行者转向指挥者(Silicon Valley Girl) Google Gemini 负责人 Josh Woodward 谈 Agent 时代的人机协作范式转变。Gemini Spark 的目标是让知识工作者从任务执行者转变为「AI 网络的指挥者」,通过原生生态系统集成并行运行数百个后台任务。适合想了解 Google 在 Agent 时代整体战略思路的读者。 观看视频 → 你的 Coding Agent 应该做 AI 系统工程(AI Engineer) Hugging Face 的 Ben Burtenshaw 提出 Coding Agent 的下一步:进入 AI 系统工程领域,包括 CUDA kernels 优化、自动 fine-tuning,以及基于 open primitives 构建多 Agent 研究实验室。适合已有 Coding Agent 使用经验、想进一步探索其能力边界的工程师。 观看视频 → Cerebras 630 亿美元 IPO 背后:晶圆级芯片、OpenAI 大单与 AI 基础设施竞赛(No Priors) Cerebras 创始人兼 CEO Andrew Feldman 讲述公司如何把晶圆级芯片的逆向押注推进成一家上市 AI 基础设施公司。推理速度已从技术奢侈品变为商业必需品——这个判断与今天 GLM-5.1 高速版的发布形成有趣的呼应。 观看视频 → 最新对话 Claude Code 负责人:智能体时代的爆发,Anthropic 重构生产力边界(Web3 天空之城) 深度编译 Claude Code 负责人 Boris Cherny 的访谈。Anthropic 产品需求同比增长 80 倍,Claude Code 是核心引擎。文章覆盖范式转移、生产力实证(引入 Claude Code 后每位工程师产出提升约 250%)、组织变革启示,以及软件行业护城河的演变方向。与今天精讲二 Notion 的组织重构主题形成互文。 阅读原文 → 如何用 AI 构建自我改进型公司(Y Combinator) YC 视角的 AI-native 组织设计:不要停留在 copilot 式生产力提升,而应把公司重构为由传感器、策略、工具、质量门和学习系统组成的递归自我改进循环。与今天多篇内容的组织变革主题高度呼应,适合思考 AI-native 公司架构的创业者和管理者。 观看视频 → 浏览器自动化:从 GUI 到 OpenCLI(大淘宝技术) 针对 Agent 操控浏览器「路不好走」的实际痛点,提出 OpenCLI 方案:直接解析和复现浏览器底层 API 请求,绕过不稳定的前端 UI 自动化。思路清晰、工具可直接上手(npm install)。适合正在为 Agent 构建浏览器自动化能力的工程师。 阅读原文 → 马斯克的「一人王朝」,6 月 12 日敲钟(腾讯科技) SpaceX 正式提交 S-1,计划 6 月 12 日纳斯达克上市,目标估值 1.75 万亿至 2 万亿美元,马斯克保留 85% 投票权。财务结构「冰火两重天」:Starlink 年入 114 亿美元营业利润,xAI 单季亏损 64 亿美元,天上赚的钱被地上的大模型全部烧完。AI 叙事如何支撑超高估值,这篇文章提供了一手数据。 阅读原文 → ## 今日阅读路径 时间有限?以下是根据今日内容为你规划的最短有价值阅读路径: 如果你只有 15 分钟: 优先读「精讲三」——GLM-5.1 高速版的发布代表了一个具体可感知的技术里程碑,400 tokens/s 旗舰质量是 2026 年推理能力的新基准,对所有在生产中使用 AI 模型的人都有直接参考价值。文章篇幅适中,技术细节扎实,10 分钟读完,结论即可用。 如果你有 30 分钟: 加上「精讲一」——LangChain 对 Agent 架构分化的描述是目前最清晰的生产端视角之一,长时程 vs 延迟敏感的框架能帮你理清当前项目的技术取舍。 如果你有 1 小时,想要更完整的视角: 三篇精讲都读完,再加速览中的「阿里 Agent 全栈发布」和「OpenAI vs Anthropic 财务对比」——这两篇分别代表了 AI 基础设施格局和 AI 商业模式的两个关键截面,与精讲主题形成完整的上下文。 工程师专题路径: 精讲三(推理速度与 TileRT 架构)→ Spotify 案例(工具规模化)→ Agent 范式演变(技术全景)→ Coding Agent AI 系统工程(能力拓展边界) 管理者与创业者路径: 精讲二(Notion 组织重构与爵士乐队模式)→ Claude Code 负责人访谈(生产力实证)→ 如何用 AI 构建自我改进型公司(系统设计框架) 以上就是今天 BestBlogs 早报全部内容。感谢阅读,我们明天见。

译LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

Google Gemini@GeminiApp · 5月23日87

http://x.com/i/article/2057551138384470016 # The Gemini app becomes more agentic, delivering proactive, 24/7 help ## Gemini is becoming a more helpful AI assistant, with an intuitive new UI, proactive daily briefs and Gemini Spark, an agent to help you get things done around the clock. It’s been a banner year for the Gemini app. Last year at Google I/O, Gemini was serving 400 million users. Today, more than 900 million people across 230 countries and more than 70 languages turn to Gemini for help every month. In time for Google I/O 2026, here’s what's new: - Gemini 3.5 Flash: The first in our next generation of models that combines frontier intelligence with lightning-fast action. - Neural Expressive: A vibrant, dynamic and completely reimagined design language for Gemini. - Gemini Omni: Our new model that can seamlessly transform text, images and video prompts into cinematic, high-quality video outputs. - Daily Brief: A new agent that gives you a personalized morning brief and organizes exactly what you need to know to start your day. - Gemini Spark: A 24/7 personal AI agent designed to proactively manage tasks and help you navigate your digital life, all under your direction. - MacOS app: Our desktop app will be integrating Gemini Spark so it can operate on your local machine, and it will also add powerful new voice features. ## Neural Expressive: A new design language for the AI era We’ve redesigned the entire Gemini experience from the ground up, introducing a stunning new design language we call Neural Expressive. The interface now features fluid animations, vibrant colors, new typography and haptic feedback. We’ve also integrated the Gemini Live conversational experience directly into Gemini. Now, you can seamlessly switch from typing a quick question to diving deep into a free-flowing conversation — and back again — without missing a beat. We also re-engineered the mic so you can tap and talk through a complex idea at your own pace without getting cut off mid-thought. And soon, we’ll start offering regional dialects, allowing you to choose a voice that truly resonates with you. Finally, we’re using the power of our Gemini models to make responses more engaging and easier to understand. Instead of throwing a wall of text at you, Gemini now designs tailored responses in real time — incorporating rich imagery, interactive timelines, narrated videos and dynamic graphics. Neural Expressive is rolling out globally across the web, Android and iOS for everyone. ## Gemini Omni: Turning your ideas into cinematic videos To unlock your creative potential, we're introducing Gemini Omni, a model designed to turn your imagination into reality. By seamlessly combining text, images and video inputs, Gemini Omni allows you to generate stunning, high-quality video outputs effortlessly. With Gemini Omni, video editing becomes a fluid, natural conversation. You can apply cinematic zooms or swap out backgrounds with a simple prompt. Just upload footage from your camera roll, apply built-in templates with a single tap and create polished content without expensive equipment or specialized technical jargon. You can even drop yourself directly into the action by creating a custom AI avatar that looks and sounds exactly like you. Gemini Omni is rolling out to Google AI Plus, Pro and Ultra subscribers worldwide. ## Daily Brief: Start your day on the right foot We’re introducing Daily Brief, an agent that gives you a personalized morning digest that’s designed to be your first stop every day. Built on the success of our recent Google Labs experiment CC, Daily Brief gives you a seamless, intuitive entry point into the world of AI agents. Once you opt in, Gemini works across your connected apps in the background. It gathers urgent updates from your Gmail inbox, tracks upcoming events from your Calendar and compiles relevant follow-up details into a skimmable briefing. It goes far beyond a simple summary. Daily Brief actively organizes and prioritizes based on your specific goals, even suggesting immediate next steps. You can easily steer it by giving responses a quick thumbs up or down over time. Daily Brief is rolling out to Google AI Plus, Pro and Ultra subscribers, starting in the U.S. ## Gemini Spark: From information to action We’re also introducing Gemini Spark, a 24/7 personal AI agent that helps you navigate your digital life. Spark represents a big shift for Gemini, transforming it from an assistant that can answer your questions into an active partner that does real work on your behalf and under your direction. Gemini Spark runs on Gemini 3.5 and uses the Antigravity harness. It’s deeply integrated with the Workspace tools you rely on daily, like Gmail, Docs, Slides and more. Even better, because it is a cloud-based agent, Spark keeps working in the background even when you close your laptop or lock your phone. That combination means Spark is ready to take complex tasks off your plate so you can be more present for what matters most. With Gemini Spark, you can: - Set recurring tasks or triggers: Automatically parse monthly credit card statements to flag new or hidden subscription fees. - Teach it new skills: Direct it to check your inbox for ongoing updates from your kids' school, extract critical deadlines and send a consolidated daily digest to you and your partner. - Create complete workflows: Ask it to synthesize raw meeting notes across emails and chats, create polished Google Docs with its findings and even draft the companion email kicking off a project. This is just the beginning. We’ve got a packed roadmap of features shipping over the summer. We’re expanding our list of Gemini connected apps with new MCP connections to Canva, OpenTable and Instacart launching today, and a full list of more partners are integrating now. In the coming weeks, Spark will be able to use these MCP connections to get things done for you. We'll also be adding new abilities, including texting and emailing Spark, creating custom sub-agents and operating your local browser. Spark operates under your direction. You choose whether to turn it on and what apps it connects to, and it’s designed to ask you first before performing high-stakes actions like spending money or sending emails. Gemini Spark will roll out to trusted testers this week, and we're planning to roll it out as a Beta for U.S. Google AI Ultra subscribers next week. ## Gemini app for macOS: Take control of your desktop We’re working on big updates to the Gemini app for macOS. We’ll be bringing Gemini Spark to the Gemini desktop app this summer so it can help with tasks involving your local files and automate workflows across your desktop. We’re also innovating on new voice experiences in the macOS app, similar to what we previewed at The Android Show. You won’t have to worry about all the “ums” or “what abouts” that happen as you think aloud. Using the context from your screen, Gemini can turn your free-flowing speech into precise drafts, instantly reformatting the text to capture your intent, right where your cursor is. The macOS app is available to download today for all users, with Gemini Spark and the new voice features will roll out later this summer. All of these updates get us closer to our vision of a truly universal assistant that’s personal, proactive and powerful. So whether you’re a busy student, parent or small business owner, we look forward to what you can do with Gemini.

译谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

Rohan Paul@rohanpaul_ai · 5月23日44

"Every agent needs a human. The further away an agent is from a human who's doing it, the worse it does. Even though AI can do expert human work, it actually increases the demand for human experts. " ~ CEO of Every @danshipper

译每个智能体都需要人类。智能体离实际操作的人类越远,表现就越差。 尽管AI能完成专家级的人类工作,但它实际上增加了对人类专家的需求。

ClaudeDevs@ClaudeDevs · 5月23日69

Two updates to auto mode: · Now available on the Pro plan · Sonnet 4.6 is now supported, alongside Opus 4.7 Shift+tab, and let Claude run.

译自动模式的两项更新: · 现已在Pro计划中提供 · 现已支持Sonnet 4.6,以及Opus 4.7 按下Shift+tab,让Claude运行。

Artificial Analysis@ArtificialAnlys · 5月23日58

Cursor Composer 2.5's is 3–18x cheaper than Opus 4.7 in Claude Code (medium reasoning), and 5–32x cheaper than GPT-5.5 in Codex (medium) based on API pricing This low Cost per Task isn't just driven by relatively low token pricing, it's also driven by low relatively low token usage compared to other leading models. @cursor_ai Composer 2.5 only used 1.6M token to complete our Coding Agent Index benchmarks, while other models used up to 5.7M. This lower token usage also contributes to a low Time per Task. Across the Coding Agent Index configurations shown, average Time per Task was ~12 minutes. Composer 2.5 completed tasks in ~9 minutes on average, making it ~1.3x faster than average, while Composer 2.5 Fast completed tasks in ~7 minutes, making it ~1.8x faster than the average across agents. Link to full benchmark results below

译基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。

小互@xiaohu · 5月23日74

好思路🫡

译一种轻量化的Codex远程服务器配置方案。无需安装完整版应用,仅需在远程服务器上安装并运行CLI版Codex。执行`codex remote-control`命令后,手机端ChatGPT应用内的Codex功能即可发现并连接该服务器,远程体验与完整版无异。两种配置在应用内通过不同图标(“终端”与“电脑”)进行区分。

elvis@omarsar0 · 5月23日69

The best way to learn AI is to build with agents. To help with that, we've launched hands-on labs and a new series on Agentic Engineering. First topic: Agent Skills. Next in the pipeline: planning, context engineering, multi-agent systems, long-running agents,.. Go build!

译学习AI的最佳方式是通过构建智能体来实践。 为此,我们推出了实践实验室和关于智能体工程的新系列。 首个主题:智能体技能。 后续计划:规划、上下文工程、多智能体系统、长期运行智能体等。 开始构建吧!

elvis@omarsar0 · 5月23日67

this is the way. 1/4 of the original price! the agentic stuff you can build with deepseek-v4-pro is already impressive so this like the best news for builders

译这才是正道。 价格仅为原价的四分之一! 用 DeepSeek-V4-Pro 构建的智能体功能已经令人印象深刻,所以这简直是开发者的最佳消息。

Google AI@GoogleAI · 5月23日70

http://x.com/i/article/2057866361636888576 # I/O Developer News Recap ICYMI: here’s a quick rundown based on your vibe. (Pro tip: Bookmark this post!) For Building with Agents in Google @Antigravity: — Antigravity 2.0: A new standalone desktop application built for the next era of how we build, work, and automate with agents — Antigravity CLI: For those who prefer the terminal, this delivers a lightweight, high-velocity surface to invoke, monitor, and interact with agents — Antigravity SDK: Programmatic access to the Antigravity coding agent so you can customize agent behavior and deploy it on your own infrastructure of choice — Increased usage limits in Antigravity: We’ve upped the limits to keep developers in flow state For Bringing Ideas to Life in Google AI Studio: — Vibe Code Android Apps: @googleaistudio now has native Kotlin support to build full-stack Android apps. Test via Android Emulator and publish straight to the Test Track in @GooglePlayStore, all from AI Studio — Seamless Context Export to Antigravity: The new export flow brings your code and your context straight into Antigravity — AI Studio Mobile App: Bring your ideas to life while on-the-go with the new iOS and Android mobile app coming soon! For Building on Android & Web: — Managed Agents in the Gemini API: Build production-ready custom agents with the Antigravity agent harness and our Gemini models, fully hosted on our infrastructure. With one API call, you get the agent, environment and tools — Android CLI and skills: The @AndroidDev team introduced an Android CLI and open-sourced skills to make it easier to create high-quality, native Android apps with coding agents — WebMCP: The open web standard that allows you to expose web tools to browser-based agents is available in original trial in Chrome 149 — Chrome DevTools for agents: AI agents can now autonomously use DevTools to scale workflows for verifying, debugging, and optimizing code in real-time For Enterprise & More: — Google Cloud Availability: Antigravity can now be connected directly to Google Cloud projects. Antigravity will be supported in the coming months for existing Gemini Enterprise customers — Specialized Skills: Introducing new domain-specific skill bundles, starting with Science Skills from Google DeepMind to equip agents with specific science primitives to accelerate health, biology, and scientific research workflows.

译谷歌在I/O开发者大会宣布,系统性构建面向AI代理(Agent)的开发与部署工具链。核心更新包括:独立桌面应用Antigravity 2.0及其命令行工具、SDK面世;Google AI Studio新增Kotlin支持,可一键开发安卓应用并发布,同时推出移动端App。此外,Gemini API推出托管代理服务,实现一键部署;WebMCP作为开放标准在Chrome 149中推出,允许网页向代理暴露工具;Chrome DevTools也开放给AI代理以自动化调试。企业级客户可直接连接Google Cloud项目,而DeepMind的科学技能包则加速特定领域研究。此举标志着谷歌正全面打造从开发、接口到部署的完整AI代理生态系统。

SemiAnalysis@SemiAnalysis_ · 5月23日82

Agentic workloads are quietly rewriting inference economics. We pulled data from 432k real coding agent requests at SemiAnalysis and the median one isn't 32k, isn't 64k, but 96k input tokens. For context, that's more than the entire text of The Great Gatsby being shoved into the model before you've even typed your question. (1/3)🧵

译智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据,发现中位数并非3.2万或6.4万,而是9.6万输入token。作为参考,这意味着在你输入问题之前,模型已处理了超过《了不起的盖茨比》全文长度的文本。(1/3)🧵

Replit ⠕@Replit · 5月23日45

Most vibe-coded apps forget every user who opens them. With one prompt to Replit Agent fixes it! 💻 Try adding authentication to your app today!

译大多数氛围编码应用会忘记每个打开它们的用户。 用一条提示让 Replit Agent 修复它!💻 今天就尝试为你的应用添加认证功能吧!

Chubby♨️@kimmonismus · 5月22日54

Ben is building the future of fully autonomous businesses. And he just raised $30M. Even crazier: Solo founder Already at $10M run rate 7,600+ businesses already using the platform The company is growing insanely fast. Will cover the full Polsia story in the newsletter soon. Congrats @Bencera

译AI平台Polsia在创始人Ben主导下完成3000万美元融资,估值达2.5亿美元。该公司采用“创始人+AI”模式,无需雇员即可自主运营商业实体,目前年化营收已近1000万美元,服务超7600家企业。Polsia甚至自主完成了本次融资流程,创始人仅需签署文件。这种完全由AI驱动的商业运营模式展现了快速增长的态势。

🚨 AI News | TestingCatalog@testingcatalog · 5月22日51

ICYMI: Imagine Agent is now available on Grok for iOS! Have you tested it yet? 👀

译错过了吗?Imagine Agent现已登陆Grok iOS版! 你试过了吗?👀

Chubby♨️@kimmonismus · 5月22日60

The team that made databases feel easy just did the same thing for AI agents. Hyperagent gives you a full cloud environment per session, browser, shell, code execution, integrations, no local setup. You build an agent, deploy it to Slack, and it runs your workflows while you do something else. Airtable sits inside 80% of the Fortune 100. They have over a billion dollars in the bank. This is not a landing page with a waitlist. The Founding 500 is $20K in inference credits for 500 founders building agent-first companies. The people who got into the early App Store built everything everyone else spent a decade copying. The application window will not stay open long.

译Airtable团队推出Hyperagent平台,为每个会话提供完整云端环境,包括浏览器、Shell和代码执行能力,支持用户无本地设置即可快速构建AI智能体,并可部署到Slack等工作平台实现自动化工作流。Airtable资金超10亿美元,已服务80%的财富100强企业。其“创始500”计划为500位创始人提供2万美元推理信用额度,总投入1000万美元,旨在推动“智能体优先”创业趋势,押注自主、主动的AI智能体将成为未来企业核心驱动力。

歸藏(guizang.ai)@op7418 · 5月22日73

http://x.com/i/article/2057775296712196096 # 开源一个 Skill,让 AI 接管你屏幕边那张便签纸 上个月我做了 M5 Paper Buddy,把一块墨水屏接到 Claude Code 上,监控 AI 在干什么、需要审批什么。 当时挺兴奋的,物理按键审批操作那个仪式感很好。 但用了几周之后我发现,它放在桌上的时间,远比我看它的时间长。 AI 跑得稳的时候根本不需要监控,需要审批的时候我大概率人就在电脑前。它解决的是一个边缘问题。 ## 真正的场景藏在屏幕边框上 后来我注意到一个很普遍的现象:很多人会在屏幕边框上贴便签纸,甚至有很多这种便签纸在卖。 写着今天要做什么、几点开会、某个项目的下一步动作。 便签纸的存在不是因为它好用,而是因为人需要"抬头就能看见"的提醒,不想为了看一眼日历切窗口、解锁手机。 但便签能记的东西非常有限,写完就静止了。 日程变了,便签不会变。任务做完,便签还在那。它是一个被时间冻住的物件。 而现在,我们手边有了 AI。它有 Memory,有 Agent,能读我的日历、看我的 GitHub、跟我对话。 如果让 AI 来决定屏幕边框上应该贴什么、什么时候撕掉、什么时候换新的,那就是另一个东西了。 这就是 AI Desk Card Skill 想做的事。 形态上是一块 4.7 寸的墨水屏,带磁吸(类似 MagSafe),可以直接贴在显示器旁边。 背后是一个 Skill —— 装到 Claude Code 或者 Codex 这类 AI Agent 里,AI 接管所有事: 决定推什么、什么时候推、息屏时显示什么。 Github:https://github.com/op7418/ai-desk-card 下面我把它实际怎么用、能解决什么问题讲清楚。 ## 案例一:日程和待办自己会更新 我把 top-left 槽位设成日历,middle 槽位设成 todo。 早上坐到电脑前,屏上已经是当天的完整安排:上午的会、下午健身、晚上要交的稿子。 这些数据来自飞书日历,AI Agent 通过飞书 CLI 直接读取。 下午跟一个朋友约了周四的咖啡。 我跟 AI 说"周四下午加一个咖啡,3 点",AI 一边把日程写进飞书日历,一边把屏上的卡片刷新了一下。 新的日程出现在 todo 槽位里。 更舒服的是反向同步。我做完 AIGC Weekly 的初稿,跟 AI 说"周刊写完了",屏上对应的那一行就被划掉了。 便签纸做不到这件事。便签纸只能记录某个瞬间的快照,而日程的本质是一个不断变化的状态流。 当显示设备和你的 Memory 联通之后他会直接展示你和你的上下文当下的状态。 ## 案例二:息屏的时候,它是你的名片 这是我做完之后最喜欢的一个功能。 墨水屏有个物理特性:断电之后画面会保留。 我专门为这个特性加了一个 Quiet Hours 模式 —— 到了晚上 11 点,或者你长按"睡眠"按钮,屏幕会自动切换到一张电子名片,然后进入深度休眠。 名片上是你的头像、介绍、二维码。整张屏黑白分明,墨水屏特有的纸质感。 这块屏从那一刻起就完全不耗电了,但画面一直在。 它带磁吸,从显示器边上摘下来揣进包里,重量很轻。 下次跟新朋友吃饭,从包里掏出来递过去:黑白名片 + 二维码,加完好友放回口袋。 整个过程没有插电、没有开机、没有打开 App 翻二维码的尴尬。 而早上你坐到桌前,它又会被 AI 唤醒,自动切回工作模式 —— 日程、todo、PR 队列回来了。 墨水屏的限制(不发光、刷新慢、断电保留)在大多数场景下都是缺点,但当你不去硬刚这些限制,反而顺着它去设计场景,会发现它有些屏幕做不到的事。 ## 案例三:GitHub 的动态我不再错过了 我维护 CodePilot 这种开源项目,最大的负担是看不见 — 不打开 GitHub 就不知道有没有新 PR、新 Issue。 但每隔十分钟打开一次 GitHub 是非常糟糕的工作节奏,注意力会被切碎。 现在 AI Desk Card 的 bottom 槽位常驻一个 pr-queue widget。 CodePilot 仓库有新 PR、有人在 Issue 里 at 我、CI 挂了,AI 都会把它推上去。 数字小不打扰,但抬头扫一眼就知道有没有要处理的事。等我手头这段写完,再统一去看。 更进一步的玩法是,AI 知道我在做什么。 我现在专注写 AIGC Weekly 的时候,它会自动把 PR 队列降级,只在出现 critical 标签的 Issue 时才推上来。 等我切到 CodePilot 的开发,PR 队列又会回到主位。 屏幕上显示什么,本质上是一个调度问题,不是一个配置问题。 传统 dashboard 让你配 widget,配完一周内还行,之后就变成一面没人看的墙。 AI 主动决策是因为它知道你正在做什么、它能换。 ## 案例四:天气、休息、所有那些"该有但你想不起来配"的东西 最让我自己意外的一类 widget 是 break-reminder。 我经常一坐就是三四个小时不动。 这个 widget 会在一段时间没有按键活动之后,在某个槽位上轻轻推一句"该起来走走了"。 墨水屏不发光,不会弹窗、不会响、不会震动,但你抬头看到一行字,自然会停一下。 它和番茄钟最大的区别是:没有强制性。它只是存在,不打扰你。 如果你正在跑代码、写文章的状态里,那一行字会被你忽略; 如果你已经累了、状态浮的时候,看到那行字会真的去倒杯水。 天气也是一样。 我不会专门去查今天会不会下雨,但顶部 widget 静静显示"下午有雨"几个字之后,下楼前我会把雨伞拿上。 这种"低优先级但有用"的信息,过去只能靠你自己记得去查,现在它们待在视野边缘,需要的时候被你扫到。 ## 它是怎么装上的:AI 全程引导 整个安装流程没有 App,没有蓝牙配对页面,没有手机扫码。你跟 AI 说: > "帮我把 ai-desk-card 装上:https://github.com/op7418/ai-desk-card" 接下来发生的事: 1. AI 检测你电脑上有没有 PlatformIO,没装就自动装 1. 检测你有没有插 USB,没插就提示你插 1. 自动编译固件、烧录到 M5Paper,1 分钟左右 1. 问你 Wi-Fi 密码,写进设备 1. 问你"想看哪些卡片、多久刷一次" 1. 推第一个 widget 上去 整个过程你只回答 Wi-Fi 密码和"想看什么"两个问题。 之后设置定时任务也是一句话:"让卡片每 30 分钟刷新天气和未读邮件,工作日 8 点到 22 点。" AI 自己去写 cron、自己去注册 loop、自己去调度。 定时任务跑的时候,AI 会读取你的 Memory 来决定推什么内容。 比如我让它每天早上 9 点更新一次,它会去看我 Memory 里最近活跃的项目(CodePilot、AIGC Weekly等),按重要度安排槽位。 这里没有"App 工程师做的设置页面",因为 AI 就是设置页面。 你过去要点十下才能调好的设置,现在一句话就行。 ## 一个跟传统硬件相反的设计:组件预置,AI 只填数据 讲到这里需要单独说一下实现思路,这是 AI Desk Card 跟传统 IoT 设备最大的不同。 通常做一个智能硬件,组件是写死在固件里的: 时钟样式、天气图标、字体大小,都是固件工程师在出厂前定好的。要加新功能,要发新固件 / OTA / 重新认证一遍。这是为什么 99% 的智能硬件买回来三个月就跟刚拆封时长得一样。 AI Desk Card 走的是反方向:16 种 widget 模板预置在服务端,AI Agent 只负责往里面塞 JSON 数据。 举个例子,pr-queue 这个 widget 的视觉布局(一个标题区、4 行 PR 信息、每行带状态图标)是渲染端写好的。 AI 不需要画图、不需要排版、不需要选字号。它只要往 daemon 发一个这样的请求: 服务端用 Python + Pillow 把这个 JSON 渲染成一张 540×280 的像素图,推到墨水屏上。 这个思路其实来自我们在 CodePilot 桌面端做的生成式 UI。 那边走的是相反的极端:模型实时生成 HTML/SVG,渲染成可交互的 widget。 两个方向看起来截然相反,但精神是一致的 —— UI 由 AI 决策,不由用户配置。 为什么墨水屏要反着来?因为约束不一样。 浏览器能跑任意代码、有强大的字体引擎、可以加载 CDN,所以让 AI 生成 UI 本身没问题。 墨水屏渲染受限,全屏 GC16 刷新要 2 秒、中文字体一套就要几兆、像素精度不能算错,AI 直接生成 UI 太重了。 所以反过来:UI 提前准备好,AI 只决定填什么、放哪个槽位、什么时候换。 这个组件库还在不断扩。硬件本身基本不变,能力却在持续生长。 ## 写在最后:AI Agent 把硬件从内置功能里解放了出来 聊点更大的事。 传统硬件公司的护城河是 "我设备里能做什么"。 CPU、传感器、操作系统、内置 App,决定了它的能力上限。一旦造好出厂,能力就基本封顶。 AI Desk Card 这种思路下,硬件的能力来源被换掉了。 它本身只是一块墨水屏 + ESP32,能做什么取决于 AI Agent 能拿到什么信息。 日历来自飞书 CLI、PR 来自 GitHub CLI、天气来自任意 API、Memory 来自你的 Obsidian 仓库 —— 这些信息源全都在 Agent 那边,不在硬件里。 当 AI Agent 成为信息中枢之后,硬件可以做得很薄、很专用。 它不需要内置一百个功能,只需要做好一件事 —— 在 AI 决定推送的时候,把内容显示出来。 这件事的成本也降到了很低的水平。M5Paper V1.1 大概 600 块,未来类似的开源开发板会更便宜,三四百块就能买到。墨水屏、彩色墨水屏、TFT 小屏、甚至 Kindle、墨水屏阅读器,理论上都可以适配同一套 Skill。 后面我还想做几件事: - 适配 M5Paper S3 和 Inkplate / Waveshare 等其他墨水屏开发板 - 尝试给老 Kindle 写一个适配层,把闲置的阅读器变成桌面副屏 - 跟 Home Assistant 联动,把智能家居状态推到桌面卡上 —— 客厅温度、门锁状态、扫地机器人位置 - 探索彩色墨水屏的可能性,开放更多 widget 类型 每多支持一种硬件,就多一种 AI 触达物理世界的方式。这些设备不需要变聪明,它们只是 AI Agent 的物理出口。 真正在变聪明的是你桌上那个 AI,而它聪明的速度,比硬件迭代快得多。 GitHub:https://github.com/op7418/ai-desk-card 如果你觉得这次的内容对你有帮助,可以帮我点个赞或者转发给需要的朋友。

译AI Desk Card 是一款 4.7 寸磁吸墨水屏,结合 AI Agent(如 Claude Code),通过预置模板与数据填充,动态显示日历、待办、GitHub PR 队列、天气等内容。它解决了传统便签纸的静态限制,实现内容自适应和场景切换(如夜间变为电子名片)。核心理念是将硬件从固定功能中解放,使显示能力由 AI 可获取的信息动态定义,从而提升效率并减少手动配置。

AYi@AYi_AInotes · 5月22日61

为什前面红杉 AI Ascent 2026那场闭门峰会,150 个顶级创始人聊了 6 小时, 最后给 2026 年下了一个新定义——"长周期智能体的商业元年"。 为什么个体的红利吃不到组织头上? 我给这个现象起了个名字,叫 "AI 生产力悖论"。 它的本质是这样的: AI 工具是装在每个个体身上的外挂,比如我用 Cursor 写代码、用 Claude 写稿、用 NotebookLM 做研究——这些工具的记忆,全在我这一台电脑里、我这一个账号下。 我离职的那天,这些"记忆"会一起带走。 我升级的那天,这些"记忆"重新清零。 我和同事协作的时候,这些"记忆"根本传不出去。 写到这你会发现,个体效率的提升,在组织层面是不可累加的。 每个员工都是一个孤岛,每个孤岛上都有一座小工厂,但岛和岛之间没有桥。 更多洞见请阅读下文↓

译红杉AI Ascent 2026闭门峰会提出,“长周期智能体”将成为2026年的商业定义。但这引发了“AI生产力悖论”:尽管Cursor、Claude、NotebookLM等AI工具显著提升了个人效率,但这些工具的“记忆”绑定于个人账号和设备,无法迁移、共享或在团队间累积。因此,个体效率的提升难以转化为组织层面的生产力增益,每个员工都像一座座彼此孤立的“信息孤岛”。

Alibaba Cloud@alibaba_cloud · 5月22日82

Qwen3.7-Max is now live on Model Studio with 50% OFF (May 22–June 22)! Flagship Coding Agent Performance. Engineered for reliable, multi-step software execution with minimal human intervention. 🚀 Try it: https://int.alibabacloud.com/m/1000413314/

译Qwen3.7-Max现已登陆Model Studio,限时五折(5月22日至6月22日)! 旗舰级编程智能体性能。专为可靠、多步骤的软件执行而设计,最大限度减少人工干预。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/

Qwen@Alibaba_Qwen · 5月22日66

👀👀

译近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

Qwen@Alibaba_Qwen · 5月22日77

⚡️⚡️

译⚡️⚡️ [引用 @OpenRouter]:来自 @Alibaba_Qwen 的全新 Qwen3.7-Max 已在 OpenRouter 上线。 作为 Qwen3.7 系列的旗舰模型,专为以智能体为中心的工作而构建:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较 Qwen3.6 有显著提升,并支持显式的提示缓存以处理重复上下文。

Berryxia.AI@berryxia · 5月22日67

麻蛋,我昨天刷到SenseNova 6.7 Skills Agent的直播 AJ他们直接管这玩意儿叫“牛马人套装”(😄文末白嫖)。 今天刚到酒店,闲着也是闲着,就顺手丢了个AI大模型市场调研报告给它跑。 结果一跑就是1个半点儿了…😭 还没完。 我盯着后台看,它真在一家一家网站爬数据、整理表格、生成MD文件。 得亏现在是公测阶段免费的,要不然真的我还怕给我搞破产了。 下一步是可以直接出报告PPT的,我晚点给大家同步看看效果如何。 要去薅羊毛的赶紧去,我想你肯定不是最后一个知道的。 他们的CodingPlan 现在显示免费😄 低调~~注意轻点啊~~xdm 地址评论区见👇🏻:

译用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。

向阳乔木@vista8 · 5月22日71

虽然我已从字节离职一年多,但飞书还是我认为最好用的工作平台,现在也是最适合连接各种AI工具的平台。 最近我发现Zara (@zarazhangrui ) 开源了一个超好用的工具,直接把你本地的 Claude Code 变成飞书机器人。 这样,手机上用飞书就能随时Claude Code对话,完成各种复杂任务。 昨天我就在AI产品蝗虫群分享,体验过的都觉得棒,安装指令如下: npx -y lark-channel-bridge@latest start 体验后,几点印象深刻: ① 能把收到的飞书消息转给Claude Code处理,真正的“AI工作助理”。 ② 飞书支持可交互卡片,不仅内容渲染好,也支持按钮点击等操作,比打字对话简单多了。 ③ AI 生成的图片、文件等,在飞书对话直接显示,不像在终端需要自己点击链接查看。 ④ 飞书聊天记录支持全量搜索,Claude Code上下文压缩也不怕。 还有很多功能设置,比如消息回复方式,工具调用是否显示等,让人很有掌控感。 不多说,强烈推荐自己试试,零差评,必须给Zara点赞!

译前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

Berryxia.AI@berryxia · 5月22日37

兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报设计Agent。 你直接对话就可以生成,现在是为了避免白嫖怪直接1 刀解锁,好像可以生成100 张图? 我没有记错的话,限时一周。 👇地址见评论区~

译一位创作者分享了其开发的通用AI海报提示词,适用于产品、人文、科技、展会等多个领域,但因使用复杂,部分用户难以驾驭。为此,他在Bloome平台将这套方法封装成一个海报设计Agent。用户现在可通过自然对话快速生成高质量海报,无需复杂提示词操作。工具设置了1美元的付费门槛以过滤免费滥用,该费用可解锁约100次生成额度,且该优惠可能限时一周。

Alibaba Cloud@alibaba_cloud · 5月22日15

Agent-Native Infra Forum | Qwen Conference 2026 Re-architecting the cloud stack for autonomous intelligence. Join the session at Sands Expo Singapore to unlock the hardware, memory, and scaling infrastructure built for agents. 👉 Secure your seat now: https://click.qwencloud.com/m/20000000190/

译Agent-Native Infra Forum | Qwen Conference 2026 为自主智能重构云技术栈。加入在新加坡金沙会展中心举办的会议,探索专为智能体打造的硬件、内存与扩展基础设施。 👉 立即预约席位:https://click.qwencloud.com/m/20000000190/

meng shao@shao__meng · 5月22日66

VSCode 团队介绍 Agent-First Development 的五大支柱 1. Model —— 选择思考的深度 模型不是"越大越好",而是"匹配任务"。 Copilot 提供 Low / Medium / High / Auto 四档思考深度: · Low:补全、改名、格式化等机械任务,追求延迟 · Medium:常规功能开发,平衡速度与质量 · High:架构设计、复杂 bug、跨文件重构,宁可慢也要对 · Auto:让系统按任务复杂度自动调度 真正的认知是:思考深度是有成本的(时间、token、用户耐心)。Agent-First 的成熟用户会主动为任务"挑档位",而不是默认全开 High。 2. Harness —— Agent 的行动边界 Harness 指 Agent 能做什么、不能做什么的运行环境。Copilot Chat 面板就是 harness,它决定了 Agent 是"嘴上说说"还是"动手执行"。 三种模式构成了一个渐进信任阶梯: · Ask:只对话,不动文件 - 探索、问问题、学习代码 · Plan:列出步骤,等你批准 - 方案讨论、风险大的改动 · Agent:自主规划、执行、迭代 - 方向明确、需要落地的任务 关键洞察:从 Ask → Plan → Agent 是从"我主导"到"它主导"的权力让渡。强行一上来用 Agent 模式做模糊任务,等于让一个不了解情况的人替你做决定——失控是必然结果。 3. Context —— Agent 的"视野" 模型本身不知道你的代码库。Context 是它做对事的前提。 Copilot 获取 context 的方式分两类: · 自动:搜索 workspace、读取相关文件 · 手动(更可靠):用 # codebase、# file、# fetch 显式指定 这是最容易被低估的一环。多数"Agent 改坏了代码"的案例,根因不是模型不行,而是它根本没看到关键文件就开始猜。显式提供 context 不是冗余,是控制变量。 4. Prompt —— 意图的精度 Prompt = 目标 + 约束 + 验收标准。 "帮我加个登录功能" 和 "在 auth/ 目录下用现有的 SessionService 实现邮箱登录,复用 LoginForm 组件,错误信息走 toast,不要引入新依赖" 得到的结果完全不同。 专业用户的 prompt 通常包含: · 要做什么(goal) · 在哪里做(scope) · 不能做什么(constraints) · 怎么算完成(acceptance) 模糊的输入只能换来通用的输出。 5. Tools —— Agent 的"手" Tools 是 Agent 实际能调用的能力:读文件、跑命令、搜索、调 API、跑测试…… Tools 越多越强,但也意味着爆炸半径越大。Agent-First 的纪律是: · 给它需要的工具,不给不必要的工具 · 危险操作(删库、推 main、改 prod 配置)应当显式审批 · 工具链应可观测——Agent 跑了什么命令、改了什么文件,必须可见可回滚 整体框架:五个旋钮,而不是五个步骤 结果差 = f(模型档位错 × 载体模式错 × 上下文缺失 × 提示模糊 × 工具不够/太多) Agent-First Development 的本质是承认一件事:写代码的主体正在从"人 + 编辑器"变成"人 + Agent + 编辑器"。人的角色从"打字员"转向"模型选择者、上下文提供者、意图定义者、边界设定者"。 VS Code Learn 系列视频 https://www.youtube.com/playlist?list=PLj6YeMhvp2S4l1_iP4-pS6p7lgyqKo-Ix

译VSCode团队提出Agent-First Development框架,核心理念是开发主体从“人+编辑器”转向“人+Agent+编辑器”,人的角色转变为选择模型、提供上下文、定义意图和设定边界。五大支柱为:模型(匹配任务深度,按需选择思考档位)、执行边界(从问答到自主规划的渐进信任模式)、上下文(显式提供关键信息以避免错误)、提示(需清晰包含目标、范围与约束)与工具(能力需可控、可审计)。该框架旨在系统化指导人与AI代理高效协作开发。

Elon Musk@elonmusk · 5月22日73

Grok progress

译Grok 进展 Grok Imagine Agent Mode 现已在 Grok iOS 应用上推出。 借助 Agent Mode,你可以生成: • 跨代际一致的角色 • 同一角色的多场景画面 • 不同的镜头角度和环境 • 更具电影感和连贯性的叙事视觉效果 这是角色一致性和 AI 生成叙事方面的一次重大升级。 现在就在 Grok iOS 应用中尝试吧。

歸藏(guizang.ai)@op7418 · 5月22日60

小红书可以直接上传 Skill 了,这个太屌了,感觉是个很大的事件。

AYi@AYi_AInotes · 5月22日57

宝子们,压箱底的8套神级 Prompt开源了啦,至少价值上万! 覆盖工作、生活、学习、副业等所有场景,文章最后还有宝藏彩蛋喔🎁 1️⃣KERNEL-X 终极动态专家系统(助我3个月从0-1涨粉到3万+的王炸系统) 2️⃣HE COMPILER IDENTITY (全栈编译器人格) 3️⃣唯一需要的Vibe Coding提示词 4️⃣Naval Ravikant分身(决策神器,哲学/人生Prompt) 5️⃣AI工作流程专家系统提示词 6️⃣认知挖掘提示词 7️⃣深度研究报告Prompt 8️⃣神级反思Prompt 用上之后你会从眉头紧锁的焦虑到豁然开朗,就像视频的这样👇

译本次分享开源了8套被称作“神级”的Prompt模板,宣称总价值超过万元。这些模板覆盖了工作、生活、学习、副业等多领域场景,包括KERNEL-X、AI工作流专家、深度研究等具体系统,旨在帮助用户提升效率、解决实际问题,实现从焦虑到豁然开朗的状态转变。

AYi@AYi_AInotes · 5月22日64

http://x.com/i/article/2057668634579714048 # 说实话,这个问题我自己想了大半年,从 2023 年开始关注 AI,到现在也三年了 这三年我自己也算个小样本:一个人维护账号、一个人写稿、一个人跑业务。AI 工具确实把我变成了一个"准团队",效率提高十倍不止。但最近半年,我反过来观察那些真的有团队的朋友,发现一个很拧巴的现象。 一句话概括叫:个体在飞,组织在塌。 每个人都在用 ChatGPT、Claude、Gemini、Cursor,每个人都说自己快了十倍, 但整个团队凑在一起,产出反而比两年前还慢。 这事儿明显是不对劲的。 我一直在琢磨它到底卡在哪儿,前两天 MIT 斯隆刚发的那份 2026 AI 采用报告,给了我一个最直观的答案。 ## 一、95% 这个数字,比想象的还要扎心 MIT 那份报告里有一组数据:95% 的企业 AI 投入,没有产生任何可衡量的业务回报。 我说实话,看到这个我也懵了。 不是 50%,也不是 70%,竟然高达 95%。 也就是说,一百家公司里九十五家——花了钱、买了工具、培训了员工,最后拿不出一个能写进财报的数字。 你可能会想:是不是这些公司用得不对?是不是模型还不够强? 我翻来覆去想了很久,都不是。 真正的瓶颈是另一件事——报告里还有一个被很多人忽略的数据:超过 30% 的团队时间,花在了重建别人早就拥有的上下文上。 什么意思?我给你们描述一个场景,看看是不是有些眼熟: 一个决策三个月前就拍板了,今天复盘的时候,谁也找不到当时的讨论记录。 一个产品问题每天在用户群里被问 20 遍,每个运营都要从头复制粘贴一遍答案。 一个新人入职,要花一个月时间,从散落在飞书、企微、邮件、语雀里的碎片中,拼凑出"这家公司到底怎么运作"。 呐,这就是真相。 AI 没让组织变快,因为组织本来就没有记忆,AI 只是把这件事放大了。 ## 二、为什么个体的红利吃不到组织头上 我给这个现象起了个名字,叫 "AI 生产力悖论"。 它的本质是这样的: AI 工具是装在每个个体身上的外挂,比如我用 Cursor 写代码、用 Claude 写稿、用 NotebookLM 做研究——这些工具的记忆,全在我这一台电脑里、我这一个账号下。 我离职的那天,这些"记忆"会一起带走。 我升级的那天,这些"记忆"重新清零。 我和同事协作的时候,这些"记忆"根本传不出去。 写到这你会发现,个体效率的提升,在组织层面是不可累加的。 每个员工都是一个孤岛,每个孤岛上都有一座小工厂,但岛和岛之间没有桥。 这就是为什么前几天红杉 AI Ascent 那场闭门峰会,150 个顶级创始人聊了 6 小时,最后给 2026 年下了一个新定义——"长周期智能体的商业元年"。 红杉合伙人 Pat Grady 有句话我记了好几天: > 下一轮 AI,卖的不是工具,而是收益。 听起来像是供给侧的判断,但我自己琢磨完之后,觉得这话翻译过来其实是在说需求侧: 客户已经不要工具了,因为工具买回来都装在个体身上,提升不了组织指标。 你给我十个 ChatGPT 账号没用,我要的是我们公司从昨天到今天,每一次对话、每一个决策、每一份反馈,都能被沉淀下来、被检索到、被复用。 可一旦想到这里,问题就来了: 再聪明的智能体,如果不知道你的组织在想什么,它就只是一个聪明的傻瓜。 它能写出完美的文案,但写不出你品牌调性的那一句, 它能回答所有通用问题,但答不出"我们产品上周那个 bug 到底修没修", 它能给你一份漂亮的市场分析,但不知道你三个月前已经否过这个方向。 扯远了哈哈,我想说的是,问题从来不在模型,问题在组织没有给模型一个能学习的地方。 ## 三、有一类产品正在做这件事,但还远没到救世主的程度 聊到这儿,我必须诚实地说一个点, 这个赛道里已经有一些产品在尝试,但坦率地说,没有一家解决了所有问题。 我自己最近在看的一个例子,是两天前刚拿了 300 万美元种子轮的 Lucius,Future Capital Discovery Fund 领投。这是创始人赵赫的第三次创业,前两次都死在了同一个地方,用户连文档都不愿意写。 他这次的思路有点意思:既然人不愿意写文档,那就让 AI 自己听、自己学、自己沉淀。 具体怎么做的?我看了一下他们的机制,大概是这样一个闭环: 用户在群里问一个问题 → AI 先用已有知识回答 → 如果答不上来,自动建任务给运营 → 运营回答之后,AI 把这个答案结构化存进知识库 → 下次同类问题,AI 自己处理。 没有 prompt 要写,没有规则要配。它像一个新来的实习生,坐在群里听着,慢慢学。 早期用户的数据是:社区自解析率从 29% 涨到 88%,运营每天花在重复回答上的时间从 3 小时降到 20 分钟。 但这里我要泼一盆冷水,它还不能处理高价值客户的复杂咨询,不能生成或执行代码,本质上还是一个"高频重复场景的减负工具"。 它核心做的是把最浪费时间的那 30% 标准化重复工作切出去,不是替代你整个团队。 你不能指望它接管你的业务,但可以让你的团队不再被同一个问题问 20 遍。 这就够了吗?我觉得对很多小团队来说,这样其实够了, 但对追求"全自动 AI 公司"的幻想来说,还远远不够。 所以我对 Lucius 的态度是——它是一个有趣的样本,不是终点。 毕竟这个赛道才刚刚开始,未来一年会冒出来一堆类似的"组织记忆层"产品,谁能跑出来还不一定。 这个是官方 Discord 社区,大家可以去体验:https://discordhunt.com/en/servers/lucius-lab-1484054485020966956 刚上线 Lucius 提供限免(400 次 actions),大家如果自己有社区的话也可以试用! ## 四、真正想说的一件事 乱糟糟说了这么多,有点乱, 但我想说的核心其实就一句话:未来赢家不是模型最强的公司,而是组织记忆最深的公司。 这句话我想了很久才敢写下来,因为它意味着,过去三年我们花在"找最强模型"上的精力,可能用错了方向。 模型每三个月就更新一次,护城河浅得可怜。 但一个公司沉淀了两年的对话、决策、反馈、品牌声音——这东西没法被复制,也没法被快速追赶。 所以如果让我给三类人一句话建议,那我想说这些: 对创业者: 不用 all in 最前沿的模型,去找一个垂直场景,把"组织记忆"做厚,这样就算模型在变,但组织记忆是会产生复利的。 对管理者: 别再给员工买更多 AI 工具了,先想想你的团队有没有一个地方,能把每一次对话沉淀下来。 没有这个底座,买再多工具都是在加速混乱。 对像我这样的个体: 哪怕你只是一个人,也开始建你自己的 Context Layer 吧。 你的项目笔记、你的客户对话、你的写作素材——这些是你未来 5 年最值钱的资产。 写到这里,说实话这件事我自己也还没完全想清楚。 我自己也还在用着十几个 AI 工具,也还在不停地把同一个想法在不同的地方重复输入,也还经常找不到三个月前那个我自以为记得的洞察。 所以这篇不是一篇"我懂了你跟着学"的教程,这是我作为一个 AI 时代的从业者,写给同样在迷雾里摸索的你的一封信。 如果你也感觉到了那种"个体在飞、团队在塌"的拧巴,那我们就是同路人。 咱们慢慢来,一起琢磨。 (本文基于 MIT 2026 AI 采用报告、红杉 AI Ascent 2026 闭门峰会纪要与近期行业动态综合写成,Lucius 只是文中提到的一个例子,不构成任何推荐。) 📌 觉得有用的话,欢迎点个赞 / 转发和关注,我将持续跟大家分享优质实用的AI洞见。

译本文指出当前AI应用存在一个“生产力悖论”:个人使用AI工具效率大幅提升,但组织整体效能却未同步增长。核心原因在于,组织普遍缺乏有效的“记忆系统”,导致大量时间(据MIT报告超30%)被消耗在重复构建上下文中,使个体提升的效率无法在组织层面累加与沉淀。MIT报告显示,高达95%的企业AI投入未产生可衡量回报。作者认为,未来竞争的关键不在于使用最强的AI模型,而在于构建最深厚的“组织记忆”,将对话、决策等资产系统化沉淀,这比单纯追求工具本身更为重要。

歸藏(guizang.ai)@op7418 · 5月22日73

Codex 昨晚发布史诗级更新,体验爆炸提升! 其中快捷截图添加上下文和内置浏览器高级注释的功能太有用了。 你只需要同时按住左边和右边的 Command 键,它就会把你当前鼠标所在位置的窗口全部截下来,然后自动填入到 Codex 的输入框里。 它这个截图不只是你当前窗口的这个位置,而且它会把屏幕上没有的文本,也都填入到上下文里。 然后 /goal 这个功能已经正式上线到 Codex App 了。 这个功能更猛,你只要给它一个目标,它就会一直执行直到完成任务。这个过程可能持续几小时甚至几天时间。 而且你还可以:随时更改它的目标和引导、随时暂停,等你需要的时候继续执行。 如果你按下这个斜杠命令以后,没有出现这个可选项的话,你需要去它的 config 文件里改一下这个指令,它就能开启。 具体方式是:在 config.toml 中启用 features.goals goals = true 应用内浏览器也变得非常快和流畅。它有一个高级注释模式,可以让你在评论元素的同时去修改这些元素,甚至可以直接编辑。 这个可太爽了!你比如说用了我的 PPT Skills 以后,你觉得这个字太小或者里边的文字不对,你就可以直接编辑这个文字,而不用让 Codex 去帮你编辑。 还有一个是团队共享插件。在团队版本中,现在可以给你的团队成员批量安装插件了,目前该功能支持 Business 用户使用。

译Codex发布重要更新,核心提升在于上下文获取与任务自动化。新推出的“Appshots”功能,通过同时按住左右Command键,即可截取当前窗口并将屏幕内外的可见与不可见文本一并自动填入对话,极大简化背景提供流程。已正式上线的“/goal”功能支持设定长期目标,Codex可持续自主执行数小时至数天,且允许中途调整与暂停。此外,应用内浏览器速度提升,并新增可直接编辑页面元素的高级注释模式。团队版本则新增了批量安装插件的功能,提升了协作效率。

宝玉@dotey · 5月22日76

如何在 Codex App 使用 /goal 的简单说明: 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令: > codex features enable goals 或者手动修改 ~/.codex/config.toml [features] goals = true 3. 开头输入 /goal,或者点 + 弹出菜单中选择 4. 开始后,输入框上方可以暂停、编辑、删除

译OpenAI宣布Codex的/goal模式已结束实验,成为稳定功能。用户可在Codex应用、IDE扩展或CLI中使用,通过设定具体里程碑,让AI持续工作直至完成,任务可运行数小时甚至数天。过程中支持随时检查、调整方向及暂停。使用前需升级应用并启用该功能(可通过命令行指令或手动修改配置文件实现)。开启后,可在输入框管理任务,并利用侧边对话查看进度而不中断主任务。该功能旨在高效处理各类复杂任务。

Alibaba Cloud@alibaba_cloud · 5月22日76

Qwen3.7-Max is now live on Novita AI! Alibaba Cloud and Novita are teaming up to bring you the latest model built for the Agent Era. Now go build something wild 🚀

译阿里云与Novita AI达成合作,在Novita AI平台首发推出Qwen3.7-Max模型,标志着双方共同推进Agent时代的发展。该模型专为智能体时代设计,强调从“回答”到“执行”的能力跃升。核心优势包括:强大的代码生成与软件工程工作流能力;可靠的智能体编排与多智能体系统协作能力;支持长周期、自主化的复杂任务执行;且具备框架与技术栈无关的兼容性,可适配多种主流开发环境。

宝玉@dotey · 5月22日14

同问: 执行 /goal 的过程中,达到限额了,等 5 小时限额恢复了,任务能自动继续?还是需要人手动输入“continue”继续?

译一条科技推文探讨了AI任务执行中的中断恢复问题。核心疑问是:当执行/goal类任务时遇到5小时的运行时间限制,等待限额恢复后,任务是否会自动继续,还是需要用户手动输入指令(如“continue”)来重新激活。引用部分显示,此前已有其他用户就同一场景(针对/goal任务)向开发者提问“限额到了能恢复吗”,表明该问题受到持续关注。讨论聚焦于AI任务连续性机制及用户交互方式。

Greg Brockman@gdb · 5月22日73

codex for using all apps on your computer from your phone

译Codex让你通过手机使用电脑上的所有应用 [引用 @AriX]:又一个:今天我们发布了Codex中的远程计算机使用功能! 这意味着你可以通过Codex Mobile使用Mac上的所有应用,即使你的电脑在家且处于锁定状态。 这有点神奇。

meng shao@shao__meng · 5月22日70

OpenAI Codex 「疯狂星期四」更新又来了 😄 玩笑,是 Codex 团队约定的每周四做一次更新,这也符合「不在周五」上线的潜规则。。一起看看 Codex 又有哪些实用的更新。 https://developers.openai.com/codex/app 1. 远程 Mac 控制(最重磅) Codex 现在能从手机安全控制你的 Mac,即使 Mac 处于锁屏 + 屏幕关闭状态也能运行。 实现真正“无人值守”操作。用户可在床上、路上通过手机下达指令,让 Mac 继续工作(代码、自动化任务等)。 官方演示:锁屏界面显示“Codex is Using Your Mac”,强调安全与权限控制。 2. Appshots(屏幕上下文直达) 将 Mac 屏幕内容直接捕捉并注入 Codex 上下文(App + 界面状态)。 极大提升任务连续性,无需反复描述当前界面或上传截图。AI 能“看见”你正在做什么,实现更自然的交互。 3. Goal Mode(目标模式) 支持长时间自主执行(数小时至数天)。用户设定明确目标,Codex 持续推进,直到完成或达到可验证标准。 可用范围:Codex App、IDE 插件、CLI 均支持。 使用建议: · 目标需具体、可衡量(如“完成 JavaScript 到 TypeScript 迁移 + 严格模式编译通过”)。 · 支持暂停/恢复、侧边聊天监控进度、实时纠偏。 从“即时响应”转向“长期智能体”,适合复杂工程任务。已验证单目标运行超 100 小时的案例。 4. Advanced Annotation Mode(高级标注模式) 在网页/App 上直接视觉调整样式,同时给出反馈,Codex 据此迭代。 设计/前端协作更直观,像“实时共同编辑”一样工作。

译OpenAI Codex推出周四常规更新,本次重点功能是远程Mac控制:用户可通过手机安全操作处于锁屏状态的Mac,实现“无人值守”执行任务。同时新增Appshots功能,可直接捕捉屏幕上下文注入对话。新增的Goal Mode支持数小时至数天的长期自主执行,标志着Codex从即时响应工具向长期智能体的转变。此外,高级标注模式提升了前端协作的直观性。

Huawei Cloud@HuaweiCloud1 · 5月22日50

The Huawei Intelligent Finance Summit 2026 (HiFS 2026) was held at Shanghai, gathering global financial industry leaders and experts for in-depth dialogue on AI-driven digital transformation in finance. As we move into the intelligent era, Huawei provides fully cloud-based compute, storage, and networking, amplified by system-level software-hardware synergy, to form a resilient financial foundation. On this foundation, we are building a financial-grade AI agent enablement platform that supports a broad range of models and use cases, powering the leap to intelligent finance. Learn more: https://tinyurl.com/wtkm3n5c #HuaweiCloud

译华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。

meng shao@shao__meng · 5月22日67

一起看看 Cursor 团队内部最常用的 Skills thermo-nuclear-code-quality-review,一位苛刻的代码质量审计员,它的设计目标是:在 PR 合并之前,识别那些"能跑、但让代码库变得更糟"的改动并拒掉它们。 在这安装 @cursor_ai Team Kit: https://cursor.com/marketplace/cursor/cursor-team-kit 四条核心审计原则 1. 删除复杂性,而不是搬运复杂性 重构的常见反模式是把一坨复杂逻辑从 A 文件挪到 B 文件,调用栈变深,但总复杂度没降甚至上升。该 skill 要求改动产生净简化,而非位置转移。 2. 阻止超过 1000 行的文件 硬性上限。超过 1k 行的文件几乎必然意味着职责不清、难以测试、难以并行修改。这是一条"宁可错杀"的工程红线。 3. 标记薄包装层和泄漏的逻辑 · Thin wrappers:只是转发参数、没有实质行为的函数/类,徒增间接层。 · Leaked logic:本该封装在某层的业务规则散落到了调用方,破坏边界。 4. 拒绝"能工作但让代码更乱"的 PR 这是最关键的一条立场:功能正确 ≠ 可以合并。维护性是一等公民,与功能性同等重要。 两阶段、父子 Agent 协作的运行机制 阶段 1 — 父 agent 准备上下文(并行) · 一个 shell 子 agent 执行 git diff <base>...HEAD(默认 base 为 main) · 一个 explore 子 agent 抓取所有变更文件的完整内容 阶段 2 — 调用审计 agent 父 agent 把上面两份产物组装成带 ### Git / diff output 和 ### Changed file contents 两个标注段落的 prompt,传给 thermo-nuclear-code-quality-review 子 agent 执行审计。 这个设计有几个值得注意的点: · 审计 agent 本身不做信息收集,输入是结构化的、确定的,避免它在探索阶段被噪声干扰。 · 禁止嵌套子 agent(除非显式要求),强制单次、聚焦的判断。 · 只评判 diff 中看得见的东西,但当改动触及模块边界时要追踪跨文件影响——这避免了"只见树木"的局部审查。 Rubric 的兜底逻辑 Skill 明确写了一个 fallback:如果 cursor-team-kit 插件不在,就退化为一次"严厉的可维护性审计",目标对齐: · 大胆简化(ambitious simplification) · 文件不无故膨胀超过 ~1k 行 · 不容忍随手加 if/else 让分支无序增长 · 显式类型与边界 · 规范的分层(canonical layers)

译Cursor 团队内部广泛使用的代码审查技能“thermo-nuclear-code-quality-review”,其核心目标是在代码合并前,拦截那些“能运行但会使代码库变糟”的提交。它基于四条硬性原则:强制实现复杂度净简化而非转移、限制单文件不超过1000行、标记无用的封装与散落的逻辑、坚持维护性与功能同等重要。该技能采用父子Agent两阶段协作机制:父Agent并行收集结构化差异与文件内容,再交由审计Agent进行单次、聚焦的严格评判。即使插件未安装,也会触发一套对齐上述原则的可维护性降级审计。

OpenAI@OpenAI · 5月22日62

Highlights from today’s Codex Thursday launches: 1️⃣ Codex can now securely use apps on your Mac from your phone, even when your Mac is locked and the screen is off. http://developers.openai.com/codex/app/computer-use#locked-use

译今日Codex周四发布亮点: 1️⃣ Codex现可通过手机安全使用Mac上的应用,即使Mac处于锁屏且屏幕关闭状态。

Berryxia.AI@berryxia · 5月22日49

早上刚睁眼,你还没来得及刷通知和邮件。 Gemini 已经主动把今天最该关注的内容,整理成一份简短清晰的 Daily Brief 发给你。 它会扫描你的邮件、日程和最新动态,挑出真正重要的事项,告诉你今天该把精力放在哪里。 你边喝咖啡边看这份清单,就已经对一天的重点心里有数。 这功能现在对 Google AI Plus、Pro 和 Ultra 用户开放,美国地区先上线。 牛马们需要邮件助理嘛😂

译Google Gemini上线Daily Brief功能,能在早晨主动扫描用户的邮件、日历与最新动态,提炼出当日需优先处理的事项,生成一份简洁的待办清单,帮助用户快速把握全天重点。该功能目前面向Google AI Plus、Pro和Ultra用户在美国地区开放。

Berryxia.AI@berryxia · 5月22日61

兄弟们,刚刚刷到牛逼好用的Bloome 终于正式上线了。 真好用,强推荐~ 👍 视频做的好牛逼,真替Bloome Team高兴。 整个产品的设计细节打磨,迭代都是非常细腻。 也是我见过刷版最狠的,几乎每天都有更新。 当然你遇到Bug 可以直接@我 我来帮你们反馈迭代哈哈 这是第一个把人类和AI Agent放在同一个群聊里的消息应用,它们可不是简单的工具,更像是一个队友。 Multi-Agent · One Room 设计理念… 你加Agent的方式和加同事一样:拉前端Agent进来,拉后端Agent进来,它们已经在同一个聊天里,已经在同一个bug上协作。 以前找主题、写初稿、编辑润色,通常要三个人、三条聊天、三天时间。 现在?三个Agent,一个聊天,搞定。 这已经不是“让AI帮我干活”了,而是“让AI和人类一起在同一个房间里干活”。 目前只有1000个邀请码,先到先得。 官网地址:http://bloome.im 也可以给我薅点羊毛使用我的链接~ 给你送$5 😁见评论区~

译Bloome正式上线,定位为首款将人类与AI Agent置于同一群聊的消息应用。其核心设计是Multi-Agent One Room,即多个AI Agent与人类用户共同在同一个“房间”内协作,如同添加同事一样将不同职能的Agent拉入对话。产品强调AI Agent作为队友而非工具,能共同处理任务(如协作修复Bug、完成写作流程),显著提升协作效率。目前仅开放1000个邀请码,产品迭代更新速度快。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月23日
09:30
ginobefun@hongming731
39
#BestBlogs 早报 05-23 今日主题: - Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027); - Notion 以爵士乐队模式和哑铃型人才重新创业(Ivan Zhao × Sequoia) - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例(智谱 × TileRT)
智能体推理行业动态
09:30
ginobefun@hongming731
61
AI应用新趋势:架构分化、组织重构与性能突破

LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

智能体AnthropicOpenAI推理
08:14
Google Gemini@GeminiApp
87
Gemini升级:用户超9亿,推出智能代理功能

谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

智能体Google产品更新多模态
关联讨论 19 条Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
06:57
Rohan Paul@rohanpaul_ai
44
每个智能体都需要人类。智能体离实际操作的人类越远,表现就越差。 尽管AI能完成专家级的人类工作,但它实际上增加了对人类专家的需求。
智能体大佬观点
06:37
ClaudeDevs@ClaudeDevs
精选69
自动模式的两项更新: · 现已在Pro计划中提供 · 现已支持Sonnet 4.6,以及Opus 4.7 按下Shift+tab,让Claude运行。
智能体Anthropic产品更新编码
关联讨论 1 条X:Boris Cherny (@bcherny)
推荐理由:Claude Code的auto mode从专属功能下放至Pro计划,并且首次支持Sonnet 4.6,这意味着更多开发者能用更低的成本尝试自动代理编程,Sonnet 4.6的编码能力在实战中究竟如何,现在可以直接测试了。
04:05
Artificial Analysis@ArtificialAnlys
58
Cursor Composer 2.5在成本与效率上实现突破性优势

基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。

智能体编码评测/基准
03:49
小互@xiaohu
74
一种轻量化的Codex远程服务器配置方案。无需安装完整版应用,仅需在远程服务器上安装并运行CLI版Codex。执行`codex remote-control`命令后,手机端ChatGPT应用内的Codex功能即可发现并连接该服务器,远程体验与完整版无异。两种配置在应用内通过不同图标("终端"与"电脑")进行区分。

Oasis Feng: 其实远程服务器上并不需要安装一个完整版的 Codex app,只需要安装 CLI 版的 Codex,并运行: codex remote-control 这样手机上 ChatGPT 应用里的 Codex 就会显示出一个有「终端」图标的服务器名...

智能体OpenAI教程/实践编码
01:50
elvis@omarsar0
69
学习AI的最佳方式是通过构建智能体来实践。 为此,我们推出了实践实验室和关于智能体工程的新系列。 首个主题:智能体技能。 后续计划:规划、上下文工程、多智能体系统、长期运行智能体等。 开始构建吧!
智能体教程/实践
01:20
elvis@omarsar0
67
这才是正道。 价格仅为原价的四分之一! 用 DeepSeek-V4-Pro 构建的智能体功能已经令人印象深刻,所以这简直是开发者的最佳消息。

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

智能体DeepSeek行业动态
01:15
Google AI@GoogleAI
同事件精选70
谷歌I/O大会发布AI代理全套开发工具链

谷歌在I/O开发者大会宣布,系统性构建面向AI代理(Agent)的开发与部署工具链。核心更新包括:独立桌面应用Antigravity 2.0及其命令行工具、SDK面世;Google AI Studio新增Kotlin支持,可一键开发安卓应用并发布,同时推出移动端App。此外,Gemini API推出托管代理服务,实现一键部署;WebMCP作为开放标准在Chrome 149中推出,允许网页向代理暴露工具;Chrome DevTools也开放给AI代理以自动化调试。企业级客户可直接连接Google Cloud项目,而DeepMind的科学技能包则加速特定领域研究。此举标志着谷歌正全面打造从开发、接口到部署的完整AI代理生态系统。

智能体Google产品更新编码
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google把今年I/O的Agent相关更新打包放出,Antigravity 2.0从IDE变桌面应用、AI Studio能直接做Android App,对Google生态开发者是必读速览。
01:05
SemiAnalysis@SemiAnalysis_
精选82
智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据,发现中位数并非3.2万或6.4万,而是9.6万输入token。作为参考,这意味着在你输入问题之前,模型已处理了超过《了不起的盖茨比》全文长度的文本。(1/3)🧵
智能体推理现象/趋势编码

推荐理由:SemiAnalysis 用 43 万次真实编码请求数据揭开了 Agent 推理经济学的真面目,中位输入 9.6 万 token 这个数字足够反直觉,所有做推理服务和模型定价的人都得重新算了。
00:07
Replit ⠕@Replit
45
大多数氛围编码应用会忘记每个打开它们的用户。 用一条提示让 Replit Agent 修复它!💻 今天就尝试为你的应用添加认证功能吧!
智能体产品更新编码
5月22日
23:56
Chubby♨️@kimmonismus
54
AI平台Polsia在创始人Ben主导下完成3000万美元融资,估值达2.5亿美元。该公司采用"创始人+AI"模式,无需雇员即可自主运营商业实体,目前年化营收已近1000万美元,服务超7600家企业。Polsia甚至自主完成了本次融资流程,创始人仅需签署文件。这种完全由AI驱动的商业运营模式展现了快速增长的态势。

Ben Cera: Polsia just raised $30M at a $250M valuation. Approaching $10M annual run rate. One Founder + AI. Zero employees. Polsia...

智能体行业动态
23:37
🚨 AI News | TestingCatalog@testingcatalog
51
错过了吗?Imagine Agent现已登陆Grok iOS版! 你试过了吗?👀
智能体xAI产品更新多模态
22:56
Chubby♨️@kimmonismus
60
让数据库变得简单的团队现在为AI智能体做了同样的事情

Airtable团队推出Hyperagent平台,为每个会话提供完整云端环境,包括浏览器、Shell和代码执行能力,支持用户无本地设置即可快速构建AI智能体,并可部署到Slack等工作平台实现自动化工作流。Airtable资金超10亿美元,已服务80%的财富100强企业。其“创始500”计划为500位创始人提供2万美元推理信用额度,总投入1000万美元,旨在推动“智能体优先”创业趋势,押注自主、主动的AI智能体将成为未来企业核心驱动力。

Howie Liu: We're giving away $10,000,000 to founders building agent-first businesses. Autonomous, proactive agents will run tomorro...

智能体产品更新
19:30
歸藏(guizang.ai)@op7418
73
开源一个 Skill,让 AI 接管你屏幕边那张便签纸

AI Desk Card 是一款 4.7 寸磁吸墨水屏,结合 AI Agent(如 Claude Code),通过预置模板与数据填充,动态显示日历、待办、GitHub PR 队列、天气等内容。它解决了传统便签纸的静态限制,实现内容自适应和场景切换(如夜间变为电子名片)。核心理念是将硬件从固定功能中解放,使显示能力由 AI 可获取的信息动态定义,从而提升效率并减少手动配置。

智能体开源/仓库教程/实践端侧
19:16
AYi@AYi_AInotes
61
2026或成长周期智能体元年,AI效率为何难累加?

红杉AI Ascent 2026闭门峰会提出,“长周期智能体”将成为2026年的商业定义。但这引发了“AI生产力悖论”:尽管Cursor、Claude、NotebookLM等AI工具显著提升了个人效率,但这些工具的“记忆”绑定于个人账号和设备,无法迁移、共享或在团队间累积。因此,个体效率的提升难以转化为组织层面的生产力增益,每个员工都像一座座彼此孤立的“信息孤岛”。

AYi: http://x.com/i/article/2057668634579714048

智能体大佬观点
18:50
Alibaba Cloud@alibaba_cloud
82
Qwen3.7-Max现已登陆Model Studio,限时五折(5月22日至6月22日)! 旗舰级编程智能体性能。专为可靠、多步骤的软件执行而设计,最大限度减少人工干预。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
智能体模型发布编码
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:19
Qwen@Alibaba_Qwen
66
近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

atomic.chat: Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...

智能体推理评测/基准
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:19
Qwen@Alibaba_Qwen
77
⚡️⚡️ 【引用 @OpenRouter】:来自 @Alibaba_Qwen 的全新 Qwen3.7-Max 已在 OpenRouter 上线。 作为 Qwen3.7 系列的旗舰模型,专为以智能体为中心的工作而构建:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较 Qwen3.6 有显著提升,并支持显式的提示缓存以处理重复上下文。

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:16
Berryxia.AI@berryxia
67
SenseNova AI Agent实测:自动跑报告,免费薅羊毛

用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。

智能体MCP/工具教程/实践
17:19
向阳乔木@vista8
71
飞书开源工具接入Claude Code,移动端AI助理体验升级

前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

智能体MCP/工具开源/仓库
17:16
Berryxia.AI@berryxia
37
万能提示词太麻烦?他做了个对话式海报生成Agent

一位创作者分享了其开发的通用AI海报提示词,适用于产品、人文、科技、展会等多个领域,但因使用复杂,部分用户难以驾驭。为此,他在Bloome平台将这套方法封装成一个海报设计Agent。用户现在可通过自然对话快速生成高质量海报,无需复杂提示词操作。工具设置了1美元的付费门槛以过滤免费滥用,该费用可解锁约100次生成额度,且该优惠可能限时一周。

智能体产品更新图像生成
15:50
Alibaba Cloud@alibaba_cloud
15
Agent-Native Infra Forum | Qwen Conference 2026 为自主智能重构云技术栈。加入在新加坡金沙会展中心举办的会议,探索专为智能体打造的硬件、内存与扩展基础设施。 👉 立即预约席位:https://click.qwencloud.com/m/20000000190/
智能体行业动态
15:46
meng shao@shao__meng
66
VSCode Agent-First Development五大支柱解析

VSCode团队提出Agent-First Development框架,核心理念是开发主体从“人+编辑器”转向“人+Agent+编辑器”,人的角色转变为选择模型、提供上下文、定义意图和设定边界。五大支柱为:模型(匹配任务深度,按需选择思考档位)、执行边界(从问答到自主规划的渐进信任模式)、上下文(显式提供关键信息以避免错误)、提示(需清晰包含目标、范围与约束)与工具(能力需可控、可审计)。该框架旨在系统化指导人与AI代理高效协作开发。

Microsoft Developer: The @code team released a new Introduction to Agent-First Development series. It breaks down these 5 pillars behind grea...

智能体Microsoft教程/实践编码
15:44
Elon Musk@elonmusk
精选73
Grok 进展 Grok Imagine Agent Mode 现已在 Grok iOS 应用上推出。 借助 Agent Mode,你可以生成: • 跨代际一致的角色 • 同一角色的多场景画面 • 不同的镜头角度和环境 • 更具电影感和连贯性的叙事视觉效果 这是角色一致性和 AI 生成叙事方面的一次重大升级。 现在就在 Grok iOS 应用中尝试吧。

X Freeze: Grok Imagine Agent Mode is now available on Grok iOS app With Agent Mode, you can generate: • Consistent characters acro...

智能体xAI产品更新图像生成

推荐理由:Grok Imagine Agent Mode把角色一致性从「抽卡」变成可控流程,做故事板、漫画创作的可以立刻上手,虽然目前仅限iOS,但这一步方向很对。
15:30
歸藏(guizang.ai)@op7418
60
小红书可以直接上传 Skill 了,这个太屌了,感觉是个很大的事件。
智能体MCP/工具产品更新
15:14
AYi@AYi_AInotes
57
8套价值上万的神级Prompt模板开源分享

本次分享开源了8套被称作“神级”的Prompt模板,宣称总价值超过万元。这些模板覆盖了工作、生活、学习、副业等多领域场景,包括KERNEL-X、AI工作流专家、深度研究等具体系统,旨在帮助用户提升效率、解决实际问题,实现从焦虑到豁然开朗的状态转变。

AYi: http://x.com/i/article/2057300084354670592

智能体教程/实践编码
14:14
AYi@AYi_AInotes
64
AI生产力悖论:个体在飞,组织在塌

本文指出当前AI应用存在一个“生产力悖论”:个人使用AI工具效率大幅提升,但组织整体效能却未同步增长。核心原因在于,组织普遍缺乏有效的“记忆系统”,导致大量时间(据MIT报告超30%)被消耗在重复构建上下文中,使个体提升的效率无法在组织层面累加与沉淀。MIT报告显示,高达95%的企业AI投入未产生可衡量回报。作者认为,未来竞争的关键不在于使用最强的AI模型,而在于构建最深厚的“组织记忆”,将对话、决策等资产系统化沉淀,这比单纯追求工具本身更为重要。

智能体其他大佬观点
12:30
歸藏(guizang.ai)@op7418
73
Codex 昨晚发布史诗级更新,体验爆炸提升!

Codex发布重要更新,核心提升在于上下文获取与任务自动化。新推出的“Appshots”功能,通过同时按住左右Command键,即可截取当前窗口并将屏幕内外的可见与不可见文本一并自动填入对话,极大简化背景提供流程。已正式上线的“/goal”功能支持设定长期目标,Codex可持续自主执行数小时至数天,且允许中途调整与暂停。此外,应用内浏览器速度提升,并新增可直接编辑页面元素的高级注释模式。团队版本则新增了批量安装插件的功能,提升了协作效率。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体OpenAI产品更新编码
12:13
宝玉@dotey
精选76
OpenAI Codex /goal功能正式发布及使用指南

OpenAI宣布Codex的/goal模式已结束实验,成为稳定功能。用户可在Codex应用、IDE扩展或CLI中使用,通过设定具体里程碑,让AI持续工作直至完成,任务可运行数小时甚至数天。过程中支持随时检查、调整方向及暂停。使用前需升级应用并启用该功能(可通过命令行指令或手动修改配置文件实现)。开启后,可在输入框管理任务,并利用侧边对话查看进度而不中断主任务。该功能旨在高效处理各类复杂任务。

OpenAI Developers: 🥅 /goal has graduated from an experiment-for tasks big and small, Codex gets your work done. Use goal mode in the Codex...

智能体OpenAI教程/实践编码

推荐理由:Codex的goal模式从实验毕业,意味着你可以真的放手让AI去跑长时间任务,做开发的不用再守在电脑前,这是agent落地的真信号。
10:49
Alibaba Cloud@alibaba_cloud
76
阿里云与Novita AI达成合作,在Novita AI平台首发推出Qwen3.7-Max模型,标志着双方共同推进Agent时代的发展。该模型专为智能体时代设计,强调从"回答"到"执行"的能力跃升。核心优势包括:强大的代码生成与软件工程工作流能力;可靠的智能体编排与多智能体系统协作能力;支持长周期、自主化的复杂任务执行;且具备框架与技术栈无关的兼容性,可适配多种主流开发环境。

Novita AI: 🚀 We're launching Qwen3.7-Max from @AlibabaGroup on Novita AI as a Day-0 launch partner. Built for the Agent Era - wher...

智能体模型发布
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
10:43
宝玉@dotey
14
一条科技推文探讨了AI任务执行中的中断恢复问题。核心疑问是:当执行/goal类任务时遇到5小时的运行时间限制,等待限额恢复后,任务是否会自动继续,还是需要用户手动输入指令(如"continue")来重新激活。引用部分显示,此前已有其他用户就同一场景(针对/goal任务)向开发者提问"限额到了能恢复吗",表明该问题受到持续关注。讨论聚焦于AI任务连续性机制及用户交互方式。

benny: @dotey 这个goal对于5h限额到了, 能恢复吗

智能体其他
10:35
Greg Brockman@gdb
73
Codex让你通过手机使用电脑上的所有应用 【引用 @AriX】:又一个:今天我们发布了Codex中的远程计算机使用功能! 这意味着你可以通过Codex Mobile使用Mac上的所有应用,即使你的电脑在家且处于锁定状态。 这有点神奇。

Ari Weinstein: Another one: today we released Remote Computer Use in Codex! This means you can use all the apps on your Mac from Codex ...

智能体OpenAI产品更新
10:13
meng shao@shao__meng
70
Codex周四更新:可远程控制锁屏Mac,支持长期自主执行

OpenAI Codex推出周四常规更新,本次重点功能是远程Mac控制:用户可通过手机安全操作处于锁屏状态的Mac,实现“无人值守”执行任务。同时新增Appshots功能,可直接捕捉屏幕上下文注入对话。新增的Goal Mode支持数小时至数天的长期自主执行,标志着Codex从即时响应工具向长期智能体的转变。此外,高级标注模式提升了前端协作的直观性。

OpenAI: Highlights from today's Codex Thursday launches: 1️⃣ Codex can now securely use apps on your Mac from your phone, even w...

智能体OpenAI产品更新
09:38
Huawei Cloud@HuaweiCloud1
50
华为展示AI驱动金融变革新图景

华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。

智能体行业动态部署/工程
08:42
meng shao@shao__meng
67
一起看看 Cursor 团队内部最常用的 Skills

Cursor 团队内部广泛使用的代码审查技能“thermo-nuclear-code-quality-review”,其核心目标是在代码合并前,拦截那些“能运行但会使代码库变糟”的提交。它基于四条硬性原则:强制实现复杂度净简化而非转移、限制单文件不超过1000行、标记无用的封装与散落的逻辑、坚持维护性与功能同等重要。该技能采用父子Agent两阶段协作机制:父Agent并行收集结构化差异与文件内容,再交由审计Agent进行单次、聚焦的严格评判。即使插件未安装,也会触发一套对齐上述原则的可维护性降级审计。

eric zakariasson: the most used skill internally at cursor right now /thermo-nuclear-code-quality-review - deletes complexity instead of m...

智能体教程/实践编码
08:38
OpenAI@OpenAI
62
今日Codex周四发布亮点: 1️⃣ Codex现可通过手机安全使用Mac上的应用,即使Mac处于锁屏且屏幕关闭状态。
智能体OpenAI产品更新
关联讨论 4 条X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:Berry Xia (@berryxia)
08:13
Berryxia.AI@berryxia
49
Gemini推出Daily Brief,早间一键梳理今日重点

Google Gemini上线Daily Brief功能,能在早晨主动扫描用户的邮件、日历与最新动态,提炼出当日需优先处理的事项,生成一份简洁的待办清单,帮助用户快速把握全天重点。该功能目前面向Google AI Plus、Pro和Ultra用户在美国地区开放。

Google Gemini: Get a head start on your day with Daily Brief. Gemini can now proactively flag what matters most in an easily digestible...

智能体Google产品更新
08:13
Berryxia.AI@berryxia
61
首款人类与AI Agent共处的群聊应用上线

Bloome正式上线,定位为首款将人类与AI Agent置于同一群聊的消息应用。其核心设计是Multi-Agent One Room,即多个AI Agent与人类用户共同在同一个“房间”内协作,如同添加同事一样将不同职能的Agent拉入对话。产品强调AI Agent作为队友而非工具,能共同处理任务(如协作修复Bug、完成写作流程),显著提升协作效率。目前仅开放1000个邀请码,产品迭代更新速度快。

Bloome: Bloome is officially live. The first messaging app where humans and AI agents share the same group chat - as teammates, ...

智能体MCP/工具产品更新
‹ 上一页
1…3738394041…50
下一页 ›