AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3057 条
全部一手资讯X论文
标签「Agent」清除
SiliconFlow@SiliconFlowAI · 5月13日69

Run DeepSeek V4, GLM-5.1, Kimi K2.6 and more on @SiliconFlowAI directly in VS Code with @continuedev: Tab autocomplete, AI chat & edit, and agent support Here's how to set it up in 3 steps 🧵⬇️

译通过@continuedev在VS Code中直接运行DeepSeek V4、GLM-5.1、Kimi K2.6等多款模型@SiliconFlowAI 支持标签自动补全、AI对话编辑和智能体功能 以下是3步设置指南 🧵⬇️

Alibaba Cloud@alibaba_cloud · 5月13日55

What if AI characters could remember, empathize & proactively engage? ✨ The future of interactive AI is here. Whether you're building for games, virtual AI companions, or adaptive learning, Qwen-Character powers immersive role-play experiences that drive 50%+ deeper engagement and boost user LTV 👉 See how it works in the full video: https://int.alibabacloud.com/m/1000412855/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

译如果AI角色能够记忆、共情并主动交互会怎样?✨ 互动AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能提供沉浸式角色扮演体验,推动参与度加深50%以上并提升用户生命周期价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412855/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

Berryxia.AI@berryxia · 5月13日31

AI Agent 得记忆科普是让铁锤讲明白了,看完后身心愉悦,后背从此不再发凉。

译AI Agent 得记忆科普是让铁锤讲明白了,看完后身心愉悦,后背从此不再发凉。 [引用 @lxfater]:http://x.com/i/article/2054390427139383296

Peter Steinberger 🦞@steipete · 5月13日48

Codex was debugging a Telegram issue and needed a new token, so it used Peekaboo to open the Telegram Mac app, talked to botfather and just did it. Computer Use is amazing. https://peekaboo.sh

译Codex在调试Telegram问题时需要新令牌,于是使用Peekaboo打开Telegram Mac应用,联系botfather并完成了操作。 计算机应用令人惊叹。https://peekaboo.sh

歸藏(guizang.ai)@op7418 · 5月13日59

很多模型厂商开始发现开源 Agent 框架和客户端的价值。 大家都开始要么补贴客户端本身,要么补贴客户端用户。 但是我觉得还有一个非常重要的盲点。 就是像藏师傅、宝玉、乔木、一泽这种头部的 Skills 开发者。他们的 Skills 装机量其实非常大,遍布各种 Agent。 无论是从数据、用户反馈,还是从打广告这种商业价值来说,潜力都非常大。 目前大家都没有把这条线重视起来,没有一个合适的合作方式给这些开源 Skills 开发者提供好的框架或商业化路径,去回馈这些开发者,并同时帮助自己的产品提高知名度。 我觉得这是非常可惜的。因为这些 Skills 的装机量远比各种 Agent 框架和客户端更大,而且它们的传播也更广。

译当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。

Baidu Inc.@Baidu_Inc · 5月13日62

Robin proposed Daily Active Agents (DAA) as a defining metric for the agent era, a counterpart to DAU in the mobile internet era. While token consumption reflects cost more than value, DAA brings the conversation back to output. As Robin noted, to measure the health of a platform or ecosystem, more attention should be paid to the DAA metric — the number of agents actively working and delivering results.

译Robin提出将日活跃智能体(DAA)作为智能体时代的定义性指标,相当于移动互联网时代的日活跃用户数。 虽然令牌消耗更多反映成本而非价值,但DAA让讨论回归产出本质。 正如Robin所指出的,衡量平台或生态系统健康度时,应更关注DAA指标——即积极工作并交付成果的智能体数量。

Tencent Hy@TencentHunyuan · 5月13日76

Hy3 preview is now on @gmi_cloud. 🙌

译Hy3 预览版现已登陆 @gmi_cloud。🙌

歸藏(guizang.ai)@op7418 · 5月13日62

谷歌昨天安卓 I/O 大会最大的跟 AI 相关的发布,是发布了 Gemini Intelligence 会先在三星 Galaxy 和 Pixel 手机上推出,后面会拓展到其他所有类型的安卓设备。 具体功能上,首先它可以帮你自动完成在多个 App 上操作的繁琐任务,而且可以跨多个软件去操作。 比如你备忘录里有一堆购物清单,然后你可以让它直接把这些清单加到购物车里。 安卓的 Chrome 浏览器可以自动帮你操作浏览器去检索内容和总结内容,也可以帮你填写表单之类的。 他们在新推出了一个语音输入功能,叫 Rambler,它可以自动将你的口语转换成文本语言,去掉一些语气词并重新排版,而且支持多语言混用。 最显眼的是它支持你通过自然语言去生成你想要的任何桌面小组件。 比如说你可以让它生成一个每周推荐食谱的小组件,它就会自定义 AI 帮你生成,然后固定到你的桌面上。 或者说你只关心某些天气的属性,比如说风速和降雨,然后它就会自动生成一个只有这些数据的桌面组件。 这个功能我在去年六七月的时候跟一个 AI 创业者提过,结果到现在谷歌自己出了。 而且他们这次还发布了  Material 3 Expressive 的设计语言,跟苹果的液态玻璃区别挺大的。 它会在没有交互的时候是实体的边界,非常明显的分隔线,就是组件边界。 在 AI 开始交互的时候,组件的边界会发生虚化和高斯模糊,非常的漂亮。

译谷歌在I/O大会上发布Gemini Intelligence,将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机,并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务(如在备忘录与购物应用间同步清单),以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本,并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件,如定制食谱或特定天气数据组件。此外,全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果,提升视觉体验。

Qwen@Alibaba_Qwen · 5月13日61

🚀Qwen3.6-Plus is on Nous Portal now and FREE for a limited time. Hermes Agent, here we go!! ⚡️ @NousResearch

译🚀Qwen3.6-Plus现已登陆Nous平台,限时免费使用。 Hermes Agent,我们来了!!⚡️ @NousResearch

宝玉@dotey · 5月13日57

1. Skills 是技能,领域知识,工作流等等,相当于怎么干好一件事的说明书。 比如 https://github.com/anthropics/claude-for-legal 仓库里有个 skill 叫 nda-review,在 commercial-legal/skills/ 文件夹里。里面是一份 SKILL.md,写清楚:审 NDA 时先比对哪些条款、按团队 playbook 打绿黄红三档、什么情况要升级、输出格式是 Word 修订模式。 它就是一份给 Claude 看的工作手册,本身不干活。 2. Agent 是真正执行任务的主题,除了主要执行的 Agent,通常自定义的 Agent 分两种:Subagent 和 Scheduled agent 2.1 Subagent 是单独派出去干一摊子活的“分身” 举个仓库里的例子:corporate-legal:tabular-review 这个 skill 要对一个数据室里几百份合同做表格化尽调。如果让主对话一份份读,上下文很快爆掉。所以它派 subagent,一个 subagent 负责一份文档,并行跑,最后把结果汇总回主对话。 主 Agent 看到的只是最终表格,中间几百次读取的信息被隔离在外。 2.2 Scheduled agent 是定时自己跑的后台任务 renewal-watcher 这个就是。每周自动扫一遍合同库,把 90 天内到期的合同列出来,发到指定 Slack 频道。你不用记日子,它替你盯。 docket-watcher(盯法院案件动态)、reg-feed-watcher(盯监管新规)都是这种。 3. MCP connector 是把外面的数据接进来的连接器 Skill 写得再好,也得有合同可审。仓库里配了 Ironclad(合同库)、DocuSign(已签合同)、iManage(文档管理)几个 MCP connector。 Agent 通过这些 MCP connector 去读公司真实的合同库,而不是让你手动复制粘贴。 类似地,诉讼那个 plugin 接的是 Everlaw(电子取证)、CourtListener(联邦法院判决数据库)、Trellis(州法院数据库)。换个执业方向,换一套数据连接器。 4. Plugin 是把上面这些打包到一起的容器 commercial-legal 这个 plugin 文件夹里装着: - 一堆 skill(nda-review、vendor-agreement-review、escalation-flagger……) - 几个 scheduled agent(renewal-watcher、deal-debrief) - 一份 .mcp.json,告诉 Claude 要连哪些外部系统 - 一份 CLAUDE.md 模板,用来记你团队的 playbook 你装上这一个 plugin,整套企业合同审查的能力就一次性配齐了。

译Claude通过四大组件实现自动化任务:Skill是领域工作流指南(如nda-review),指导操作但不执行;Agent是执行主体,Subagent用于并行处理子任务,Scheduled agent则定时自动运行(如合同到期监控);MCP connector连接外部数据源(如合同库),使Agent能访问真实数据;Plugin将上述组件打包,提供完整功能集(如commercial-legal plugin实现企业合同审查)。这些组件共同协作,使Claude能高效处理复杂工作流。

swyx 🌉@swyx · 5月13日55

increasing levels of autonomy: /skill: preset prompts /plan: human-refined inputs /goal: AI-evaluated outputs

译自主性分级提升: /技能:预设提示词 /规划:人工优化输入 /目标:AI评估输出

ginobefun@hongming731 · 5月13日71

构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 大多数 Agent 教程的终点是一个无状态的聊天机器人,容器一重启,什么都忘了。但真实的企业工作流不可能在一次 API 调用里完成。HR 入职流程跨越两周,发票纠纷要等供应商回复几天,销售跟进序列拉开一个月。这些流程被大量「空闲等待」主导,无状态架构天然无法应对。 Google 博客通过一个「新员工入职协调 Agent」实例,展示了三项让 Agent 从 Demo 走向生产的架构转变。 第一项是持久化状态机。不再靠对话历史追踪进度,而是定义显式的状态 schema:START、WELCOME_SENT、DOCUMENTS_SIGNED、IT_PROVISIONED、HARDWARE_DELIVERED、COMPLETED,六个明确节点。Agent 每次唤醒,从 session state 而非聊天记录里读取当前位置。这彻底解决了三个无状态架构的致命问题:对话历史在数百轮后充满过期噪音(上下文污染)、每次推理都要重放完整历史(token 成本爆炸)、长时间空闲后恢复时模型幻觉出从未发生过的中间步骤(推理幻觉)。 第二项是事件驱动休眠门控。Agent 在等待人工签字时不再主动轮询,而是挂起自身,等到外部事件(如文件签署通知)到达后才被唤醒。零资源占用,不会因为长时间等待而消耗 token 或算力。 第三项是多 Agent 委托。IT 账号配置这类专项任务,交给独立的 IT 子 Agent 完成,主 Agent 只负责协调和状态推进。这避免了单体 Agent 提示词膨胀,也让各子任务可以独立优化。 完整示例代码已放在 GitHub 上。这套架构的核心洞察是:Context 与 State 解耦,才是 Agent 从实验室走进生产环境的关键一步。

译Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。

ginobefun@hongming731 · 5月13日76

Codex 的 computer use 演示视频:OpenAI 展示新的 AI 队友能力 OpenAI 为 Codex 引入了 Computer Use 能力,让这个 Agent 从操作代码文件,扩展到操作本地 GUI 应用。这个挺值得关注的:AI Agent 的行动空间,延伸到了开发者日常使用的所有桌面软件。 这次演示最突出的一个设计决策,是 Codex 拥有自己的独立光标。它在后台运行,不会接管用户的鼠标或键盘,用户可以继续自己的工作,同时 Codex 在旁边完成配置虚拟机、播放 Spotify、添加日历提醒等任务。过去的 GUI 自动化工具通常会独占整个显示器,这个设计让 AI 助手真正成为并行工作的「队友」而不是「接手者」。 技术架构采用了两种模态的混合方案。视觉模态通过截图让模型「看见」界面,以坐标为单位点击;无障碍框架则通过系统 API 提取 UI 元素的文字描述,包括当前滚动出屏幕的内容。对速度敏感的任务,Spark 模型只依赖无障碍数据而不做图像处理,可以达到「超人速度」完成消息发送或调试操作。 安全层面,Codex 采用了逐应用的权限授权机制。在用户明确允许之前,Codex 对任何应用都完全不可见,无法访问、无法操作。这个设计让敏感数据的隐私得到了结构性保护。 目前 Computer Use for Codex 已在 Mac 上可用,Windows 支持即将推出。 https://youtu.be/D_FCYsshMI4

译OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。

meng shao@shao__meng · 5月13日57

Computer Use 让 Codex 从「编程 Agent」向「通用桌面 Agent」又迈进了一大步! OpenAI 开发者关系负责人 @romainhuet 和 Codex Computer Use 主导者 @AriX 的对谈,重点讨论了 Computer Use 带来的变化。 这也是我最近对 Codex 和所有 Agents 最为满意的功能,现在用它来做自动化测试,后台并行、不抢占 Mac,有自己的光标,能看屏幕、点击、输入,几乎任何 Mac 应用(即使没有 API)都成为可被自动化的对象——尤其覆盖了前端调试、UI 走查、设计工具操作等长期空白地带。 关于 Ari Weinstein 还想多介绍一下,他的经历很传奇: 从 iOS 越狱社区出身,做出 Workflow → 被苹果收购成为 Shortcuts → 创办 Sky → 被 OpenAI 收购,如今在 OpenAI 主导 Codex Computer Use。他的职业主线,一直就是「让普通人和 AI 能直接驱动一台电脑」。

译OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行,通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序,即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心,从开发被苹果收购的Workflow(现Shortcuts)到如今在OpenAI推动智能体的无缝后台操作,持续拓展人机交互边界。

凡人小北@frxiaobei · 5月13日58

Google 之前是产品力不行,现在想象力也堪忧😮‍💨

译Google发布名为“Googlebook”的新产品,其核心是构建一个以Gemini为中心的AI Laptop平台,而非传统操作系统。关键创新在于将Gemini深度集成到鼠标指针中,使其能主动理解屏幕内容并提供操作建议。这标志着交互逻辑的根本转变:从“人打开应用并操作功能”的传统模式,转向“AI理解上下文并主动组织操作”的新范式。

Alibaba Cloud@alibaba_cloud · 5月13日65

The future of AI is agent-native. Excited to kick off this journey together with Hermes Agent and the @NousResearch community. Qwen 3.6 Plus is now FREE for a limited time on Nous Portal — give it a try. ⚡

译AI的未来是智能体原生的。 很高兴能与Hermes Agent及@NousResearch社区共同开启这段旅程。 Qwen 3.6 Plus现于Nous Portal限时免费——快来尝试吧。⚡

ginobefun@hongming731 · 5月13日57

http://x.com/i/article/2054356653437562880 # AI Agent 落地三问:代码本质、长流程状态、GUI 操控 · BestBlogs 每日早报 05.13 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief EP55 · 2026 年 5 月 13 日 > 从演示 Agent 到生产 Agent,最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面:Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询,让长流程 Agent 永不丢失上下文;小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈,发现执行自动化只解决一半问题,业务理解才是核心;PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节,说明 Scale 数量才是 Infra 真正的考题。 ## 导语 今天是 5 月 13 日,星期三。欢迎收听 BestBlogs 每日早报第 55 期。 LLM 让生成代码这件事变得廉价,但真正让工程师有价值的能力——对问题域的深度建模——并没有被替代。今天三篇精读,分别从「代码的本质」、「长流程 Agent 架构」和「GUI 操作 Agent」三个维度,探讨 AI Agent 从 Demo 走向生产的关键挑战。 精讲一来自 Martin Fowler 博客,Thoughtworks 首席工程师 Unmesh Joshi 追问:代码究竟是什么?他的答案直指 LLM 时代开发者的核心竞争力。当 LLM 把「打字生成代码」这件事商品化之后,真正稀缺的变成了什么?这个问题比大多数人想象的更深。 精讲二来自 Google Developers Blog,用一个「新员工入职协调 Agent」的完整实现,展示了三项让 Agent 从 Demo 走向生产的关键架构转变——持久化状态机、事件驱动休眠门控、多 Agent 委托。这是目前最完整的开源参考实现之一。 精讲三来自 OpenAI,演示了 Codex 的 computer use 功能——AI Agent 正式迈入「操控本地 GUI」的新阶段。用独立光标、不接管用户电脑,在后台并行处理多个桌面任务。 速览部分,我们还关注了:小红书 GUI Agent 测试工程实战(执行自动化解决一半,业务理解才是另一半)、PingCAP TiDB 为 Kimi K2.6 提供虚拟数据库支持、Anthropic CLUE 威胁检测平台、Claude 法律行业版 20+ MCP 连接器、吴恩达对 AI 就业影响的系统性分析、Agent Skill 规范与五种设计模式,以及当前最紧迫的供应链安全事件——Mini Shai-Hulud 蠕虫侵入 172 个 npm/PyPI 包,删包后仍存活。 ## 精讲一:什么是代码? 代码是什么?表面上看,答案显而易见——代码就是程序员写的、告诉机器做什么的指令。但 Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者 Unmesh Joshi 在 Martin Fowler 博客上的这篇文章里,对这个问题给出了一个更深刻、也更有预见性的答案。 代码承载两个使命,正在被分别对待 Joshi 认为,代码始终同时服务于两个目的: 第一,给机器的指令——让计算机执行操作、移动数据、协调计算。这部分,正在被 LLM 商品化。你不再需要逐字敲出每一行代码,高层次的描述就能生成大量可运行的代码。LLM 在这个维度上的能力提升速度,比大多数人预期的快得多。 第二,问题域的概念模型——这是代码的「设计」维度。一个优秀的代码库,不只包含机器能执行的指令,还包含人和工具能用来推理的概念。类名、方法名、模块边界——这些构成了一套共享的词汇表,让团队能够用同一种语言思考和沟通。这个维度,目前还没有被 LLM 真正替代。 词汇表是核心,领域知识是护城河 Joshi 举了一个零售域的例子:当我们为零售业写代码,代码里出现的是「顾客」、「商品」、「订单」、「发货」、「支付」。当我们为这个域做 Web 开发时,代码里还有「资源」、「GET/POST/DELETE 语义」这套 Web 词汇的映射。 一个不懂这两套词汇体系的人,写出来的代码架构会有根本缺陷——即使机器能正确运行,也无法经受需求变化的冲击,也无法让团队在未来高效地在上面继续工作。 这套词汇体系,就是领域驱动设计(DDD)里的「通用语言」(Ubiquitous Language)。它不是凭空生成的,而是在与领域专家深度合作、在无数次设计决策中逐渐形成的。LLM 可以模仿词汇,但无法替代构建词汇体系的过程——因为那个过程本质上是对业务现实的深度理解和提炼。 AI 时代,稀缺技能正在转移 当「打字生成代码」变得廉价,真正稀缺的技能是: - 为问题域构建精准的概念模型——什么是核心实体?它们之间的关系是什么? - 设计清晰的词汇体系和有界上下文——在哪里「顾客」和「用户」应该是同一个概念,在哪里它们必须分开? - 在人与 LLM 的协作中保持概念的一致性——如何确保 LLM 生成的代码使用了正确的领域词汇,而不是创造了新的混乱? Joshi 的结论很简洁:在 AI 时代,工程师应该主动提升的是建模能力,而不是打字速度。 与今日其他精读的关联 这个视角与今天精讲二、三形成了一个有趣的呼应:精讲二的 ADK 长流程 Agent,核心挑战就是为工作流建立精确的状态模型(把「入职流程」建模为六个明确节点);精讲三的 Codex computer use,需要 AI 对 GUI 界面的功能语义有正确理解(通过 Accessibility 框架提取 UI 元素的文字描述)。无论是人写代码还是 Agent 编排任务,「准确的概念模型」都是核心约束。 这篇文章不长,但它在 LLM 渗透开发工作流的当下,给了开发者一个非常清醒的定位框架。如果你正在思考「AI 会取代程序员吗」,或者想理解自己在 AI 时代应该投资什么能力,这是最值得认真读的一篇。 阅读原文:什么是代码? ## 精讲二:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 大多数 Agent 教程都止步于一个无状态聊天机器人——对话结束、容器重启,什么都忘了。但真实的企业工作流不是这样的。 HR 入职流程跨越两周,发票争议需要等待供应商回复好几天,销售跟进序列可能延续一个月。这些流程的主角,是漫长的「空闲等待」——Agent 需要在等待人类签字、物流确认、审批通过的过程中静静休眠,然后准确地从中断点继续。一个无状态聊天机器人根本无法应对这种挑战。 Google Developers Blog 上的这篇教程,用一个「新员工入职协调 Agent」展示了三项将 Agent 从 Demo 推向生产的关键架构转变。 无状态 Agent 为何在真实工作流中崩溃 当前主流的无状态模式,是把每条用户消息和模型回复追加到不断增长的对话历史里,然后把整个历史塞给下一次 LLM 调用。这对五分钟的问答没问题,但在跨天、跨周的工作流里会以三种方式失败: - 上下文污染:经过数百轮对话,历史里充满了过时的工具输出和无关闲聊,模型开始搞混自己在哪个步骤。 - Token 成本爆炸:把两周的对话历史在每次推理时完整重放,Token 消耗极高,一次入职流程可能产生数千轮对话,大多数对当前决策不再相关。 - 空闲期后的幻觉:Agent 在等待签字期间休眠三天后,带着大量历史上下文重启,频繁「记起」从未发生过的步骤,或跳过它以为已完成的环节。 解决方案不是更大的上下文窗口,而是一种根本不同的架构——让 Agent 的状态变得显式、持久、并与原始对话历史解耦。 三项关键架构转变 转变一:持久化状态机替代对话历史 教程把入职流程建模为六个明确的节点: 1. 发送欢迎包和文件链接 1. 等待 — 员工签署文件(空闲等待) 1. IT 配置企业邮箱和 Slack 账号 1. 等待 — 笔记本电脑发货(空闲等待) 1. 发送个性化第一天日程 每个节点对应一个明确的状态,Agent 任何时候重启,都能从状态机精确定位自己在哪里,完全不依赖对话历史。状态是持久化的,存储在可靠的后端(本地是 SQLite,云端是托管存储),不随进程生死而消失。 转变二:事件驱动休眠门控 「等待签字」不再是让 Agent 主动轮询「文件签好了吗?」,而是设置一个事件门控——文件签署事件到达时,Agent 自动唤醒并从正确节点继续。休眠期间零资源占用,没有 Token 消耗,也没有定期唤醒导致的幻觉风险。这与传统的 Webhook/异步任务队列的思路一致,但被系统性地集成进了 ADK 的 Agent 生命周期管理中。 转变三:多 Agent 委托 IT 账号配置这类子任务,委托给专门的 IT 子 Agent 独立完成,主 Agent 只负责协调,不负责执行细节。子 Agent 可以独立运行、独立失败、独立重试,不会拖累整个主流程。这让整个系统更易于维护、测试和扩展——每个 Agent 的职责边界清晰,与微服务的设计理念一脉相承。 核心洞察:Context 与 State 解耦 这篇教程的核心洞察是:把 Context(对话历史,给 LLM 理解当前对话语境用)与 State(工作流状态机,给系统定位当前流程节点用)解耦,是 Agent 从 Demo 走向生产的关键一步。这两个东西长期被混为一谈,导致无状态 Agent 在长流程场景下的失败。 完整代码已开源于 GitHub,涵盖 ADK 状态机、事件门控和多 Agent 委托的完整实现,可以直接参考用于自己的生产 Agent。 如果你正在构建任何需要跨小时、跨天运行的 Agent——审批流、数据处理管道、自动化调研任务——这篇教程的架构思路是目前最完整的开源参考之一。 阅读原文:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) ## 精讲三:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 OpenAI 演示的 Codex computer use,标志着 AI Agent 从「生成文本」走向「操作本地 GUI」的重要一步。这次演示由 Ari 和 Roma 共同呈现,核心卖点不是「AI 帮你用电脑」,而是「AI 在后台替你干活,同时你继续干自己的事」。 不接管你的电脑,拥有自己的独立光标 Codex computer use 最大的设计突破,是它拥有独立光标,在后台运行,不会接管用户的 Mac。这一点直接解决了此前 computer use 场景的最大痛点——用户必须放弃电脑使用权,眼睁睁看着 AI 控制屏幕。 在演示中,Codex 同时在做: - 在 UTM 里设置虚拟机 - 在 Spotify 上播放音乐 - 在日历里添加提醒 而演示者继续在前台正常使用电脑。多任务并行,互不干扰——这才是真正意义上的「AI 队友」,而不是「AI 替代你」。 技术架构:视觉 + Accessibility 框架双轨 Codex 准确导航 GUI 的能力来自两套机制的混合: - 多模态视觉(Multimodal Vision):通过截图「看到」界面,按坐标点击。能处理任意 GUI,但速度受限于图像处理延迟。 - OS Accessibility 框架:通过系统可访问性数据,提取 UI 元素的文字描述——理解每个按钮的角色、标签和功能,甚至能看到当前滚出屏幕外的内容。这套机制让 Codex 对 UI 的理解超越了「像素位置」,达到「语义理解」。 对于速度敏感的任务,可以启用 Spark 模型——因为它主要依赖 Accessibility 框架而非图像处理,可以达到「超人速度」,完成消息发送、日历操作或简单调试任务比人工操作还快。 逐应用权限授权:安全边界由用户掌控 安全层面,OpenAI 实现了逐应用权限授权机制:Codex 无法看到或操作任何未经用户显式授权的应用。这意味着: - 未授权应用里的敏感信息对 Codex 完全不可见 - 用户可以精确控制 Codex 能操作哪些工具,不能碰哪些 - 即使 Codex 被输入了恶意指令,影响范围也被限制在已授权应用范围内 这套权限模型比「给 AI Root 权限然后用沙箱隔离」要更细粒度、更符合用户直觉。 可用范围与展望 目前 Mac 用户可以立即体验 Codex computer use,Windows 支持正在路上。OpenAI 的目标,是让 AI 驱动的计算机操作成为日常工作不可或缺的一部分。 结合今天精讲一(代码作为概念模型)和精讲二(长流程状态管理)来看,Codex computer use 代表的是 AI Agent 能力扩展的第三个维度:从处理文本和代码,延伸到直接操控用户界面、完成端到端的计算机任务。三篇精读共同描绘了一个 Agent 能力版图——知识建模、长流程可靠性、GUI 操控——这三个维度正在逐步覆盖真实工作场景的完整闭环。 阅读原文:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 ## 速览 QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾 来源:小红书技术 REDtech 小红书质效研发部在 QCon 北京 2026 分享了其自研 GUI Agent 智能化测试系统的完整工程实践。春节大促期间,106 种设备 × 128 个测试场景全部由 Agent 自动跑,累计执行 4.3 万 + 次,AI 用例生成采纳率达 82%,单用例执行成本 $1,固化脚本回归 Token 消耗趋近 0。核心架构是「分层 + 双 Agent 协作 + Code-as-Action」:探索 Agent 自主执行并生成用例,执行 Agent 负责 CI 回归,执行通过后整段交互自动固化为可重复使用的测试脚本。但文章最值得关注的洞察是:就算把执行 100% 自动化,也只解决了一半问题。测试方案设计占工时 25%,执行占 60%,业务理解、知识积累这些上游工作不解决,「自动化只是把同一台戏台扛在更累的肩膀上」。正在构建 AI 测试系统的团队必读。 Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务 来源:Founder Park PingCAP CTO 黄东旭复盘了 TiDB Cloud 为 Kimi K2.6 Agent 建站服务提供数据库支持的细节。核心挑战不是代码生成,而是 hosting 成本:Kimi 的建站服务中,用户每创建一个网站就需要一个独立的数据库实例,随着用户量增长,这意味着同时维护数千万个数据库实例。TiDB 的解法是虚拟数据库界面——不分配真实数据库实例,底层所有数据共享大型分布式 KV 存储,通过 DB Session Gateway 在逻辑层面「假装」每个 Agent 拥有独立数据库。这个架构让数量 Scale 成为可能,而传统的 Supabase/Neon 式「每用户一个真实实例」在这个量级下成本完全失控。黄东旭的核心判断:Scale 数量才是 Agent Infra 真正的考题。关注 Agent 基础设施的工程师和创业者值得深读。 Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 来源:Claude Blog Anthropic 安全工程师 Jackie Bow 用 Claude Code 构建了威胁检测平台 CLUE,实现告警自动分类、自然语言日志查询和安全调查自动化,显著节省安全工程师时间并减少误报。这是一个典型的「AI 让工程师终于能构建一直想要的工具」的故事——安全领域的数据孤岛(多平台多查询语言)和上下文切换长期折磨着安全工程师,Claude Code 让个人工程师也能快速跨系统构建定制化自动化工具。关注 AI 在内部安全工具和企业场景落地的读者值得一读。 Claude 法律行业版 来源:Claude Blog Anthropic 为 Claude 发布 20+ 个新的 MCP 连接器和 12 个法律行业实践插件,接入法律行业核心技术栈(合同生命周期系统、研究平台、文件管理、电子取证、数据房间等),并在 Microsoft Word、Outlook、Excel、PowerPoint 中原生工作,跨应用保持完整上下文。同时宣布与 Free Law Project、Justice Technology Association 合作推动法律援助普及化。法律专业人士已成为 Claude Cowork 用户中参与度最高的群体,这次扩展标志着 Claude 在垂直行业的深度集成进入加速阶段。关注 AI 行业垂直化落地的读者适合跟进。 吴恩达:AI 不会带来"失业末日",而是"就业狂欢" 来源:Andrew Ng (@AndrewYNg) 吴恩达系统性地驳斥了 AI 将导致大规模失业的说法,援引尽管编码 Agent 发展迅猛、软件工程师招聘依然强劲的真实数据,并分析了「失业末日」叙事盛行的三个结构性原因:前沿 AI 实验室有动机夸大能力(引起关注);AI 公司通过锚定员工薪资来收取更高服务费;企业利用 AI 叙事掩盖疫情后过度招聘的裁员。他类比了历史上的社会性恐慌(核能安全、人口爆炸、膳食脂肪),指出这类恐慌往往导致错误决策。他最终预测将迎来一场「AI 就业狂欢」,但强调劳动力技能升级的迫切性。与今天精讲一的视角互补——一篇谈开发者如何定位能力,一篇谈整体就业趋势。 Agent Skill 规范、构建与设计模式 来源:阿里云开发者 系统梳理 Agent Skill 的规范标准(name/description/compatibility 等 YAML frontmatter 字段)、三层渐进式加载机制(元数据常驻 / SKILL.md 正文触发时加载 / references 按需加载)、模型驱动触发逻辑,并深入解析 Skill-Creator 和 Writing-Skills 两种工程化开发范式及五种设计模式。Skill 规范 2025 年 12 月由 Anthropic 作为开放标准发布,目前已被 33+ 个 Agent 产品采纳,包括 Claude Code、OpenAI Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro 等。对想了解这个开放标准完整体系的开发者,这是难得的中文系统综述。 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 来源:VentureBeat 深度分析 Mini Shai-Hulud 蠕虫攻击——通过有效来源证明(Proof of Provenance)入侵了 172 个 npm 和 PyPI 包(5 月 11 日起),可窃取 AWS Key、SSH 私钥、npm Token、GitHub PAT、HashiCorp Vault Token、Kubernetes 服务账号、Docker 配置,以及 Claude Code 和 Kiro 的 AI Agent 配置(含 MCP Server 认证令牌)。首次在 TeamPCP 攻击中针对 1Password 和 Bitwarden 密码管理器。最危险的特性:删除包之后蠕虫仍然存活——它在 .claude/settings.json 和 VS Code .vscode/tasks.json 中安装持久化机制,在 macOS 安装 LaunchAgent、在 Linux 安装 systemd 守护进程,重启后依然运行。如果在隔离机器前先撤销 Token,Wiz 发现恶意守护进程会擦除整个 home 目录。文章提供了 6 步可执行的企业审计计划,任何使用 npm 的开发团队需要立即检查。 ## 扩展阅读 OpenAI 翁家翌:"启发式学习"的强化学习新范式 OpenAI 研究员翁家翌提出「启发式学习(Heuristic Learning)」新范式:让 coding agent 持续迭代手写规则和程序策略(heuristic),通过看失败、改代码、加测试、看回放的循环,在不训练神经网络、不更新权重的情况下,在 Atari Breakout 等多个强化学习基准任务上达到或超越 Deep RL 的性能。这个范式的核心洞察是:过去 heuristic 不是没用,而是没人养得起;coding agent 改变的是维护成本曲线,让长期拥有可演化规则库成为可能。对强化学习、Agent 自主演化和 Continual Learning 感兴趣的读者值得深读。 Code w/ Claude SF 2026:在 AI 指数级增长之上构建 Anthropic 旧金山开发者大会 Code w/ Claude 2026 的官方回顾:Claude Code 速率限制翻倍、Claude Managed Agents 推出新功能(Dreaming 异步任务、多 Agent 编排、Outcomes 结果跟踪、Webhooks)。核心信息:从想法到生产软件的距离正在缩短,获得最大杠杆的团队是在为 AI 指数级增长做设计,而不是在被动追赶。适合关注 Claude Code 和 Managed Agents 生态动态的开发者和工程团队。 暴跌漩涡中,软件选择主动被大模型"吞噬" 深度分析软件行业正在发生的入口重构:从「用户打开应用」转向「Agent 调用能力」。2026 年 4 月,Notion 发布官方 MCP Server,Adobe 把旗下所有产品重新打包为 Agent Skills 和 MCP 端点,合作伙伴包括 Anthropic、Google Cloud、Microsoft、OpenAI 和 AWS。文章探讨了 Skill、Plugin、MCP 等封装形态的商业逻辑——MCP 是基础设施管道,Skill/Plugin 才是真正体现专业价值的应用层,「更像 AI 时代的 App」。软件股的「SaaSpocalypse」暴跌背景下,这篇提供了一个关于软件行业主动转型逻辑的宏观视角。 AI 时代到底该怎么管一个工程团队 Claude Code 和 Cowork 两条产品线的工程与产品负责人 Fiona Fung 在 Code w/ Claude 2026 大会上分享的工程管理实践。核心判断:过去所有工程流程都基于「写代码很贵」这个假设设计,这个假设现在已经失效,流程必须全面重构。实战细节:技术辩论不再靠白板,而是让 Claude 直接搓出三个 PR 对着代码讨论;所有 PR 都有 Claude 参与,「这段代码是谁写的」这个问题开始失去意义。宝玉翻译整理,内容扎实,适合工程管理者和 AI 原生团队建设者。 ## 今日阅读路径 时间有限?推荐从这三篇开始: 第一优先:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 今天实用性最强的一篇。持久化状态机 + 事件驱动休眠门控 + 多 Agent 委托,这三个架构模式是生产级 Agent 的必要基础。完整代码开源,可以直接参考实现。适合任何正在构建需要跨小时或跨天运行的 Agent 的工程师。 第二优先:什么是代码? 今天认知框架最清晰的一篇。在 LLM 让代码生成变得廉价的当下,明确「代码的概念模型价值」才是开发者定位自己核心竞争力的关键。文章不长,但值得认真读完,不同阶段的工程师都会有不同层次的共鸣。 第三优先:立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 今天最紧迫的一篇。如果你的团队在 5 月 11 日之后安装或导入过任何 npm/PyPI 包,需要立即执行文中的审计步骤。删包后蠕虫仍然存活这一特性,让这次攻击的严重性远超普通供应链事件。 如果还有时间:Codex computer use 的演示值得亲眼看看(精讲三),感受一下 AI 操控 GUI 的当前状态;吴恩达的推文提供了一个关于 AI 就业影响的清醒视角,适合饭后思考;小红书的 GUI Agent 测试实战(速览第一条)则是今天最接地气的工程案例,真实数据完整,对测试工程团队有直接参考价值。 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

ginobefun@hongming731 · 5月13日43

#BestBlogs 早报 2026-05-13 今日主题: - 从演示 Agent 到生产 Agent,最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面:Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询,让长流程 Agent 永不丢失上下文; - 小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈,发现执行自动化只解决一半问题,业务理解才是核心; - PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节,说明 Scale 数量才是 Infra 真正的考题。

译AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。

Berryxia.AI@berryxia · 5月13日69

终于看到了点Google的新东西啊! 就在昨晚👇🏻 Google DeepMind 把 50 年鼠标指针彻底 AI 化了 实验演示:用户现在用手势 + 语音 + 自然简写,直接在屏幕任意位置指挥 Gemini,无需切换 App 或写长 prompt。 体验入口:Google AI Studio :(http://aistudio.google.com/apps/bundled/ai-pointer-create 和 ai-pointer-find),已集成 Chrome Gemini,未来或进 Googlebook。 核心能力拆解: • 指向 PDF 说“生成邮件 bullet points” → 即时输出要点 • 悬停表格说“转成 pie chart” → 自动可视化 • 高亮食谱说“double these ingredients” → 食材翻倍 • 指向涂鸦笔记说“转成 to-do list” 或视频帧说“生成 booking link” 技术细节:Gemini 多模态驱动,指针实时“看见”光标下文字/图片/代码块语义内容,结合 gesture(point/hover)+ speech + shorthand 实现上下文理解。 把 pixels 转成 actionable entities,无需精确指令,模型自动懂“This/That”意图。输出直接作用当前界面。 对 Agent 开发者、UI 设计师和 Gemini 重度用户最友好,标志交互范式从“坐标”到“意图”的升级。

译Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。

Berryxia.AI@berryxia · 5月13日67

这位老哥的,Codex的使用小Tips!👇🏻

译这位老哥的,Codex的使用小Tips!👇🏻 💡 小Codex技巧: 你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

Berryxia.AI@berryxia · 5月13日74

牛逼!Browser Use 今天把“AI agent 即用即走”做到了极致。 BuxFather:Telegram 里直接 Spin up agent,无需任何注册付费,24/7 自主运行 + 自改进,还带 stealth browser。 几下点击就有完整电脑 + 浏览器环境。 这波对重度 Telegram 用户来说真的爽了! https://x.com/browser_use/status/2054330495249564094/video/1

meng shao@shao__meng · 5月13日65

Gemini Intelligence 登陆 Android Google 不再把 Android 仅描述为承载 App 的平台,而是定位为主动型 AI 系统:自动化任务、智能浏览、智能填表、口语成稿、生成式 widget。设备会"先你一步"完成事务,而非被动等待指令。 https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/ 新能力以软硬件深度绑定的方式发布: · 首发设备:今年夏季登陆最新 Samsung Galaxy 与 Google Pixel 手机。 · 后续扩展:年内陆续覆盖 Wear OS 手表、Android Auto、智能眼镜、笔记本。 # 五大核心能力 1. 跨 App 多步任务自动化(App Automation) · 已在 Galaxy S26 与 Pixel 10 上对外卖、打车类 App 做了数月调优。 · 典型场景:抢动感单车前排座位;从 Gmail 找出课程大纲后自动把教材加入购物车。 · 视觉上下文加成:长按电源键即可让 Gemini 读取屏幕内容(例如把笔记里的购物清单一键变成下单),或拍下酒店宣传册说"在 Expedia 找 6 人团类似行程"。 · 控制权设计:仅在用户指令下执行,任务完成即停止,最终下单需用户确认。 2. Chrome 内的 Gemini(6 月下旬上线) · 浏览器助手负责研究、摘要、跨页对比。 · Chrome auto browse 可代办预约、车位预订等流程化操作。 3. 升级版 Autofill(Personal Intelligence 驱动) · 自动填写从"基础便利"升级为"理解上下文"——可跨应用调用相关信息填表,覆盖 Chrome。 · 严格 opt-in:用户主动连接 Gemini,设置中随时可断开。 4. Rambler——语音转"成稿" · 解决 Gboard 语音输入的痛点:口语中的"嗯/啊/重复"。 · 用 Gemini 抓取重点,整理为简洁书面表达。 · 多语种混说:支持单条消息内英语+印地语等混合切换,理解语境。 · 隐私:开启时有明确指示,音频仅实时转写、不存储。 5. Create My Widget——生成式 UI 第一步 · 用自然语言描述即可生成自定义 widget,并可在主屏调整尺寸。 · 例:每周自动生成 3 道高蛋白备餐食谱的 dashboard;只显示风速和降雨的天气卡。 · 同步覆盖 Wear OS 手表。

译Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。

Satya Nadella@satyanadella · 5月13日68

Our new multi-model agentic security system brings together more than 100 specialized agents across frontier and custom models to find exploitable bugs, delivering top performance on the CyberGym benchmark. We used it ahead of Patch Tuesday to help find and fix 16 vulnerabilities. Today we’re announcing that customers can sign up to test it in private preview. https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/?v=1

译微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。

Nathan Lambert@natolambert · 5月13日65

The jinja chat template has always felt like a temporary equilibrium, so we've needed someone to take the reigns and try to build that out within the community. Excited about this!

译Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

Luma@LumaLabsAI · 5月13日46

Some moments only come once a year. Make sure your campaign is ready when they do. Define the season. Set the direction. Luma Agents build every campaign visual from there. Hero imagery, social assets, and everything in between. All consistent, all on time. Own the moment → http://lumalabs.ai/app

译有些时刻一年仅有一次。 当它们来临时,请确保你的营销活动已准备就绪。 定义营销季,设定方向。 Luma Agents 由此构建所有营销视觉素材。 主视觉图、社交媒体素材,以及其间的一切。 全部保持一致性,全部准时完成。 把握关键时刻 → http://lumalabs.ai/app

小互@xiaohu · 5月13日60

Google 刚刚发布了一个新东西:Googlebook 根据Google 自己的表述: 他们想做的已经不再是传统意义上的“操作系统”,而是一个以 Gemini 为核心的 AI Laptop 平台。 Gemini 被塞进了“鼠标指针”: 你晃一下光标,它会主动理解你当前屏幕内容,然后直接给动作建议。 比如: • 指向邮件里的日期 → 自动创建会议 • 选两张图 → 自动生成搭配效果 • 指向内容 → 自动总结 / 改写 / 操作 这其实已经不是传统 OS 思维了。 以前电脑逻辑: 人打开 App → 人操作功能。 现在开始变成: AI 理解上下文 → AI 主动组织操作。

译Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。

Berryxia.AI@berryxia · 5月13日65

刚看到 Google 今天官宣了 Gemini Intelligence,感觉这波是把 Gemini 的能力真正塞进高端 Android 设备里了。 以前 Gemini 更多是聊天工具,现在他们直接把它和顶级硬件、系统软件结合在一起,让手机能主动帮你把一天的事情往前推一步,而不是等你开口才动。 具体来说,以后你能让它跨 App 自动完成多步操作,比如它自己去 Gmail 里找到课程大纲,然后直接把需要的书加进购物车。 或者一键帮你填完各种表单。 说话的时候带点“嗯”“啊”,它能直接转成流畅的文字。 还能自己建自定义小部件,把你最关心的信息一直放在首页最显眼的位置。 这些功能会从今年夏天开始分批上线,先在三星 Galaxy 和 Google Pixel 这些高端机上落地,后面应该会慢慢覆盖更多设备。 Google 专门发了个博客详细介绍,想看的同学可以直接点进去看。

译Google推出Gemini Intelligence,将Gemini AI能力深度整合到高端Android设备,使其从聊天工具转变为主动助手。它整合高端硬件和创新软件,帮助用户提前一步、主动完成任务,例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线,首批在三星Galaxy和Google Pixel设备落地,后续逐步覆盖更多Android设备。

swyx 🌉@swyx · 5月13日47

the best way to think about /goal is that you’re moving from prompting WHAT you want done, to HOW you want it evaluated

译理解/goal的最佳方式是 你正从提示“要做什么” 转向“希望如何评估它”

Luma@LumaLabsAI · 5月13日68

Your ad is running. But is it working? Define what better looks like. Set the direction. Luma Agents build a sharper, higher performing version with the creative and messaging to back it up. Outperform it → http://lumalabs.ai/app

译你的广告正在投放。但它有效吗? 定义更好的样子。设定方向。Luma Agents 会构建一个更精准、表现更出色的版本,并提供创意和消息支持。 超越它 → http://lumalabs.ai/app

OpenAI Developers@OpenAIDevs · 5月13日70

Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what changes when agents can click, type, and keep working in the background.

译计算机使用让Codex能在你的应用间工作而不占用你的Mac。 @AriX与@romainhuet探讨当代理程序能点击、输入并在后台持续工作时将带来哪些改变。

Chubby♨️@kimmonismus · 5月13日64

Gemini Intelligence turns Android into a more proactive AI system that can automate multi-step tasks across apps, browse and autofill. Two things are noteworthy here: 1) They're using the time to deeply integrate Gemini into the OS before Apple releases its revamped Siri (which uses Gemini). 2) They're releasing it *before* Google I/O, which suggests they'll be releasing something much bigger next week.

译Gemini智能将Android系统升级为能自动化执行跨应用多步骤任务的主动式AI。其发布策略有两点关键:一是抢在苹果搭载Gemini的新版Siri发布之前,深度整合AI至操作系统层;二是选择在Google I/O大会前公布,暗示下周大会可能有更重要的产品更新。该功能将分阶段推出,今年夏季率先登陆最新款三星Galaxy和Google Pixel手机,并于年底前扩展至手表、汽车、眼镜和笔记本电脑等其他Android设备。

宝玉@dotey · 5月13日60

Amazon 员工正在刷 Token Amazon 内部出现了一个新词:tokenmaxxing,意思是刷 AI 用量数据。 起因是 Amazon 今年给开发者定了硬指标:每周超过 80% 的开发者必须使用 AI 工具,并且在内部排行榜上追踪每个人的 Token(AI 模型处理的数据单位)消耗量。公司说这些数据不会用于绩效考核,但员工不信。“经理们确实在看,”一位员工说,“追踪用量会制造扭曲的激励,有些人把它当竞赛。” 于是一些员工开始用公司最近大规模部署的内部工具 MeshClaw 来刷分。MeshClaw 可以创建 AI Agent 代替用户操作办公软件,比如发起代码部署、处理邮件、操作 Slack。员工让它跑一些本来不需要 AI 做的事,纯粹为了把 Token 消耗数字刷上去。 MeshClaw 的灵感来自今年 2 月走红的开源项目 OpenClaw,后者允许用户在自己电脑上本地运行 AI Agent。Amazon 内部有三十多人参与开发了这个工具,内部文档的描述颇为科幻:“它会在夜间做梦来整合白天学到的东西,开会时帮你盯着部署,你醒来之前就把邮件分好了优先级。” 不只 Amazon,Meta 员工也在干一样的事,在内部排行榜上刷 Token 用量。 这背后是整个硅谷大厂的共同焦虑:巨额 AI 投入需要看到回报。Amazon 今年资本开支预计 2000 亿美元,绝大部分砸向 AI 和数据中心。公司需要证明这些钱花得值,最直观的方式就是让员工用起来,于是就有了指标、排行榜、和随之而来的数据注水。 也有员工对 MeshClaw 本身的安全性表示担忧。一个能代替你操作各种办公系统的 AI Agent,一旦出错或执行了非预期操作,后果可能不小。“默认的安全设置让我害怕,”一位员工说,“我不会放任它自己去干活。” 【注:tokenmaxxing 这个词模仿了网络俚语 -maxxing(把某件事做到极致)的构词法,在这里特指刷 AI Token 用量。】 来源:https://arstechnica.com/ai/2026/05/amazon-employees-are-tokenmaxxing-due-to-pressure-to-use-ai-tools/

译亚马逊设定硬性指标,要求超80%开发者每周使用AI工具,并追踪个人Token消耗量形成排行榜。这导致员工为刷数据而进行“tokenmaxxing”,即使用内部AI工具MeshClaw执行非必要任务。该工具作为AI代理可操作办公软件,灵感源于开源项目OpenClaw。类似情况也出现在Meta等硅谷大厂,反映了企业为证明巨额AI投入回报而强推使用率,进而引发数据注水现象。同时,有员工对AI代理操作系统的潜在安全风险表示担忧。

Sundar Pichai@sundarpichai · 5月13日73

Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most advanced devices. Automate multi-step tasks across apps and Chrome, fill out forms in a single tap, turn spoken thoughts into polished text with Rambler, build custom widgets & loads more.

译今天在@Android Show(I/O特别版)上,我们发布了Gemini智能——将Gemini的最佳功能引入我们最先进的设备。 跨应用和Chrome自动化多步骤任务,一键填写表单,通过Rambler将口语想法转化为精炼文本,构建自定义小部件及更多功能。

宝玉@dotey · 5月13日58

“搭一套完整智能体工作流”其实不值钱,就好比写代码虽然难但没那么值钱,值钱的还是把代码编程有价值的产品。 智能体也一样,值钱的是搭建一套解决业务问题的智能体工作流。技术上其实还好,难的是需要对业务和 AI 技术两者都有深入了解,重新设计出 AI Native 的工作流而不是说原来的工作流加上一点 AI。 目前基于 AI 的工作流业界都在摸索中,缺少最佳实践参考,而且不同的行业需要的工作流不一样,抄都没得抄,得反复试错后才能做得好。 还有一个变量就是模型能力一直在变化,半年前设计好的工作流可能到现在已经过时了,又需要重新调整。 好事情是这里面其实机会蛮多,尤其适合程序员和 PM 转型。

译构建完整的智能体工作流技术门槛已降低,能力不再稀缺。真正的价值在于深入理解具体业务与AI技术,设计出AI Native的解决方案,而非简单地将AI嵌入原有流程。当前行业缺乏最佳实践,需针对不同领域反复试错。同时,模型能力快速迭代导致工作流易过时,需持续调整。竞争焦点已从技术实现转向商业落地,找到独特切入点和解决实际业务问题成为关键护城河,这为程序员和PM转型提供了机会。

🚨 AI News | TestingCatalog@testingcatalog · 5月13日70

GOOGLE 🔥: A new Android Intelligence has been introduced during Android Show 2026! - A whole new sleek design! - Automated multi-step tasks across Android apps - Gemini in Chrome gets Browser Use - Automated form filling - "Rambler" to turn voice notes into text - Custom Gen UI Widgets I need a Pixel now 👀

译GOOGLE 🔥: 在Android Show 2026上推出了全新的Android Intelligence! - 全新的时尚设计! - 跨安卓应用的自动化多步骤任务 - Chrome中的Gemini获得浏览器使用功能 - 自动表单填写 - "Rambler"可将语音笔记转为文本 - 自定义Gen UI小组件 我现在就需要一台Pixel 👀

OpenAI Developers@OpenAIDevs · 5月13日71

Symphony: every open task gets a running Codex agent

译Symphony:每个开放任务都有一个正在运行的Codex智能体

向阳乔木@vista8 · 5月13日68

免费开源基于这篇论文写的Skill 让 3–5 个完全独立 Sub agent 独立思考同一个问题,再由 Codex 主持讨论。 找出每个视角盲点,最后给出一个比单推理更好的结论。 安装 npx skills add joeseesun/qiaomu-heavyskill 开源地址: https://github.com/joeseesun/qiaomu-heavyskill Demo讨论: https://www.32kw.com/view/f4acd0c

译HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

🚨 AI News | TestingCatalog@testingcatalog · 5月13日65

holaOS Beta 0.1 got launched, bringing a new AI Workstream Management Layer on top of its Agent Computer foundation. holaOS Beta 0.1 is an operating system for long-running work and comes with: - Workspaces with memory. - Sub-agents running in parallel. - A dashboard for ongoing execution. holaOS Beta 0.1 is a workspace that serves as a persistent collaboration unit. That's something to test 👀

译holaOS Beta 0.1 正式发布,这是一个专为长期持续性工作设计的操作系统。它基于开源的Agent Computer构建,核心目标是解决当前AI智能体仅适用于单次会话、缺乏记忆与延续性的问题,旨在成为随时间展开的“活”工作空间。系统主要特性包括:具备独立上下文、规则与记忆的多工作空间;可并行处理复杂任务的子智能体;以及用于追踪执行状态、审查任务和规划下一步的可定制化仪表盘。该版本标志着AI从一次性会话工具向可长期协作的“队友”转变的尝试。目前仍处早期测试阶段,开发者建议用户将其应用于每周重复进行的持续性工作流中进行体验。

Artificial Analysis@ArtificialAnlys · 5月13日62

Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use 𝜏-Voice to measure tool calling and customer interaction voice agent capabilities in realistic customer service scenarios Even the strongest Speech to Speech (S2S) models today resolve only about half of realistic customer service scenarios end-to-end - a meaningful gap relative to frontier text-based agents on the same tasks. Voice channels introduce significant complexity: challenging accents, background noise, and packet loss, all while requiring fast responses, consistency across long multi-turn conversations, and reliable tool use. Performance also varies considerably by audio condition: in clean audio some models perform notably better, but realistic conditions continue to pose a challenge. Conversation duration also varies meaningfully across models, with implications for both customer experience and operational cost. About 𝜏-Voice: Our Agentic Performance benchmark is based on 𝜏-Voice (Ray, Dhandhania, Barres & Narasimhan, 2026), which extends 𝜏²-bench into the voice modality to evaluate S2S models on realistic customer service tasks. It measures multi-turn instruction following, support of a simulated customer through a complete interaction, and tool use against simulated customer service systems. The simulated user combines an LLM-driven decision model with realistic audio synthesis: diverse accents, background noise, and packet loss modelled on real network conditions. This complements our Big Bench Audio benchmark measuring intelligence and Conversational Dynamics (Full Duplex Bench subset) benchmark measuring conversational naturalness. Scores are the average of three independent pass@1 trials. We evaluate under realistic audio conditions using the 𝜏²-bench base task split across three domains: ➤ Airline (50 scenarios): e.g., changing a flight, rebooking under policy constraints ➤ Retail (114 scenarios): e.g., disputing a charge, processing a return ➤ Telecom (114 scenarios): e.g., resolving a billing issue, troubleshooting a service problem Task success is determined by deterministic checks against expected actions and final database state, consistent with the 𝜏²-bench evaluator. Key results: xAI's Grok Voice Think Fast 1.0 is the clear leader at 52.1%, averaging 5.6 minutes per conversation, the second-longest overall. OpenAI's GPT-Realtime-2 (High) (39.8%, 3.0 min) and GPT-Realtime-1.5 (38.8%, 4.8 min) follow, with Gemini 3.1 Flash Live Preview - High close behind at 37.7% (3.8 min). Speech to Speech is a fast evolving modality and we expect movement in rankings as we continue to add new models with these capabilities, and model robustness improves. Congratulations @xAI @elonmusk! See below for further detail ⬇️

译Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

向阳乔木@vista8 · 5月13日56

Skill写成好了,做了第一个测试。 调研讨论最好的所见即所得Markdown编辑开源库。 最终报告在这里: https://www.32kw.com/view/f4acd0c 结论是我的需求没提清楚,选好数据模型,库的选择才有意义,哈哈哈。

译作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
17:13
SiliconFlow@SiliconFlowAI
精选69
通过@continuedev在VS Code中直接运行DeepSeek V4、GLM-5.1、Kimi K2.6等多款模型@SiliconFlowAI 支持标签自动补全、AI对话编辑和智能体功能 以下是3步设置指南 🧵⬇️
智能体教程/实践编码

推荐理由:用 DeepSeek V4 等国产模型的开发者可以照抄这个 VS Code 配置,三步就能搞定,但本质上就是填个 API key,别期待魔法。
16:00
Alibaba Cloud@alibaba_cloud
55
如果AI角色能够记忆、共情并主动交互会怎样?✨ 互动AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能提供沉浸式角色扮演体验,推动参与度加深50%以上并提升用户生命周期价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412855/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI
智能体产品更新
13:50
Berryxia.AI@berryxia
31
AI Agent 得记忆科普是让铁锤讲明白了,看完后身心愉悦,后背从此不再发凉。 【引用 @lxfater】:http://x.com/i/article/2054390427139383296

铁锤人: http://x.com/i/article/2054390427139383296

智能体大佬观点教程/实践
13:34
Peter Steinberger 🦞@steipete
48
Codex在调试Telegram问题时需要新令牌,于是使用Peekaboo打开Telegram Mac应用,联系botfather并完成了操作。 计算机应用令人惊叹。https://peekaboo.sh
智能体MCP/工具OpenAI教程/实践
12:50
歸藏(guizang.ai)@op7418
59
开源Agent技能开发者价值被低估,缺乏商业化路径

当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。

智能体大佬观点开源生态
11:57
Baidu Inc.@Baidu_Inc
62
Robin提出将日活跃智能体(DAA)作为智能体时代的定义性指标,相当于移动互联网时代的日活跃用户数。 虽然令牌消耗更多反映成本而非价值,但DAA让讨论回归产出本质。 正如Robin所指出的,衡量平台或生态系统健康度时,应更关注DAA指标--即积极工作并交付成果的智能体数量。
智能体大佬观点
11:55
Tencent Hy@TencentHunyuan
精选76
Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由:腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜,295B MoE 架构在推理和代码上提升明显,不是小厂的刷榜产品,搞 agent 和 coding 的可以认真试试。
11:50
歸藏(guizang.ai)@op7418
62
谷歌发布Gemini Intelligence,深度整合AI于安卓系统

谷歌在I/O大会上发布Gemini Intelligence,将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机,并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务(如在备忘录与购物应用间同步清单),以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本,并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件,如定制食谱或特定天气数据组件。此外,全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果,提升视觉体验。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体Google产品更新多模态
11:25
Qwen@Alibaba_Qwen
61
🚀Qwen3.6-Plus现已登陆Nous平台,限时免费使用。 Hermes Agent,我们来了!!⚡️ @NousResearch

Nous Research: Qwen 3.6 Plus by @Alibaba_Qwen is now FREE for a limited time on Nous Portal! Nous Portal is one easy subscription that ...

智能体行业动态
10:36
宝玉@dotey
57
Claude自动化架构解析:Skill、Agent、Connector与Plugin如何协同工作

Claude通过四大组件实现自动化任务:Skill是领域工作流指南(如nda-review),指导操作但不执行;Agent是执行主体,Subagent用于并行处理子任务,Scheduled agent则定时自动运行(如合同到期监控);MCP connector连接外部数据源(如合同库),使Agent能访问真实数据;Plugin将上述组件打包,提供完整功能集(如commercial-legal plugin实现企业合同审查)。这些组件共同协作,使Claude能高效处理复杂工作流。

changbo: @dotey 大佬能否解释一下,这个 Claude 一会插件的,一会 Skills 的,一会这个 Agent 的,它他到底想干什么呀?

智能体AnthropicMCP/工具教程/实践
10:08
swyx 🌉@swyx
55
自主性分级提升: /技能:预设提示词 /规划:人工优化输入 /目标:AI评估输出
智能体大佬观点
09:49
ginobefun@hongming731
71
构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK)

Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。

智能体Google教程/实践部署/工程
09:49
ginobefun@hongming731
76
OpenAI Codex新增Computer Use能力,AI助手操作桌面软件

OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。

智能体MCP/工具OpenAI产品更新
09:41
meng shao@shao__meng
57
Computer Use 让 Codex 从「编程 Agent」向「通用桌面 Agent」又迈进了一大步!

OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行,通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序,即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心,从开发被苹果收购的Workflow(现Shortcuts)到如今在OpenAI推动智能体的无缝后台操作,持续拓展人机交互边界。

OpenAI Developers: Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what chan...

智能体OpenAI大佬观点编码
09:35
凡人小北@frxiaobei
58
Google发布名为"Googlebook"的新产品,其核心是构建一个以Gemini为中心的AI Laptop平台,而非传统操作系统。关键创新在于将Gemini深度集成到鼠标指针中,使其能主动理解屏幕内容并提供操作建议。这标志着交互逻辑的根本转变:从"人打开应用并操作功能"的传统模式,转向"AI理解上下文并主动组织操作"的新范式。

小互: Google 刚刚发布了一个新东西:Googlebook 根据Google 自己的表述: 他们想做的已经不再是传统意义上的"操作系统",而是一个以 Gemini 为核心的 AI Laptop 平台。 Gemini 被塞进了"鼠标指针": 你...

智能体Google产品更新大佬观点
09:30
Alibaba Cloud@alibaba_cloud
65
AI的未来是智能体原生的。 很高兴能与Hermes Agent及@NousResearch社区共同开启这段旅程。 Qwen 3.6 Plus现于Nous Portal限时免费--快来尝试吧。⚡

Nous Research: Qwen 3.6 Plus by @Alibaba_Qwen is now FREE for a limited time on Nous Portal! Nous Portal is one easy subscription that ...

智能体产品更新
08:49
ginobefun@hongming731
57
AI Agent 落地三问:代码本质、长流程状态、GUI 操控

本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

智能体MCP/工具安全/对齐开源生态
08:49
ginobefun@hongming731
43
AI Agent落地实践的三大核心层面

AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。

智能体Google现象/趋势部署/工程
08:49
Berryxia.AI@berryxia
69
Google DeepMind推出AI化鼠标指针,实现手势语音操控Gemini

Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。

智能体Google产品更新多模态
08:49
Berryxia.AI@berryxia
67
这位老哥的,Codex的使用小Tips!👇🏻 💡 小Codex技巧: 你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

dominik kundel: 💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...

智能体OpenAI教程/实践编码
08:49
Berryxia.AI@berryxia
74
牛逼!Browser Use 今天把"AI agent 即用即走"做到了极致。 BuxFather:Telegram 里直接 Spin up agent,无需任何注册付费,24/7 自主运行 + 自改进,还带 stealth browser。 几下点击就有完整电脑 + 浏览器环境。 这波对重度 Telegram 用户来说真的爽了! https://x.com/browser_use/status/2054330495249564094/video/1
智能体产品更新
08:41
meng shao@shao__meng
65
Gemini Intelligence 登陆 Android,系统升级为主动型AI平台

Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。

Sundar Pichai: Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...

智能体Google产品更新多模态
08:13
Satya Nadella@satyanadella
精选68
微软推出多模型AI安全系统,集成超百智能体高效发现漏洞

微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。

智能体Microsoft产品更新部署/工程

推荐理由:微软把多模型代理系统用到安全漏洞挖掘上,100多个专业代理协作,在CyberGym基准拿了第一,做安全的朋友值得看看实际效果。
08:12
Nathan Lambert@natolambert
65
Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

Prime Intellect: Introducing Renderers RL trainers work in tokens. Environments work in messages. Going back and forth corrupts sampled t...

智能体开源/仓库数据/训练
08:02
Luma@LumaLabsAI
46
有些时刻一年仅有一次。 当它们来临时,请确保你的营销活动已准备就绪。 定义营销季,设定方向。 Luma Agents 由此构建所有营销视觉素材。 主视觉图、社交媒体素材,以及其间的一切。 全部保持一致性,全部准时完成。 把握关键时刻 → http://lumalabs.ai/app
智能体产品更新图像生成
07:52
小互@xiaohu
60
Google发布AI笔记本平台Googlebook,Gemini驱动智能操作

Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。

智能体Google产品更新多模态
07:49
Berryxia.AI@berryxia
65
Gemini Intelligence官宣:赋能高端Android设备主动助手

Google推出Gemini Intelligence,将Gemini AI能力深度整合到高端Android设备,使其从聊天工具转变为主动助手。它整合高端硬件和创新软件,帮助用户提前一步、主动完成任务,例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线,首批在三星Galaxy和Google Pixel设备落地,后续逐步覆盖更多Android设备。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体Google产品更新语音
06:38
swyx 🌉@swyx
47
理解/goal的最佳方式是 你正从提示"要做什么" 转向"希望如何评估它"
智能体Anthropic大佬观点
05:02
Luma@LumaLabsAI
68
你的广告正在投放。但它有效吗? 定义更好的样子。设定方向。Luma Agents 会构建一个更精准、表现更出色的版本,并提供创意和消息支持。 超越它 → http://lumalabs.ai/app
智能体产品更新
04:33
OpenAI Developers@OpenAIDevs
精选70
计算机使用让Codex能在你的应用间工作而不占用你的Mac。 @AriX与@romainhuet探讨当代理程序能点击、输入并在后台持续工作时将带来哪些改变。
智能体MCP/工具OpenAI产品更新

推荐理由:Codex 这个「computer use」不接管整台 Mac,只在后台帮你点、帮你打字,对用过 Cursor 接管全屏后心里发毛的开发者来说,是个更让人放心的设计,但有没有宣传的那么顺还得等实测。
02:57
Chubby♨️@kimmonismus
64
Gemini智能将Android系统升级为能自动化执行跨应用多步骤任务的主动式AI。其发布策略有两点关键:一是抢在苹果搭载Gemini的新版Siri发布之前,深度整合AI至操作系统层;二是选择在Google I/O大会前公布,暗示下周大会可能有更重要的产品更新。该功能将分阶段推出,今年夏季率先登陆最新款三星Galaxy和Google Pixel手机,并于年底前扩展至手表、汽车、眼镜和笔记本电脑等其他Android设备。

Sundar Pichai: Gemini Intelligence features will roll out in waves starting with the latest Samsung Galaxy and Google Pixel phones this...

智能体Google产品更新
02:35
宝玉@dotey
60
亚马逊员工为完成AI使用指标刷Token用量

亚马逊设定硬性指标,要求超80%开发者每周使用AI工具,并追踪个人Token消耗量形成排行榜。这导致员工为刷数据而进行“tokenmaxxing”,即使用内部AI工具MeshClaw执行非必要任务。该工具作为AI代理可操作办公软件,灵感源于开源项目OpenClaw。类似情况也出现在Meta等硅谷大厂,反映了企业为证明巨额AI投入回报而强推使用率,进而引发数据注水现象。同时,有员工对AI代理操作系统的潜在安全风险表示担忧。

智能体现象/趋势
01:46
Sundar Pichai@sundarpichai
精选73
今天在@Android Show(I/O特别版)上,我们发布了Gemini智能--将Gemini的最佳功能引入我们最先进的设备。 跨应用和Chrome自动化多步骤任务,一键填写表单,通过Rambler将口语想法转化为精炼文本,构建自定义小部件及更多功能。
智能体Google产品更新

推荐理由:below_threshold:T2 推文门槛 75,当前 finalScore=73
01:35
宝玉@dotey
58
智能体工作流构建能力贬值,业务理解与AI原生设计成新护城河

构建完整的智能体工作流技术门槛已降低,能力不再稀缺。真正的价值在于深入理解具体业务与AI技术,设计出AI Native的解决方案,而非简单地将AI嵌入原有流程。当前行业缺乏最佳实践,需针对不同领域反复试错。同时,模型能力快速迭代导致工作流易过时,需持续调整。竞争焦点已从技术实现转向商业落地,找到独特切入点和解决实际业务问题成为关键护城河,这为程序员和PM转型提供了机会。

范凯说 AI | Kai on AI: 一年前,能搭一套完整智能体工作流的人是稀缺的。今年,这变成了相对普通的技能。明年会有更多人会做。 竞争的焦点已经从"谁能做出来",移动到了"谁能卖出去、卖给谁"。 有人问:为什么我会搭智能体,接单却接不到?因为你面对的是信息对称的买家,他知...

智能体现象/趋势
01:35
🚨 AI News | TestingCatalog@testingcatalog
70
GOOGLE 🔥: 在Android Show 2026上推出了全新的Android Intelligence! - 全新的时尚设计! - 跨安卓应用的自动化多步骤任务 - Chrome中的Gemini获得浏览器使用功能 - 自动表单填写 - "Rambler"可将语音笔记转为文本 - 自定义Gen UI小组件 我现在就需要一台Pixel 👀
智能体Google产品更新多模态
01:33
OpenAI Developers@OpenAIDevs
精选71
Symphony:每个开放任务都有一个正在运行的Codex智能体

George: http://x.com/i/article/2031521021342388224

智能体OpenAI产品更新编码

推荐理由:OpenAI 让每个开启的任务都自动配上一个 Codex agent,这不是单个功能的更新,是开发者 workflow 的一次静默接管。
00:52
向阳乔木@vista8
68
HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体开源/仓库推理
00:34
🚨 AI News | TestingCatalog@testingcatalog
65
holaOS Beta 0.1 正式发布,这是一个专为长期持续性工作设计的操作系统。它基于开源的Agent Computer构建,核心目标是解决当前AI智能体仅适用于单次会话、缺乏记忆与延续性的问题,旨在成为随时间展开的"活"工作空间。系统主要特性包括:具备独立上下文、规则与记忆的多工作空间;可并行处理复杂任务的子智能体;以及用于追踪执行状态、审查任务和规划下一步的可定制化仪表盘。该版本标志着AI从一次性会话工具向可长期协作的"队友"转变的尝试。目前仍处早期测试阶段,开发者建议用户将其应用于每周重复进行的持续性工作流中进行体验。

Jeffrey Li: We just launched holaOS Beta 0.1 - the first product version of what started as our open-source agent computer. I record...

智能体产品更新开源/仓库
00:30
Artificial Analysis@ArtificialAnlys
62
语音智能体性能基准发布,顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体OpenAIxAI多模态
00:22
向阳乔木@vista8
56
调研最佳Markdown编辑器及HeavySkill多AI协作思路

作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体推理教程/实践
‹ 上一页
1…484950
下一页 ›