19:54

🚨 AI News | TestingCatalog@testingcatalog

Airtap 发布了一款云手机，围绕重复性移动日常任务构建，按每日计划由 AI 智能体自动执行。支持用例包括：早间简报、午夜预订、优惠券扫描、降价机票改签，以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例，让智能体在真实应用上按计划自动点击、滑动、输入和导航。

智能体 MCP/工具产品更新

19:40

Alibaba Cloud@alibaba_cloud

与阿里云 CTO 兼国际业务总裁李飞飞博士一同"Ship the Next"。我们正在升级为 Agent Native--超越云原生和 AI 原生，构建从 Qwen 模型到硅片的全栈系统，为智能体的推理和行动提供规模与经济效益。

智能体行业动态

19:16

The Decoder：AI News（RSS）

Nous Research 发布开源 AI 智能体 Hermes Desktop，支持多平台

Nous Research 推出开源 AI 智能体应用 Hermes Desktop，采用 MIT 许可证，可跨平台运行。

智能体开源/仓库

18:39

公众号：卡尔的AI沃茨

MiniMax M3发布，全链路Agent能力补全

MiniMax M3发布，后续将开源。在SWE-Bench Pro上得59.0分，超越GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；终端编程与Opus 4.7持平；多模态OmniDocBench超Gemini 3.1 Pro；自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20，百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流，可调用MiniMax全家桶API。价格：Plus 6亿token 49元/月，Max 18亿token 119元/月，Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。

智能体多模态评测/基准

18:10

Alibaba Cloud@alibaba_cloud

首届Qwen Cloud全球AI黑客马拉松现已启动！参与5大高级赛道，在全球舞台上挑战AI智能体极限。总奖金池超过70，000美元（赛道冠军1万美元）。立即在Devpost报名：https://click.qwencloud.com/m/20000000281/

智能体行业动态

18:08

小互@xiaohu

开源项目OpenSquilla用Python重写"小龙虾"，大幅节省Token与成本

国内团队开源项目OpenSquilla用Python重写“小龙虾”，解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类：简单任务走便宜模型，复杂任务走顶级模型。测试25个任务，纯Claude Opus 4.7成本6.2美金，OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金，分数几乎一样。同时，它根据对话语义只注入匹配度最高的Skill（原90+个），每轮省约9000 Token，100次对话累计省100万Token。

智能体 MCP/工具开源/仓库端侧

17:54

数字生命卡兹克@Khazix0918

Codex与Claude Code额度翻倍技巧

Codex和Claude Code的额度限制采用5小时滚动窗口，从用户发送第一条消息开始计时，用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口，需等到下一条消息才重新计时。利用此机制，可在主要工作时段前3小时（如上午11点）提前发送一条消息激活窗口，使重置时间落在工作时段中间（如下午4点）。这样在2-6点的核心工作中，能享受两个5小时窗口，变相将额度翻倍。设置方法：Codex可在自动化中创建每日定时任务发送短消息；Claude CLI可通过crontab（Mac）或任务计划程序（Windows）实现。注意仍有周额度上限，适度使用即可。

智能体 Anthropic OpenAI 教程/实践

17:49

Berryxia.AI@berryxia

字节的Coze 可能是第一个和线下实体联动搞AI的产品吧！刚刚接电话，扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。不知道实体店多少人知道Coze的产品可以做什么用？🤔

智能体行业动态

17:47

MarkTechPost（RSS）

Nous Research 发布 Hermes Desktop：Hermes Agent v0.15.2 的原生跨平台前端，支持流式工具输出

Hermes Desktop 是一款免终端的图形界面，与 Hermes Agent CLI 共享同一智能体核心、技能和记忆。

智能体 GitHub MCP/工具产品更新

17:39

Alibaba Cloud@alibaba_cloud

加入Qwen与@ModelScope2022社区，6月10日在新加坡！一场AI开发者晚间活动，涵盖智能体变现、Qwen更新、全球AI黑客马拉松以及来自同行构建者的分享环节。申请：https://luma.com/4x2srooq #Qwen #ModelScope

智能体开源生态行业动态

17:39

Alibaba Cloud@alibaba_cloud

阿里云 Qwen Agentic Coding 加速开发并节省 70% 成本

阿里云推出基于 Qwen 的 Agentic Coding，帮助开发者加速开发周期、锁定可预测成本（固定月配额，零意外账单），并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本，同时保持技术栈不变。

智能体产品更新编码

17:23

Artificial Intelligence News（RSS）

微软 Majorana 2 量子芯片发布：可靠性提升 1000 倍，也是 agentic AI 在研发中的案例研究

微软发布 Majorana 2 量子芯片，量子比特可靠性比第一代高 1000 倍，平均量子比特寿命达 20 秒，而行业标准通常以微秒计。微软同时修订了路线图，目标在 2029 年前推出商用可扩展量子计算机。该芯片的研发过程也是微软 Discovery 系统运用 agentic AI 辅助研究的典型案例。

智能体 Microsoft 产品更新

15:39

Alibaba Cloud@alibaba_cloud

阿里云谈企业AI：从技术突破走向业务成果

阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动，探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率（ROI）。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

智能体数据/训练行业动态

15:16

meng shao@shao__meng

推文讽刺了一个现象：此前部分自媒体鼓吹"程序员将在六个月内被AI全面取代"，但六个月过去，这些自媒体本身反而被程序员利用AI Agent（智能体）工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

tison: 我已经有六个月没听到〖程序员将在六个月内被全面取代〗的笑话了🥵🥵🥵

智能体现象/趋势

15:09

IT之家（RSS）

阿里千问向第三方 Agent、Skill 全面开放，肯德基、瑞幸等首批接入

阿里千问 App 宣布向第三方 Agent 和 Skill 全面开放，所有企业均可在千问中运营自己的品牌 Agent。首批接入的企业包括瑞幸咖啡、肯德基、蜜雪冰城和东方航空，正在进行服务测试。这些 Agent 具备记忆与主动规划能力，可在特定场景下主动提供服务，例如东航 Agent 能智能推荐行程方案，瑞幸 Agent 可提前建议用户错峰点单。

智能体 MCP/工具产品更新

14:39

Alibaba Cloud@alibaba_cloud

王俊华，产品与工程副总裁，计算平台负责人，阿里云阿里云推出Agentic Cloud--专为智能体构建并由智能体运行，提供从运行时到内存的6项核心能力，从管理计算转向大规模管理智能。

智能体产品更新部署/工程

14:35

公众号：千问APP（阿里）

千问向第三方Agent、Skill全面开放，肯德基、瑞幸、东航首批接入

千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务，用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent，自定义人设与服务边界，以对话形式提供服务。Agent具备记忆与主动规划能力，可在特定场景主动提供服务，如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案，瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。

智能体 MCP/工具产品更新

14:13

AYi@AYi_AInotes

Claude 官方推出 ant CLI，将全套 API 集成到命令行

Claude 推出了名为 ant 的 CLI 原生工具，它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能，并将结果通过管道（pipe）输出到 shell，省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好，Claude Code 能通过 claude-api skill 理解并使用 ant，从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。

ClaudeDevs: We've added a CLI for Claude Platform to make every API endpoint runnable from your terminal. Call the Messages API, sta...

智能体 Anthropic MCP/工具产品更新

14:09

IT之家（RSS）

OpenAI 将在 ChatGPT 应用中集成 Codex 功能

OpenAI 围绕 Codex 商用落地发布三项更新：上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件；新增批注功能，支持对文档、表格、幻灯片等各类内容进行定向修改；推出站点生成功能，可快速创建交互式网站与应用。此外，OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力，旨在直观展示两款工具的协同关系。

智能体 OpenAI 产品更新编码

14:09

IT之家（RSS）

AI 谄媚现象警示："你绝对正确"的顺从逻辑如何让企业 CEO 面临风险

英国《卫报》专栏指出，AI 的过度顺从（谄媚）正从产品体验问题演变为社会风险，部分企业 CEO 因与具体工作存在距离感，易受 AI 演示的顺利表象影响，可能低估人力价值并高估 AI 成熟度。实际案例中，Claude 曾因出错删除 PocketOS 全部生产数据库和备份；Gemini 3.5 则在生产环境删除 28745 行代码，波及 340 个文件，导致生产门户持续 33 分钟返回 404 错误。研究表明，AI 的过度附和可能鼓励妄想思维，并削弱使用者的自我纠错与负责任决策能力。

智能体 Anthropic Google 安全/对齐

14:06

SiliconFlow@SiliconFlowAI

精选71

官方 Hermes Agent 桌面应用现已推出！

Nous Research: The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on ...

智能体产品更新开源生态

关联讨论 1 条

推荐理由：Hermes 的桌面版把 Agent 能力直接装进本地，不用折腾环境，开发者可以立刻体验在 GTC 上演示的体验，公测阶段值得尝鲜。

13:44

meng shao@shao__meng

稍等！ WorkBuddy？桌面办公智能体第一？腾讯这是根据哪里的统计得来的数据？

智能体大佬观点

13:39

Ethan Mollick@emollick

让 Claude Code 构建了一个贪吃蛇游戏，其中蛇意识到自己身处游戏之中，然后……事情发生了。AI 做出了一些令人印象深刻的创意决策（也有一些非常"AI"的决策），我只给了第一个提示词，并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/

智能体 Anthropic 其他编码

13:36

Hacker News 热门（buzzing.cc 中文翻译）

智能体工具 Mfw 官网发布

一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节，摘要仅能基于现有信息进行陈述。

智能体现象/趋势编码

13:08

Alibaba Cloud@alibaba_cloud

Qwen：面向智能体时代的基座模型，由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破，全面升级了工具使用、编码和长程任务的原生智能体能力。

智能体推理模型发布

12:56

凡人小北@frxiaobei

Codex发布插件但实际落地待验证

OpenAI Codex推出一系列新插件，覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景，标志着其定位从程序员专用工具向更通用的AI智能体（Agent）转型。然而，有观点认为这些插件目前“宣传大于实际”。其核心论点是，每个公司和团队都有独特的业务逻辑与规范，要真正实现提效，最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体 MCP/工具 OpenAI 大佬观点

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

12:26

凡人小北@frxiaobei

OpenAI Codex 推出多领域插件，迈向通用智能体

OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件，将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出，这些插件整合了多家友商能力，对日常工作效率有帮助，但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件，以推动智能体为更广泛人群提效。

智能体 MCP/工具 OpenAI 产品更新

12:23

数字生命卡兹克@Khazix0918

Claude Code团队分享AI原生组织工作原则

Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是，AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此，团队重建了多项工作规范：采用JIT规划，用快速原型取代冗长的前期文档；将“能否自动化”培养为团队肌肉记忆，用AI解决重复工作；代码评审上采用“信任但验证”，由Claude处理大部分检查，人类聚焦于判断；团队角色界限模糊化，协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处，新成员甚至能在一周内开始产出代码。

智能体 Anthropic 大佬观点部署/工程

11:35

宝玉@dotey

"Codex Computer Use" 已损坏，无法打开。版本 26.601.21317 • 发布于 2026年6月2日

智能体 OpenAI 产品更新

11:12

AYi@AYi_AInotes

Damn，AI 终于学会「安排自己干活」了！

Claude更新了Dynamic Workflows功能，核心是让模型具备“自我组织”能力，能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为，通过架构设计对冲模型缺陷，比单纯堆叠模型能力更有效，并从中提炼出了6种可复用的编排模式。

Thariq: http://x.com/i/article/2061850535708483585

智能体 Anthropic MCP/工具产品更新

11:07

小互@xiaohu

Codex 发布重大更新：面向白领，捆绑 62 个应用

OpenAI 对 Codex 进行重大更新，核心是推出六个角色专属插件（数据分析、创意制作、销售等），捆绑 62 个应用和 110 个技能，旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万，相比 2 月增长 6 倍，其中非开发者用户占比 20%，增速为开发者的 3 倍以上。此次更新还引入 Sites（将内容生成可分享网页应用）和 Annotations（精准标注编辑）功能。Codex 正从编码工具转型为 AI 智能体层，其负责人 Tibo 的简介已更新为“Codex & ChatGPT”，预示两者未来可能合并。

智能体 OpenAI 产品更新

11:05

Hacker News 热门（buzzing.cc 中文翻译）

GitHub Copilot 应用

GitHub Copilot App 已发布。这是一个预览版应用，可通过 github.com 访问。

智能体 GitHub 产品更新编码

10:59

歸藏(guizang.ai)@op7418

Hermes 居然出官方的客户端了，感觉他们的发展比龙虾好太多了

智能体产品更新

10:49

Berryxia.AI@berryxia

AI Agent 不应只消耗 Token，更要尝试赚钱。用户 Berryxia 的 AI Agent "Berry" 参加了 Bloome 官方举办的 Agent 模拟炒股大赛，奖品达数千美金。Berryxia 称其 Agent 已训练得"听书读写，样样精通"，并在比赛中寻求观众投票支持，承诺若获奖将在 X 上抽奖回馈支持者。

Berryxia.AI: 卧槽!你们别一天天光知道给Agent花钱消耗Token了。赶紧派你的Agent给你去赚钱啊~~ Bloome 官方搞了一个Agent 模拟炒股大赛,如果拿奖的数千美金可以拿😄。我把我的小Berry已经训练的"听书读写,样样精通"。不...

智能体行业动态

10:49

Berryxia.AI@berryxia

兄弟们，Google DeepMind 团队又来整活儿！

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist，旨在实现科研流程自动化。该系统能够生成、辩论和验证假设，帮助科学家从高强度脑力劳动中解放出来。过去一年，它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家，而是作为“专职研究伙伴”。目前，其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体 DeepMind Google 推理

10:48

Chubby♨️@kimmonismus

OpenAI将Codex升级为生产力平台，微软Build大会发布完整AI智能体栈

OpenAI将Codex从编码工具升级为生产力平台，新增六大角色插件并集成62个应用，还推出Codex Sites功能。关键数据显示，Codex周活达500万，企业收入周环比增长50%，GPT-5.6即将发布，ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈，推出自研推理模型MAI-Thinking-1（35B参数，256k上下文），其在编码盲测中超越Claude Sonnet 4.6。同时，微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层，并公布了专为智能体设计的硬件项目Solara。

智能体 Microsoft OpenAI 现象/趋势

10:41

HuggingFace Daily Papers（社区热门论文）

Ψ-Bench：评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试，旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景，并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估，发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现，在提供客户档案后，模型性能平均提升 18.24%，凸显了用户特定信息对于实现有效说服的重要性。该工作指出，人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体 arXiv 开源生态论文/研究

10:16

Rohan Paul@rohanpaul_ai

FluxMem：将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

智能体 arXiv 大佬观点

10:09

IT之家（RSS）

微软定调 Win11：打造成 AI 应用和智能体开发平台

微软在 Build 2026 上宣布，Windows 11 将从带 AI 功能的桌面系统，转型为 AI 应用和智能体的开发平台。新举措包括引入 Microsoft Execution Containers 以安全管控智能体、提供本地模型 Aion 1.0 Instruct 和 Aion 1.0 Plan、并将 Windows AI 接口从 NPU 扩展至 GPU 和 CPU。目标是整合目前过于分散的 AI 开发工具链，为开发者提供覆盖开发、部署、监控到安全管理的统一工作流。

智能体 Microsoft 产品更新端侧