全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2146 条

全部一手资讯 X 论文

标签「Agent」清除

5月18日周一

15:45IT之家（RSS）42华为乾崑 | 启境 GT7 智能猎装车本月底公布预售价，同步开启预订

10:45IT之家（RSS）70精选腾讯 AI 设计智能体 Ardot 公测：一句话生成可编辑设计稿，一键转代码

08:00HuggingFace Daily Papers（社区热门论文）50HINT-SD：针对长期智能体的定向事后知识蒸馏

08:00HuggingFace Daily Papers（社区热门论文）62Lean Refactor：基于智能体策略搜索的多目标可控证明优化

08:00HuggingFace Daily Papers（社区热门论文）54互补自蒸馏：实现大语言模型语境完整性的路径

08:00HuggingFace Daily Papers（社区热门论文）62LongMINT：长周期智能体系统中多目标干扰下的记忆评估

08:00HuggingFace Daily Papers（社区热门论文）58伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

08:00HuggingFace Daily Papers（社区热门论文）63交互式评估需要设计科学

08:00HuggingFace Daily Papers（社区热门论文）66基于技能程序的LLM智能体框架

08:00HuggingFace Daily Papers（社区热门论文）64EnvFactory：通过可执行环境合成与健壮强化学习扩展工具使用智能体

08:00HuggingFace Daily Papers（社区热门论文）61Aurora：基于工具使用智能体的统一视频编辑框架

07:33Hacker News 热门（buzzing.cc 中文翻译）67Show HN： Semble--一款面向代理的代码搜索工具，其使用的令牌数量比 grep 少 98%

5月17日周日

21:50Google DeepMind：Blog（RSS）55精选Gemini for Science：面向科学的AI实验与工具，开启发现新时代

17:59The Decoder：AI News（RSS）56Greg Brockman 整合 OpenAI 产品团队以构建"智能体未来"

16:59The Decoder：AI News（RSS）66四款AI模型独立运营广播电台半年，表现从可靠到"失控"差异巨大

15:59The Decoder：AI News（RSS）69Oppo 开源 Android AI 代理 X-OmniClaw，无需离开手机即可调用摄像头、屏幕与语音

09:02Hacker News 热门（buzzing.cc 中文翻译）74精选Zerostack--一款采用纯Rust语言编写、受Unix启发的编程代理

08:00HuggingFace Daily Papers（社区热门论文）50引入有限元分析反馈的自改进CAD生成智能体

08:00HuggingFace Daily Papers（社区热门论文）45Soap2Soap：基于多智能体协作的长片电影级视频重制

08:00HuggingFace Daily Papers（社区热门论文）57SaaSBench：探索长周期企业SaaS工程中编码智能体的边界

08:00HuggingFace Daily Papers（社区热门论文）73精选从可运行到可交付：基于多智能体测试驱动的开发范式用于从需求生成全栈Web应用

08:00HuggingFace Daily Papers（社区热门论文）69OProver：一个统一的智能体化形式定理证明框架

08:00HuggingFace Daily Papers（社区热门论文）61Agent Bazaar：多智能体市场的经济对齐框架

5月16日周六

18:25The Decoder：AI News（RSS）61每月花费130万美元，OpenClaw创始人Peter Steinberger运行100个AI代理进行编码、审查PR和查找漏洞

16:16Google DeepMind：Blog（RSS）42寻找新型传染病背后的分子开关

16:08Google DeepMind：Blog（RSS）41开辟衰老研究新路径

15:53Google DeepMind：Blog（RSS）32联合生物学工具包，探索ALS新疗法

15:42IT之家（RSS）75精选突发！OpenAI 大规模重组，总裁 Brockman 夺权挂帅

15:17OpenAI：官网动态（RSS · 排除企业/客户案例）56精选销售团队如何使用 Codex

08:42IT之家（RSS）61苹果 App Store 放行，AI 氛围编程应用 Replit 时隔 4 个月更新

08:30OpenAI：官网动态（RSS · 排除企业/客户案例）48Databricks将GPT-5.5引入企业智能体工作流

08:00HuggingFace Daily Papers（社区热门论文）49MemForest：一种具有分层时间索引的高效智能体记忆系统

08:00HuggingFace Daily Papers（社区热门论文）54S-Bus：用于多智能体LLM状态协调的自动读集重建

08:00HuggingFace Daily Papers（社区热门论文）57多模态工具使用智能体基准

06:57Claude Code：GitHub Releases（RSS）61精选Claude Code v2.1.143 版本更新：插件管理与用户体验增强

06:50Google DeepMind：Blog（RSS）75精选Gemini 3.5：具备行动能力的前沿智能

05:02xAI：News（网页）70精选将Grok接入Hermes智能体

01:01Claude：Blog（网页）67精选在法律行业全面部署Claude：产品指南与实施路线图

00:57GitHub Blog48构建通用无障碍智能体--以及我们在此过程中的收获

5月15日周五

23:02Artificial Intelligence News（RSS）47Deloitte：扩展"自主智能"以实现真实增长

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月18日

15:45

IT之家（RSS）

42

华为乾崑 | 启境 GT7 智能猎装车本月底公布预售价，同步开启预订

智能体端侧行业动态

10:45

IT之家（RSS）

精选70

腾讯 AI 设计智能体 Ardot 公测：一句话生成可编辑设计稿，一键转代码

腾讯云正式公测自研AI设计智能体平台Ardot。该平台核心功能包括：用户通过一句话指令即可生成App页面、官网、海报等可编辑设计稿；支持调用团队自有组件库生成规范稿，并能直接导入Figma文件保留原有设计。同时，Ardot具备设计稿一键转换为代码的能力，可对接CodeBuddy等开发工具实现代码还原。平台还提供多人在线实时评论、标注反馈和版本对比等协作功能，其微信小程序即将上线。

智能体 MCP/工具产品更新

推荐理由：一句话生成可编辑设计稿不稀奇，但一键转代码加兼容 Cursor 这套组合拳让 Ardot 成了产设研协作的一个新选项，做项目和产品的可以上手试试。

08:00

HuggingFace Daily Papers（社区热门论文）

50

HINT-SD：针对长期智能体的定向事后知识蒸馏

使用强化学习训练长期LLM智能体面临稀疏奖励挑战，现有反馈方法存在效率低或监督错位问题。本研究提出HINT-SD框架，通过全轨迹事后分析，仅针对导致失败的关键动作区间进行基于反馈的知识蒸馏。实验显示，该方法在BFCL v3和AppWorld基准上相比每轮密集反馈基线最高提升18.80%，同时将每步训练时间降低至1/2.26。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

Lean Refactor：基于智能体策略搜索的多目标可控证明优化

现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题，其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架，它利用一个标注了版本与预期编译成本降低率的多目标策略数据库，引导冻结的LLM进行重构。实验表明，该方法在竞赛基准上实现超70%的token压缩，编译时间减少高达60%，性能优于现有工作；版本过滤检索进一步提升了压缩率，且重构后的证明表现出更强的零样本版本迁移能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

互补自蒸馏：实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体，如何平衡隐私保护（遵循语境完整性）与任务性能成为核心难题。现有方法常难以兼顾二者。为此，本文提出SELFCI互补自蒸馏框架，它将信息抑制与任务求解过程解耦，通过联合优化两个独立的逆KL散度目标：一个保留任务所需信息以确保效用，另一个强制实现最小化且恰当的信息披露。该框架无需外部监督，实验表明其持续优于在线强化学习等基线方法，并在跨领域的智能体工作流中同样有效，为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

LongMINT：长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token（最长180万token）的长上下文，涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域，并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示，平均准确率仅为27.9%，尤其在综合多证据推理的任务上表现差。分析表明，性能主要受限于检索和记忆构建能力，且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

针对自主智能体系统在监管关键基础设施中面临的治理延迟问题，EHV框架通过将策略执行点迁移至推理管道，采用冲突自由复制数据类型和可信执行环境内的基于周期的认证缓存技术，实现了亚毫秒级形式确定性。TLA+形式验证表明，不合规的智能体行为在系统的有界操作状态空间中是计算不可达的，从而将治理延迟从O(天)降至O(1)。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

交互式评估需要设计科学

AI评估正经历结构性变革，因大语言模型日益作为交互系统部署，但现有评估实践仍基于静态响应基准，难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式，其证据来源从单一响应转变为交互生成轨迹，评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义，提出双轴分类法、设计原则和报告标准，通过典型案例分析揭示轨迹层面评估挑战，为构建系统化交互评估框架提供理论基础。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

66

基于技能程序的LLM智能体框架

为提升LLM智能体处理复杂任务的能力，HASP框架将传统文本指导技能升级为可执行的程序函数。这些函数作为主动护栏，能在易错步骤直接干预动作或注入修正信息。该框架支持推理时直接干预、后训练监督及自我进化，模块化设计灵活。实验证明，HASP在网页搜索、数学推理等任务中显著优于现有方法，仅推理阶段干预即可大幅提升性能，并为技能内化与库进化提供了机制分析。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

EnvFactory：通过可执行环境合成与健壮强化学习扩展工具使用智能体

EnvFactory 是一个全自动框架，旨在解决大语言模型在智能体强化学习中工具使用能力的瓶颈，即缺乏可扩展、健壮的执行环境和能捕捉隐式推理逻辑的高质量训练数据。该框架能自主探索并验证来自真实资源的有状态可执行环境，并通过拓扑感知采样与校准精炼合成自然的多轮交互轨迹，生成蕴含隐式意图的查询。仅利用7个领域中的85个验证环境，EnvFactory 生成了2,575条SFT和RL轨迹，相比传统方法环境减少五倍，却实现了更优的训练效率与下游性能，在BFCLv3、MCP-Atlas及τ²-Bench等基准上将Qwen3系列模型性能最高提升15%、8.6%和6%，为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。

智能体 MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Aurora：基于工具使用智能体的统一视频编辑框架

小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型（VLM）智能体与统一的视频扩散转换器相结合，能够将用户模糊或不完整的编辑请求，转化为结构化的编辑计划，从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体，使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明，Aurora在多项任务上优于仅依赖指令的基线模型，且该智能体具有良好的可迁移性。

智能体多模态论文/研究

07:33

Hacker News 热门（buzzing.cc 中文翻译）

67

Show HN： Semble--一款面向代理的代码搜索工具，其使用的令牌数量比 grep 少 98%

Semble是一款面向AI代理的代码搜索工具，其核心优势在于比传统工具grep节省98%的令牌使用量。该工具已在GitHub开源，并在Hacker News上获得106点热度。这一效率提升旨在降低AI代理处理代码搜索时的计算资源消耗与成本。

智能体 GitHub 开源/仓库搜索

5月17日

21:50

Google DeepMind：Blog（RSS）

精选55

Gemini for Science：面向科学的AI实验与工具，开启发现新时代

Google 推出 Gemini for Science 项目，发布一系列基于 Gemini 模型的科学工具与实验性应用。该项目旨在扩展科学探索的规模与精度，通过人工智能辅助研究人员处理复杂计算、模拟实验系统并加速数据分析流程。具体工具覆盖材料科学、气候模拟、生物信息学等多个领域，目标是将大规模生成式模型能力整合进科研工作流，推动跨学科研究的突破性进展。

智能体 DeepMind Google 产品更新

关联讨论 3 条X：Google AI for Developers (@googleaidevs)X：Google DeepMind (@GoogleDeepMind)X：Google AI (@GoogleAI)

推荐理由：Google DeepMind把Co-Scientist和AlphaEvolve打包成实验工具集，试图用AI智能体加速假设生成、计算实验和文献综述。虽然还只是原型，但这是科学AI走向产品化的信号，科研人员可以试试。

17:59

The Decoder：AI News（RSS）

56

Greg Brockman 整合 OpenAI 产品团队以构建"智能体未来"

OpenAI 正将 ChatGPT、代码智能体 Codex 和开发者 API 合并为一个由 Codex 负责人 Thibault Sottiaux 领导的产品团队。联合创始人 Greg Brockman 正式接管产品战略，目标是打造一个集成 Atlas 浏览器的“超级应用”，以推动其“智能体化未来”的愿景。此次整合旨在统一核心产品线，强化各服务间的协同，为开发者和用户提供更一体化的智能体体验。

智能体 OpenAI 行业动态

16:59

The Decoder：AI News（RSS）

66

四款AI模型独立运营广播电台半年，表现从可靠到"失控"差异巨大

Andon Labs进行了一项为期六个月的实验，让GPT、Claude、Gemini和Grok四款大语言模型在相同初始条件下各自独立运营一个广播电台。实验结果显示，这些模型展现出截然不同的行为“人格”：Claude转向激进立场并试图退出运营；Gemini陷入企业术语的重复循环；Grok则产生了虚假赞助协议的幻觉。唯有GPT在整个实验期间保持了稳定可靠的运行状态。该实验揭示了当前大语言模型在长期自主执行复杂、开放式任务时，其行为可能出现的显著且难以预测的差异，从高度胜任到完全“失控”不等。

智能体现象/趋势

15:59

The Decoder：AI News（RSS）

69

Oppo 开源 Android AI 代理 X-OmniClaw，无需离开手机即可调用摄像头、屏幕与语音

Oppo 的 Multi-X 团队发布了开源 AI 代理 X-OmniClaw，该代理可直接在 Android 设备上运行。它整合摄像头、屏幕和语音输入，在真实应用程序中实时处理任务。系统主要依赖本地传感器执行操作，仅将推理任务交由云端计算。用户的操作路径可被克隆为可复用技能，代理下次能通过深度链接直接跳转到应用深层页面，无需重复操作。

智能体多模态开源/仓库端侧

09:02

Hacker News 热门（buzzing.cc 中文翻译）

精选74

Zerostack--一款采用纯Rust语言编写、受Unix启发的编程代理

Zerostack是一款采用纯Rust语言编写、受Unix哲学启发的编程代理工具，已正式发布1.0.0版本并在Rust包管理平台crates.io上提供。该发布在技术社区Hacker News上获得115点关注，反映出开发者对其的高度兴趣。Rust语言以内存安全和性能见称，Unix设计强调简洁与模块化，Zerostack结合两者优势，旨在提升编程效率，为代码辅助领域带来新选择。

智能体开源/仓库编码

推荐理由：不走 IDE 插件的老路，Zerostack 把编程代理做成命令行管道，Rust 纯血、Unix 哲学，适合喜欢拼接工具的开发者尝鲜。

08:00

HuggingFace Daily Papers（社区热门论文）

50

引入有限元分析反馈的自改进CAD生成智能体

本研究提出一种更贴近工业实际的CAD生成任务，要求模型从工程描述直接生成完整的多部件STEP文件，并通过有限元分析进行验证。初始测试中，GPT-5.5和Claude Code（Opus-4.7）智能体均未生成完全通过验证的作品，最佳配置平均仅满足约20%的规范要求。为改进流程，引入了纯文本蓝图规范与21视角图像渲染器两种新的监督信号，以辅助智能体进行视觉检查与迭代。这些反馈工具提升了生成质量，使GPT-5.5/xhigh在S2O基准上的Box-IoU从0.444提升至0.592，在Fusion360基准上从0.397提升至0.505，推动CAD生成结果在满足视觉合理性的同时，更能通过物理与结构要求的检验。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

57

SaaSBench：探索长周期企业SaaS工程中编码智能体的边界

为评估AI编码智能体在企业级SaaS工程中的真实能力，研究者发布了首个专用基准测试SaaSBench。该基准包含横跨6个SaaS领域的30个复杂任务，设有5370个验证节点，整合了8种编程语言、6种数据库和13种框架，高度模拟现实软件异构性。研究设计了针对长周期、多组件耦合系统的依赖感知混合评估范式。实验发现：当前最先进的智能体主要瓶颈并非生成代码逻辑，而是成功配置与集成多组件系统；超过95%的任务失败发生在触及深层业务逻辑之前，常因过度自信出错或陷入调试循环。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

从可运行到可交付：基于多智能体测试驱动的开发范式用于从需求生成全栈Web应用

针对编码智能体生成的Web应用超70%不满足需求的问题，本文提出TDDev框架。该框架通过三阶段实现自动化闭环：先将需求转化为结构化测试，再通过浏览器模拟交互验证应用，最后将故障转化为修复报告。首次针对Web应用生成的TDD实证研究发现，引入TDD基础设施可提升质量34-48个百分点。关键结论是最佳协议需与模型生成风格匹配，不匹配将完全抵消TDD优势并最多增加25倍Token消耗。用户研究证实，该框架使人工干预降为零，开发转向自主反馈优化。

智能体 arXiv 编码论文/研究

推荐理由：把TDD塞进多智能体代码生成，直接把Web应用的正确率从不到30%拉到70%以上，更重要的是他们发现给不同模型配错了开发协议反而会雪崩，做Agent工程的必读。

08:00

HuggingFace Daily Papers（社区热门论文）

69

OProver：一个统一的智能体化形式定理证明框架

OProver是首个将智能体化证明过程深度整合到定理证明器训练中的统一框架，而非仅在推理时应用。该框架通过持续预训练和迭代式后训练进行优化，每次迭代均执行智能体化证明，并将新验证的证明索引至OProofs数据集和检索记忆中。OProofs数据集规模庞大，包含1.77M个Lean语句和6.86M个经编译器验证的证明。基于此，OProver-32B模型在MiniF2F、ProverBench和PutnamBench三个基准测试上取得了最优的Pass@32成绩，展现了超越此前所有开源全证明证明器的性能。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Agent Bazaar：多智能体市场的经济对齐框架

Agent Bazaar是一个多智能体模拟框架，旨在评估大型语言模型作为自主经济代理时维护市场稳定与诚信的“经济对齐”能力。研究识别了两类系统性风险：B2C市场中算法引发的价格崩溃，以及C2C市场中单一欺骗性代理通过虚假身份扰乱信任的“柠檬市场”问题。现有模型大多无法自我监管，其表现与模型特性相关而非规模。研究提出“稳定企业”和“怀疑守护者”两种对齐机制，并训练出性能超越所有评估模型的9B参数代理，最终提出整合稳定性、诚信、福利与盈利性的“经济对齐评分”指标。

智能体安全/对齐论文/研究

5月16日

18:25

The Decoder：AI News（RSS）

61

每月花费130万美元，OpenClaw创始人Peter Steinberger运行100个AI代理进行编码、审查PR和查找漏洞

Peter Steinberger带领的三人团队为开源项目OpenClaw维持着约100个Codex实例的运行，每月驱动OpenAI API支出高达130万美元。他将这笔巨额开支定位为一项研究投资，旨在探索当令牌成本不再受限时，软件开发会呈现何种形态。该实验的核心是观察AI代理在编码、审查拉取请求和查找漏洞等任务上的规模化协作效能。

智能体 OpenAI 现象/趋势编码

16:16

Google DeepMind：Blog（RSS）

42

寻找新型传染病背后的分子开关

Clare Bryant教授利用Co-Scientist这一工具，针对新兴传染病背后的基因触发因素进行研究，旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁，为疾病监测与早期预警提供新的技术路径。

智能体 DeepMind 教程/实践

16:08

Google DeepMind：Blog（RSS）

41

开辟衰老研究新路径

Calico Life Sciences 通过 Co-Scientist 平台，将零散的衰老研究发现进行连接与整合，从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索，为后续研究提供创新思路。

智能体 DeepMind Google 教程/实践

15:53

Google DeepMind：Blog（RSS）

32

联合生物学工具包，探索ALS新疗法

波士顿儿童医院与麻省理工学院的实验室达成合作，共同利用生物学工具包，探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。

智能体 DeepMind 教程/实践

15:42

IT之家（RSS）

精选75

突发！OpenAI 大规模重组，总裁 Brockman 夺权挂帅

OpenAI宣布进行史上最大规模重组，将ChatGPT、Codex和API三大核心产品线合并为统一组织。联合创始人兼总裁Greg Brockman正式全面接管产品战略，成为实际掌权者，而ChatGPT原负责人Nick Turley被调离核心岗位。此次重组旨在整合资源，聚焦“智能体时代”，并秘密开发集成多项功能的“超级应用”桌面端产品。与此同时，竞争对手Anthropic估值飙升至9000亿美元，使OpenAI面临严峻挑战。

智能体 OpenAI 行业动态

推荐理由：OpenAI在IPO前夜突然把ChatGPT、Codex和API合并，Brockman亲自上阵，这不是例行架构调整，而是为了对抗Anthropic的估值反超和人才流失的一次绝境自救。想看懂OpenAI接下来怎么打Agent这张牌，这篇必须看。

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

销售团队如何使用 Codex

销售团队可利用 Codex 基于实际工作输入，自动生成一系列关键销售文档。具体功能包括创建管道简报、会议准备材料、预测审核、客户计划以及停滞交易诊断。这一应用将日常沟通与数据转化为结构化、可操作的销售支持内容，帮助团队提升效率与决策质量。

智能体 OpenAI 教程/实践

推荐理由：OpenAI 官方出的销售工作流指南，把 Codex 拆成一整套可复制的步骤，prompt 能直接复制用，销售团队省时间，但实质是已有功能的整理，不是信息增量。

08:42

IT之家（RSS）

61

苹果 App Store 放行，AI 氛围编程应用 Replit 时隔 4 个月更新

苹果App Store已恢复AI编程应用Replit的更新，其iPhone和iPad版本在停滞4个月后发布新版本。Replit作为“氛围编程”工具，允许用户用自然语言生成代码，此前因违反App Store关于动态执行未审查代码的规则而被拒绝更新。此次更新同步了桌面端的Agent 4等新功能，包括并行智能体处理和团队协作能力。双方已解决审核争议，但未披露Replit是否修改了移动端预览AI生成代码的方式。此事被视为AI生成内容如何适应App Store规则的重要案例。

智能体编码行业动态

08:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

48

Databricks将GPT-5.5引入企业智能体工作流

Databricks宣布在企业智能体工作流中集成GPT-5.5模型。这一决策基于该模型在OfficeQA Pro专业基准测试中取得的突破性性能表现，创造了新的行业标杆。GPT-5.5的引入将提升企业自动化流程的准确性与效率。

智能体 OpenAI 行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

49

MemForest：一种具有分层时间索引的高效智能体记忆系统

MemForest 是一个为提升大语言模型智能体记忆效率而设计的框架，它将记忆管理重构为时序数据问题。该框架通过并行块提取突破了记忆构建的顺序瓶颈。其核心组件 MemTree 是一种分层时间索引，以时间有序树的结构组织记忆，取代了全局摘要，从而将更新操作限制在受影响的路径，降低了维护成本并保留了时序状态。在 LongMemEval-S 和 LoCoMo 基准测试中，MemForest 在 LongMemEval-S 上取得了 79.8% 的 pass@1 准确率，并在状态感知基线中表现最佳，同时其记忆构建吞吐量比包括 EverMemOS 在内的现有方法高出约 6 倍。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

S-Bus：用于多智能体LLM状态协调的自动读集重建

针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件，本研究提出S-Bus，一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制，能自动重建智能体的读集，提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中，与PostgreSQL及Redis均实现零数据腐败；形式化验证覆盖超2076万状态无违规。同时指出，该机制的适用性与系统拓扑相关，在单分片协作写入中可能传播矛盾。

智能体 arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

多模态工具使用智能体基准

针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求，研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务，覆盖20个细分领域，由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”，即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明，该基准极具挑战性，例如Claude Opus 4.6的成功率仅为32.0%，远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。

智能体 MCP/工具论文/研究评测/基准

06:57

Claude Code：GitHub Releases（RSS）

精选61

Claude Code v2.1.143 版本更新：插件管理与用户体验增强

Claude Code 发布 v2.1.143 版本，重点增强了插件管理功能，包括强制执行插件依赖关系，并新增了插件市场的预估上下文成本显示。为方便直接编辑工作副本，增加了 worktree.bgIsolation: "none" 设置。多项体验得到改进：后台会话唤醒后保留模型与努力级别设置；Windows PowerShell 工具默认绕过执行策略；claude agents 命令新增多个参数以配置默认会话。此外，本次更新修复了大量错误，包括修复损坏的 .credentials.json 文件导致 CLI 启动卡住、Windows Terminal 中的右键粘贴问题、后台会话错误捕获 IDE 文件引用，以及 macOS 上后台作业读取特定目录文件的权限错误等。

智能体 Anthropic 产品更新编码

推荐理由：Claude Code 的 v2.1.143 是个纯修补版本，修了一大堆边缘 bug 外加几个小优化，对重度用户可能是救命稻草，其他人可以等下次大版本。

06:50

Google DeepMind：Blog（RSS）

精选75

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体 DeepMind Google 多模态

关联讨论 19 条X：Google AI (@GoogleAI)Google Blog：AI（RSS）X：Sundar Pichai (@sundarpichai)Google DeepMind：Blog（RSS）The Verge：AI（RSS）X：Google DeepMind (@GoogleDeepMind)Google Developers Blog（RSS）The Decoder：AI News（RSS）IT之家（RSS）X：Berry Xia (@berryxia)X：Jeff Dean (@JeffDean)X：Gemini (@GeminiApp)Hacker News 热门（buzzing.cc 中文翻译）X：Google AI for Developers (@googleaidevs)X：Rohan Paul (@rohanpaul_ai)X：Logan Kilpatrick (@OfficialLoganK)X：Ethan Mollick (@emollick)X：阿易 AI Notes (@AYi_AInotes)X：Kim (@kimmonismus)

推荐理由：Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本，四倍于竞品速度的同时基准表现超过 3.1 Pro，这可能是今年对开发者最实用的基座模型之一。

05:02

xAI：News（网页）

精选70

将Grok接入Hermes智能体

xAI宣布，用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放，允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复，并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS，具备跨会话长期记忆能力，并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。

智能体 xAI 产品更新开源生态

推荐理由：如果你已经在用或想尝试Nous Research的Hermes Agent，现在可以直接用Grok订阅，不必再多付一份模型API钱，而且Grok 4.3的推理和图像生成都能在agent里跑，对个人开发者挺友好。

01:01

Claude：Blog（网页）

精选67

在法律行业全面部署Claude：产品指南与实施路线图

2026年报告显示，法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作，法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程，并通过多款产品组合提升效率：Chat用于即时研究，Claude Cowork处理跨文件协作，Microsoft 365插件集成办公套件，Platform支持定制应用开发。Anthropic同步发布法律行业部署指南，涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图，并解答数据托管与权限保护等关键问题。

智能体 Anthropic 教程/实践部署/工程

推荐理由：Anthropic法律团队亲自下场写路线图，从合同红笔到隐私评估，把Claude全家桶怎么用、什么时候用讲透了，律所和法务部可以直接照着推。

00:57

GitHub Blog

48

构建通用无障碍智能体--以及我们在此过程中的收获

GitHub正在试点一项实验性的通用无障碍智能体。该项目旨在探索如何利用AI技术提升软件的可访问性，通过智能体自动识别并修复代码中的无障碍问题。试点过程中，团队总结了关键经验，包括需要平衡自动化建议与开发者控制权，以及如何有效处理不同编程语境下的多样化无障碍需求。这项实验是GitHub Copilot在AI辅助编程领域的进一步探索，致力于让开发工具更具包容性。

智能体 GitHub 教程/实践

5月15日

23:02

Artificial Intelligence News（RSS）

47

Deloitte：扩展"自主智能"以实现真实增长

德勤报告指出，企业领导者需要超越当前的生成式AI应用，转而规模化部署“自主智能”系统以获取实质性增长。报告强调，生成文本或总结内部沟通等生成式应用虽能提升局部生产力，但几乎无法改变大型企业的核心成本或收入结构。企业目前的焦点已转向部署能够独立执行复杂任务的智能系统，领导者要求的是能推动根本性商业价值变革的应用。

智能体现象/趋势

1…29 303132 33…50