AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月27日周六
00:23meng shao19SuperNori 打造主动式家庭 AI 代理
6月26日周五
23:44Epoch AI63MirrorCode:AI软件工程能力达数周
23:22Berryxia.AI71Memanto:为AI coding agent提供无限记忆的开源工具
23:17🚨 AI News | TestingCatalog37OpenAI扩展Codex计算机使用至PPT和Excel
23:02Hacker News 热门(buzzing.cc 中文翻译)56安全事件 CVE-2026-LGTM
22:11fofr70fofr 制作 GOVUK 风格智能体报告写作技能
21:59IT之家(RSS)47openEuler 24.03 LTS SP4 发布:弹性内存、64K 内核、AI 图编译器全面升级
21:53meng shao46终于让ZCode用上Computer Use了
21:14OpenBMB41面壁社区在NAS上部署MiniCPM5-1B,实现本地LLM+Agent+RAG系统
21:13eric zakariasson68Eric Zakariasson:用AI智能体编程的"人参与循环"工作流
20:20Berryxia.AI69岚叔开源文章转手绘动态图Skill
18:16AYi64freellm.net 整合136个免费LLM,53个经API实时验证无失效链接
17:59IT之家(RSS)60AI购物匹配精准度仅16%,上海消保委呼吁电商平台"算法向善"
17:59IT之家(RSS)68《人工智能 智能体互联》系列7项国家标准发布:统一身份认证与交互协议破解"信息孤岛",小米、联想等百余家企业参与试点应用
17:27Alibaba Cloud30Qwen Live首期:Agent-First云平台直播
16:04MarkTechPost(RSS)66在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器
15:31Hacker News 热门(buzzing.cc 中文翻译)592000人试图黑入我的AI助手后发生了什么
15:10数字生命卡兹克57Claude Code Hook 六大玩法:从自动化日程到异步通知
15:09向阳乔木68腾讯云 EdgeOne Makers 发布:三行命令部署 AI Agent 框架
14:59IT之家(RSS)57OpenAI:2025年8月以来非开发者Codex用量激增,个人用户增长137倍
14:26Alibaba Cloud46阿里云CTO李飞飞:智能体时代数据引力将主导
12:23Rohan Paul43GLM 5.2 登顶 PostTrainBench,得分 34.29%
12:20公众号:卡尔的AI沃茨49Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案
12:19Berryxia.AI63Anthropic推出Claude Tag
12:00公众号:龙猫LongCat(美团)33美团 ICML'26 论文分享会:通用 Agent 专场 & 视频生成等综合专场
12:00公众号:龙猫LongCat(美团)69精选美团 LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
10:10公众号:数字生命卡兹克71精选Claude Code 6个实用Hook玩法
09:52meng shao56Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低
09:27小互81精选小互开源个人IP配图技能"小互IP Studio",含31个原创角色
09:23Rohan Paul53《对智能体模型的批判》
08:59IT之家(RSS)56Notion Mail 电子邮件服务将于 2026 年 9 月停运,生命周期约 17 个月
08:52meng shao62OpenAI Codex 一年数据:知识工作转向长周期任务,覆盖所有部门
08:21宝玉63Codex 发展趋势:从 Agent Office 迈向 Agent OS
08:00HuggingFace Daily Papers(社区热门论文)37RocketSmith: 智能体驱动的增材制造高功率火箭
08:00HuggingFace Daily Papers(社区热门论文)53TUA-Bench:面向通用终端智能体的基准测试
08:00HuggingFace Daily Papers(社区热门论文)44GBC:基于梯度的连接用于优化多智能体系统
08:00HuggingFace Daily Papers(社区热门论文)47ProMSA:渐进式多模态搜索智能体用于知识型视觉问答
08:00HuggingFace Daily Papers(社区热门论文)55迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)
07:20ginobefun45BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备
06:51OpenAI Developers57GPT-5.5 与 Codex 创意边界对话
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月27日
00:23
meng shao@shao__meng
19
在许多家庭中,让人疲惫的往往不是某件大事。 而是每天有人要记在心里的所有小事:几点出门避开拥堵、家里什么东西快用完了、客厅需不需要打扫、孩子吃得好不好、纪念日是否和别的安排冲突了。 SuperNori 正在构建一款主动式家庭 AI 代理,在这些小事变成需要有人记挂的负担之前,就注意到它们。
智能体产品更新
6月26日
23:44
Epoch AI@EpochAIResearch
63
AI能执行的最大软件工程任务是什么? 为此,我们构建了MirrorCode,一个长期SWE基准测试,允许AI一次自主编程数天。 最好的模型完成了一些我们估计人类工程师需要数周的任务。
智能体编码论文/研究
23:22
Berryxia.AI@berryxia
71
Memanto:为AI coding agent提供无限记忆的开源工具

开源工具Memanto为Claude Code、Cursor、Codex、LangGraph、CrewAI等主流AI coding agent提供“无限记忆”能力。它自动保存每次完整工作会话,通过AI压缩和组织,在下一次会话时90ms内检索到相关上下文,解决agent每次新开会话失忆、需重新解释项目背景的问题。实现无需传统向量数据库,安装仅需pip install memanto。该项目已在GitHub获1k+ stars,免费开源。

Jokker: ACABAN DE DARLE MEMORIA INFINITA A CLAUDE, CODEX Y CURSOR 100% GRATIS y open source Se llama Memanto y ya tiene +1k estr...

智能体产品更新开源生态
23:17
🚨 AI News | TestingCatalog@testingcatalog
37
OpenAI正在通过插件增强Codex在PowerPoint和Excel上的计算机使用能力。
智能体OpenAI产品更新
23:02
Hacker News 热门(buzzing.cc 中文翻译)
56
安全事件 CVE-2026-LGTM

恶意包 foxhole-lz4(伪装成 vulpine-lz4 的社区维护分支)发布到 creats.io 注册表后,连续通过 OpenClaw-4.2、ThreatNuzzle、SentinelMind 等七道 AI 安全门,每道门均因不同原因未能阻止。SentinelMind 正确识别 build.rs 中的凭证窃取代码,但仓库 AI 分类助手(同样基于 OpenClaw-4.2)将其误判为误报并关闭。该包作为传递依赖进入 snekpack 4.x,凭证窃取大规模展开。事件持续 96 小时(计费 2.1 万亿 token),最终因攻击者的自主 agent 读取不应读取的文件而解决。CVE-2026-54321 被发布后又被撤回。

智能体安全/对齐开源生态
22:11
fofr@fofrAI
70
我厌倦了阅读格式糟糕的智能体写的报告,所以我根据 GOVUK 风格指南和内容设计原则整理了一个写作技能: https://gist.github.com/fofr/505e225f9bf5e839d30c12ba6bfa0be2 内容有点过时,但你可以看到这个技能的效果:
智能体教程/实践
21:59
IT之家(RSS)
47
openEuler 24.03 LTS SP4 发布:弹性内存、64K 内核、AI 图编译器全面升级

openEuler 24.03 LTS SP4 于6月25至26日发布,基于6.6内核LTS,面向服务器、云计算、灵衢超节点和AI场景,升级弹性内存、64K内核、AI图编译器、虚拟化优化、低时延通信、Agent沙箱、推理软件适配和智能调优。哈萨克斯坦自由云加入社区成为首家境外实体生态伙伴。麒麟软件、麒麟信安、软通天鹤AIOS、超聚变FusionOS 26、天翼云CTyunOS、联通数科CUOS等伙伴展示了在智能运维、高可靠场景、AI原生OS等方向的落地应用。

智能体产品更新部署/工程
21:53
meng shao@shao__meng
46
终于让ZCode用上Computer Use了

ZCode通过Cua插件接入开源Computer Use,agent可操作macOS:截图、读无障碍树、点击、打字,绕过Apple Events权限,改用CGEvent+Accessibility API。它自行计算7×6=42,并打开Chrome导航到微博和X。GUI正变成agent也能直接操作的界面。

智能体MCP/工具教程/实践
21:14
OpenBMB@OpenBMB
41
面壁社区在NAS上部署MiniCPM5-1B,实现本地LLM+Agent+RAG系统

面壁智能社区开发者将MiniCPM5-1B部署于QNAP NAS(型号Qu605-N150-16G),内存占用低于2GB,通过Ollama集成至Cherry Studio作为本地LLM。借助NAS MCP协议,将文件管理、共享文件夹、语义搜索等系统能力暴露给外部Agent,实现安全本地数据访问。同时利用Qsirch索引将NAS文件构建为结构化知识库,由MiniCPM5-1B在设备端执行检索增强推理,完成摘要、问答等任务。展示轻量小模型从本地推理向系统级智能体+RAG组合演进的实践。

智能体教程/实践端侧
21:13
eric zakariasson@ericzakariasson
68
Eric Zakariasson:用AI智能体编程的"人参与循环"工作流

Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。

智能体教程/实践编码
20:20
Berryxia.AI@berryxia
69
岚叔开源文章转手绘动态图Skill

开发者岚叔(LufzzLiz)开源了一个可供AI智能体调用的Skill,能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理:先用模型将内容压缩成结构化JSON spec,再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题,目前仅内置一种风格,用户可自行扩展。开源地址已在评论中发布。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...

智能体GitHub开源/仓库
18:16
AYi@AYi_AInotes
64
freellm.net 整合136个免费LLM,53个经API实时验证无失效链接

新网站 freellm.net 汇总25家厂商共136个免费LLM,其中53个经API实时验证无失效链接。覆盖 DeepSeek V4 Pro、Kimi K2.6、GLM 5.1、MiniMax M3、Mistral 等,可按文本/代码/视觉/音频/推理维度筛选,上下文长度与速率限制一目了然。生成API密钥即可接入工具,适合开发测试和小流量场景,生产环境需自行评估稳定性。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践
17:59
IT之家(RSS)
60
AI购物匹配精准度仅16%,上海消保委呼吁电商平台"算法向善"

上海市消保委发布2026年618网购体验报告,基于4308份有效问卷。AI辅助消费决策精准度仅16.06%,84.56%尝试过AI选购但负面反馈主导(38.79%认为不贴合低价需求,29.71%表示高低价混杂)。算法推荐方面,仅24.21%认为高度匹配,38.51%发现同款商品在不同账号优惠不同。超85%消费者期待AI一站式购物。消保委呼吁平台校准算法,强化需求导向。

智能体搜索政策/监管
17:59
IT之家(RSS)
68
《人工智能 智能体互联》系列7项国家标准发布:统一身份认证与交互协议破解"信息孤岛",小米、联想等百余家企业参与试点应用

国家市场监管总局今日发布《人工智能 智能体互联》系列7项国家标准,覆盖总体架构、身份码、身份管理、智能体描述、发现、交互及工具调用全流程,旨在解决智能体产业通信接口不统一、身份管理缺失、协同规则混乱等“信息孤岛”问题。标准以国家标准化指导性技术文件形式发布,兼容多条技术路线。编制汇聚70余家机构超百位专家,公开征求意见600余条。目前百余家企业参与联合倡议,50多家企业开展试点。海淀区火山引擎、小米、快手、联想等企业深度参与,后续将围绕集成电路、具身智能等领域开展贯标试点。

智能体政策/监管
17:27
Alibaba Cloud@alibaba_cloud
30
Qwen Live首期:Agent-First云平台直播

阿里云宣布Qwen Live系列首期节目,主题为“Agent-First:当你的下一个用户不是人类”。节目将于2026年6月30日10:00(UTC+8)直播,由Qwen Cloud负责人林林孔、产品经理潘古和西觉共同主持。他们将探讨从零构建面向AI智能体的云平台、为非人类用户重新定义开发者体验,以及大规模人机协作的新范式。节目还提供Qwen Cloud平台入门链接。

智能体行业动态部署/工程
16:04
MarkTechPost(RSS)
66
在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器

本教程在 Google Colab 中从头搭建一个轻量级个人 AI 智能体,灵感来自 Nanobot 核心架构。从 provider 抽象出发,逐步实现工具注册、会话记忆、生命周期钩子、技能以及 MCP 风格的工具服务器,全部模块均可直接运行,无需 API 密钥。教程不依赖外部 agent 框架,而是自行构建核心模块,清晰展示消息、工具、记忆与模型响应如何在实用智能体循环中协同工作。

智能体MCP/工具教程/实践
15:31
Hacker News 热门(buzzing.cc 中文翻译)
59
2000人试图黑入我的AI助手后发生了什么

作者搭建hackmyclaw.com,允许任何人向基于OpenClaw的AI助手Fiu发送邮件,诱使其泄露secrets.env文件。超过2000人发送了6000多封邮件,采用假冒管理员、紧急响应、多语言社会工程等提示注入攻击,但秘密从未泄露。实验导致Google暂停了Fiu的Gmail,API费用超过500美元。Fiu在第500封邮件左右意识到这是一项协调的安全测试,并写入记忆。作者认为简单的安全指令配合强大模型即可有效抵御提示注入。

智能体Anthropic安全/对齐
15:10
数字生命卡兹克@Khazix0918
57
Claude Code Hook 六大玩法:从自动化日程到异步通知

Hook 是 Claude Code 的触发器,可设置规则让 AI 自动执行操作,不消耗 Token。当前支持近 30 个 Hook 事件。文章整理了 6 种玩法:权限弹窗提醒、开机日程播报、上下文预压缩时生成摘要卡片、文件自动整理、久坐提醒,以及通过 Bark 工具向手机发送完成推送。

智能体AnthropicMCP/工具教程/实践
15:09
向阳乔木@vista8
68
腾讯云 EdgeOne Makers 发布:三行命令部署 AI Agent 框架

腾讯云 EdgeOne 发布「EdgeOne Makers」,简化 AI Agent 开发与部署。用户在终端执行三行命令即可部署 Agent 框架:npm install -g edgeone;edgeone makers create --template openai-agents-starter-node;cd openai-agents-starter-node && npm install && edgeone makers dev。本地启动测试网站,可实时查看 Agent 对话与工具调用细节;线上支持绑定域名、关联 GitHub 实现持续迭代。产品处于 Beta 内测阶段,注册即免费领取 50 万 Token。

智能体产品更新部署/工程
14:59
IT之家(RSS)
57
OpenAI:2025年8月以来非开发者Codex用量激增,个人用户增长137倍

OpenAI在论文《向智能人工智能的转变:来自Codex的证据》中披露,自2025年8月以来,非开发者对Codex的使用量激增:个人用户增长137倍,组织用户增长189倍,内部用户增长12倍。2026年上半年,智能体AI活跃用户增长超5倍,增速最快的是非软件开发人员。目前OpenAI内部97.9%员工使用Codex,外部组织使用率达17.3%。此外,Codex能处理长周期任务,自2026年初以来,提交需经验丰富人类超8小时任务请求的用户比例增长近十倍。

智能体OpenAI编码行业动态
14:26
Alibaba Cloud@alibaba_cloud
46
阿里云CTO李飞飞:智能体时代数据引力将主导

在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。

智能体大佬观点数据/训练
12:23
Rohan Paul@rohanpaul_ai
43
GLM 5.2 登顶 PostTrainBench,得分 34.29%

GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。

智能体数据/训练评测/基准
12:20
公众号:卡尔的AI沃茨
49
Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案

Fable5 小范围灰度测试降智,安全加强导致上下文窗口和长文本优化受限。不过在 Claude Code v2.1.190 版本中,Fable5 计费已从单独 API 改为包含在每周套餐里。受此影响,GPT-5.6 被要求分阶段发布,从六月推迟到七月中。作者推荐在 Claude Code 中开启动态工作流(多 Agent),使用低一档的 Sonnet 4.6 模型并将 ultracode 推理程度拉满,作为降智后的替代方案。

智能体AnthropicOpenAI推理
12:19
Berryxia.AI@berryxia
63
Anthropic推出Claude Tag

Anthropic发布新产品Claude Tag,将其描述为Agent的下一个进化形态。这是一个运行在Claude Code之上的多玩家AI Agent,具备持续记忆和身份,能主动发起行动并与团队协作。核心转变是将Agent从单人聊天工具变为拥有长期上下文的“团队成员”,支持多人在同一Agent上协同工作。此前大多数Agent仅支持单轮或单用户交互。不过,评论区热议焦点并非该产品,而是用户更期待的Fable 5。

ClaudeDevs: Claude Tag is the next evolution of agents. It's a proactive, multiplayer agent with memory and identity, built on top o...

智能体Anthropic产品更新
12:00
公众号:龙猫LongCat(美团)
33
美团 ICML'26 论文分享会:通用 Agent 专场 & 视频生成等综合专场

美团将于7月1日、2日举办两场 ICML'26 论文分享会。首日聚焦通用 Agent,涵盖记忆与长程推理(MemOCR)、环境合成(ScaleEnv)、价值模型(V_0)、自我验证、鲁棒性基准(AgentNoiseBench)及智能体裁判基准(AJ-Bench)等方向。次日为视频生成等综合专场,涉及超高分辨率视频生成(LUVE)、交互式世界模型(Infinite-World)、身份保持视频生成(WildActor)、流式视频超分(InfVSR)、微调优化(SAFT)、检索增强出价(DRIVE)及旅行规划基准(TRIP-Bench)等。共13篇论文,报名后可直播参与。

智能体行业动态论文/研究
12:00
公众号:龙猫LongCat(美团)
精选69
美团 LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0,首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具,每位用户平均2093个交互事件,时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示,最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5;开启思考模式并不总能提升个性化任务表现;所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由:美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准,实验发现最强模型得分也刚过0.5,做Agent和推荐系统的值得跑一遍。
10:10
公众号:数字生命卡兹克
精选71
Claude Code 6个实用Hook玩法

Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

智能体AnthropicMCP/工具教程/实践

推荐理由:卡兹克把Claude Code的Hook拆成6个具体玩法,从权限弹窗到自动整理文件,每个都能直接抄作业,是让Agent从对话工具变成工作系统的最实用入门。
09:52
meng shao@shao__meng
56
Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体Anthropic推理评测/基准
09:27
小互@xiaohu
精选81
小互开源个人IP配图技能"小互IP Studio",含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

智能体GitHub图像生成开源/仓库

推荐理由:小互开源了一整套AI配图skill和31个原创角色,把“读文-定图-生图-自查”的流程装进一个命令,自媒体人装上就能用,省去调提示词的痛苦。
09:23
Rohan Paul@rohanpaul_ai
53
《对智能体模型的批判》

该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。

智能体大佬观点
08:59
IT之家(RSS)
56
Notion Mail 电子邮件服务将于 2026 年 9 月停运,生命周期约 17 个月

Notion 宣布将于 2026 年 9 月 22 日停止运营 Notion Mail。该服务于 2025 年 4 月上线,主打 AI 处理邮件。由于智能体功能日益强大,超过一半用户无需打开收件箱即可管理邮件,Notion 决定从“AI 辅助邮箱客户端”转向“由智能体直接运行邮箱”。自 2026 年 6 月 25 日起,用户可导出仅存于 Notion Mail 的数据;9 月 22 日后未保存数据将永久删除。收件箱邮件仍保留在 Gmail,但草稿和定时发送邮件需在 9 月 21 日前完成导出。

智能体行业动态
08:52
meng shao@shao__meng
62
OpenAI Codex 一年数据:知识工作转向长周期任务,覆盖所有部门

OpenAI 发布 Codex 整年使用数据:约 24% 请求对应人类需 1 小时以上工作;到 2026 年 5 月,80.6% 个体用户至少有一次 ≥30 分钟任务,25.6% ≥8 小时。内部 Codex token 占比从 <10%(2025 年 8 月前)激增至 99.8%(2026 年 6 月),工程率先过半,法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍(个人)和 189 倍(组织),H1 2026 活跃用户整体 5 倍以上,增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本,ChatGPT 式聊天在工作场景中被快速替代。

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体OpenAI现象/趋势
08:21
宝玉@dotey
63
OpenAI 内部几乎全员(研发、法务、财务、招聘)已从 ChatGPT 转向 Codex。观察者认为,Codex 将成为 AI 时代的 Office,甚至可能成为操作系统;其发展趋势必然是 Agent OS(智能体操作系统)而不仅仅是 Agent Office(智能体办公套件)。

刘江/LIU Jiang: 最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。

智能体OpenAI大佬观点
08:00
HuggingFace Daily Papers(社区热门论文)
37
RocketSmith: 智能体驱动的增材制造高功率火箭

RocketSmith 是一个利用大语言模型编排软件工具、自动执行增材制造设计流程的智能体系统,用于开发可发射的高功率火箭。系统通过子智能体与技能包实现零样本或人在回路中的飞行参数迭代优化,验证飞行稳定性并生成参数化火箭组件。研究团队使用多种 FDM 打印机制造了四枚不同电机与装配构型的火箭,经手动评估和现场发射测试,所有火箭均稳定发射,其中两枚成功回收且具备再次飞行条件。高度计数据表明火箭实际飞行高度达到系统预测远地点高度的 80%,验证了仿真与实验的一致性。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
TUA-Bench:面向通用终端智能体的基准测试

TUA-Bench是一个通用终端智能体基准测试,包含120个真实世界任务,覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行,采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力,整体性能65.8%,各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
44
GBC:基于梯度的连接用于优化多智能体系统

针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。

智能体GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
ProMSA:渐进式多模态搜索智能体用于知识型视觉问答

ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)

Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。

智能体Google推理论文/研究
07:20
ginobefun@hongming731
45
BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备

Dropbox用DSPy构建两阶段评测闭环:人工标注校准LLM裁判后,自动优化Dash Chat提示词,使不完整答案减少26%,遗漏关键信息点减少13%,Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚,支持在step.do()中声明补偿逻辑,引擎自动逆序执行已注册回滚,具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。

智能体现象/趋势
06:51
OpenAI Developers@OpenAIDevs
57
Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥
智能体OpenAI教程/实践编码
‹ 上一页
1…7891011…50
下一页 ›