AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月20日周六
08:24Tibo62Codex 实现远程/本地切换
08:00HuggingFace Daily Papers(社区热门论文)52OpenBioRQ:未解决生物医学研究问题的智能体基准测试
06:54MarkTechPost(RSS)77精选NVIDIA Research 发布 SpatialClaw:免训练空间推理框架
03:02HuggingFace Daily Papers(社区热门论文)43LedgerAgent:面向策略合规工具调用智能体的结构化状态管理方法
02:53宝玉75精选baoyu-design Skill迭代:修复导出样式与渐变丢失问题,支持AI配图导出PPTX
01:01AYi61Theo 用 Codex 通宵清理 GitHub 僵尸 PR:分诊、关闭、复活双线程并行
00:53GitHub Blog52GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询
00:53elvis70从提示智能体到循环工程:AI编程的新主张
00:53elvis22循环工程趋势下智能体工作方式将变革
00:03Berryxia.AI57搭建AI Agent团队有多难:从玩具到员工跨越四道门槛
6月19日周五
23:50TechCrunch:AI(RSS)45信实工业推出多款AI服务,涵盖通话、应用与家居
23:22elvis51自动化SKILL.md生成:三阶段流水线论文
22:22Artificial Intelligence News(RSS)38SAP 与 Google Cloud 部署智能体商务架构
22:00Cloudflare Blog62精选Cloudflare 为 AI 智能体推出临时账户
21:52Rohan Paul44通用智能体必须记住什么?
20:19fofr19AI智能体宣称要手动操作
19:19Chubby♨️47DeepSeek API打造1800机器人WoW私服
17:59fofr55如何组建一支协调的AI智能体团队
15:19AYi70Codex Record & Replay:手动演示教AI干活
13:30小互63Codex 推出 Record & Replay 功能:演示一次操作即可自动复用
13:29Hacker News 热门(buzzing.cc 中文翻译)73精选我们在 Elasticsearch 上构建了一个持久化代理内存层,其召回率为0.89
12:19AYi76精选DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环
12:16Steve Yegge:Medium(RSS)74同事件精选Fable模型被美国临时关闭,AI安全管控时代来临同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
11:47HuggingFace Daily Papers(社区热门论文)50S-Agent:空间工具使用智能体范式实现空间推理
11:29Z.ai54GLM-5.2 移动开发长程任务性能翻倍
10:47HuggingFace Daily Papers(社区热门论文)51超越静态排行榜:LLM智能体评估的预测有效性研究
10:47HuggingFace Daily Papers(社区热门论文)45ENPIRE:真实世界中机器人策略的自主改进框架
10:27Hacker News 热门(buzzing.cc 中文翻译)63TesterArmy (YC P26) - 用于测试网页和移动应用的代理程序
09:27OpenRouter:Announcements(RSS)60精选OpenClaw 接入 OpenRouter
09:19TechCrunch:AI(RSS)54Elastic 同意以最高8500万美元收购 AI 初创公司 DeductiveAI
08:48Berryxia.AI71用Codex连续38小时、301个分支,将元Skill yao-meta-skill升级至2.0
08:02ginobefun48OpenAI Codex Record & Replay、Claude Code Artifacts、Google A2A 协议一周岁
08:02ginobefun40BestBlogs早报06-19精讲:OpenAI Codex Record & Replay / Claude Code Artifacts / A2A协议满周岁
08:00HuggingFace Daily Papers(社区热门论文)47BioInsight:面向交互式生物医学知识发现的多智能体编排
08:00OpenRouter:Announcements(RSS)73精选DeepSeek V4 智能体 token 份额持续增长
08:00HuggingFace Daily Papers(社区热门论文)67PrivacyAlign:面向LLM智能体的上下文隐私对齐
08:00HuggingFace Daily Papers(社区热门论文)51Counsel:面向智能体任务的元评估数据集
08:00HuggingFace Daily Papers(社区热门论文)58EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征
08:00HuggingFace Daily Papers(社区热门论文)46CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习
07:58Rohan Paul75精选AI 员工 Viktor 登陆 Microsoft Teams,年化收入达 2000 万美元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月20日
08:24
Tibo@thsottiaux
62
Remote / local handoff in Codex! 一步步消除边界。 当你让模型掌握主导权时,实际上需要的底层设施更少。

Guinness Chen: Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...

智能体OpenAI产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
52
OpenBioRQ:未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试,覆盖 12 个领域。问题无固定答案密钥,迫使模型通过多步工具调用自主验证证据,从而评估其真实性及弃权能力。当前智能体极少捏造引用(超 99% 可解析),但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上;在最难子集中同系列模型仅解决约 17%,而前沿智能体(Gemini-3-Pro、Opus-4.7、GPT-5.5)表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后,评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究
06:54
MarkTechPost(RSS)
精选77
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架

NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由:NVIDIA 把空间推理的动作接口从工具调用换成代码,这个思路很巧,20 个基准平均拉升到 59.9%,无训练即插即用,做机器人和视频理解的人该直接跑一下 repo。
03:02
HuggingFace Daily Papers(社区热门论文)
43
LedgerAgent:面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。

智能体MCP/工具论文/研究
02:53
宝玉@dotey
精选75
baoyu-design Skill迭代:修复导出样式与渐变丢失问题,支持AI配图导出PPTX

宝玉分享 baoyu-design Skill 的迭代过程:用户测试发现导出问题(样式表未铺满整页、渐变色丢失),他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖,修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图,支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图,并能连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。迭代循环:自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。

宝玉: baoyu-design skill 更新:可以在制作 PPT、动画视频或者网站时调用 AI 生图技能配图了,当然需要你本地 Agent 有配置画图 Skill。 如果是 Codex 可以直接调用内置画图工具,如果你用 Claude Cod...

智能体教程/实践

推荐理由:宝玉分享了一套用 Agent 自我诊断、自动修复 Skill 的迭代方法,从复现 bug 到让 AI 提出解决方案,开发者的打磨循环变成纯对话了,做 Agent 工具的人可以直接套用。
01:01
AYi@AYi_AInotes
61
Theo 用 Codex 通宵清理 GitHub 僵尸 PR:分诊、关闭、复活双线程并行

开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR:自动分诊判断价值,关闭无用的,复活过时的。每个被复活的 PR 同时运行两个线程——Build 线程负责修复冲突和更新代码,Review 线程负责审查代码,形成写手+审稿人的双保险,降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度,实现“睡觉时自动干活,醒来只看决策”。主推文作者拆解出三步:Triage 分诊、关闭无用、复活并行推进,可直接复制使用。

Theo - t3.gg: I underestimated how cool this workflow is. Had Codex go through a bunch of stale PRs last night. Closed all the useless...

智能体教程/实践编码
00:53
GitHub Blog
52
GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体GitHub教程/实践数据/训练
00:53
elvis@omarsar0
70
从提示智能体到循环工程:AI编程的新主张

AI编程圈出现新主张:不应再手动提示编码智能体,而应设计循环自动完成提示、读取输出、判断完成,并在出错时重新提示。Boris Cherny(Claude Code创建者)和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态(ReAct、AutoGPT、ralph loop、/loop与/goal、编排),并拆解六大组装部件:触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。

智能体Anthropic教程/实践编码
00:53
elvis@omarsar0
22
对"循环工程(loop engineering)"趋势有许多想法。 我用我的写作智能体花了几分钟总结了我的一些研究、笔记以及与学生们、创始人们和初创公司的讨论。 还处于非常早期,但智能体的新工作方式即将出现,能力将有阶跃式变化。

elvis: http://x.com/i/article/2068004233849290752

智能体大佬观点
00:03
Berryxia.AI@berryxia
57
搭建AI Agent团队有多难:从玩具到员工跨越四道门槛

搭AI Agent团队远非“5分钟教程”那么简单。环境配置(Python 3.10+等)劝退八成新手。Agent编排面临从众效应、角色不一致等缺陷,Anthropic采用Subagents模式,Cognition甚至发文称“不要构建多Agent”。上下文管理是最大隐性杀手,同一模型因上下文工程不同分差36个百分点。工具接入缺乏行为合约,API调用失败频发。低代码平台、单Agent SDK正降低门槛,但多Agent自由协作仍是难题。

智能体Anthropic现象/趋势
6月19日
23:50
TechCrunch:AI(RSS)
45
信实工业推出多款AI服务,涵盖通话、应用与家居

印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。

智能体产品更新语音
23:22
elvis@omarsar0
51
自动化SKILL.md生成:三阶段流水线论文

关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。

智能体arXiv数据/训练论文/研究
22:22
Artificial Intelligence News(RSS)
38
SAP 与 Google Cloud 部署智能体商务架构

SAP 与 Google Cloud 联合部署智能体商务架构,通过 Universal Commerce Protocol 标准化零售商、支付网关与自主智能体之间的数据交换,实现从搜索、交易到售后的全序列自动化执行。SAP Commerce Cloud 集成 Google Gemini 能力构建 Shopping Assistant,支持聊天、语音和文本交互,实时查询库存确保推荐可行。该架构基于 SAP Business Data Cloud Connect for Google BigQuery 的双向零拷贝数据链接,融合天气、位置等外部变量与客户画像、交易历史等内部行为数据,由 SAP Engagement Cloud 驱动自主智能体编排个性化互动。SAP 研究显示,78% 的企业认为 AI 对 2026 年保留客户至关重要,但仅 37% 的公司跨客户体验平台共享数据、39% 跨 CRM 共享。

智能体Google行业动态部署/工程
22:00
Cloudflare Blog
精选62
Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体MCP/工具产品更新部署/工程
关联讨论 1 条Simon Willison 博客
推荐理由:Cloudflare 给 agent 开临时账号这个功能很聪明,一步解决了身份验证和资源清理的麻烦,做智能体部署的可以认真试试。
21:52
Rohan Paul@rohanpaul_ai
44
通用智能体必须记住什么?

该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。

智能体arXiv论文/研究
20:19
fofr@fofrAI
19
当智能体说它要手动操作时 👀
智能体大佬观点
19:19
Chubby♨️@kimmonismus
47
某人在Reddit上搭建了一个WoW私服,包含1800个机器人,并通过DeepSeek API实现AI聊天。 死互联网理论,但可玩。 一个没有真实玩家的MMORPG,却不知何故仍然感觉像人类。
智能体DeepSeek现象/趋势
17:59
fofr@fofrAI
55
如何组建一支协调的AI智能体团队

设置一个编排器智能体,由它配置Gemini Managed Agents或modal cpu实例,在独立环境中启动子智能体。先执行深度研究任务,探索管理智能体团队的最佳实践(角色、技能、跨通信与规划),再将最佳推荐应用于各智能体。重复该循环(可逐步增加智能体数量)。之后给团队一个空代码仓库,挑战其构建产品、建立最佳实践,让智能体观察问题、提出修复建议并快速迭代,从而暴露竞争条件、完善规划方法。

智能体教程/实践
15:19
AYi@AYi_AInotes
70
Codex Record & Replay:手动演示教AI干活

Codex 上线 Record & Replay 新功能,解决用户写长 prompt 描述不清流程的痛点。用户在 macOS 上手动完成一次操作(如填写报销单、添加视频标签),AI 静默记录每一步,自动整理成可检查、可复用的 skill。下次执行时只需更换参数(如文件名、日期范围),其余步骤按既定规则自动完成。目前仅 macOS 可用,需开启 Computer Use 权限,详细指引见评论区。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

智能体OpenAI教程/实践编码
13:30
小互@xiaohu
63
Codex 推出 Record & Replay 功能:演示一次操作即可自动复用

Codex 推出 Record & Replay 功能,用户可在电脑上演示一次操作流程,Codex 观察并自动生成可复用的 Skill。下次遇到同类任务,Codex 即可自动执行。官方以“发 YouTube 视频”演示:手动走完拉元数据、配缩略图和字幕、上传存为私密、核对等流程,新对话中 Codex 自动完成无差错。该功能适用于报销贴票、文件批量重命名归档、每周数据填报表、网上订票等重复性电脑操作,实现从“每次写提示词”到“演示一次就够”的跨越。

智能体OpenAI产品更新
13:29
Hacker News 热门(buzzing.cc 中文翻译)
精选73
我们在 Elasticsearch 上构建了一个持久化代理内存层,其召回率为0.89

Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。

智能体GitHubMCP/工具教程/实践

推荐理由:Elastic 把这套代理记忆架构连同评估数据一次性放出来,三种记忆类型、混合召回、衰减和隔离全挤在一个查询里,做 Agent 持久记忆的开发者可以直接抄,召回 0.89 的工程决策讲得清楚。
12:19
AYi@AYi_AInotes
精选76
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。

Deli Chen: 🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html...

智能体DeepSeek开源/仓库

推荐理由:Deli Chen 开源的不是模型,是能让 AI 自己跑通 RL 研究全流程的「后厨系统」,从实验设计到 debug 全自动,五个工程思路可以直接抄作业。
12:16
Steve Yegge:Medium(RSS)
同事件精选74
Fable模型被美国临时关闭,AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。

智能体Anthropic大佬观点安全/对齐
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Steve Yegge这篇判断很冷也很实:多数人能接触的模型智能将停滞,但背后指数仍在跑,SaaS反而因此安全。他抛出的AI素养三阶模型,对正头痛如何推动团队用AI的leader是现成框架。
11:47
HuggingFace Daily Papers(社区热门论文)
50
S-Agent:空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究
11:29
Z.ai@Zai_org
54
智谱 GLM-5.2 在内部 35 项挑战性移动开发任务(共 70 次试验)中完成率达 48/70,较 GLM-5.1 的 21/70 提升超两倍;同期 Claude Fable 5 为 56/70。主推文指出长程能力应落地真实场景,更多场景即将推出。

Zixuan Li: GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...

智能体模型发布编码
10:47
HuggingFace Daily Papers(社区热门论文)
51
超越静态排行榜:LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

智能体MCP/工具论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
45
ENPIRE:真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。

智能体具身智能论文/研究
10:27
Hacker News 热门(buzzing.cc 中文翻译)
63
TesterArmy (YC P26) - 用于测试网页和移动应用的代理程序

TesterArmy 是一个 AI 代理程序,持续监控网站和移动应用的关键用户流程,并在出现问题时向团队发出警报。只需粘贴 URL 即可创建项目,无需 SDK、测试脚本或基础设施维护。用户用自然语言描述测试场景,AI 代理自动导航页面、填写表单、处理 OAuth 和 OTP 登录流程。支持通过 GitHub App 自动 PR 检查、定时运行生产监控或通过 webhook 触发。每次运行后提供截图、录屏和可操作的 bug 报告,可通过仪表盘、CLI 或 Pull Request 查看。设置只需不到 2 分钟。

智能体产品更新部署/工程
09:27
OpenRouter:Announcements(RSS)
精选60
OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由:给用 OpenClaw 搭 agent 的人一个直接可用的集成指南,还附带了常见报错修复,比零散摸索省时间。
09:19
TechCrunch:AI(RSS)
54
Elastic 同意以最高8500万美元收购 AI 初创公司 DeductiveAI

DeductiveAI 同意被 Elastic 以最高 8500 万美元收购。这家 2023 年成立的初创公司用 AI 自动捕获和修复软件 bug,去年 11 月结束隐身模式并完成 750 万美元种子轮融资(CRV 领投,Databricks Ventures 等参投),当时估值 3300 万美元。DeductiveAI 技术将整合到 Elastic 的可观测性平台,帮助用户自动监控性能并实时解决系统故障。其年经常性收入约 100 万美元。收购反映了传统科技公司通过收购 AI 原生初创公司融入智能体技术的大趋势。

智能体编码行业动态
08:48
Berryxia.AI@berryxia
71
用Codex连续38小时、301个分支,将元Skill yao-meta-skill升级至2.0

姚金刚使用高级agent Codex连续38小时、提交301个分支,将自己创建其他skill的元Skill(yao-meta-skill)重构并升级至2.0版本,已推送到GitHub。Codex持续拆解任务、修复问题,产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升,所有文档公开。此次升级本身成为典型案例:高级agent已能参与“如何更好地使用agent”的框架迭代。

姚金刚: 终于完成了对元Skill(创建skill的skill)的2.0升级 已推送到GitHub 这两天又进行了一些微调和测试,欢迎体验 相关资源与文档分享: 1、元skill仓库:https://github.com/yaojingang/yao...

智能体GitHub开源/仓库
08:02
ginobefun@hongming731
48
OpenAI Codex Record & Replay、Claude Code Artifacts、Google A2A 协议一周岁

OpenAI Codex 上线 Record & Replay,通过录屏演示一次操作(如发布 YouTube 视频),自动提炼为可复用的浏览器工作流。Claude Code 新增 Artifacts 功能,会话进展实时生成可分享的可视化页面(如事故排查面板),支持版本历史和实时刷新,Beta 期面向 Team/Enterprise。Google A2A 智能体协作协议满一周年,强调安全边界、零上下文污染和分布式架构,Python/Go SDK 达 1.0 正式版。

智能体行业动态
08:02
ginobefun@hongming731
40
BestBlogs早报06-19精讲:OpenAI Codex Record & Replay / Claude Code Artifacts / A2A协议满周岁

OpenAI为Codex上线Record & Replay,演示一次完整操作即可复用浏览器工作流;Claude Code支持Artifacts渲染,会话实时生成可视化页面并自动更新,Beta面向Team/Enterprise组织;Google A2A协议满周岁,Python/Go SDK已达1.0 GA,以FoldRun为例展示智能体协作。其他动态:MosaicLeaks基准测试揭示深度研究智能体隐私泄露风险;SGLang-JAX在TPU v7x上优化Ling-2.6-1T MoE模型,延迟降低53%。

ginobefun: http://x.com/i/article/2067749290982936576

智能体其他开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
47
BioInsight:面向交互式生物医学知识发现的多智能体编排

BioInsight 是一个多智能体系统,将静态生物医学报告生成转变为交互式、以证据为中心的界面生成。给定疾病名称、蛋白质关联表和可选队列元数据,系统通过类型化中间产物(排名通路、文献证据包、蛋白质级推理笔记、引用报告、仪表盘模式和交互界面)组织疾病特异性证据。它将证据检索与机制推理分离,通过确定性组件规范化引用,并将报告中的结构化证据转换为交互界面。在标准化生物医学问答、蛋白质功能推理和端到端证据综合评测中,BioInsight达到最佳性能,表明生物医学AI系统应转向保留来源的交互式证据制品。

智能体论文/研究
08:00
OpenRouter:Announcements(RSS)
精选73
DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。

智能体DeepSeek开源生态现象/趋势

推荐理由:OpenRouter 独家数据展示了代际转折:DeepSeek V4 靠性价比吃下代理负载,中国模型 token 份额首次超过美国,这个信号比任何 benchmark 排名都真实,做应用选型的人该重新算账了。
08:00
HuggingFace Daily Papers(社区热门论文)
67
PrivacyAlign:面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Counsel:面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的,孤立编码文本片段,忽略上下文与时间顺序。EvoEmbedding 生成可演化表征,专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆,并与原始内容共同生成演化嵌入,使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索,构建了训练数据集 EvoTrain‑180K,并引入记忆队列防止表征崩塌,结合分段批处理加速训练 3.8 倍。实验表明,该模型在长上下文检索基准上超越更大规模专用模型,并可泛化至上下文长 10 倍的下游任务;集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究
07:58
Rohan Paul@rohanpaul_ai
精选75
AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入(无销售团队、未大规模推广),现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI:用户无需学习、无需提示词,像 @同事 一样提及即可获得完整工作成果,甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户,助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用,含 100 美元信用额度,无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体产品更新

推荐理由:Viktor 带着 $20M ARR 进入 Teams,把 AI 员工的门槛降到零,对于被困在审批流程里的前线员工是个真实解法。
‹ 上一页
1…1718192021…50
下一页 ›