AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2139 条
全部一手资讯X论文
标签「Agent」清除
6月19日周五
10:27Hacker News 热门(buzzing.cc 中文翻译)63TesterArmy (YC P26) - 用于测试网页和移动应用的代理程序
09:27OpenRouter:Announcements(RSS)60精选OpenClaw 接入 OpenRouter
09:19TechCrunch:AI(RSS)54Elastic 同意以最高8500万美元收购 AI 初创公司 DeductiveAI
08:00HuggingFace Daily Papers(社区热门论文)47BioInsight:面向交互式生物医学知识发现的多智能体编排
08:00OpenRouter:Announcements(RSS)73精选DeepSeek V4 智能体 token 份额持续增长
08:00HuggingFace Daily Papers(社区热门论文)67PrivacyAlign:面向LLM智能体的上下文隐私对齐
08:00HuggingFace Daily Papers(社区热门论文)51Counsel:面向智能体任务的元评估数据集
08:00HuggingFace Daily Papers(社区热门论文)58EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征
08:00HuggingFace Daily Papers(社区热门论文)46CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习
04:54MarkTechPost(RSS)55Perplexity 推出自改进记忆系统 Brain,构建智能体工作上下文图
03:53Hacker News 热门(buzzing.cc 中文翻译)61Hermes 迁移工具:从 OpenClaw 导入配置
03:16Google Developers Blog(RSS)48Google 庆祝A2A协议发布一周年:协作智能体生态
02:47Hugging Face:Blog(RSS)75精选MosaicLeaks: 你的研究智能体能保守秘密吗?
02:23The Decoder:AI News(RSS)63Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月18日周四
22:52The Decoder:AI News(RSS)78精选Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
22:14IT之家(RSS)67Adobe Firefly AI 平台升级:为 Creative Cloud 套件引入智能体
21:47Hugging Face:Blog(RSS)74精选AI 智能体够格吗?在自有工具上评测开源模型
21:44HuggingFace Daily Papers(社区热门论文)51RODS:多轮工具智能体奖励驱动在线数据合成
21:21The Decoder:AI News(RSS)72精选Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
21:18The Verge:AI(RSS)66Photoshop和Premiere现已配备AI助手
18:14IT之家(RSS)67小米发布并开源全屋智能 AI 方案 Xiaomi Miloco 2.0
17:50公众号:千问APP(阿里)25千问推出国内首个全周期高考志愿填报Agent
17:10公众号:昆仑万维(天工)48Skywork Super Agents:Agent范式正在重构Token经济
17:10公众号:月之暗面(Kimi)70同事件精选Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
14:14IT之家(RSS)64英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务
12:44HuggingFace Daily Papers(社区热门论文)65OmniAgent:原生全模态智能体实现长视频主动感知推理
12:00公众号:龙猫LongCat(美团)39美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录
10:43HuggingFace Daily Papers(社区热门论文)45Xcientist:外部化AI科学家研究合成与验证的研究框架
10:20公众号:千问APP(阿里)32千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北
09:20OpenRouter:Announcements(RSS)57如何在 OpenRouter 上使用 OpenAI Codex CLI
09:14IT之家(RSS)71同事件精选苹果 Xcode 27 核心首次深度集成 AI 智能体:支持自然语言修 Bug、构建 App同一事件,精选展示《Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发》
08:14IT之家(RSS)49Epic 预热虚幻引擎 6:引入生成式 AI 工具,游戏逻辑开发全面转向 Verse 语言
08:14IT之家(RSS)34IT早报:DeepSeek 4000亿元融资;微信支付AI专属卡;Android 17正式版
08:00HuggingFace Daily Papers(社区热门论文)63当较低权限即可满足时:LLM智能体中的过度特权工具选择研究
08:00HuggingFace Daily Papers(社区热门论文)42MobileForge:无标注自适应移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)51MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)46Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体
07:17Claude:Blog(网页)51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
10:27
Hacker News 热门(buzzing.cc 中文翻译)
63
TesterArmy (YC P26) - 用于测试网页和移动应用的代理程序

TesterArmy 是一个 AI 代理程序,持续监控网站和移动应用的关键用户流程,并在出现问题时向团队发出警报。只需粘贴 URL 即可创建项目,无需 SDK、测试脚本或基础设施维护。用户用自然语言描述测试场景,AI 代理自动导航页面、填写表单、处理 OAuth 和 OTP 登录流程。支持通过 GitHub App 自动 PR 检查、定时运行生产监控或通过 webhook 触发。每次运行后提供截图、录屏和可操作的 bug 报告,可通过仪表盘、CLI 或 Pull Request 查看。设置只需不到 2 分钟。

智能体产品更新部署/工程
09:27
OpenRouter:Announcements(RSS)
精选60
OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由:给用 OpenClaw 搭 agent 的人一个直接可用的集成指南,还附带了常见报错修复,比零散摸索省时间。
09:19
TechCrunch:AI(RSS)
54
Elastic 同意以最高8500万美元收购 AI 初创公司 DeductiveAI

DeductiveAI 同意被 Elastic 以最高 8500 万美元收购。这家 2023 年成立的初创公司用 AI 自动捕获和修复软件 bug,去年 11 月结束隐身模式并完成 750 万美元种子轮融资(CRV 领投,Databricks Ventures 等参投),当时估值 3300 万美元。DeductiveAI 技术将整合到 Elastic 的可观测性平台,帮助用户自动监控性能并实时解决系统故障。其年经常性收入约 100 万美元。收购反映了传统科技公司通过收购 AI 原生初创公司融入智能体技术的大趋势。

智能体编码行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
47
BioInsight:面向交互式生物医学知识发现的多智能体编排

BioInsight 是一个多智能体系统,将静态生物医学报告生成转变为交互式、以证据为中心的界面生成。给定疾病名称、蛋白质关联表和可选队列元数据,系统通过类型化中间产物(排名通路、文献证据包、蛋白质级推理笔记、引用报告、仪表盘模式和交互界面)组织疾病特异性证据。它将证据检索与机制推理分离,通过确定性组件规范化引用,并将报告中的结构化证据转换为交互界面。在标准化生物医学问答、蛋白质功能推理和端到端证据综合评测中,BioInsight达到最佳性能,表明生物医学AI系统应转向保留来源的交互式证据制品。

智能体论文/研究
08:00
OpenRouter:Announcements(RSS)
精选73
DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。

智能体DeepSeek开源生态现象/趋势

推荐理由:OpenRouter 独家数据展示了代际转折:DeepSeek V4 靠性价比吃下代理负载,中国模型 token 份额首次超过美国,这个信号比任何 benchmark 排名都真实,做应用选型的人该重新算账了。
08:00
HuggingFace Daily Papers(社区热门论文)
67
PrivacyAlign:面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Counsel:面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的,孤立编码文本片段,忽略上下文与时间顺序。EvoEmbedding 生成可演化表征,专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆,并与原始内容共同生成演化嵌入,使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索,构建了训练数据集 EvoTrain‑180K,并引入记忆队列防止表征崩塌,结合分段批处理加速训练 3.8 倍。实验表明,该模型在长上下文检索基准上超越更大规模专用模型,并可泛化至上下文长 10 倍的下游任务;集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究
04:54
MarkTechPost(RSS)
55
Perplexity 推出自改进记忆系统 Brain,构建智能体工作上下文图

Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。

智能体产品更新推理
03:53
Hacker News 热门(buzzing.cc 中文翻译)
61
Hermes 迁移工具:从 OpenClaw 导入配置

hermes claw migrate 命令可将 OpenClaw(及遗留的 Clawdbot/Moldbot)配置导入 Hermes,包括角色(SOUL.md)、工作区指令(AGENTS.md)、长期记忆、用户画像、技能(来自 4 个来源)、默认模型、自定义提供商及 API 密钥等。迁移前会展示完整预览并确认。支持 --dry-run 预览、--preset full 全量迁移(API 密钥需额外指定 --migrate-secrets)、--overwrite 覆盖冲突、--no-backup 跳过备份等选项。默认读取 ~/.openclaw/,旧版目录自动检测。技能冲突可设为跳过、覆盖或重命名。迁移前自动创建 ~/.hermes/backups/ 备份,可用 hermes import 恢复。

智能体MCP/工具教程/实践
03:16
Google Developers Blog(RSS)
48
Google 庆祝A2A协议发布一周年:协作智能体生态

Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。

智能体Google教程/实践部署/工程
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
02:23
The Decoder:AI News(RSS)
63
Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。

智能体DeepMind安全/对齐论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
22:52
The Decoder:AI News(RSS)
精选78
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。

智能体GitHubGoogleOpenAI

推荐理由:两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平,但更值得关注的是那个被埋起来的实验:更强的模型一上来,精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。
22:14
IT之家(RSS)
67
Adobe Firefly AI 平台升级:为 Creative Cloud 套件引入智能体

6月18日,Adobe为Firefly推出更新,引入Creative Skills,用户通过自然语言对话即可生成Logo、配色方案、营销视频等,Firefly会主动反问以完善需求,并提供控制面板微调字体、镜头运动等细节。同时,Photoshop、Premiere Pro等软件加入智能体,侧边栏输入指令可整理素材、重命名文件、更新设计稿。

智能体产品更新多模态
21:47
Hugging Face:Blog(RSS)
精选74
AI 智能体够格吗?在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌,做 agent 工具链的人应该马上看这个标杆。
21:44
HuggingFace Daily Papers(社区热门论文)
51
RODS:多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。

智能体数据/训练论文/研究
21:21
The Decoder:AI News(RSS)
精选72
Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用,以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务,如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot,Google Gemini 和 Slack 集成即将推出。

智能体产品更新多模态

推荐理由:Adobe把AI助手直接塞进了Photoshop、Premiere这些上亿人用的创作工具,干的虽然是粗剪、排版一类的苦力活,但却是AI从生成器转向流程助手的关键一步,值得所有创意工作者上手试试。
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
21:18
The Verge:AI(RSS)
66
Photoshop和Premiere现已配备AI助手

Adobe在其最受欢迎的Creative Cloud应用中推出AI助手,即日起公开测试。每个应用拥有专精的AI助手:Premiere助手可排序素材、批量重命名剪辑、识别语音关键词并添加时间线标记;Photoshop助手可描述预期效果、整理图层、切换背景、调整资源尺寸;Illustrator助手支持多步生产任务,如检查颜色模式错误、缺失字体、重组图层;InDesign助手可进行打印就绪检查和样式批量更新;Frame.io助手能整理拍摄资产、生成B-roll素材并提供创意方向帮助。

智能体产品更新
18:14
IT之家(RSS)
67
小米发布并开源全屋智能 AI 方案 Xiaomi Miloco 2.0

小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0,基于自研 MiMo 大模型,以 Agent 形式接入 OpenClaw。具备六大核心特性:通用常识(自动识别危险并预警)、身份识别(人脸+体态)、家庭记忆(沉淀习惯供主动决策)、家庭任务(条件自动化、定时提醒等)、主动智能、家庭面板。前置条件:内存≥4GB、存储≥256GB、7×24运行(推荐 Mac mini),macOS/Linux,需小米账号及米家设备,以及多模态大模型 API Key(感知用 MiMo-v2.5,Agent 用 MiMo-v2.5-pro)。

智能体产品更新开源/仓库端侧
17:50
公众号:千问APP(阿里)
25
千问推出国内首个全周期高考志愿填报Agent

千问上线了国内首个全周期高考志愿填报Agent,免费为全国考生提供志愿填报和咨询服务。该Agent帮助用户梳理分数排名、专业详情与选择方向,已有多位家长通过它解决了信息盲区与填报难题。千问同时发起故事征集,邀请考生、家长、老师分享使用经历。

智能体产品更新
17:10
公众号:昆仑万维(天工)
48
Skywork Super Agents:Agent范式正在重构Token经济

Skywork Super Agents 从2024年底推理模型起步,2025年2月转向办公场景,5月发布Word、PowerPoint、Excel、网页、博客五个专项Agent,8月拓展多模态后在BrowseComp榜单进入第一梯队,11月解决Excel表格准确性难题。202

智能体大佬观点
17:10
公众号:月之暗面(Kimi)
同事件精选70
Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利

月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。

智能体MCP/工具产品更新
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
推荐理由:目标模式把 Kimi Work 从对话助手变成了能连续运行 24 小时的自主 Agent,配合插件中心打通办公软件,对需要长时间执行复杂任务的用户是实际可用性的大升级。
14:14
IT之家(RSS)
64
英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。

智能体具身智能论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
65
OmniAgent:原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架,将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆,使推理复杂度与视频时长解耦。训练采用 Agentic SFT(最佳轨迹合成与双阶段质量控制)和基于 TAURA 的 Agentic RL(利用 turn 级熵分配探索奖励)。模型在测试时呈现正向缩放:推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上,OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B(47.3%)。

智能体多模态论文/研究
12:00
公众号:龙猫LongCat(美团)
39
美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录

美团业务研发平台/搜推ASX团队六篇论文被ACL/ICML/KDD 2026接收。CBS将样本选择建模为上下文多臂老虎机,提升数学推理性能效率;ResRL通过负样本投影残差强化学习,数学超NSR 9.4%、代码刷新CodeForces SOTA、ALFWorld超PPO 7.8%;CDRRM仅用3千样本让未微调模型超越全量微调基线;LocalSearchBench覆盖国内9城6品类超134万商户与900道多跳问答,最优DeepSeek-V3.2正确率仅35.60%;DiningBench含3021道菜品多视角图像,29个VLM模型细粒度识别与营养推理不足;Mem²Evolve双记忆自进化框架在6类任务8个基准上优于单一进化策略。

智能体搜索行业动态
10:43
HuggingFace Daily Papers(社区热门论文)
45
Xcientist:外部化AI科学家研究合成与验证的研究框架

Xcientist 是一个研究框架,将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化,使生成机制可落地、测试和修订。它识别出“声称漂移”——可执行工件不再支持原声称机制——作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上,Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张,AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。

智能体论文/研究
10:20
公众号:千问APP(阿里)
32
千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北

千问高考志愿填报Agent在“暖芒计划”公益活动中首次走进河北省青龙满族自治县第一中学,向三百多位考生和家长免费提供志愿填报服务。Agent能根据实际分数和选科生成志愿报告,逐一说明推荐理由和潜在风险。现场教师指出,传统填报痛点在于信息散落且付费服务不透明,而千问Agent将每一步推理过程公开,消除信息鸿沟。该计划后续将覆盖全国10多个省份的偏远地区高中,并举办100多场免费公益直播。

智能体行业动态
09:20
OpenRouter:Announcements(RSS)
57
如何在 OpenRouter 上使用 OpenAI Codex CLI

Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。

智能体OpenAI教程/实践编码
关联讨论 1 条OpenRouter:Announcements(RSS)
09:14
IT之家(RSS)
同事件精选71
苹果 Xcode 27 核心首次深度集成 AI 智能体:支持自然语言修 Bug、构建 App

在 2026 年 WWDC 期间,苹果发布 Xcode 27,其核心组件首次整合 AI 智能体,能理解 Swift 语言并通过多轮自然语言对话辅助开发。AI 可跨多个文件修改整个代码库,也能根据提示与资源生成应用设计并独立构建完整应用,建成后仍可通过对话添加特效、动画等。Xcode 27 支持接入 Anthropic、OpenAI 和 Google 等第三方 AI 模型,同时引入 Core AI 框架提供现代 Swift API 调用端侧模型,并升级开源框架 MLX。

智能体产品更新编码
同一事件,精选展示《Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发》
推荐理由:Xcode 27 把 AI 智能体直接嵌进 IDE,支持多文件编辑和第三方模型,对苹果生态开发者是效率跃迁,非苹果开发者可以略过。
08:14
IT之家(RSS)
49
Epic 预热虚幻引擎 6:引入生成式 AI 工具,游戏逻辑开发全面转向 Verse 语言

Epic 今日发布虚幻引擎 5.8,同时预热 UE6。UE6 的游戏逻辑开发模型将全面转向 Verse 语言,以降低门槛并支持大规模在线世界与多人协作。引擎将引入开放标准实现跨游戏内容互通,涵盖资源、代码和经济系统,并深度整合 Unreal Editor For Fortnite。UE6 还将集成大语言模型与生成式 AI 工具,整合 Claude、Gemini 等模型辅助开发。时间上,UE6 预计 2027 年底进入 Early Access,正式版在此后 12–18 个月内推出;UE5.8 为 UE5 最后一个重大更新,后续重点转向 UE6。

智能体产品更新编码
08:14
IT之家(RSS)
34
IT早报:DeepSeek 4000亿元融资;微信支付AI专属卡;Android 17正式版

DeepSeek以4000亿元估值完成首轮融资,融资约510亿元,投资方包括梁文锋、腾讯、宁德时代等。微信支付发布AI专属卡,授权Agent后实现自动消费。谷歌推送Android 17正式版,集成Gemini、Lyria等AI模型,新增AI音乐生成。腾讯自选股内测金融智能体StockBuddy。支付宝提醒AI版“阿宝”内测邀请码无需付费。西安警方侦破AI造谣小米案,4人被刑拘。

智能体行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
63
当较低权限即可满足时:LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MobileForge:无标注自适应移动GUI智能体

MobileForge由MobileGym和层次化反馈引导策略优化(HiFPO)组成,在真实移动应用中自动生成任务和评估rollout,将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据,MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3,接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3,并在域外MobileWorld GUI-only任务上取得41.0%成功率,成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。

智能体端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体

ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制,将上下文管理视为与UI动作同策略的一等动作,维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段,保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练,得到MemGUI-8B-SFT,在MemGUI-Bench上达到最优8B开放数据性能,并泛化到分布外MobileWorld基准。代码、数据和模型将开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体

Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。

智能体数据/训练论文/研究
07:17
Claude:Blog(网页)
51
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

智能体Anthropic多模态行业动态
‹ 上一页
1…678910…50
下一页 ›