AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月18日周四
22:17Chubby♨️67AI 智能体 Viktor 正式入驻 Microsoft Teams
22:14IT之家(RSS)67Adobe Firefly AI 平台升级:为 Creative Cloud 套件引入智能体
21:47Hugging Face:Blog(RSS)74精选AI 智能体够格吗?在自有工具上评测开源模型
21:44HuggingFace Daily Papers(社区热门论文)51RODS:多轮工具智能体奖励驱动在线数据合成
21:21The Decoder:AI News(RSS)72精选Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
21:18The Verge:AI(RSS)66Photoshop和Premiere现已配备AI助手
19:51Kimi.ai43Kimi Work 推出 Goal 模式全天候运行
19:26Alibaba Cloud54阿里云东京第五数据中心与Model Studio上线
18:14IT之家(RSS)67小米发布并开源全屋智能 AI 方案 Xiaomi Miloco 2.0
17:50公众号:千问APP(阿里)25千问推出国内首个全周期高考志愿填报Agent
17:10公众号:昆仑万维(天工)48Skywork Super Agents:Agent范式正在重构Token经济
17:10公众号:月之暗面(Kimi)70同事件精选Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
14:24小互56Apodex:面向深度研究的自进化重载求解器
14:14IT之家(RSS)64英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务
12:44HuggingFace Daily Papers(社区热门论文)65OmniAgent:原生全模态智能体实现长视频主动感知推理
12:00公众号:龙猫LongCat(美团)39美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录
10:43HuggingFace Daily Papers(社区热门论文)45Xcientist:外部化AI科学家研究合成与验证的研究框架
10:20公众号:千问APP(阿里)32千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北
09:56Alibaba Cloud31阿里云战略:颠覆GenAI成本
09:20OpenRouter:Announcements(RSS)57如何在 OpenRouter 上使用 OpenAI Codex CLI
09:14IT之家(RSS)71同事件精选苹果 Xcode 27 核心首次深度集成 AI 智能体:支持自然语言修 Bug、构建 App同一事件,精选展示《Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发》
08:49meng shao82Vercel 开源 Agent 框架 Eve
08:49meng shao52Codex Automations 的内外双循环
08:14IT之家(RSS)49Epic 预热虚幻引擎 6:引入生成式 AI 工具,游戏逻辑开发全面转向 Verse 语言
08:14IT之家(RSS)34IT早报:DeepSeek 4000亿元融资;微信支付AI专属卡;Android 17正式版
08:00HuggingFace Daily Papers(社区热门论文)63当较低权限即可满足时:LLM智能体中的过度特权工具选择研究
08:00HuggingFace Daily Papers(社区热门论文)42MobileForge:无标注自适应移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)51MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)46Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体
07:17Claude:Blog(网页)51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓
07:13Hacker News 热门(buzzing.cc 中文翻译)65一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:49宝玉50AI邮件助手的内外循环:自进化写作风格
06:43eric zakariasson28Cursor App即将发布,支持手机管理Agent
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
05:42Chubby♨️58Nitrosend:MCP一键集成邮件层到AI智能体
05:19Rohan Paul56Genspark推出AgentBase预览版:将数据转化为内部工具
05:18elvis70Block 推出内部 AI 编排系统 Builderbot,协调多智能体实现高效交付
05:13Google Developers Blog(RSS)64精选Google 分享 A2UI 与 MCP Apps 三种集成架构模式
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
22:17
Chubby♨️@kimmonismus
67
此前在 Slack 上已实现 2000 万美元年化经常性收入(ARR),无销售团队、无大规模铺开。Viktor 主打零门槛:用户无需学习、无需写提示词,像@同事一样 @提及 Viktor 即可获得完成的工作,甚至可以不提及它。团队称其目标是让 3.2 亿 Teams 用户无需培训就能直接获得 AI 产出。新用户获赠 100 美元额度,无需绑卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体产品更新
22:14
IT之家(RSS)
67
Adobe Firefly AI 平台升级:为 Creative Cloud 套件引入智能体

6月18日,Adobe为Firefly推出更新,引入Creative Skills,用户通过自然语言对话即可生成Logo、配色方案、营销视频等,Firefly会主动反问以完善需求,并提供控制面板微调字体、镜头运动等细节。同时,Photoshop、Premiere Pro等软件加入智能体,侧边栏输入指令可整理素材、重命名文件、更新设计稿。

智能体产品更新多模态
21:47
Hugging Face:Blog(RSS)
精选74
AI 智能体够格吗?在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌,做 agent 工具链的人应该马上看这个标杆。
21:44
HuggingFace Daily Papers(社区热门论文)
51
RODS:多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。

智能体数据/训练论文/研究
21:21
The Decoder:AI News(RSS)
精选72
Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用,以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务,如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot,Google Gemini 和 Slack 集成即将推出。

智能体产品更新多模态

推荐理由:Adobe把AI助手直接塞进了Photoshop、Premiere这些上亿人用的创作工具,干的虽然是粗剪、排版一类的苦力活,但却是AI从生成器转向流程助手的关键一步,值得所有创意工作者上手试试。
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
21:18
The Verge:AI(RSS)
66
Photoshop和Premiere现已配备AI助手

Adobe在其最受欢迎的Creative Cloud应用中推出AI助手,即日起公开测试。每个应用拥有专精的AI助手:Premiere助手可排序素材、批量重命名剪辑、识别语音关键词并添加时间线标记;Photoshop助手可描述预期效果、整理图层、切换背景、调整资源尺寸;Illustrator助手支持多步生产任务,如检查颜色模式错误、缺失字体、重组图层;InDesign助手可进行打印就绪检查和样式批量更新;Frame.io助手能整理拍摄资产、生成B-roll素材并提供创意方向帮助。

智能体产品更新
19:51
Kimi.ai@Kimi_Moonshot
43
在 Kimi Work 中推出 Goal Mode Goal 让你的桌面智能体 24/7 运行,直到任务完成,专为长周期任务和复杂多步骤工作流打造。
智能体产品更新
19:26
Alibaba Cloud@alibaba_cloud
54
🇯🇵 为日本智能体AI未来扩展AI基础设施。 阿里云已在东京启用其第五个数据中心,并将Model Studio引入日本,使企业能够利用最新的Qwen模型构建下一代AI智能体。 为智能体AI时代奠定基础。 获取API:https://int.alibabacloud.com/m/1000414648/
智能体产品更新
18:14
IT之家(RSS)
67
小米发布并开源全屋智能 AI 方案 Xiaomi Miloco 2.0

小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0,基于自研 MiMo 大模型,以 Agent 形式接入 OpenClaw。具备六大核心特性:通用常识(自动识别危险并预警)、身份识别(人脸+体态)、家庭记忆(沉淀习惯供主动决策)、家庭任务(条件自动化、定时提醒等)、主动智能、家庭面板。前置条件:内存≥4GB、存储≥256GB、7×24运行(推荐 Mac mini),macOS/Linux,需小米账号及米家设备,以及多模态大模型 API Key(感知用 MiMo-v2.5,Agent 用 MiMo-v2.5-pro)。

智能体产品更新开源/仓库端侧
17:50
公众号:千问APP(阿里)
25
千问推出国内首个全周期高考志愿填报Agent

千问上线了国内首个全周期高考志愿填报Agent,免费为全国考生提供志愿填报和咨询服务。该Agent帮助用户梳理分数排名、专业详情与选择方向,已有多位家长通过它解决了信息盲区与填报难题。千问同时发起故事征集,邀请考生、家长、老师分享使用经历。

智能体产品更新
17:10
公众号:昆仑万维(天工)
48
Skywork Super Agents:Agent范式正在重构Token经济

Skywork Super Agents 从2024年底推理模型起步,2025年2月转向办公场景,5月发布Word、PowerPoint、Excel、网页、博客五个专项Agent,8月拓展多模态后在BrowseComp榜单进入第一梯队,11月解决Excel表格准确性难题。202

智能体大佬观点
17:10
公众号:月之暗面(Kimi)
同事件精选70
Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利

月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。

智能体MCP/工具产品更新
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
推荐理由:目标模式把 Kimi Work 从对话助手变成了能连续运行 24 小时的自主 Agent,配合插件中心打通办公软件,对需要长时间执行复杂任务的用户是实际可用性的大升级。
14:24
小互@xiaohu
56
Apodex:面向深度研究的自进化重载求解器

Apodex专为解决无现成答案的硬问题设计。可同时派出最多150个子Agent并行探索,总步数超15,000步。在BrowseComp上超越GPT-5.5-pro,在DeepSearchQA上超越Claude-Opus-4.8和Kimi-K2.6。工作流程分深度研究、自我校验、撰写三阶段。内置三层自我验证机制(冲突审查员、事实检查员、草稿审查员)及独立全局验证器。由AgentOS负责调度、路由、事件流、检查点、成本记账、权限管理等底层事务,添加新应用只需插件代码,无需修改内核。

智能体其他搜索
14:14
IT之家(RSS)
64
英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。

智能体具身智能论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
65
OmniAgent:原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架,将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆,使推理复杂度与视频时长解耦。训练采用 Agentic SFT(最佳轨迹合成与双阶段质量控制)和基于 TAURA 的 Agentic RL(利用 turn 级熵分配探索奖励)。模型在测试时呈现正向缩放:推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上,OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B(47.3%)。

智能体多模态论文/研究
12:00
公众号:龙猫LongCat(美团)
39
美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录

美团业务研发平台/搜推ASX团队六篇论文被ACL/ICML/KDD 2026接收。CBS将样本选择建模为上下文多臂老虎机,提升数学推理性能效率;ResRL通过负样本投影残差强化学习,数学超NSR 9.4%、代码刷新CodeForces SOTA、ALFWorld超PPO 7.8%;CDRRM仅用3千样本让未微调模型超越全量微调基线;LocalSearchBench覆盖国内9城6品类超134万商户与900道多跳问答,最优DeepSeek-V3.2正确率仅35.60%;DiningBench含3021道菜品多视角图像,29个VLM模型细粒度识别与营养推理不足;Mem²Evolve双记忆自进化框架在6类任务8个基准上优于单一进化策略。

智能体搜索行业动态
10:43
HuggingFace Daily Papers(社区热门论文)
45
Xcientist:外部化AI科学家研究合成与验证的研究框架

Xcientist 是一个研究框架,将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化,使生成机制可落地、测试和修订。它识别出“声称漂移”——可执行工件不再支持原声称机制——作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上,Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张,AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。

智能体论文/研究
10:20
公众号:千问APP(阿里)
32
千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北

千问高考志愿填报Agent在“暖芒计划”公益活动中首次走进河北省青龙满族自治县第一中学,向三百多位考生和家长免费提供志愿填报服务。Agent能根据实际分数和选科生成志愿报告,逐一说明推荐理由和潜在风险。现场教师指出,传统填报痛点在于信息散落且付费服务不透明,而千问Agent将每一步推理过程公开,消除信息鸿沟。该计划后续将覆盖全国10多个省份的偏远地区高中,并举办100多场免费公益直播。

智能体行业动态
09:56
Alibaba Cloud@alibaba_cloud
31
颠覆GenAI成本:阿里云的战略。 Takahito Naito(CyberAgent董事总经理)和Takeshi Kurita(阿里云日本韩国区域经理)讨论企业AI模型的战略利用与未来。 👉 https://xtech.nikkei.com/atcl/nxt/special/18/00001/060300084/ #AlibabaCloud #CyberAgent #CloudComputing #GenerativeAI #Qwen #AgenticCloud
智能体大佬观点开源生态
09:20
OpenRouter:Announcements(RSS)
57
如何在 OpenRouter 上使用 OpenAI Codex CLI

Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。

智能体OpenAI教程/实践编码
关联讨论 1 条OpenRouter:Announcements(RSS)
09:14
IT之家(RSS)
同事件精选71
苹果 Xcode 27 核心首次深度集成 AI 智能体:支持自然语言修 Bug、构建 App

在 2026 年 WWDC 期间,苹果发布 Xcode 27,其核心组件首次整合 AI 智能体,能理解 Swift 语言并通过多轮自然语言对话辅助开发。AI 可跨多个文件修改整个代码库,也能根据提示与资源生成应用设计并独立构建完整应用,建成后仍可通过对话添加特效、动画等。Xcode 27 支持接入 Anthropic、OpenAI 和 Google 等第三方 AI 模型,同时引入 Core AI 框架提供现代 Swift API 调用端侧模型,并升级开源框架 MLX。

智能体产品更新编码
同一事件,精选展示《Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发》
推荐理由:Xcode 27 把 AI 智能体直接嵌进 IDE,支持多文件编辑和第三方模型,对苹果生态开发者是效率跃迁,非苹果开发者可以略过。
08:49
meng shao@shao__meng
82
Vercel 开源 Agent 框架 Eve

Vercel 发布开源 Agent 框架 Eve,核心设计“Agent 即目录”:通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话(可 checkpoint)、沙箱隔离(本地 Docker/Vercel Sandbox)、Human-in-the-loop 审批(不占算力)、MCP/OpenAPI 连接(鉴权由框架代理)、多 Channel 支持(HTTP/Slack/Discord)、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI,部署为普通 Vercel 项目,不中断进行中会话。内部已验证:d0 月 3 万+ 查询,Lead Agent 年成本约 $5k 回报 32 倍,Vertex 约 92% 工单自动解决。

Vercel: Introducing eve, an agent framework. agent/ agent.ts instructions.md tools/ skills/ sandbox/ schedules/ Like Next.js, fo...

智能体MCP/工具开源/仓库部署/工程
关联讨论 1 条MarkTechPost(RSS)
08:49
meng shao@shao__meng
52
Codex Automations 的内外双循环

邵猛详解 Codex Automations 的双循环架构:内循环负责将上下文带入任务,通过“检索即写作”、可逆动作(只建草稿不自动发送)等原则快速产出可审草稿;外循环在人工审阅后启动,通过草稿与终稿的 diff 提取证据,区分修改类型(写作偏好、事实补漏、承诺删除等),将经批准的教训写入 Markdown 供内循环下次使用。双循环速度错开:内循环快(如每 2 小时),外循环慢(日末/满 N 条审阅/每周),平衡即时效率与模式改进。适用于任何“起草→人审→发送/修改”的流程。

Gabriel Chua: http://x.com/i/article/2067086994455601152

智能体大佬观点搜索
08:14
IT之家(RSS)
49
Epic 预热虚幻引擎 6:引入生成式 AI 工具,游戏逻辑开发全面转向 Verse 语言

Epic 今日发布虚幻引擎 5.8,同时预热 UE6。UE6 的游戏逻辑开发模型将全面转向 Verse 语言,以降低门槛并支持大规模在线世界与多人协作。引擎将引入开放标准实现跨游戏内容互通,涵盖资源、代码和经济系统,并深度整合 Unreal Editor For Fortnite。UE6 还将集成大语言模型与生成式 AI 工具,整合 Claude、Gemini 等模型辅助开发。时间上,UE6 预计 2027 年底进入 Early Access,正式版在此后 12–18 个月内推出;UE5.8 为 UE5 最后一个重大更新,后续重点转向 UE6。

智能体产品更新编码
08:14
IT之家(RSS)
34
IT早报:DeepSeek 4000亿元融资;微信支付AI专属卡;Android 17正式版

DeepSeek以4000亿元估值完成首轮融资,融资约510亿元,投资方包括梁文锋、腾讯、宁德时代等。微信支付发布AI专属卡,授权Agent后实现自动消费。谷歌推送Android 17正式版,集成Gemini、Lyria等AI模型,新增AI音乐生成。腾讯自选股内测金融智能体StockBuddy。支付宝提醒AI版“阿宝”内测邀请码无需付费。西安警方侦破AI造谣小米案,4人被刑拘。

智能体行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
63
当较低权限即可满足时:LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MobileForge:无标注自适应移动GUI智能体

MobileForge由MobileGym和层次化反馈引导策略优化(HiFPO)组成,在真实移动应用中自动生成任务和评估rollout,将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据,MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3,接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3,并在域外MobileWorld GUI-only任务上取得41.0%成功率,成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。

智能体端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体

ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制,将上下文管理视为与UI动作同策略的一等动作,维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段,保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练,得到MemGUI-8B-SFT,在MemGUI-Bench上达到最优8B开放数据性能,并泛化到分布外MobileWorld基准。代码、数据和模型将开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体

Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。

智能体数据/训练论文/研究
07:17
Claude:Blog(网页)
51
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

智能体Anthropic多模态行业动态
07:13
Hacker News 热门(buzzing.cc 中文翻译)
65
一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?

实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。

智能体AnthropicxAI评测/基准
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:49
宝玉@dotey
50
AI邮件助手的内外循环:自进化写作风格

一篇介绍AI自动回复邮件的“内循环”与“外循环”设计的文章。内循环是定时任务每2小时检查新邮件,自动检索相关上下文生成草稿但不发送,供用户手动修改后发出;外循环则是自进化的Skill,每次用户对草稿的修改都会被Agent记录,用于不断优化写作风格Skill,使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法,指出该方案将迭代过程自动化,形成持续改进的闭环。

Gabriel Chua: http://x.com/i/article/2067086994455601152

智能体大佬观点
06:43
eric zakariasson@ericzakariasson
28
现在可以更轻松地将本地智能体迁移到云端,合上笔记本后它们仍可继续工作。你还能从手机向Cursor发送提示词,并行运行多个智能体,并收到带有演示的拉取请求。Cursor移动端应用即将正式发布。

Cursor: It's now easier to move local agents to the cloud so they can keep working with your laptop closed. Prompt Cursor from y...

智能体产品更新编码
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
05:42
Chubby♨️@kimmonismus
58
Nitrosend 通过一次 MCP 安装,让邮件系统直接在 Codex、Claude 或 ChatGPT 内部运行,彻底摆脱传统仪表盘。其团队 Hartley 兄弟曾创立 SmartrMail,发送数十亿封邮件并于 2022 年出售。他们认为仪表盘曾是瓶颈,而非产品本身,Nitrosend 正是移除这一瓶颈的产物。

George Hartley ☄️: Email dashboards had a good run. Two decades. Billions of emails. I built two companies on them. But the dashboard was n...

智能体MCP/工具产品更新
05:19
Rohan Paul@rohanpaul_ai
56
Genspark发布AgentBase(预览版),可将电子邮件、文件、应用和数据库等现有数据转化为CRM、HR系统、项目追踪器、仪表盘等内部工具,几分钟即可搭建。兼容Salesforce、HubSpot等现有系统,通过一句话提示即可自定义仪表盘和工作流。配合Genspark Super Agent,还能完成起草邮件、研究、构建演示文稿、创建工作流等任务。目标是用一个平台替代30+ SaaS工具。

Genspark: 🚀 Introducing Genspark AgentBase (Preview). Turn your data into custom databases, dashboards, and internal systems. Sto...

智能体产品更新
05:18
elvis@omarsar0
70
金融科技公司 Block 自建内部 AI 系统 Builderbot,可跨整个代码库协调多个智能体。工程师在 Slack 中标记后,系统自动研究、规划并交付。当前日处理 20 万次操作,每周合并 1500 个 pull request,贡献了 Block 全部生产代码变更的 15%,将原需数月的流程缩短至数天。DAIR.AI 创始人 Elvis Saravia 强调,只有通过编排层协调多个智能体才能实现此类输出,建议团队自建编排层。

Block: We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...

智能体大佬观点编码部署/工程
05:13
Google Developers Blog(RSS)
精选64
Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇指南给出了三种具体的架构模式,帮开发者同时用上 A2UI 的原生安全性和 MCP 的定制能力,对正在做 Agent UI 的团队是直接的工程参考。
‹ 上一页
1…1920212223…50
下一页 ›