AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2134 条
全部一手资讯X论文
标签「Agent」清除
6月24日周三
19:10公众号:卡尔的AI沃茨65快手KroWork:将AI Skill工作流打包成本地桌面App
18:31公众号:火山引擎66精选火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级
18:30Hacker News 热门(buzzing.cc 中文翻译)80Qwen-AgentWorld:通用智能体的语言世界模型
18:29Artificial Intelligence News(RSS)46Anthropic 在 Slack 中推出 Claude Tag 功能,通过 @Claude 调用 AI 智能体
18:00公众号:小红书技术(dots.llm)51AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径
17:55The Decoder:AI News(RSS)48Claude Tag 嵌入 Slack,Anthropic 称内部 65% 的代码由该工具生成
17:50公众号:火山引擎56三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系
17:44IT之家(RSS)57仅需 @ 即可调用:Anthropic 推出 AI 虚拟团队成员 Claude Tag
16:44IT之家(RSS)39荣耀产品线总裁方飞:7月将发布下一代终端操作系统AgenticOS
14:30公众号:千问APP(阿里)54超1400万人,正在和千问聊高考
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
11:55HuggingFace Daily Papers(社区热门论文)70精选NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?
11:55HuggingFace Daily Papers(社区热门论文)49EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
11:20公众号:卡尔的AI沃茨65实测Codex Record & Replay:把RPA自动化工作流重做了一遍
10:49HuggingFace Daily Papers(社区热门论文)61OpenThoughts-Agent:开源数据流水线训练智能体模型
10:49HuggingFace Daily Papers(社区热门论文)76Qwen-AgentWorld:用于通用智能体的语言世界模型
10:49HuggingFace Daily Papers(社区热门论文)57ReMMD:面向多模态虚假信息检测的现实多语言多图像智能体验证框架
10:10公众号:数字生命卡兹克63同事件精选微信上线AI智能体"小微"内测同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
09:27IT之家(RSS)63豆包正式推出专业版,连续包月68元起、最高500元
09:10公众号:豆包(字节)77精选今天,豆包正式推出专业版
08:45TechCrunch:AI(RSS)59印度 MoEngage 全现金收购 Aampe,押注 AI 智能体营销未来
08:00HuggingFace Daily Papers(社区热门论文)56多步工具使用的强化学习为何崩溃以及监督信号如何修复它
08:00HuggingFace Daily Papers(社区热门论文)51验证地平线:编程智能体奖励无银弹
08:00HuggingFace Daily Papers(社区热门论文)64进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号
03:05Hacker News 热门(buzzing.cc 中文翻译)77克劳德·塔格
02:03HuggingFace Daily Papers(社区热门论文)51提前承诺:LLM智能体过早固守证据的隐藏故障诊断
01:18TechCrunch:AI(RSS)51Anthropic 发布 Claude Tag 研究预览版:常驻 Slack 的"始终在线"AI 智能体
01:14Claude:Blog(网页)42Claude Tag 的 Agent Identity 访问模型
01:09Anthropic:Newsroom(网页)56精选Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作
6月23日周二
22:49HuggingFace Daily Papers(社区热门论文)78精选能力强但粗心:计算机使用智能体是否遵循情境完整性?
21:42TechCrunch:AI(RSS)58Fika Jobs 获 400 万美元预种子轮,打造视频优先 AI 面试招聘平台
21:20Hugging Face:Blog(RSS)73精选IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用
19:10公众号:小红书技术(dots.llm)54小红书QEcon分享:Agent驱动的服务端端到端测试
19:10公众号:千问APP(阿里)60精选国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师
19:10IT之家(RSS)48字节新一代豆包AI手机或延迟发布,因需双重认证
18:07IT之家(RSS)42企业微信 AI Agent"大圆"开启内测:左滑唤起,自动理解诉求并给出回复
18:07IT之家(RSS)51QQ邮箱推出Agently Mail,为AI智能体提供专属邮箱服务
17:07IT之家(RSS)59腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
19:10
公众号:卡尔的AI沃茨
65
快手KroWork:将AI Skill工作流打包成本地桌面App

快手新发布KroWork,能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机,双击即可按预设流程运行,无需反复打开对话框或重新配置参数。KroWork支持定时任务(如每天9点自动执行),并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief(每日AI趋势简报)等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似,旨在将重复工作流沉淀为可分享的本地应用。

智能体MCP/工具教程/实践
18:31
公众号:火山引擎
精选66
火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。

智能体产品更新部署/工程

推荐理由:Agent 从聊天机器人到企业生产工具,缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来,是企业 AI 落地的关键一步。
18:30
Hacker News 热门(buzzing.cc 中文翻译)
80
Qwen-AgentWorld:通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。

智能体arXiv数据/训练论文/研究
关联讨论 2 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)
18:29
Artificial Intelligence News(RSS)
46
Anthropic 在 Slack 中推出 Claude Tag 功能,通过 @Claude 调用 AI 智能体

Anthropic 面向 Enterprise 和 Team 用户发布 Claude Tag 功能 beta 版。用户可在 Slack 共享频道中通过 @Claude 直接调用 AI 模型,将其引入活跃群组线程。频道内任何成员均可委派任务或审查内容,打破了传统独立聊天框的交互模式。

智能体Anthropic产品更新
18:00
公众号:小红书技术(dots.llm)
51
AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制(Async Plan、Rehearsal、Delayed Commit),将上下文转为可索引的生命周期管理,生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离,结合 Self-GC 与 SealRouter(Auto 模型路由)达成成本减半,并采用 L0-L2 分层记忆体系构建可溯源知识闭环,从 3 天内测到两周完成全员覆盖。

智能体MCP/工具教程/实践
17:55
The Decoder:AI News(RSS)
48
Claude Tag 嵌入 Slack,Anthropic 称内部 65% 的代码由该工具生成

Anthropic 推出 Claude Tag,允许团队在 Slack 任意频道中通过 @Claude 标记并分配任务。该公司表示,其内部产品团队已有 65% 的代码由该工具生成。

智能体Anthropic产品更新编码
17:50
公众号:火山引擎
56
三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系:“1”是AgentSphere数字员工派遣站,“N”是开箱即用应用,“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work,实现一个账号切换IDE与办公端、一个后台统一管理,内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时,代码贡献率提升42%,千行代码缺陷率降低35%。扣子升级3.0,强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环,引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后,活动筹备周期从4周压缩至5个工作日,效率提升约3.5倍。

智能体产品更新部署/工程
17:44
IT之家(RSS)
57
仅需 @ 即可调用:Anthropic 推出 AI 虚拟团队成员 Claude Tag

Anthropic 于当地时间 6 月 23 日推出 AI 虚拟团队成员 Claude Tag,是 Claude Code 的演进版本,更主动且适合团队协作。Claude Tag 率先在 Slack 上推出,用户可在频道中 @Claude 委派任务。工具支持多人协作、自主学习、异步运行,并能主动追踪信息与任务。Anthropic 产品团队 65% 的代码由 Claude Tag 内部版本生成,应用场景已从工程扩展到数据追踪、客户服务。

智能体Anthropic产品更新
16:44
IT之家(RSS)
39
荣耀产品线总裁方飞:7月将发布下一代终端操作系统AgenticOS

荣耀产品线总裁方飞在MWC26上海宣布,荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动(以意图为中心而非应用)、自然交互(声音、手势、眼神等)、主动智能(Agent内核,主动规划/服务/执行)及天生跨端(一脑调度万端,多设备多Agent协同)四大特性。此外,年初发布的“机器人手机”Robot Phone预计今年下半年上市,搭载行业最小的4DoF云台系统,体积比主流方案缩小70%。

智能体产品更新多模态端侧
14:30
公众号:千问APP(阿里)
54
超1400万人,正在和千问聊高考

自6月7日高考至今,千问上高考相关咨询量持续走高,累计咨询人数超过1400万,近期连续5日增长超过100%。考生和家长最关心就业前景(如“未来最不容易失业的专业”)和校园环境(如“宿舍别太差”)。基于千问高考志愿大模型和夸克8年数据经验,千问支持高考志愿报告、志愿日历、志愿问答等能力,可免费生成定制化志愿报告。团队已提前备好算力资源,以应对接下来20多个省份集中出分的咨询高峰。

智能体行业动态
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
11:55
HuggingFace Daily Papers(社区热门论文)
精选70
NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?

NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体GitHub开源生态评测/基准

推荐理由:这个基准把AI agent丢进Nature论文的复现池里游了一圈,发现最强的配置也只能在17.8%的任务上超越SOTA,而且靠的是方法翻译而非发明——对做科研agent的团队来说,既是冷水也是路线图。
11:55
HuggingFace Daily Papers(社区热门论文)
49
EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体Hugging Face开源/仓库论文/研究
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 2 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 2 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)
11:20
公众号:卡尔的AI沃茨
65
实测Codex Record & Replay:把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点:定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询,输出带互动指标的表格和短关键词库,满足60%-70%图文素材需求;视频剪辑上传能完成静音检测、加速、导出GIF等固定流程,但上传可能被网站安全策略拦截,建议先让Codex出Plan判断可行性。Codex能理解意图,例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解,操作慢且偶有误判,但已能将人的操作转化为Agent下次可执行的上下文,替代传统RPA和Replay。

智能体OpenAI搜索教程/实践
10:49
HuggingFace Daily Papers(社区热门论文)
61
OpenThoughts-Agent:开源数据流水线训练智能体模型

OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体Hugging Face开源生态数据/训练
10:49
HuggingFace Daily Papers(社区热门论文)
76
Qwen-AgentWorld:用于通用智能体的语言世界模型

Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹,经连续预训练(注入状态转移与专业语料)、监督微调(激活下一状态预测推理)和强化学习(混合规则与评分奖励提升仿真保真度)三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建,实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习,也可作为统一智能体基础模型,通过世界模型训练预热提升下游7个智能体基准的性能。

智能体开源生态论文/研究
关联讨论 2 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)
10:49
HuggingFace Daily Papers(社区热门论文)
57
ReMMD:面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架,包含基准ReMMDBench(500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签)及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点,构建可重用证据集,输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中,ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能,准确率41.80%,macro-F1 39.12%,成本较MMD-Agent降低17.5%,较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究
10:10
公众号:数字生命卡兹克
同事件精选63
微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”,常驻左上角,支持语音或文本输入,调用WeLM-V4-80B(MoE激活3B)与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账,需用户逐项确认;可查询朋友圈(限最近2天)、公众号、视频号,支持创建提醒、笔记、小工具,并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能,可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”,禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI,是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践
同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
推荐理由:微信Agent内测体验一手展示,功能上打通通讯录、朋友圈和小程序,却处处需确认且只读不动,是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力,已经为小程序生态打开了AI分发的新可能。
09:27
IT之家(RSS)
63
豆包正式推出专业版,连续包月68元起、最高500元

豆包今日发布基于豆包2.1系列大模型的豆包专业版,新增办公任务模式(接入豆包2.1 Pro),支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,可完成Office办公、应用开发、数据分析、专业设计、流程自动化、金融分析等任务,并能创建、修改、部署带后端数据库的生产级在线应用。定价三档:标准套餐68元/月、加强200元/月、高级500元/月。大学生认证后标准套餐38元/月。免费版用户持续获得新模型更新。

智能体MCP/工具产品更新
09:10
公众号:豆包(字节)
精选77
今天,豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月,持续6个月。

智能体产品更新多模态

推荐理由:豆包专业版不是简单的会员升级,而是把Agent能力装进办公场景,操作本地电脑、生成应用这些功能,让AI从对话工具变成了真正的生产力帮手。
08:45
TechCrunch:AI(RSS)
59
印度 MoEngage 全现金收购 Aampe,押注 AI 智能体营销未来

印度客户互动软件公司 MoEngage 全现金收购旧金山初创公司 Aampe,交易金额数千万美元。Aampe 为每位客户分配专属 AI 智能体,根据个体行为而非传统人群细分实现个性化消息推送。其客户包括 Swiggy、Grab 和 Taxfix,过去一年年经常性收入增长 150%。MoEngage 计划借此争夺从 Salesforce Marketing Cloud 和 Adobe Experience Cloud 迁移的企业客户,近期已签下三到四个数百万美元年合同额订单。约 20 名 Aampe 员工将加入,MoEngage 员工总数增至约 820 人。

智能体行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
56
多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。

智能体GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
验证地平线:编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强,生成长代码方案已不困难,可靠验证反成瓶颈。验证器仅为人类意图的代理,意图天然欠指定,优化会拉大代理与意图差距(奖励破解或信号饱和)。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量,研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论:无固定奖励函数能随策略能力增长保持有效,验证必须与生成协同进化。

智能体arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明,强化学习后训练本身即可提供有效的步骤级评分信号,无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势,即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关,且是标准RL后训练管线的副产品。在五个基准和四个模型族上,进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线,甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究
03:05
Hacker News 热门(buzzing.cc 中文翻译)
77
克劳德·塔格

Anthropic 推出 Claude Tag,一种在 Slack 上通过 @Claude 进行团队协作的新方式。Claude 可作为团队成员加入指定频道,访问所选工具、数据和代码库,自动构建上下文并分解任务。Anthropic 内部已有 65% 的产品团队代码由内部版 Claude Tag 生成。Claude Tag 支持多人协同(同一频道内共享一个 Claude)、随时间积累知识、主动推送更新和异步执行任务,还可发送直接消息。该功能今天起面向 Claude Enterprise 和 Team 客户开放 Beta 测试。管理员可严格限定工具、数据访问范围及 token 消耗上限。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条X:Claude Devs (@ClaudeDevs)Claude:Blog(网页)
02:03
HuggingFace Daily Papers(社区热门论文)
51
提前承诺:LLM智能体过早固守证据的隐藏故障诊断

长周期LLM智能体会出现“过早承诺”故障——早期选定证据解读并固守,最终答案评分无法捕捉。研究用跨运行隐藏状态收敛性作为承诺指标。在Llama-3.1-70B运行ReAct于HotpotQA上,第4步隐藏状态相似性预测下游行为一致性(r=-0.35,偏相关-0.45)。信号在Qwen-2.5-72B、Phi-3-14B及StrategyQA(r=-0.83)复现。承诺不追踪正确性。运行时监测器检测不一致轨迹,AUROC最高0.97(严格拆分0.85-0.88);提示词干预将行为方差降低28%且准确率无显著变化。结果提供了一个隐藏过程故障诊断工具,并明确了局限性。

智能体论文/研究
01:18
TechCrunch:AI(RSS)
51
Anthropic 发布 Claude Tag 研究预览版:常驻 Slack 的"始终在线"AI 智能体

Anthropic 推出 Claude Tag 研究预览版,这是一个常驻 Slack 的“始终在线”AI 智能体。用户可在聊天中 @Claude 获取洞察或分配任务,面向 Claude Enterprise 和 Claude Team 用户。Claude 会持续学习所在频道的工作内容,经管理员授权后还可从组织内其他频道自动收集事实。它支持任务分阶段执行,并提供环境模式——主动跳入对话以更新团队、标记跨组织事项或跟进被遗忘的线程。Anthropic 表示这让人感觉像是在与一位真正了解上下文的同事合作。

智能体Anthropic产品更新
01:14
Claude:Blog(网页)
42
Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

智能体Anthropic教程/实践部署/工程
01:09
Anthropic:Newsroom(网页)
精选56
Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。

智能体Anthropic产品更新编码
关联讨论 2 条X:Claude Devs (@ClaudeDevs)Claude:Blog(网页)
推荐理由:Anthropic 这次把 Claude 从对话助手变成了团队里的主动队友,Slack 里的多人协作、上下文学习和异步代理是个新思路。内部 65% 代码由它生成的数据,让这个方向不再只是实验。
6月23日
22:49
HuggingFace Daily Papers(社区热门论文)
精选78
能力强但粗心:计算机使用智能体是否遵循情境完整性?

AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由:计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理,发现平均泄漏率接近 70%,把这个隐患摆到了台面上,做 agent 产品的团队该把它加入上线前测试清单。
21:42
TechCrunch:AI(RSS)
58
Fika Jobs 获 400 万美元预种子轮,打造视频优先 AI 面试招聘平台

斯德哥尔摩初创公司 Fika Jobs 推出视频优先招聘平台,求职者连接 LinkedIn 后,AI 基于 Google Gemini 模型生成个性化问题并完成约 10 分钟视频面试。面试内容自动剪辑成短视频,组织成可被雇主发现和回访的动态档案。平台本周向求职者开放早期访问,秋季全面推出。对求职者免费,雇主在成功招聘后支付候选人首年工资的 10%。本轮 400 万美元预种子轮由 Luminar Ventures 领投,Alliance VC 及 King 联合创始人参与。已有超 100 家公司进入候补名单,超 50 家公司参与测试。

智能体行业动态
21:20
Hugging Face:Blog(RSS)
精选73
IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用,涵盖电影推荐、IBM Cloud 架构顾问等场景,每个应用仅需一个 FastAPI 文件。

智能体GitHubMCP/工具产品更新

推荐理由:CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置,开发者只写工具列表和 prompt 就能跑起 agent,配套的二十多个单文件应用是现成的模板库,对自建 agent 的团队来说省去了八成重复工作。
19:10
公众号:小红书技术(dots.llm)
54
小红书QEcon分享:Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%,新方案以Coding Agent为核心,采用逆向链式推导与知识库渐进式加载实现动态规划,Debug-first策略生成脚本,并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级,常见场景秒级完成,新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口,无需预设编排。

智能体推理教程/实践
19:10
公众号:千问APP(阿里)
精选60
国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由:千问高考志愿Agent的测评报告,数据看着漂亮,但全是阿里自家实验室出品,参考意义不大,真填志愿还是得找独立第三方。
19:10
IT之家(RSS)
48
字节新一代豆包AI手机或延迟发布,因需双重认证

据蓝鲸新闻6月23日援引知情人士消息,中兴通讯与字节共同推进的新一代豆包AI手机可能延迟,原因是要同时通过网信部门大模型备案和工信部手机终端入网认证。若审批顺利,最快7-8月面世。屏幕供应商从前一代深天马换为京东方,电池采用德赛ATL电芯,预计由福日电子旗下中诺通讯代工。此前双方于2025年12月发售了搭载豆包手机助手技术预览版的工程样机努比亚M153,配备骁龙8至尊版芯片、6.78英寸LTPO显示屏及6000mAh电池。

智能体端侧行业动态
18:07
IT之家(RSS)
42
企业微信 AI Agent"大圆"开启内测:左滑唤起,自动理解诉求并给出回复

6月23日,企业微信启动代号“大圆”的AI Agent内测。该产品定位为“长在企业微信工作流里”的AI助理,移动端左滑即可唤起,能自动理解用户当前界面及问题,基于群聊、文档、会议、邮件等数据给出回复。正在灰度测试的“服务总结”功能可在员工与客户沟通过程中自动提炼客户需求、成交意向和卡点,并推送建议重点跟进的客户。管理侧,客户群和客户信息可自动沉淀到AI智能表格,生成数据分析仪表盘,拆解客户意向、转化漏斗和服务质量。

智能体产品更新
18:07
IT之家(RSS)
51
QQ邮箱推出Agently Mail,为AI智能体提供专属邮箱服务

6月23日,腾讯QQ邮箱推出专为AI智能体打造的专属邮箱服务Agently Mail,并开启内测。该产品独立于个人邮箱运行,可为AI Agent提供安全、隔离且具备独立身份的数字通信空间。支持WorkBuddy、QClaw、Marvis、OpenClaw、Claude Code、Kimi Work、豆包超能模式、Codex、Hermes、Cursor等主流Agent。腾讯公关总监张军表示后续会开放更多平台。Agently Mail已上架腾讯SkillHub,代码仓库在GitHub以Apache-2.0协议开源。

智能体产品更新开源生态
17:07
IT之家(RSS)
59
腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测

腾讯 QQ 邮箱推出 Agently Mail,为 AI 智能体提供独立于个人邮箱的专属邮箱地址,已开启内测。开通需实名认证,所有写操作需生成摘要经用户确认后执行,读邮件具备 Prompt 注入防护。Agent 可用该邮箱自主注册第三方平台、接收验证码,并支持企业间 A2A 自动通信(询价、报价、订单对接)。已适配 WorkBuddy、Claude Code、Kimi Work、豆包超能模式等多款 AI Agent,代码在 GitHub 以 Apache-2.0 协议开源。用户可通过 Agent 对话安装 CLI 工具、微信扫码授权使用。

智能体MCP/工具产品更新
‹ 上一页
1…34567…50
下一页 ›