AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2148 条
全部一手资讯X论文
标签「Agent」清除
5月27日周三
16:19HuggingFace Daily Papers(社区热门论文)67VitaBench 2.0:评估长期用户交互中的个性化与主动智能体
12:13IT之家(RSS)75同事件精选AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
11:19HuggingFace Daily Papers(社区热门论文)72同事件精选MiniMax-M2系列:微小激活释放最大真实世界智能同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
11:19HuggingFace Daily Papers(社区热门论文)70精选基于策略内知识边界增强的智能体强化学习
11:19HuggingFace Daily Papers(社区热门论文)72精选超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉
10:19HuggingFace Daily Papers(社区热门论文)57MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化
09:58公众号:数字生命卡兹克65精选从0到1速通OpenAI Codex:安装、设置与实操教程
09:33Claude Code:GitHub Releases(RSS)71精选Claude Code v2.1.152 更新发布
09:04Claude:Blog(网页)75精选Code w/ Claude 伦敦活动:重塑开发体验
08:00HuggingFace Daily Papers(社区热门论文)48CORE:对比反思实现推理能力的快速提升
08:00HuggingFace Daily Papers(社区热门论文)55A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度
08:00HuggingFace Daily Papers(社区热门论文)62Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)61AsyncTool:异步工具调用能力评测基准
08:00HuggingFace Daily Papers(社区热门论文)54OR-Space:面向工业优化智能体的全生命周期工作区基准测试
07:13IT之家(RSS)50苹果 iOS 27 版 Siri 爆料:视觉风格类似 WWDC26 宣传图,主打深色主题和持续对话
03:31Tomer Tunguz 博客(VC 分析)58精选智能体重力:谁在运行你的智能体?
02:11Anthropic:Engineering(事故复盘 + 工程实践 · 网页)70精选我们如何对不同产品中的Claude进行隔离控制
00:00MiniMax:Blog(网页)75精选MiniMax Agent Team:为长期运行与持续演进而生
5月26日周二
21:19HuggingFace Daily Papers(社区热门论文)67CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务
20:12公众号:百度智能云(文心)50百度伐谋2.0赋能排产排程,产能提升20%
16:19HuggingFace Daily Papers(社区热门论文)63预见与学习:释放主动智能体的空闲时间计算能力
16:13IT之家(RSS)61美团推出"跑腿 Skill",可对接各大 AI 助手实现"一句话点单"
15:11IT之家(RSS)62支付宝:完成 3 亿笔 AI 付,发布 AI 钱包和 Token Pay
14:11IT之家(RSS)77精选"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"
14:11IT之家(RSS)65微软 Copilot Cowork 智能体 AI 曝安全风险,机密文件恐外泄
13:11IT之家(RSS)77同事件精选谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
13:11IT之家(RSS)59乔治·霍茨警告:AI编程智能体或成软件最大隐患
13:11IT之家(RSS)67昆仑万维天工 AI 发布 SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型
12:11IT之家(RSS)67微软 14 页文档披露:Win11 定位 AI OS,成为企业工作流"智能画布"
12:11IT之家(RSS)60约 1000 行代码搭起网页 AI 智能体:微软 Webwright 让 GPT-5.4 跑分提升 81%
11:56公众号:通义实验室(千问)57通义实验室发布 AgentScope 2.0,从透明开发转向系统工程
11:30公众号:昆仑万维(天工)53天工AI发布SkyClaw-v1.0:面向真实工作流的百万上下文Agent模型
11:18HuggingFace Daily Papers(社区热门论文)66Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准
09:58公众号:数字生命卡兹克54我折腾了好久的Skills团队共享,终于有产品替我做出来了。
09:11IT之家(RSS)27Kimi K2 系列模型 API 官宣下线,将不再维护和支持
08:00HuggingFace Daily Papers(社区热门论文)50SIA:通过Harness与权重更新实现自改进AI
08:00HuggingFace Daily Papers(社区热门论文)55RAMP:生产系统中智能体模型的运行时评估基础设施
08:00HuggingFace Daily Papers(社区热门论文)54PANDO:通过在线技能蒸馏实现高效多模态AI智能体
08:00HuggingFace Daily Papers(社区热门论文)71精选有秘密?大语言模型智能体守不住:多智能体系统中的隐私评估
08:00HuggingFace Daily Papers(社区热门论文)63SkillGrad:像梯度下降一样优化智能体技能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
16:19
HuggingFace Daily Papers(社区热门论文)
67
VitaBench 2.0:评估长期用户交互中的个性化与主动智能体

VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。

智能体arXiv论文/研究
12:13
IT之家(RSS)
同事件精选75
AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体Hugging Face开源/仓库开源生态
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
推荐理由:全球首个AI独立编写的训练框架,零人类代码,并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通,做模型训练的团队都该去fork一下,复现过程本身就是一堂课。
11:19
HuggingFace Daily Papers(社区热门论文)
同事件精选72
MiniMax-M2系列:微小激活释放最大真实世界智能

MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。

智能体推理模型发布
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax 把激活参数压到 9.8B 却敢喊前沿,整套 design 都是为 agent 场景重做的,搞 agent 的开发者该认真看一眼这个信号。
11:19
HuggingFace Daily Papers(社区热门论文)
精选70
基于策略内知识边界增强的智能体强化学习

本文研究智能体强化学习在训练工具使用大语言模型时出现的问题,即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此,提出AKBE方法,通过双路径(使用工具与不使用工具)滚动动态探测模型知识边界,定义是否需要工具及最少工具调用次数,并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中,AKBE将任务准确率平均提升1.85,减少18%工具调用,工具生产力提高25%,且无准确率-效率权衡。

智能体GitHub论文/研究

推荐理由:让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活,这篇用一个巧妙的双路径对比方法把这事做成了,直接降18%工具调用还涨点,做Agent的可以抄代码了。
11:19
HuggingFace Daily Papers(社区热门论文)
精选72
超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由:现有的幻觉测试只看最终答案,但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了,发现近一半故障同时包含多种幻觉类型,做智能体安全的人该换评估方式了。
10:19
HuggingFace Daily Papers(社区热门论文)
57
MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化

MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。

智能体MCP/工具论文/研究部署/工程
09:58
公众号:数字生命卡兹克
精选65
从0到1速通OpenAI Codex:安装、设置与实操教程

近日OpenAI的AI智能体Codex热度飙升。教程涵盖完整使用流程:从官网下载安装,支持从Claude Code和Cowork一键导入配置;界面分对话区和项目区,权限可选默认、自动审查或完全访问;模型推荐GPT-5.5,推理等级用高或超高,速度可选快速(1.5倍速度、2倍token消耗)或标准;建议开启引导模式、记忆功能,并设置全局AGENTS.md规则(卡帕西模板);通过Skills和插件管理扩展能力;演示了开发网页(使用计划模式、批注功能圈选修改)和开发用药提醒App(需安装Xcode编译到手机)。

智能体OpenAI教程/实践编码

推荐理由:如果你还在观望要不要入坑Codex,这篇保姆级教程把安装、设置、开发网页到打包APP全流程踩了一遍,那个@Computer Use帮你装Xcode的操作一看就懂,想动手的现在就能跟做。
09:33
Claude Code:GitHub Releases(RSS)
精选71
Claude Code v2.1.152 更新发布

Claude Code 发布 v2.1.152 版本更新。核心改进包括:/code-review --fix 现在会将审查建议直接应用于工作目录;技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具;新增 /reload-skills 命令可不重启会话重新扫描技能目录;SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能,并可通过 hookSpecificOutput.sessionTitle 设置会话标题;新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。

智能体Anthropic产品更新编码

推荐理由:Claude Code 这次更新把代码审查从'查问题'推进到'直接修',Skills 系统补上了热加载和工具限制,做工程自动化的团队应该立刻更新。
09:04
Claude:Blog(网页)
精选75
Code w/ Claude 伦敦活动:重塑开发体验

在Code w/ Claude 伦敦活动上,Anthropic 宣布了 Claude Managed Agents 的两项新能力:自托管沙箱(公开测试版)和 MCP 隧道(研究预览)。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前,包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条Claude:Blog(网页)X:Claude (@claudeai)
推荐理由:Claude 平台企业部署的最后一公里被补上了,自托管沙箱和 MCP 隧道让 agent 真正能进生产环境,做 2B 的企业级应用终于有了安全底座。
08:00
HuggingFace Daily Papers(社区热门论文)
48
CORE:对比反思实现推理能力的快速提升

CORE是一种非参数学习算法,通过对比成功与失败的推理轨迹生成简短自然语言 insights(推理策略和约束),使语言模型快速改进推理。在四个推理任务上,CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升;在固定rollout预算下,仅用5个训练样本即可达到可比或更大增益。同时,CORE比非参数基线更上下文高效,将知识存储为紧凑可解释的自然语言insights,所需prompt token更少。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准(如τ^2-Bench)因难度饱和而难以评估能力上限的问题,研究提出TASTE方法。该方法通过反转传统任务构建流程,利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列,经聚类筛选与迭代难度演化,自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示,多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降,且生成任务要求的唯一工具组合数量显著增加,表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架

针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
AsyncTool:异步工具调用能力评测基准

当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
OR-Space:面向工业优化智能体的全生命周期工作区基准测试

OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试,旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式:从异构资产构建求解模型(Build)、根据需求修改现有模型(Revise)、以及基于工作区证据回答关于方案的问题(Explain)。它通过结合持久化工作区和面向生命周期的任务,评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。

智能体数据/训练论文/研究
07:13
IT之家(RSS)
50
苹果 iOS 27 版 Siri 爆料:视觉风格类似 WWDC26 宣传图,主打深色主题和持续对话
智能体产品更新语音
03:31
Tomer Tunguz 博客(VC 分析)
精选58
智能体重力:谁在运行你的智能体?

在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由:Tomer Tunguz 提出「Agent Gravity」概念,把数据平台竞争的逻辑从数据引力延伸到了代理引力,做 Infra 和做 Agent 的人都应该读一读,这可能会影响你对平台锁定的判断。
02:11
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选70
我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。

智能体Anthropic安全/对齐部署/工程

推荐理由:Anthropic 这次没画饼,实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了,从沙箱逃逸到钓鱼攻击,做 agent 的人读一遍能少踩很多坑。
00:00
MiniMax:Blog(网页)
精选75
MiniMax Agent Team:为长期运行与持续演进而生

MiniMax对其Agent Team进行了整体升级并更名为Mavis。本次更新的核心是推出Agent Teams功能,允许用户在MiniMax Agent桌面端并行运行多个不同角色的智能体,组成团队以协作处理单一智能体难以完成的复杂长时任务。同时,原有的TokenPlan与Agent Plan合并为统一订阅,整合了CLI、API及Agent对M2.7模型、音乐、视频和语音功能的访问,其信用额度可在智能体与API之间共享。此次升级旨在解决单智能体在执行长期任务时容易出现的停滞、判断模糊及质量衰退问题,通过主智能体快速响应、任务拆分并行执行与关键节点汇报的机制,提供更流畅的用户体验。

智能体产品更新

推荐理由:MiniMax 把 Agent 从单兵作战升级成团队协作,解决了长任务里「Agent 变蠢」和「为什么没理我」两大痛点,做复杂任务的可以认真看看。
5月26日
21:19
HuggingFace Daily Papers(社区热门论文)
67
CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体arXiv开源生态数据/训练
20:12
公众号:百度智能云(文心)
50
百度伐谋2.0赋能排产排程,产能提升20%

百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。

智能体教程/实践部署/工程
16:19
HuggingFace Daily Papers(社区热门论文)
63
预见与学习:释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。

智能体arXiv推理论文/研究
16:13
IT之家(RSS)
61
美团推出"跑腿 Skill",可对接各大 AI 助手实现"一句话点单"
智能体GitHubMCP/工具产品更新
15:11
IT之家(RSS)
62
支付宝:完成 3 亿笔 AI 付,发布 AI 钱包和 Token Pay

支付宝宣布其“AI 支付”已完成 3 亿笔智能体支付,并支持 95% 的通用智能体框架。同时,支付宝发布了全球首个 Token Pay 服务与 AI 钱包产品,用户可通过“AI 钱包”管理智能体授权与账单。此外,支付宝还推出了商家智能体“晓雨”。MiniMax、阶跃星辰已与其达成合作,采用其 AI 支付方案。

智能体MCP/工具产品更新
14:11
IT之家(RSS)
精选77
"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"

“龙虾之父”Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能,包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑,旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示,将技能描述从90多词精简至40词以内,能提升智能体选择技能的准确率。

智能体GitHubMCP/工具开源/仓库

推荐理由:Peter 直接开源了一个给 Skill '减肥' 的工具,把描述精简、重复检测、预算审计全自动化了,装完跑一遍就能直观看到哪些 Skill 在烧你的 token。做 Agent 的可以立刻装上试试。
14:11
IT之家(RSS)
65
微软 Copilot Cowork 智能体 AI 曝安全风险,机密文件恐外泄
智能体Microsoft安全/对齐
13:11
IT之家(RSS)
同事件精选77
谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
智能体DeepMind开源生态推理
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
推荐理由:AlphaProof Nexus 不是刷榜,是真解了 Erdős 难题,56 年悬而未决的那两道——这说明 AI 开始从具身数学题爬向纯数学研究了,做理论的人该认真看一眼。
13:11
IT之家(RSS)
59
乔治·霍茨警告:AI编程智能体或成软件最大隐患

著名黑客乔治·霍茨在经过六个月测试后警告,AI编程智能体可能是软件开发中代价最高的错误之一。他认为这些工具适合快速原型,但无法可靠处理代码细节,生成的代码可能表面完善却隐蔽问题,给组织带来高额维护成本和故障风险。霍茨本人立场已转向怀疑,认为大语言模型是复杂的统计系统而非真正智能。与之相反,安德烈·卡帕西在GPT-5.4和Opus 4.6发布后改口,认为AI智能体已永久改变了编程方式。

智能体大佬观点编码
13:11
IT之家(RSS)
67
昆仑万维天工 AI 发布 SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型

昆仑万维天工AI近日正式推出高性能智能体模型SkyClaw-v1.0及其轻量化版本SkyClaw-v1.0-lite。该模型支持百万token上下文,深度适配真实智能体工作场景,重点优化了复杂工具调用、多轮任务执行与代码生成等能力。在多项智能体基准测试中,其性能超越了MiniMax 2.7、DeepSeek V4 Flash等开源模型,并接近DeepSeek V4 Pro、Claude Opus 4.6等更大规模模型。该模型定价极具竞争力,已接入天工Skywork,并提供2至4周免费试用。

智能体模型发布编码
12:11
IT之家(RSS)
67
微软 14 页文档披露:Win11 定位 AI OS,成为企业工作流"智能画布"

微软一份14页官方文档将 Windows 11 系统定位为“AI OS”,并称之为企业AI技术栈中的“智能画布”。其核心主张是不应给员工堆砌更多独立AI工具,而应将AI能力(如Copilot)直接嵌入现有工作流,例如在文件资源管理器或任务栏中提供协助,以减少应用切换并提升生产力。文档引用的数据显示,82%的高管计划引入AI智能体。

智能体Microsoft行业动态
12:11
IT之家(RSS)
60
约 1000 行代码搭起网页 AI 智能体:微软 Webwright 让 GPT-5.4 跑分提升 81%

微软研究院发布开源网页智能体框架 Webwright,其架构总代码量约 1000 行,让模型直接在终端中编写 Playwright 代码并执行命令,以此完成网页任务。该框架通过“门控自检”和“历史压缩”两个工程设计,解决了智能体易过早完成和上下文膨胀问题。基准测试显示,搭配 GPT-5.4 的 Webwright 在 Online-Mind2Web 上准确率达 86.67%;在长链路任务的 Odysseys 上得分 60.1%,相比此前最佳成绩(Opus 4.6 的 44.5%)提升 35.1%,相对基础 GPT-5.4 提升 81.49%。

智能体Microsoft开源/仓库
11:56
公众号:通义实验室(千问)
57
通义实验室发布 AgentScope 2.0,从透明开发转向系统工程

通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。

智能体MCP/工具产品更新开源/仓库
11:30
公众号:昆仑万维(天工)
53
天工AI发布SkyClaw-v1.0:面向真实工作流的百万上下文Agent模型

天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,支持百万token上下文,深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6,在OpenClaw任务上接近更大规模模型,定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化,适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork,开放2至4周免费试用,并提供兼容OpenAI格式的免费API调用。

智能体模型发布编码
11:18
HuggingFace Daily Papers(社区热门论文)
66
Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准

当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。

智能体数据/训练论文/研究
09:58
公众号:数字生命卡兹克
54
我折腾了好久的Skills团队共享,终于有产品替我做出来了。

阿里 Accio Work 推出企业版,新增团队工作空间,支持 Skills 和 Agent 的共享。成员可将自建 Skills 上传至团队空间,管理员可设置为全员可见,其他团队成员一键安装即可使用;Skills 更新后只需点击“一键更新”即可同步至所有人。Agent 同样可推荐共享,管理员确认后全体成员可直接调用。团队空间配备成员管理、三级权限(所有者、管理员、普通成员)和积分计费,入门版支持 5 人,另有 15 人和 50 人版本。

智能体产品更新
09:11
IT之家(RSS)
27
Kimi K2 系列模型 API 官宣下线,将不再维护和支持

月之暗面宣布,Kimi K2 系列模型 API 将于 2026 年 5 月 25 日下线,不再维护。受影响的模型包括 kimi-k2-0711-preview、kimi-k2-0905-preview、kimi-k2-turbo-preview、kimi-k2-thinking 和 kimi-k2-thinking-turbo。官方建议用户迁移至最新模型 kimi-k2.6。Kimi K2 于去年 7 月发布,是总参数 1T、激活参数 32B 的 MoE 架构模型;其思考版本 Kimi K2 Thinking 支持高达 300 轮的自主工具调用。

智能体产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
50
SIA:通过Harness与权重更新实现自改进AI

SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
RAMP:生产系统中智能体模型的运行时评估基础设施

RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。

智能体arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
PANDO:通过在线技能蒸馏实现高效多模态AI智能体

多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹,识别出重复动作循环等低效来源,并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库,结合反思、分层路由、视觉压缩等技术。在 910 个任务上,其成功率达 58.3%,优于 SGV (54.0%) 和 WALT (45.2%),且 token 消耗分别减少 58% 和 61%,无需预评估预算。消融研究也验证了其高效性。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
有秘密?大语言模型智能体守不住:多智能体系统中的隐私评估

研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文给多智能体部署敲响警钟,AI 之间的社交传染会让隐私泄露翻倍,即使有指令也防不住,研究安全的人必须读。
08:00
HuggingFace Daily Papers(社区热门论文)
63
SkillGrad:像梯度下降一样优化智能体技能

针对智能体技能不可靠的问题,SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数,利用任务执行产生的轨迹级损失证据生成基于文本的梯度,并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示,SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线,平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。

智能体推理论文/研究
‹ 上一页
1…2425262728…50
下一页 ›