AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2145 条
全部一手资讯X论文
标签「Agent」清除
6月2日周二
11:40HuggingFace Daily Papers(社区热门论文)67PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型
11:40HuggingFace Daily Papers(社区热门论文)69K-BrowseComp:基于韩语语境的网页浏览智能体基准测试
11:07IT之家(RSS)56腾讯正测试微信AI智能体原型,并列为最高战略优先级
10:07IT之家(RSS)60图灵奖得主萨顿:普通生成式AI难当科学发现重任
09:58公众号:数字生命卡兹克71精选基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾
08:00HuggingFace Daily Papers(社区热门论文)43SkillHarness:为计算机使用智能体安全地利用技能
08:00HuggingFace Daily Papers(社区热门论文)50Curation-Bench:通用智能体能否自动化数据筛选?
08:00HuggingFace Daily Papers(社区热门论文)49EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具
08:00HuggingFace Daily Papers(社区热门论文)50Skill-RM:通过智能体技能统一异构评估标准
08:00HuggingFace Daily Papers(社区热门论文)49Lean4Agent:面向智能体工作流与轨迹的形式化建模与验证
08:00HuggingFace Daily Papers(社区热门论文)51EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理
08:00HuggingFace Daily Papers(社区热门论文)70精选ACTS:面向高效可控LLM推理的智能体链式思维引导
08:00HuggingFace Daily Papers(社区热门论文)66Token Budgets:63起LLM智能体预算超支事故的经验目录与仿射类型Rust缓解案例研究
08:00HuggingFace Daily Papers(社区热门论文)64Agent libOS:受库操作系统启发的长时间运行、能力可控的LLM智能体运行时
08:00HuggingFace Daily Papers(社区热门论文)61MemTrain:自监督上下文记忆训练
08:00HuggingFace Daily Papers(社区热门论文)65BraveGuard:从开放世界威胁到更安全的计算机使用AI智能体防御框架
08:00HuggingFace Daily Papers(社区热门论文)60AuditFlow:用于结构化财务报告验证的可执行符号环境
08:00HuggingFace Daily Papers(社区热门论文)65AgentCL:面向语言智能体持续学习的严格评估框架
07:14Cursor Blog64精选Cursor Teams计划定价方案更新
07:07IT之家(RSS)71阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体
05:48OpenAI:官网动态(RSS · 排除企业/客户案例)66精选OpenAI前沿模型与Codex现可在AWS上使用
05:35TechCrunch:AI(RSS)54英伟达携微软、戴尔、惠普AI智能体PC进军2000亿美元CPU市场
05:13Ars Technica:AI(RSS)72精选黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户
04:41MarkTechPost(RSS)59MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程
04:08The Verge:AI(RSS)59Gemini的新AI智能体与Google演示一样好
01:59公众号:通义实验室(千问)64同事件精选Qwen3.7-Plus 多模态智能体模型发布同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
01:37Qwen:Blog Retrieval(API)81精选Qwen3.7-Plus:多模态智能体模型发布
01:10MarkTechPost(RSS)47了解Memory OS:构建在Hermes Agent之上的六层开源记忆栈
00:03Hacker News 热门(buzzing.cc 中文翻译)56英伟达 RTX Spark
6月1日周一
22:38Hugging Face:Blog(RSS)60精选超越LLM:为何可扩展的企业AI采用取决于智能体逻辑
21:05IT之家(RSS)73精选王兴:美团 AI Agent"小美"与腾讯元宝即将深度合作,用户订单无缝连接
19:05IT之家(RSS)53新一代华为鸿蒙智家发布:升级"1+3+N"解决方案,AI 管家小艺 Claw 还能养猫
18:21公众号:腾讯混元46腾讯混元为《和平精英》推出AI明星队友「小田」
18:05IT之家(RSS)67字节跳动 AI 智能体平台扣子 Coze 3.0 版本上线,支持接入 Claude Code、Codex CLI 等平台
17:50HuggingFace Daily Papers(社区热门论文)69MMG2Skill: 智能体能否从现实指南中蒸馏出自我进化的技能?
15:00HuggingFace Daily Papers(社区热门论文)52HarnessForge:面向自适应智能体系统的框架与策略协同进化
14:51HuggingFace Daily Papers(社区热门论文)68Adaptive Auto-Harness:面向开放任务流智能体系统部署的持续自改进框架
13:04IT之家(RSS)74英伟达开源5500亿参数Nemotron 3 Ultra模型
10:28IT之家(RSS)71精选上海:支持多模态智能体开发与应用,有序推进智能驾驶在共享出行、物流运输等多场景应用
09:28IT之家(RSS)70首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
11:40
HuggingFace Daily Papers(社区热门论文)
67
PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型

论文提出,参数高效微调(PEFT)不仅是全参数微调的低成本替代,更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开:Scale Up(更强共享先验提升小适配器效用)、Scale Down(探索适配器可靠性的最小化边界)、Scale Out(大规模持久化适配实例共存)。以MinT为例,展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明,PEFT有潜力成为持久化个人模型的紧凑底座,而不仅仅是预算替代方案。

智能体数据/训练论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
69
K-BrowseComp:基于韩语语境的网页浏览智能体基准测试

K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。

智能体arXiv搜索论文/研究
11:07
IT之家(RSS)
56
腾讯正测试微信AI智能体原型,并列为最高战略优先级

腾讯正在为拥有14亿用户的微信测试内嵌式AI智能体原型。用户只需在微信主界面向右滑动,即可调出对话窗口,输入指令后智能体能自动调用微信小程序完成各类任务,例如根据要求找咖啡馆点单。该产品计划最快于本月启动合规审批,之后通过灰度测试分阶段推广。然而,其全量上线面临算力供给不足的挑战,且成本投入极高。面对阿里千问、字节豆包等竞品的AI智能体功能,腾讯已将此项目列为最高战略优先级,力求打磨细节。

智能体产品更新
10:07
IT之家(RSS)
60
图灵奖得主萨顿:普通生成式AI难当科学发现重任

图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。

智能体大佬观点推理
09:58
公众号:数字生命卡兹克
精选71
基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾

作者基于 Codex 创建并开源了“清理垃圾.skill”,可对 Mac 和 Windows 电脑进行只读扫描,自动生成可交互的 HTML 报告,将文件按优先级分为绿灯(可自动清理)、黄灯(建议手动)、红灯(跳过)。在作者的 MacBook Air 上扫出近 120 GB 垃圾,其中 96.7 GB 为 B 站离线缓存视频,而 CleanMyMac 仅检出 15.8 GB。用户可在网页上逐项或一键清理,全程需二次确认,项目已开源至 GitHub。

智能体GitHub开源/仓库
关联讨论 1 条X:卡兹克 (@Khazix0918)
推荐理由:卡兹克这个开源skill直接用Agent清理电脑垃圾,比CleanMyMac更透明、可定制,而且马上就能用,是AI冲击工具软件的活案例。
08:00
HuggingFace Daily Papers(社区热门论文)
43
SkillHarness:为计算机使用智能体安全地利用技能

计算机使用智能体在动态交互环境中面临提示注入等对抗性交互和弹窗等环境动态带来的安全风险。现有技能学习方法假设静态安全环境,可能导致危险技能学习。SkillHarness将技能学习与利用建模为安全约束交互过程,引入技能边界机制,利用多源监督信号从交互轨迹中识别安全技能,并构建自改进的安全约束;同时通过选择性技能复用,根据上下文引导任务分解并选择性激活技能子集。实验表明,SkillHarness将学习技能的不安全率降低57.1%,并在动态环境变化下持续提升执行稳定性。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Curation-Bench:通用智能体能否自动化数据筛选?

Curation-Bench 是一个面向智能体的基准,固定模型、训练配方和评估套件,赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中,开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距:智能体主要调整局部策略变体,而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法,引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略,以十分之一的数据预算超越了强基线。代码和基准已开源。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具

EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。

智能体推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Skill-RM:通过智能体技能统一异构评估标准

针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题,提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行,把奖励计算当作结构化的智能体任务,通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中,Skill-RM持续优于传统judge基线,为奖励建模提供了统一且透明的方案。代码已开源。

智能体arXivGitHub数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
49
Lean4Agent:面向智能体工作流与轨迹的形式化建模与验证

大语言模型执行多步工作流缺乏形式化规范与验证。受形式语言克服自然语言歧义启发,Lean4Agent 首次用依赖类型形式语言 Lean4 建模和验证智能体行为。其核心 FormalAgentLib 是可扩展的 Lean4 库,在显式假设下验证工作流语义一致性并定位运行时故障。LeanEvolve 利用验证结果修正工作流。在 SWE-Bench-Verified 困难子集和 ELAIP-Bench 子集上,5 个 LLM 的验证通过工作流性能平均高 11.94%,LeanEvolve 进一步将 SWE 性能提升 7.47%。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理

EvoDS 是一个自进化自主数据科学智能体,通过智能体强化学习实现技能扩展与长期上下文自适应管理。核心包括自主技能获取(ASA)机制与自适应上下文压缩(ACC)策略,前者用于合成、验证和复用可执行技能,后者将上下文管理转化为学习控制问题。采用两阶段多智能体训练方案。理论证明其分层设计降低工具选择错误,优化目标符合信息瓶颈原理。在四个基准测试中,EvoDS 平均优于现有开源数据科学智能体 28.9%,并消除 token 溢出失败。代码与数据已开源。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ACTS:面向高效可控LLM推理的智能体链式思维引导

ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。

智能体arXiv推理论文/研究

推荐理由:ACTS 把 LLM 推理过程变成可控制的 MDP,用预算感知的策略节省 token 同时保持精度,做推理加速的研究者应该试试他们开源的代码。
08:00
HuggingFace Daily Papers(社区热门论文)
66
Token Budgets:63起LLM智能体预算超支事故的经验目录与仿射类型Rust缓解案例研究

论文整理了2023-2026年间21个编排框架中63起LLM智能体预算超支生产事故,构建8簇故障分类(Cohen's kappa=0.837,N=113),附加47个结构条目。开发了1,180行无unsafe的Rust crate token-budgets,通过仿射所有权模型使克隆、双重花费及委托后使用在编译期报错。单智能体下4行Python计数器表现相当(0/30超支);多智能体委托场景中Python asyncio模式30/30超支,Rust crate编译期拒绝相同模式。在5个运行时、3个提供商、160次温度分层实时API测试中,方案零预算违规且零误拒,静态过度预留4-6倍(自适应2.11倍)。二进制级别预算安全性暂未解决。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Agent libOS:受库操作系统启发的长时间运行、能力可控的LLM智能体运行时

Agent libOS是一个运行在常规主机操作系统之上的运行时基底,将LLM智能体建模为可调度的AgentProcess,具备进程标识、父子关系、生命周期、工具表、类型化对象内存、显式能力、人工队列、检查点、事件和审计记录。其核心设计原则是:工具是类似libc的包装器,运行时原语(文件系统访问、对象访问、休眠、人工审批、JIT工具注册、外部副作用)作为权限边界,按显式能力和策略进行检查。当前Python原型实现了异步调度、命名空间局部对象内存、运行时集成的人工批准、一次性权限授予、每进程工作目录、shell与图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥工具、可注入的资源提供者基底,以及123个回归测试。Agent libOS旨在展示一个可调度、授权、恢复和审计长时间运行LLM智能体的运行时基底,而不将工具分发视为信任边界。

智能体安全/对齐论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
MemTrain:自监督上下文记忆训练

MemTrain 是一个专为增强大语言模型智能体上下文记忆能力而设计的自监督训练框架。它基于未标注的 Wikipedia 语料,引入两个耦合代理任务:端到端掩码重建(要求模型在多轮记忆更新后恢复被掩码实体)与中间记忆召回(利用中间记忆状态重建被掩码历史信息),并通过 GRPO 联合优化。在长文本 QA 和搜索型 QA 基准上,MemTrain 一致提升不同模型的记忆密集型推理性能,最高达 17.67 个百分点的增益。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
BraveGuard:从开放世界威胁到更安全的计算机使用AI智能体防御框架

计算机使用AI智能体将语言模型扩展到与文件、终端、浏览器和外部工具的持续交互,安全风险难以从孤立提示或最终响应检测,因危害在多步执行轨迹中才显现。BraveGuard是一个自进化防御框架,通过挖掘最新研究识别新兴威胁与攻击模式,实例化为可执行任务,收集agent rollout轨迹并推导轨迹级监督信号训练guard模型。训练了Qwen3-Guard和Llama-Guard等多个骨干,在AgentHazard上,平均设置下检测准确率从38.79%提升至82.38%,表明基于开放世界威胁发现和真实agent执行的guard监督能超越固定分类和合成数据,为面对演变风险的计算机使用AI智能体提供自适应防御路径。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
AuditFlow:用于结构化财务报告验证的可执行符号环境

AuditFlow是图基多智能体框架,分离自适应搜索与确定性验证。从静态US-GAAP分类图和动态XBRL申报图构建符号环境,提供事实检索、分类遍历、数值检查和规则评估工具。两初级审计员从监管与证据视角检查案例,高级审计员解决分歧并请求进一步调查,最终证据聚合生成审计裁决、预期值、证据链和可信度分数。在FinAuditing衍生的FinMR样本上,使用GPT-5.5达82.09%联合审计准确率,比最强基线高14.93个百分点。移除确定性检查后准确率降至17.91%,表明符号环境执行了模型无法可靠替代的验证步骤。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
AgentCL:面向语言智能体持续学习的严格评估框架

AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。

智能体推理论文/研究
07:14
Cursor Blog
精选64
Cursor Teams计划定价方案更新

Cursor Teams计划推出三项更新:增加Composer特定使用池,将第一方模型(Composer和Auto)与第三方API的使用额度分开计费;推出Premium席位,提供5倍于标准席位($40/月)的使用量,价格为$96/月(年付);仪表盘现可实时显示用户额度使用情况,管理员可通过Slack或邮件配置智能提醒。

智能体产品更新编码

推荐理由:Cursor这个定价更新把「用不用得起第三方模型」的问题从团队开支里切出去了,标准席位加量不加价,重度用户直接上Premium可能比现在更划算,做Agent开发的团队不妨算算账。
07:07
IT之家(RSS)
71
阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
05:48
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
OpenAI前沿模型与Codex现可在AWS上使用

OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。

智能体OpenAI产品更新编码
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:这不是模型发布,而是渠道开闸,企业拿着现有 AWS 安全体系就能用上 GPT-5.5,合规部门终于不用再纠结。Codex 也直接嵌入开发流程,落地阻力小了一大截。
05:35
TechCrunch:AI(RSS)
54
英伟达携微软、戴尔、惠普AI智能体PC进军2000亿美元CPU市场

英伟达通过与微软、戴尔和惠普合作推出搭载AI智能体的PC,旨在进入并主导规模达2000亿美元的CPU市场。此举旨在让AI智能体能够轻松、安全且实用地普及大众。

智能体Microsoft产品更新端侧
05:13
Ars Technica:AI(RSS)
精选72
黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户

黑客利用Meta AI客服聊天机器人的漏洞,窃取了高价的Instagram用户名并将其转售。Meta在事后修复了该安全漏洞。

智能体Meta安全/对齐
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Meta 的 AI 客服被一句自然语言就骗去改密码,完全绕过身份验证。这几乎是教科书级的提示注入攻击,提醒每个团队,给 AI 代理权限前至少加个人工授权环节。
04:41
MarkTechPost(RSS)
59
MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。

智能体多模态模型发布
04:08
The Verge:AI(RSS)
59
Gemini的新AI智能体与Google演示一样好

Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。

智能体Google评测/基准
01:59
公众号:通义实验室(千问)
同事件精选64
Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环,从写代码到操作浏览器一条龙,做自动化 Agent 的团队可以直接拿来用。
01:37
Qwen:Blog Retrieval(API)
精选81
Qwen3.7-Plus:多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型,在 ScreenSpot 和浏览器操作上的提升很实在,做自动化的开发者值得上手试试。
01:10
MarkTechPost(RSS)
47
了解Memory OS:构建在Hermes Agent之上的六层开源记忆栈

Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。

智能体检索增强开源/仓库
00:03
Hacker News 热门(buzzing.cc 中文翻译)
56
英伟达 RTX Spark

英伟达推出了 RTX Spark。该产品已上线,产品页面为 nvidia.com/en-us/products/rtx-spark/。该消息在 Hacker News 上获得了 101 个积分。

智能体产品更新端侧
6月1日
22:38
Hugging Face:Blog(RSS)
精选60
超越LLM:为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由:不是又一篇炒作 agent 的文章,IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。
21:05
IT之家(RSS)
精选73
王兴:美团 AI Agent"小美"与腾讯元宝即将深度合作,用户订单无缝连接

美团2026年第一季度财报显示营收910.39亿元,净利润亏损68.27亿元。财报电话会上,CEO王兴透露其AI Agent“小美”将与腾讯元宝深度合作。用户在腾讯元宝中提交本地服务需求,将被无缝连接至美团的外卖点餐、配送等生态。王兴强调,面向智能体的服务(To A)正变得日益重要,美团已将AI助手“小团”置于App核心位置,并拓展AI服务外延。

智能体MCP/工具行业动态

推荐理由:美团把「小美」接进腾讯元宝,是Agent在本地生活服务里落地的明确信号,虽然还是早期合作,但「服务AI Agent」这个提法值得留意。
19:05
IT之家(RSS)
53
新一代华为鸿蒙智家发布:升级"1+3+N"解决方案,AI 管家小艺 Claw 还能养猫

华为鸿蒙智家升级“1+3+N”解决方案,包括作为家庭大脑的计算与连接中枢、智能中控屏等三种交互方式,以及影音、安防等N个子系统。新一代接入AI管家小艺Claw,支持语音操控家居、查询屋内情况并记忆用户习惯。该AI管家还新增辅助养猫功能,可执行投喂、清扫指令。目前鸿蒙智联已支持3200+品牌、400+品类产品。

智能体产品更新
18:21
公众号:腾讯混元
46
腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。

智能体产品更新多模态
18:05
IT之家(RSS)
67
字节跳动 AI 智能体平台扣子 Coze 3.0 版本上线,支持接入 Claude Code、Codex CLI 等平台

字节跳动发布AI智能体平台扣子Coze 3.0版本。该版本支持多人与多Agent协作的写作方式,开箱即用,并提供自媒体、法律、金融等行业的专家技能。新版本可接入Claude Code、Codex CLI等本地Agent,支持手机与电脑端的跨端同步。

智能体MCP/工具产品更新
17:50
HuggingFace Daily Papers(社区热门论文)
69
MMG2Skill: 智能体能否从现实指南中蒸馏出自我进化的技能?

MMG2Skill-Bench是首个将人类多模态、异构、含噪声的现实指南转化为智能体可执行技能的基准。MMG2Skill框架以闭环方式将指南编译为可编辑技能,在运行中固定VLM智能体,并通过轨迹级根因反馈修订技能。在GUI控制、开放游戏和策略卡牌任务中,使用六种VLM骨干,MMG2Skill在所有模型-领域设置下一致优于普通基线,宏平均提升+12.8至+25.3个百分点。消融实验表明结构化技能构建和轨迹驱动修订缺一不可。

智能体论文/研究
15:00
HuggingFace Daily Papers(社区热门论文)
52
HarnessForge:面向自适应智能体系统的框架与策略协同进化

HarnessForge提出元自适应框架,将LLM智能体系统形式化为框架-策略对,通过故障引导的框架定制和框架条件化的策略对齐实现协同进化。在五个跨领域基准上,基于Qwen3-4B和Qwen3-8B的HarnessForge相比仅优化框架或策略的基线最高提升12.0%,表明框架与推理策略的可执行兼容性对智能体系统自适应至关重要。代码已开源。

智能体MCP/工具论文/研究
14:51
HuggingFace Daily Papers(社区热门论文)
68
Adaptive Auto-Harness:面向开放任务流智能体系统部署的持续自改进框架

现有 Auto-Harness 系统仅针对固定离线基准评测,而开放任务流存在无终点历史、异构任务与分布偏移,导致单一密集更新装备性能先升后降。本文提出 Adaptive Auto-Harness,将距 oracle 装备差距分解为进化损失与适配损失,采用状态化多智能体进化器、带求解时路由的装备树及人类引导钩子来解决。在预测市场、安全竞赛与事件预测三个任务流上,该方法优于五个基线,消融实验验证了各模块贡献。代码已开源。

智能体GitHub论文/研究部署/工程
13:04
IT之家(RSS)
74
英伟达开源5500亿参数Nemotron 3 Ultra模型

英伟达发布面向AI智能体的开源模型Nemotron 3 Ultra,其为5500亿参数的混合专家模型。相较于同级别开源模型,该模型推理速度最高提升5倍,使用成本最高降低30%。模型已适配Hermes Agent、LangChain Deep Agents等主流框架,并已助力CrowdStrike、Palantir等企业构建智能体系统。该模型预计于6月4日通过Hugging Face、ModelScope等平台以NVIDIA NIM微服务形式提供。

智能体开源生态模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
10:28
IT之家(RSS)
精选71
上海:支持多模态智能体开发与应用,有序推进智能驾驶在共享出行、物流运输等多场景应用

上海市人民政府办公厅印发《上海市服务业发展“十五五”规划》,提出发展AI软件技术及服务产业集群。规划支持多模态智能体开发与应用,推动智能客服等工具规模化;有序推进智能驾驶在共享出行、物流运输等多场景应用;做强算运存协同布局的智算云网络,推广模型即服务(MaaS);并支持开发面向家庭、养老、文旅等场景的具身智能整机产品,加速机器人向通用智能与精细化服务跃升。

智能体多模态政策/监管

推荐理由:这份上海“十五五”规划相当于一份AI落地指南,多模态智能体、无人驾驶物流、具身智能都点到了,虽非重磅突破,但给在沪AI公司画出了清晰的增长路线。
09:28
IT之家(RSS)
70
首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3,宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构,API 上下文窗口最高支持 1M tokens,保障至少 512K 可用。在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3)。官方提供 M3 与 M3-highspeed 两个版本 API,标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens(上下文≤512K,限时五折),并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
‹ 上一页
1…1920212223…50
下一页 ›