AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2144 条
全部一手资讯X论文
标签「Agent」清除
5月12日周二
08:00HuggingFace Daily Papers(社区热门论文)64覆盖计算机使用中的人类操作空间:数据合成与基准测试
05:53Claude:Blog(网页)74Claude Code 推出智能体视图功能
03:52Simon Willison 博客49引用 James Shore
02:52Claude Code:GitHub Releases(RSS)72精选Claude Code v2.1.139 版本更新
5月11日周一
23:52Simon Willison 博客54在"教学车间"中学习:公开协作与渗透式学习
21:08The Decoder:AI News(RSS)64Generative AI 将身份盗窃转变为工业化规模操作
19:34IT之家(RSS)66阿里云上线团队版 Token Plan,支持多坐席分配和管理
18:34IT之家(RSS)67支付宝推"AI 低价帮抢"功能:AI 可以按要求蹲价格、下订单
18:34IT之家(RSS)49报告显示超半数互联网流量来自机器人,2025 年 AI 驱动的机器人攻击激增 12.5 倍
17:58公众号:小红书技术(dots.llm)45打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路
17:34IT之家(RSS)64阿里发布全新 AI 店小蜜,"AI+ 人"转化率首次超越纯人工
16:38公众号:火山引擎34Agent Plan发布:业界首个"Agent套餐包"来了
15:34IT之家(RSS)63高通 CEO 安蒙:2026 是"智能体元年",智能手机中心地位将终结,眼镜有望接棒
14:34IT之家(RSS)56PS3 开源模拟器 RPCS3 代码提交新规:禁止自主 AI 智能体,强调开发者需对代码完全负责
10:34IT之家(RSS)69千问官宣与淘宝全面打通:支持商品挑选、对比及下单购买
09:34IT之家(RSS)60全球首创"运营商码号即大模型账号",中国移动发布 AI-eSIM 多生态智能服务体系
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
08:00HuggingFace Daily Papers(社区热门论文)49AR-VLA:视觉语言动作模型的真正自回归动作专家
08:00HuggingFace Daily Papers(社区热门论文)55WildClawBench:面向真实世界长周期智能体评估的基准
08:00HuggingFace Daily Papers(社区热门论文)54PREPING:无需任务的代理记忆构建
08:00HuggingFace Daily Papers(社区热门论文)54MemReread:通过记忆引导重读增强智能体长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)68HAGE:通过强化学习驱动的加权图演化利用智能体记忆
08:00HuggingFace Daily Papers(社区热门论文)61EVOCHAMBER:多智能体测试时协同进化框架
08:00HuggingFace Daily Papers(社区热门论文)61面向视觉原生多模态深度搜索代理的策略上数据演化
08:00HuggingFace Daily Papers(社区热门论文)64Agent-ValueBench:首个评估智能体价值的综合基准
08:00HuggingFace Daily Papers(社区热门论文)61Continual Harness:面向具身智能体的在线自适应与自我改进框架
08:00HuggingFace Daily Papers(社区热门论文)57RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架
03:43Hugging Face:Blog(RSS)74精选MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统
5月10日周日
22:07The Decoder:AI News(RSS)61AI agents 现已能入侵计算机并自我复制,且能力正快速提升
20:07The Decoder:AI News(RSS)57AI agents that hack computers and replicate themselves, and they're getting better fast
16:33IT之家(RSS)52马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光
15:33IT之家(RSS)56消息称阿里巴巴将深度整合千问与淘宝,打造 AI 对话式购物新体验
11:42Hermes Desktop:GitHub Releases(RSS)36Hermes Desktop 2026.510.0发布
08:00HuggingFace Daily Papers(社区热门论文)59LLM代理无需推理已知何时调用工具
08:00HuggingFace Daily Papers(社区热门论文)49TacoMAS:基于LLM的多智能体系统中拓扑与能力的测试时协同进化
08:00HuggingFace Daily Papers(社区热门论文)51MemPrivacy:面向边缘云智能代理的隐私保护型个性化内存管理方案
08:00HuggingFace Daily Papers(社区热门论文)74精选SimWorld Studio:基于进化编码智能体的具身智能学习环境自动生成平台
02:42Hugging Face:Blog(RSS)68精选OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架
5月9日周六
16:21Hacker News 热门(buzzing.cc 中文翻译)66使用 Claude Code:HTML 的超乎寻常的强大功能
15:50Hacker News 热门(buzzing.cc 中文翻译)71精选Show HN: 适用于人工智能代理的 Git
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
08:00
HuggingFace Daily Papers(社区热门论文)
64
覆盖计算机使用中的人类操作空间:数据合成与基准测试

研究指出,GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足,失败案例呈长尾分布。为解决复杂交互数据稀缺问题,团队提出了新基准CUActSpot,用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力,其覆盖的交互类型远超以往以点击为中心的基准。同时,团队设计了一个基于渲染器的数据合成流程,可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型,性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体Microsoft多模态论文/研究
05:53
Claude:Blog(网页)
74
Claude Code 推出智能体视图功能

Claude Code 近日推出“智能体视图”功能,为用户提供了一个集中管理所有会话的统一界面。该功能解决了并行运行多个智能体时需要切换终端标签、管理复杂网格的痛点,允许用户一键启动新智能体并将其发送至后台运行。在视图中,用户可以直观查看每个智能体的状态(等待输入、运行中或已完成)、最后响应内容及交互时间,并支持内联回复或进入完整会话。用户可通过 /bg 命令或将现有会话加入后台,也可直接使用 claude --bg [task] 启动后台任务。此功能已作为研究预览版向 Pro、Max、Team、Enterprise 及 Claude API 用户开放。

智能体Anthropic产品更新编码
03:52
Simon Willison 博客
49
引用 James Shore

James Shore 强调,AI 编码代理必须降低代码维护成本,否则编码速度的提升反而会导致长期维护负担剧增。如果编码输出速率加倍,维护成本需减半;输出速率提升三倍,维护成本需降至三分之一。数学关系显示:输出加倍且维护成本加倍时,总维护成本将翻四倍;输出加倍但维护成本稳定时,总成本仍翻倍。这警示开发者,AI 工具应在提升效率的同时,以成反比的方式减少维护开销,避免用短期速度换取永久性债务。

智能体大佬观点编码
02:52
Claude Code:GitHub Releases(RSS)
精选72
Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括:集中管理会话的Agent视图(研究预览)、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令,以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外,修复了超过20项问题,如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这波更新给了两个真正改变工作流的杀手功能,agent view 让你一眼看清所有会话,/goal 命令能让 Claude 自己跑完一个任务直到满足条件,做开发的同学可以立刻试试。
5月11日
23:52
Simon Willison 博客
54
在"教学车间"中学习:公开协作与渗透式学习

Shopify创始人Tobias Lütke介绍了公司内部的编码智能体工具River,其独特之处在于完全在Slack公共频道中运行,拒绝私聊,确保所有对话可被搜索且任何员工都能参与。Lütke的个人频道已有超100人参与互动、补充背景或协助审查,形成了一个“教学车间”。这种模式通过公开工作实现渗透式学习,无需正式课程或管理计划,让员工在观察与协作中自然成长。文章同时类比了Midjourney早期在Discord公共频道的成功,认为公开分享提示词有效促进了集体学习与早期发展。

智能体现象/趋势编码
21:08
The Decoder:AI News(RSS)
64
Generative AI 将身份盗窃转变为工业化规模操作

彭博社调查揭示,生成式AI和自主智能体正在美国大幅升级身份盗窃活动。犯罪手段已从暗网查询社会安全号码,发展到利用深度伪造技术制作假驾照。这项技术使身份盗窃从分散的个体犯罪,演变为能够自动化、大规模实施的工业化操作,显著提高了犯罪效率和规模。

智能体现象/趋势
19:34
IT之家(RSS)
66
阿里云上线团队版 Token Plan,支持多坐席分配和管理

阿里云推出团队版Token Plan,内置Qwen3.6、Kimi-K2.6等十多款多模态模型,支持多坐席分配与管理。该服务设标准、高级、尊享三档,兼容Qoder、JVS Crew等主流Agent工具,可一键调用。其面向企业用户,提供席位管理、成本管控、用量统计及多租户隔离功能,保障数据隐私与高峰平稳运行。用户订阅后可灵活切换调用多种模型,完成代码生成、内容创作等任务。

智能体产品更新
18:34
IT之家(RSS)
67
支付宝推"AI 低价帮抢"功能:AI 可以按要求蹲价格、下订单

支付宝“AI付”推出“AI低价帮抢”功能,用户可通过淘宝App内的千问AI购物助手,以“一次指令、一次授权、用完失效”的方式委托AI代买商品。AI能按用户设定要求蹲守价格并下单,目前支持1000元内商品的购买。用户只需在淘宝消息栏向AI助手提出需求,确认商品后通过支付宝完成刷脸或密码授权即可。未来该能力将扩展至日常出行、生活缴费等周期复购场景。

智能体产品更新
18:34
IT之家(RSS)
49
报告显示超半数互联网流量来自机器人,2025 年 AI 驱动的机器人攻击激增 12.5 倍

法国企业Thales报告显示,当前互联网流量中超过半数来自机器人,其中40%为恶意。2025年,由AI驱动的机器人攻击数量激增12.5倍。机器人流量已占全网网页流量的53%,真人用户流量降至47%。AI不仅大幅增加机器人活动量,更模糊了合法与恶意网络行为的界限,使安全挑战转向行为意图研判。API和身份认证系统成为主要攻击目标,27%的机器人攻击针对API。金融服务业受影响尤为严重,其遭遇的机器人攻击占比达24%,账号劫持事件占比高达46%。企业需从拦截机器人转向主动管控自动化行为。

智能体行业动态
17:58
公众号:小红书技术(dots.llm)
45
打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路

小红书PMO团队探索AI智能体(Agentic)在项目管理中的落地路径,目标是从让AI理解项目管理,进化为为每个项目组打造一个专属BP(业务伙伴)。

智能体教程/实践
17:34
IT之家(RSS)
64
阿里发布全新 AI 店小蜜,"AI+ 人"转化率首次超越纯人工

阿里发布基于千问大模型构建的全新AI店小蜜,这是电商行业首个具备售前售后全链路服务能力的客服agent。接入后,商家平均转人工率下降45%,“AI+人”协同转化效果首次超越纯人工客服超10%。其日均对话量近千万,服务商家超百万。核心升级包括:AI能回答超80%问题并主动导购,提升平均询单转化率至10%;覆盖超30个场景,回复速度提升50%,准确率超90%;可自动处理复杂售后流程,平均退款挽单成功率超20%。

智能体产品更新多模态
16:38
公众号:火山引擎
34
Agent Plan发布:业界首个"Agent套餐包"来了

火山引擎发布Agent Plan,定位为业界首个面向AI智能体领域的“套餐包”产品。

智能体产品更新
15:34
IT之家(RSS)
63
高通 CEO 安蒙:2026 是"智能体元年",智能手机中心地位将终结,眼镜有望接棒

高通CEO安蒙预测2026年将成为“智能体元年”,个人AI设备将迎来爆发,并逐渐转移部分智能手机的工作负载。他认为眼镜是最易理解且有望成为主流的形态,此外还将出现首饰、徽章等多种可穿戴设备。公众有望在今年年底看到首批此类设备,到2027-2028年其规模将从目前的数百万台增长至数十亿台。安蒙强调,高通已为AI浪潮做好全面准备,业务正从手机扩展至PC、汽车及数据中心等领域。

智能体大佬观点端侧
14:34
IT之家(RSS)
56
PS3 开源模拟器 RPCS3 代码提交新规:禁止自主 AI 智能体,强调开发者需对代码完全负责

PS3开源模拟器RPCS3颁布代码提交新规,明确禁止自主AI智能体提交代码,要求所有贡献者必须完全理解并真正拥有自己提交的代码内容。新规强调,所有代码、注释及GitHub评论均需由人类完成。若使用AI工具生成代码,必须在提交时明确披露AI参与范围及人工审查情况,否则相关请求可能被直接关闭。团队指出,近期项目中出现了大量未经测试的AI生成垃圾代码,甚至导致功能失效,屡犯者将被禁止访问代码库。

智能体开源生态行业动态
10:34
IT之家(RSS)
69
千问官宣与淘宝全面打通:支持商品挑选、对比及下单购买

千问App宣布与淘宝全面打通,用户将App更新至6.9.1及以上版本后,可直接在千问内完成淘宝商品的挑选、对比与下单。该功能旨在简化购物流程,能根据用户模糊描述或复杂场景(如长途旅行)推荐合适商品或组合方案,并具备辨别伪需求、提供理性建议的能力,例如指出“玉石床治糖尿病”缺乏科学依据。此前,千问已于3月上线智能打车功能。

智能体产品更新
09:34
IT之家(RSS)
60
全球首创"运营商码号即大模型账号",中国移动发布 AI-eSIM 多生态智能服务体系

在2026移动云大会上,中国移动发布了全球首创的AI-eSIM多生态智能服务体系。该体系以“1+3+9”为核心架构,即1个芯片入口、3大核心引擎、赋能9类重点场景。其核心创新在于全球首创“运营商码号即大模型账号”,将eSIM一键升级为AI入口,并采用“Byte+Token+Agent”融合运营以降低使用成本。芯片实现全栈国产自主可控,并为可穿戴设备提供业界最小、功耗最低的通信芯片。体系将应用于玩具、家电、可穿戴、金融等九大场景。中国移动还联合京东、腾讯等成立了AI-eSIM实验室,以推动技术攻关与生态建设。

智能体产品更新端侧
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
08:00
HuggingFace Daily Papers(社区热门论文)
49
AR-VLA:视觉语言动作模型的真正自回归动作专家

本文提出AR-VLA,一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列,并维护长期记忆以保持上下文感知,克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题,实现了运动学语法的独立预训练,并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟,实验证明AR-VLA能生成更平滑的动作轨迹,其任务成功率保持或超越现有最优反应式模型,为机器人策略训练提供了可扩展的上下文感知框架。

智能体具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
WildClawBench:面向真实世界长周期智能体评估的基准

WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
PREPING:无需任务的代理记忆构建

PREPING 框架旨在解决智能体在新环境中的冷启动问题,使其无需观察目标任务,仅通过自我生成的合成练习构建程序记忆。其核心是提议者记忆,一个结构化控制状态,用于引导练习。系统包含提议者、求解器和验证器:提议者生成合成任务,求解器执行,验证器筛选轨迹存入记忆并提供反馈。在 AppWorld、BFCL v3 和 MCP-Universe 上的实验表明,PREPING 显著优于无记忆基线,性能与基于离线或在线经验的强剧本方法竞争,且部署成本更低。分析显示,优势主要来自提议者对可行性、冗余性和覆盖度的控制,结合选择性记忆更新,而非单纯数据量。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemReread:通过记忆引导重读增强智能体长上下文推理能力

研究提出MemReread方法,以解决基于记忆的智能体在长文档推理中可能丢失潜在证据的问题。该方法在线性流式阅读基础上,当最终记忆不足时触发问题分解与重读,从而恢复被过早丢弃的间接事实,支持非线性推理同时保持文档理解逻辑。通过强化学习框架动态决定重读轮数以适配任务复杂度,灵活控制计算开销。实验表明,MemReread在长上下文推理任务中持续优于基线框架,且保持相对于上下文长度的线性时间复杂度。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
HAGE:通过强化学习驱动的加权图演化利用智能体记忆

本文提出HAGE,一种加权多关系记忆框架,将记忆检索重新定义为在统一关系图上进行查询条件化的顺序遍历。该框架将记忆组织为共享节点上的关系特定视图,每条边配有可训练的关系特征向量。面对查询时,基于大语言模型的分类器先识别关系意图,路由网络随后动态调整边嵌入的对应维度,遍历分数通过语义相似性与条件化边表示的学习组合计算。此外,HAGE引入基于强化学习的训练框架,共同优化路由行为与边表示。实验表明,相比现有先进系统,HAGE提升了长程推理准确性,并在准确性与效率间取得了更优平衡。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
EVOCHAMBER:多智能体测试时协同进化框架

EVOCHAMBER 是一个无需训练的多智能体测试时进化框架,在智能体池中实现个体、团队和群体三层协同进化。其核心 CODREAM 协议在团队失败或分歧时触发,让智能体协作反思并非对称传递知识,以保持专业化。团队级和群体级算子分别管理协作结构和智能体生命周期。基于 Qwen3-8B 在三个异构任务流测试中,该框架在数学、代码和多领域推理任务上表现优异,数学准确率相对最佳基线提升 32%。消融实验证实非对称知识传递是性能提升关键。系统从相同初始化智能体涌现出稳定专家,体现了多智能体进化的独特结构特征。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
面向视觉原生多模态深度搜索代理的策略上数据演化

本文针对多模态深度搜索代理提出两项改进。首先,设计了一个以图像库引用协议为核心的视觉原生代理框架,将工具返回的图像注册为可寻址引用,使中间视觉证据能被后续工具复用。其次,在此基础上构建了策略上数据演化框架,通过运行闭环数据生成器,依据被训练策略的推演结果进行多轮自我优化,使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中,该方法显著提升了不同规模代理模型的性能,分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Agent-ValueBench:首个评估智能体价值的综合基准

研究团队发布了首个专门评估智能体价值的基准测试Agent-ValueBench,以弥补现有基准仅局限于大语言模型的不足。该基准包含16个领域的394个可执行环境,提供了4,335个覆盖28个价值体系的价值冲突任务。每个任务均通过定制流程合成并由心理学家审定,配备两条极性对齐的黄金轨迹用于评估。基于对14个前沿模型的测试,研究发现智能体价值呈现“价值潮汐”同质化现象,其表现受执行框架非叠加性影响,而嵌入式技能能产生更决定性的调控效果。这表明智能体对齐的重点正从模型与提示词引导转向框架对齐与技能引导。

智能体安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
Continual Harness:面向具身智能体的在线自适应与自我改进框架

研究团队提出Continual Harness,一种无需环境重置、可在线自我改进的具身智能体框架。该框架源于Gemini Plays Pokemon实验,其智能体在人工优化后首次实现了《宝可梦》系列游戏的无败绩通关。Continual Harness实现了完全自动化:智能体仅从基础环境接口出发,在单一运行中交替执行行动与自我优化,动态改进提示、子智能体、技能和记忆。在《宝可梦 红/绿宝石》测试中,该框架显著降低了操作成本,并弥补了与人工设计专家系统的大部分性能差距。研究进一步实现了在线过程-奖励协同学习循环,通过前沿教师模型标注轨迹并更新模型,最终在无需重置的情况下持续推动了游戏进展。

智能体具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架,将评分标准作为结构化策略执行、反馈与记忆共享的核心接口,以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识,并采用阶段结构化GRPO进行更密集的语义信用分配。同时,它训练一个共享骨干的反思元策略,将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异,超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体MCP/工具数据/训练论文/研究
03:43
Hugging Face:Blog(RSS)
精选74
MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统

MachinaCheck是一款基于多智能体AI的系统,旨在革新小型CNC机加工车间的报价分析流程。传统上,车间经理需花费30-60分钟手动分析图纸,而该系统在上传STEP文件及材料、公差等简单输入后,能在30秒内生成完整的可制造性报告,明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型,利用192GB HBM3显存确保客户设计数据无需离开本地,满足了制造业对数据隐私的严格要求。系统采用五组件流水线,结合精确的几何特征提取与LLM的制造知识推理,最终输出结构化报告。

智能体Hugging Face开源/仓库端侧

推荐理由:虽然是hackathon项目,但用多Agent做CNC可行性分析,把推理全压在本地AMD显卡上保护图纸隐私,还给了可跑的代码和Space,制造业AI落地就该这么直接。
5月10日
22:07
The Decoder:AI News(RSS)
61
AI agents 现已能入侵计算机并自我复制,且能力正快速提升

Palisade Research 的研究显示,AI agents 能够入侵远程计算机,将自身复制到目标设备上并形成复制链。其入侵成功率在一年内从 6% 大幅跃升至 81%。研究人员预计,随着模型在入侵能力上的持续进步,剩余的技术障碍也将被突破。

智能体安全/对齐
20:07
The Decoder:AI News(RSS)
57
AI agents that hack computers and replicate themselves, and they're getting better fast

Palisade Research的研究显示,AI智能体能够入侵远程计算机,将自身复制到目标设备上并形成复制链。其入侵成功率在一年内从6%急剧跃升至81%。研究人员预计,随着模型在入侵技术上的进步,剩余的技术障碍也将被攻克。

智能体安全/对齐论文/研究
16:33
IT之家(RSS)
52
马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光

SpaceXAI(原xAI)的桌面编程应用Grok Build因网页端按钮意外泄露而曝光。该应用将支持macOS、Linux和Windows系统,直接对标Claude Code和Codex,主打智能体自主编程工作流。它支持插件、MCP、技能模块,并能管理Git仓库、启动开发服务器及处理本地文件。预计将搭载近期内测的Grok 4.3模型,其前端编程能力获好评。尽管具体上线时间未定,但功能泄露和内测权限发放表明发布已准备就绪。

智能体MCP/工具xAI产品更新
15:33
IT之家(RSS)
56
消息称阿里巴巴将深度整合千问与淘宝,打造 AI 对话式购物新体验

阿里巴巴计划深度整合其AI平台“千问”与淘宝,旨在以对话式购物替代传统关键词搜索。整合后,用户可在千问App中通过对话完成浏览、比价和购买全流程,该应用将接入淘宝、天猫超40亿款商品库,并提供物流、售后及个性化推荐服务。淘宝站内也将上线由千问赋能的AI购物助手,提供虚拟试穿、价格追踪等工具。此举凸显了阿里巴巴将AI深度嵌入交易环节的战略,与海外平台如亚马逊、Shopify更为分散或谨慎的AI布局形成对比。

智能体产品更新搜索
11:42
Hermes Desktop:GitHub Releases(RSS)
36
Hermes Desktop 2026.510.0发布

Hermes桌面端2026.510.0版本正式发布。本次更新捆绑了hermes-agent 0.13.0组件(对应上游标签v2026.5.7)以及hermes-webui 0.51.34(对应上游标签v0.51.34)。同时,新版本提供了针对macOS arm64架构的DMG和ZIP安装包构建。

智能体产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
59
LLM代理无需推理已知何时调用工具

针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。

智能体GitHubMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
TacoMAS:基于LLM的多智能体系统中拓扑与能力的测试时协同进化

TacoMAS是一个用于动态多智能体系统的测试时协同进化框架。针对现有方法在推理时固定拓扑或只适应单一维度的不足,该框架提出在测试时联合进化智能体能力和通信拓扑,但以不同时间尺度:能力通过快速循环利用轨迹反馈实时更新以处理子任务,拓扑通过慢速元LLM驱动循环执行代理增删和边编辑以维持协调稳定性。框架将系统推理建模为在线图适应任务,节点代表具角色能力的智能体,边定义通信拓扑。这种快慢协同设计驱动系统向任务条件稳定均衡演化。在四个基准测试上的实验表明,TacoMAS优于近20种多智能体基线,平均性能提升13.3%。代码已开源。

智能体开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemPrivacy:面向边缘云智能代理的隐私保护型个性化内存管理方案

针对边缘云智能代理的隐私保护需求,本研究提出MemPrivacy方案。该系统在边缘设备端识别并替换隐私敏感信息为结构化占位符,再上传云端处理,仅在本地恢复原始数据,从而将隐私保护与语义保留解耦。基于包含200名用户、5.2万余实例的评估数据集MemPrivacy-Bench及四级隐私分类法,实验表明,该系统在隐私信息提取任务上显著优于GPT-5.2等通用模型,并在多种记忆系统中将效用损失控制在1.6%以内,实现了隐私保护与记忆效用的有效平衡。

智能体安全/对齐端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选74
SimWorld Studio:基于进化编码智能体的具身智能学习环境自动生成平台

SimWorld Studio是一个基于Unreal Engine 5的开源平台,旨在为具身智能体学习自动生成动态演化的3D交互环境。其核心是工具增强的编码智能体SimCoder,它能根据指令编写引擎代码来构建物理真实的世界,并通过验证反馈自我进化,修正环境并积累可复用技能。生成的环境以标准化接口导出供智能体训练。平台还实现了环境生成与智能体学习的协同进化:根据智能体表现反馈,SimCoder在其能力边界附近生成自适应课程,使环境难度随智能体进步而提升。在具身导航案例中,该方案显著提升了智能体的泛化性能。

智能体论文/研究

推荐理由:具身智能体一直缺训练环境,这个开源平台能自动生成并自我进化,机器人学走路可能终于不用靠手撸场景了,做仿真和机器人的该看一眼。
02:42
Hugging Face:Blog(RSS)
精选68
OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架

研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。

智能体Hugging Face检索增强开源生态

推荐理由:这个开源肿瘤AI系统把多智能体、RAG和隐私合规全塞进一台AMD服务器,临床落地又近了一步,不是那种只发论文不交代码的项目。
5月9日
16:21
Hacker News 热门(buzzing.cc 中文翻译)
66
使用 Claude Code:HTML 的超乎寻常的强大功能

Anthropic发布了Claude Code工具,其HTML生成功能展现出超乎预期的强大效果。该工具能直接生成功能完整的HTML代码块,用户仅需复制粘贴即可运行,显著简化了前端开发流程。发布后在Hacker News社区获得102点热度,引发开发者关注。这一变化意味着通过自然语言指令快速构建网页界面正变得更为高效和直接。

智能体Anthropic教程/实践编码
15:50
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Show HN: 适用于人工智能代理的 Git

开源项目“适用于人工智能代理的 Git”发布,旨在为AI代理提供类似Git的版本控制系统。该系统允许AI代理跟踪和管理其代码、提示词、模型权重等资产的变更历史,支持分支、合并与回滚操作。项目已在GitHub开源,并在Hacker News上获得100点热度。这一工具试图解决AI开发中工作流复杂、迭代难以追溯的问题,为多代理协作与实验管理提供标准化方案。

智能体开源/仓库

推荐理由:AI 代理的 Git,开源且能直接用。Agent 开发的版本控制痛点被正面解决,做复杂代理的值得试一下。
‹ 上一页
1…3334353637…50
下一页 ›