AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2146 条
全部一手资讯X论文
标签「Agent」清除
6月1日周一
09:28IT之家(RSS)70首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态
09:23公众号:MiniMax(稀宇科技)65MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力
09:00Hacker News 热门(buzzing.cc 中文翻译)68适用于 Google 表格的 ChatGPT 存在数据外泄和网络钓鱼风险
08:00OpenRouter:Announcements(RSS)77同事件精选OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架同一事件,精选展示《OpenRouter 5月发布亮点》
08:00HuggingFace Daily Papers(社区热门论文)52SkillHarm:通过自动化构造实现生命周期感知的技能投毒攻击基准
08:00HuggingFace Daily Papers(社区热门论文)45LayerRoute:面向智能体语言模型的输入条件自适应LoRA层跳过微调
08:00HuggingFace Daily Papers(社区热门论文)54参数化社会身份注入(PSII):用于公众舆论模拟的多样性提升框架
08:00OpenRouter:Announcements(RSS)71同事件精选OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型同一事件,精选展示《OpenRouter 5月发布亮点》
08:00HuggingFace Daily Papers(社区热门论文)48金融LLM智能体新架构:交互原生知识束(InKH)
08:00HuggingFace Daily Papers(社区热门论文)54思维经济:通过经济交互涌现的多智能体智能
08:00HuggingFace Daily Papers(社区热门论文)62深度研究智能体轨迹中的跨度级错误定位研究
08:00HuggingFace Daily Papers(社区热门论文)64AutoMedBench:面向医疗自主研究的智能体AI模型基准测试
07:20HuggingFace Daily Papers(社区热门论文)54ClawHub Security Signals: VirusTotal、静态分析与SkillSpector的分歧
04:25MarkTechPost(RSS)63微软智能体治理工具包实现:通过策略、审批、审计日志与风险控制实现安全AI智能体工具调用
5月31日周日
23:24IT之家(RSS)40全球首款自带 Agentic AI 伴侣的游戏台式机:微星 MEG Vision X2 AI+ 发布,正面配备全息显示器
18:24IT之家(RSS)61中国科学家开发出无人机蜂群新算法:通信中断、视野受限条件下仍能作战,为首个达到 100% 杀伤率且保持足够响应速度的算法
17:47The Decoder:AI News(RSS)61Anthropic研究发现:在社会科学研究中,男性使用AI编程智能体的频率是女性的两倍以上
09:49MarkTechPost(RSS)65使用 SkillNet 构建用于搜索、评估、图分析和任务规划的技能增强型 AI 智能体
08:00HuggingFace Daily Papers(社区热门论文)42反射性智能体中的记忆虚构现象
08:00HuggingFace Daily Papers(社区热门论文)50SABER:面向LLM编码智能体的环境感知操作安全基准
08:00HuggingFace Daily Papers(社区热门论文)55Trust Region On-Policy蒸馏方法(TrOPD)
08:00HuggingFace Daily Papers(社区热门论文)65SkillVerse多模态技能范式与VisSkillBot:AI智能体的技能应超越纯文本
08:00HuggingFace Daily Papers(社区热门论文)533DCodeBench:基于代码的程序化3D建模智能体评测基准
08:00HuggingFace Daily Papers(社区热门论文)59SkillAdaptor:一种面向LLM智能体的自适应技能方法
06:43Simon Willison 博客61Anthropic 公开其跨产品 AI 沙盒技术细节
00:45The Decoder:AI News(RSS)46据报道 Microsoft 和 Nvidia 联手打造可运行真正 AI 智能体而非 Copilot 的 AI PC
5月30日周六
23:46TechCrunch:AI(RSS)51我让 Google 的 24/7 AI 助手 Gemini Spark 上岗,它确实挺好用
18:44The Decoder:AI News(RSS)65OpenAI的Codex现已可在你的Windows PC上自主运行,独立寻找漏洞并测试应用
18:41Hacker News 热门(buzzing.cc 中文翻译)49Robinhood 现已支持您的 AI 代理进行股票交易
17:44The Decoder:AI News(RSS)56Salesforce声称AI代理将231天的迁移缩短至13天,且事故更少
15:21IT之家(RSS)49AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
15:21IT之家(RSS)45微软计划推出 Copilot 超级应用:统一 AI 入口
14:21IT之家(RSS)59Hermes Agent 加入工具搜索,"AI 养马"更省 tokens
11:18MarkTechPost(RSS)52Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%
10:42Claude Code:GitHub Releases(RSS)49v2.1.158
08:48MarkTechPost(RSS)67如何使用AgentTrove:在Python中流式处理1.7M智能体轨迹并构建干净的ShareGPT SFT数据集
08:00HuggingFace Daily Papers(社区热门论文)43Critic-R:利用自然语言内省反馈改进智能体搜索的检索模型
08:00HuggingFace Daily Papers(社区热门论文)65FineVerify:用于智能体搜索的细粒度自验证框架
07:19OpenRouter:Announcements(RSS)69精选Guardrails:保护你的智能体、数据与成本
05:46TechCrunch:AI(RSS)64你的CEO有AI癫狂症吗?Aaron Levie认为大多数都有。
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
09:28
IT之家(RSS)
70
首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3,宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构,API 上下文窗口最高支持 1M tokens,保障至少 512K 可用。在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3)。官方提供 M3 与 M3-highspeed 两个版本 API,标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens(上下文≤512K,限时五折),并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
09:23
公众号:MiniMax(稀宇科技)
65
MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
09:00
Hacker News 热门(buzzing.cc 中文翻译)
68
适用于 Google 表格的 ChatGPT 存在数据外泄和网络钓鱼风险

安全研究公司 PromptArmor 发现适用于 Google 表格的 ChatGPT 存在安全漏洞。攻击者可能利用该插件实施数据外泄和网络钓鱼攻击。

智能体OpenAI安全/对齐
08:00
OpenRouter:Announcements(RSS)
同事件精选77
OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架

OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter五月更新不只是加模型,护栏、语音、模型融合全打包成API,开发团队读完就能用。月流量破百亿token还拿了1.13亿融资,平台稳定性会更强。
08:00
HuggingFace Daily Papers(社区热门论文)
52
SkillHarm:通过自动化构造实现生命周期感知的技能投毒攻击基准

SkillHarm是一个覆盖AI智能体技能使用生命周期的攻击基准,配以系统化风险分类。它定义两种攻击场景:固定载荷投毒(FPP)和自我变异投毒(SMP),并基于受害工作流组件(数据管道、系统环境、自主性)划分12种风险类型。AutoSkillHarm管道由自然语言驱动编码智能体,生成71个技能、879个攻击样本。实验显示FPP成功率最高86.3%,SMP最高69.3%,许多表面失败实因智能体未触及恶意文件而非真正抵抗。

智能体MCP/工具安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
45
LayerRoute:面向智能体语言模型的输入条件自适应LoRA层跳过微调

针对智能体语言模型中工具调用(短、确定、低困惑度)与规划推理(长、复杂、高困惑度)步骤异构但计算均分的问题,LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器(rank 8,约1.08M参数),仅训练1.10M参数(占494M主干0.22%),3000步(6.4分钟A100 40GB)后实现12.91%跳过差分:工具调用跳过15.25% FLOPs,规划步骤仅跳过2.34%,困惑度分别下降-1.29和-1.30。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
参数化社会身份注入(PSII):用于公众舆论模拟的多样性提升框架

大语言模型(LLM)作为合成智能体进行公众舆论模拟时存在“多样性崩溃”问题——不同社会身份的表征在层间逐渐不可区分,导致响应同质化。为此提出参数化社会身份注入(PSII)框架,将人口统计属性与价值取向的显式参数化表示注入LLM中间隐藏状态,实现细粒度可控的身份调制。基于World Values Survey对多个开源LLM的实验显示,PSII显著提升了分布保真度与多样性,降低了与真实调查数据的KL散度。

智能体数据/训练论文/研究
08:00
OpenRouter:Announcements(RSS)
同事件精选71
OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型

OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter 这次月度发布把安全护栏、多模型融合和语音 API 全补上了,Model Fusion 和 Pareto Code Router 对做 agent 的团队尤其实用,成本控制与质量权衡变得更直接。
08:00
HuggingFace Daily Papers(社区热门论文)
48
金融LLM智能体新架构:交互原生知识束(InKH)

金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构,将用户、市场、组合和工具事件转化为结构化知识,采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中,InKH平均任务质量0.815(900ms延迟)。相比agent驱动的wiki-walk记忆,延迟降低82.95%,token成本降低82.29%,过时知识使用减少96.58%,质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
思维经济:通过经济交互涌现的多智能体智能

受哈耶克市场去中心化协调理论启发,多智能体系统通过拍卖竞争行动权、交换支付并从环境奖励积累财富,经济信号实现去中心化信用分配,驱动无需全局协调的规划。种群通过经济选择演化:高效智能体积累财富并经历利用性变异,低效者破产后被探索性替代。初始为弱智能体的经济系统在数学推理、金融研究、科学研究、加速器设计、分布式系统优化五个任务上涌现多步推理策略,性能超越更强单一模型基线。理论分析揭示经济动力学如何将局部激励与长期全局性能关联。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
深度研究智能体轨迹中的跨度级错误定位研究

深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务,但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位,从两个框架、三个模型和三个基准中收集2790条真实轨迹,经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT,追踪智能体主张并核对轨迹证据支持度。实验表明,DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
AutoMedBench:面向医疗自主研究的智能体AI模型基准测试

AutoMedBench 是一个工作流感知的基准测试,用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务,组织智能体执行统一的五阶段工作流:规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道,每个任务设有Lite与Standard两个难度级别,单次运行平均包含33个智能体回合。结果表明,验证阶段是当前智能体最薄弱的环节,而设置阶段表现最强。错误分析显示,验证与提交失败分别占37.7%和38.1%,任务理解错误仅占0.9%;出现错误代码的运行总分平均比无错误运行低48%。

智能体arXiv多模态论文/研究
07:20
HuggingFace Daily Papers(社区热门论文)
54
ClawHub Security Signals: VirusTotal、静态分析与SkillSpector的分歧

ClawHub Security Signals数据集包含67,453个公开OpenClaw Agent技能版本,用于研究三个安全扫描器(VirusTotal、静态启发式分析与NVIDIA SkillSpector)的检测分歧。研究发现,三者极少标记相同技能:任意两者的正例重叠率最高仅10.4%,仅0.69%的技能被全部三者标记,81.9%的被标记技能仅被单个扫描器识别。NVIDIA SkillSpector主要在25,504个可疑样本中发出75.3%的警报,而VirusTotal则在206个恶意样本中标识出72.8%。结果表明,Agent技能安全需要分层治理,而非依赖单一扫描器的允许或阻止决策。该数据集作为包含自动裁决标签的银标准版本发布。

智能体安全/对齐论文/研究
04:25
MarkTechPost(RSS)
63
微软智能体治理工具包实现:通过策略、审批、审计日志与风险控制实现安全AI智能体工具调用

该实现方案创建了一个可执行的智能体治理工作流。智能体不直接执行工具,其每个操作首先经过一个治理层,该层会检查智能体的身份、信任分数、风险等级、请求的工具、动作类型和敏感性等级等,以确保安全。实现以Colab-ready形式提供,参考了微软的Agent Governance Toolkit。

智能体Microsoft安全/对齐教程/实践
5月31日
23:24
IT之家(RSS)
40
全球首款自带 Agentic AI 伴侣的游戏台式机:微星 MEG Vision X2 AI+ 发布,正面配备全息显示器
智能体产品更新
18:24
IT之家(RSS)
61
中国科学家开发出无人机蜂群新算法:通信中断、视野受限条件下仍能作战,为首个达到 100% 杀伤率且保持足够响应速度的算法
智能体具身智能论文/研究
17:47
The Decoder:AI News(RSS)
61
Anthropic研究发现:在社会科学研究中,男性使用AI编程智能体的频率是女性的两倍以上

Anthropic的一项研究发现,在社会科学领域,通常男性名字的研究者使用AI编程智能体的频率,超过通常女性名字研究者的两倍。数据显示,经济学家中有39%使用编程智能体,而教育研究者中这一比例仅为4%。这一性别差距在编程智能体的使用上,远比在一般AI使用中更为显著。

智能体Anthropic现象/趋势论文/研究
09:49
MarkTechPost(RSS)
65
使用 SkillNet 构建用于搜索、评估、图分析和任务规划的技能增强型 AI 智能体

本教程展示如何实现 SkillNet 用例,将其作为一个实用框架,用于发现、安装、检查、评估和组织可重用的 AI 技能,以构建技能增强型 AI 智能体。

智能体MCP/工具搜索教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
42
反射性智能体中的记忆虚构现象

研究发现,基于Reflexion的智能体依赖自我生成的反思作为记忆,但在ALFWorld和HumanEval任务中会系统性失败:智能体存储了自信但错误的任务解释,并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate(RRR),一种基于日志的指标,用于检测对错误反思内容的重复依赖,并据此识别出ALFWorld中16个冻结环境(121条反思中0条提及正确目标对象)以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断,使正确提及目标对象从0%提升至86%,RRR从0.64降至0.10,并解决了16个冻结环境中的3个。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SABER:面向LLM编码智能体的环境感知操作安全基准

SABER是一个评估大语言模型编码智能体操作安全性的基准。与仅判断模型是否拒绝不安全提示的现有基准不同,它将模型置于真实的智能体风格项目中,根据一系列操作后的最终环境状态判定安全性,并按原因对违规行为分类。评估显示,即使表现最好的模型,其有害安全违规率也超过54%,说明当前对齐策略在真实项目环境中仍显不足。该基准已在GitHub公开。

智能体GitHub安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
55
Trust Region On-Policy蒸馏方法(TrOPD)

针对On-Policy蒸馏(OPD)在师生模型分布差异较大时训练不稳定的问题,本文提出置信区间On-Policy蒸馏(TrOPD)方法。该方法核心是采用置信区间On-Policy学习,仅在教师提供可靠监督的区域进行蒸馏;结合异常值估计策略处理不可靠区域;并通过离线引导鼓励向可靠区域探索。实验表明,TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
SkillVerse多模态技能范式与VisSkillBot:AI智能体的技能应超越纯文本

现有AI智能体的可复用技能多以纯文本形式存储,这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式,将声明式文本逻辑与显式视觉支持相结合,包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明,视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中,持续优于纯文本技能。

智能体MCP/工具多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
3DCodeBench:基于代码的程序化3D建模智能体评测基准

本文提出了3DCodeBench,一个系统性基准,用于评估视觉语言模型(VLM)智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果,并建立了基于人类偏好的排名平台3DCodeArena。研究发现,主要失败源于API不匹配,而测试时扩展(如提高思考预算和多轮精炼)能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
SkillAdaptor:一种面向LLM智能体的自适应技能方法

SkillAdaptor 是一种无需训练的步骤级技能自适应框架,能进行显式故障归因。它针对智能体失败的执行轨迹,识别首个可操作的故障步骤,并将责任归因于候选技能,随后在骨干模型冻结的前提下进行针对性更新与验证。在 WebShop、PinchBench 和 Claw-Eval 上使用 Kimi-K2.5、GLM-5 和 GPT-5.2 的评估表明,该框架在所有三项基准测试中均优于无技能和现有技能适应基线。

智能体MCP/工具论文/研究
06:43
Simon Willison 博客
61
Anthropic 公开其跨产品 AI 沙盒技术细节

Anthropic 公开其在不同产品中隔离 Claude 的沙盒实现细节。Claude.ai 使用 gVisor;本地运行的 Claude Code 在 macOS 上使用 Seatbelt,在 Linux 上使用 Bubblewrap;Claude Cowork 则运行完整虚拟机。其核心理念是通过硬边界限制 AI 智能体的行为范围,从而确保即使在面临用户操作、模型探索或攻击者威胁时,只要凭证不进入沙盒就无法泄露。文章同时回顾了此前披露的 api.anthropic.com/v1/files 文件泄露风险案例,并指出 Anthropic 开源的 sandbox-runtime 工具已趋成熟。

智能体Anthropic安全/对齐
00:45
The Decoder:AI News(RSS)
46
据报道 Microsoft 和 Nvidia 联手打造可运行真正 AI 智能体而非 Copilot 的 AI PC

Nvidia 正以自身芯片作为主处理器进军 PC 市场。Dell 和微软 Surface 系列的首批 Windows 电脑将于下周在 Computex 和 Build 大会亮相。微软还计划推出基于 OpenClaw 框架的新软件,使 AI 智能体能在 Windows PC 上本地处理任务,这是在 Copilot+ PC 概念未能成功后的再次尝试。

智能体Microsoft产品更新端侧
5月30日
23:46
TechCrunch:AI(RSS)
51
我让 Google 的 24/7 AI 助手 Gemini Spark 上岗,它确实挺好用

Google 推出的 AI 助手 Gemini Spark 可用于自动化日常任务,例如总结邮箱内容和规划本地活动。目前尚不清楚 Google 将其作为独立产品推出的原因。

智能体Google评测/基准
18:44
The Decoder:AI News(RSS)
65
OpenAI的Codex现已可在你的Windows PC上自主运行,独立寻找漏洞并测试应用

OpenAI的Codex应用现已在Windows 11上支持“Computer Use”功能。该功能允许AI自主控制计算机程序,独立进行应用测试和漏洞查找。当电脑无人值守时,用户可通过ChatGPT移动应用远程启动并监控这些任务。

智能体OpenAI产品更新编码
18:41
Hacker News 热门(buzzing.cc 中文翻译)
49
Robinhood 现已支持您的 AI 代理进行股票交易

Robinhood 现已允许用户通过 AI 代理进行股票交易。该功能由 TechCrunch 于 2026 年 5 月 27 日报道。

智能体MCP/工具产品更新
17:44
The Decoder:AI News(RSS)
56
Salesforce声称AI代理将231天的迁移缩短至13天,且事故更少

Salesforce宣布已将整个开发组织迁移至Anthropic的Claude Code,并取消了token限制。其2026年4月报告显示,每位开发者的pull request数量增加了79%,生产事故减少了5%。这些数字未经独立验证。此次迁移突显了编码领域对智能体化转型的巨大分歧:这究竟是真正的革命,还是前所未有的技术债务积累?

智能体Anthropic现象/趋势编码
15:21
IT之家(RSS)
49
AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
智能体AnthropicGoogle安全/对齐
15:21
IT之家(RSS)
45
微软计划推出 Copilot 超级应用:统一 AI 入口

据报道,微软计划于今年夏末推出一款Copilot超级应用。该应用旨在将分散在不同产品中的AI助手集中到一个统一入口,整合GitHub Copilot、Copilot聊天、Copilot Cowork以及内部代号Autopilot的智能体工作流。项目内部口号为“Delivering one Copilot”,由新任Copilot负责人Jacob Andreou主导。应用可能包含个人版与企业版Microsoft 365 Copilot的切换选项,用户仍可在外部访问原有的Copilot功能。

智能体Microsoft行业动态
14:21
IT之家(RSS)
59
Hermes Agent 加入工具搜索,"AI 养马"更省 tokens
智能体MCP/工具产品更新
11:18
MarkTechPost(RSS)
52
Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%

Nous Research 的 Hermes Agent 为 MCP 添加了工具搜索功能,以解决上下文膨胀问题。该功能采用 BM25 渐进式模式披露机制。根据 Anthropic 的评测,在 Opus 4 模型上,此功能实现了 49% 到 74% 的准确率提升。

智能体AnthropicMCP/工具开源/仓库
10:42
Claude Code:GitHub Releases(RSS)
49
v2.1.158

Claude Code 发布 v2.1.158 更新,将 Auto mode 的可用范围扩展至 Bedrock、Vertex 和 Foundry 平台,支持 Claude Opus 4.7 和 Opus 4.8 模型。用户可通过设置环境变量 CLAUDE_CODE_ENABLE_AUTO_MODE=1 来启用该功能。

智能体Anthropic产品更新
08:48
MarkTechPost(RSS)
67
如何使用AgentTrove:在Python中流式处理1.7M智能体轨迹并构建干净的ShareGPT SFT数据集

AgentTrove是目前最大的开源智能体交互轨迹集合,包含1.7M行数据,采用ShareGPT风格布局。该Python教程展示了如何在不下载完整数据的情况下流式处理该数据集,具体步骤包括规范化智能体轮次、提取命令、分析轨迹,并将成功的轨迹导出为干净的SFT微调数据集。

智能体教程/实践数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
43
Critic-R:利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
FineVerify:用于智能体搜索的细粒度自验证框架

FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题,对采样出的候选答案进行逐一验证,并选择聚合得分最高的答案。在四个智能体搜索基准测试中,该框架效果显著:仅用四个采样轨迹,就能将GPT-5-mini的准确率提升8.2个百分点,将Gemini-3-flash平均提升5.6%。使用12个样本时,它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外,该框架还能生成可解释的验证轨迹,有助于审查基准测试错误。相关代码与数据已开源。

智能体arXiv推理论文/研究
07:19
OpenRouter:Announcements(RSS)
精选69
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐部署/工程
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置,让投喂给 Agent 的流量有了护栏,用 OpenRouter 做生产级应用的团队可以立刻用上,不用自己搞中间件。
05:46
TechCrunch:AI(RSS)
64
你的CEO有AI癫狂症吗?Aaron Levie认为大多数都有。

Box创始人Aaron Levie指出,决定用AI替代员工的CEO们往往最不了解工作的实质,他将此现象称为“AI癫狂症”。文章以ClickUp公司为AI智能体裁员22%为例,并指出2026年的科技行业裁员规模已接近2025年全年。

智能体大佬观点
‹ 上一页
1…2021222324…50
下一页 ›