小米招聘Agent正式上线官网,依托Xiaomi MiMo大模型为求职者提供政策解答、职位智能推荐、招聘进展查询等服务。
小米招聘Agent正式上线官网,依托Xiaomi MiMo大模型为求职者提供政策解答、职位智能推荐、招聘进展查询等服务。
微软、Uber等公司正重新评估AI投入成本,发现Token消耗激增并未带来预期的有用功能。高盛预测智能体AI将推动Token消费在2030年增长24倍。Uber在数月内耗尽2026年AI预算,尽管80%工程师使用智能体、60%代码由AI生成,但管理层质疑其价值。微软则开始削减成本,包括撤回Claude Code权限并转向内部Copilot CLI。
AutoScientists 是一个用于长期计算科学实验的去中心化 AI 智能体团队。智能体通过解读共享实验状态,围绕有前景的假设自组织成团队,在使用计算资源前审查提案,并共享成功与失败经验以减少冗余探索。该系统在生物医学机器学习、语言模型训练优化和蛋白质适应性预测三个领域,于匹配预算下均优于先前 AI 智能体。具体而言,其在 BioML-Bench 24 个任务上的平均排行榜百分位达 74.4%,比之前最强 AI 智能体提升 +8.33%;在 GPT 训练优化中达到目标的速度是 Autoresearch 的 1.9 倍,并发现了 7 项有效改进;在 ProteinGym 适应性预测中,其发现的一个 ACE2-Spike 结合方法使 Spearman 相关性比当前 SOTA 模型提升 +12.5%。
针对交互式视频生成世界模型多局限于单一智能体的现状,本文提出了Gamma-World,一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding,将AI智能体表示为旋转角空间中的正单形顶点,实现无参数扩展的独立可控制性与置换对称性。为降低计算开销,提出Sparse Hub Attention,通过可学习的枢纽token中介跨智能体交互,将注意力复杂度从二次降至线性。此外,通过将全上下文扩散模型蒸馏为因果模型,结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明,该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案,并能从双人场景泛化至四人场景而无需额外训练。
ResearchClawBench 是一个评估自主科学研究能力的基准,涵盖10个科学领域的40个任务,每项任务基于真实已发表论文并提供相关文献与原始数据。在统一协议下评估了七个自主研究智能体,并通过 ResearchHarness 评测了17个原生大语言模型(LLM)。当前最强自主研究智能体 Claude Code 平均得分21.5,最强 ResearchHarness LLM Claude-Opus-4.7 平均得分20.7,LLM 前沿均值仅26.5。错误分析显示失败集中在实验方案不匹配、证据不匹配和缺失科学核心。
针对单遍语音识别难以纠正语义关键错误的问题,研究者提出 Agentic ASR 闭环框架,将单遍 ASR 前端与语义校正、意图路由、基于推理的编辑整合,并将交互式语音识别建模为多轮校正任务。同时引入句子级语义错误率(S²ER)作为基于大语言模型的语义评估指标,并构建交互模拟系统用于可扩展、可复现的基准测试。在多语言、命名实体密集及代码切换基准上,迭代交互持续降低语义错误,S²ER 改善幅度远大于传统 token 级指标。人类-AI 对齐和消融研究验证了语义评估器的可靠性与框架的鲁棒性。代码和在线演示已公开。
记忆增强的LLM智能体通过递归摘要交互轨迹应对长时域任务,但现有结果导向强化学习无法定位中间记忆质量下降。本研究提出信念熵(Belief Entropy)作为自监督代理,衡量模型对潜在任务状态的不确定性,并在此基础上提出元认知记忆策略优化(MMPO),通过惩罚高认知不确定性的摘要提供细粒度监督。实验表明,MMPO在多种长时域任务上持续优于现有方法,在扩展到1.75M token上下文时仍保持97.1%性能。
AbaqusAgent 是一个基于大语言模型的多智能体框架,用于固体力学有限元分析。它通过将用户的自然语言指令转化为可执行的有限元分析流程与结果可视化,借助 Abaqus 软件完成分析。框架包含解释器、架构师、输入编写器、运行器、审查器和可视化器六个智能体,覆盖标准有限元分析的全部前处理与后处理步骤。在 50 个固体力学问题上验证,整体成功率达 86%。代码已在 GitHub 开源。
科学图表生成是论文准备中最耗时的环节之一,现有自动化系统仅支持单一图表类型和纯文本输入,且输出不可编辑。为此,研究团队提出了Crafter,一个多智能体框架,它能适配多种图表类型和输入条件,生成出版质量的图表。其配套工具CraftEditor可将生成的栅格图转换为可编辑的SVG文件。同时发布的CraftBench评测基准涵盖了三种图表类型和四种输入条件。实验显示,Crafter在PaperBanana-Bench和CraftBench上均优于独立生成器和现有智能体基线,其组件贡献也得到了验证。代码与基准已开源。
研究揭示了自进化LLM智能体中两种能力的独立表现。框架更新能力与模型基础能力无关,不同层级模型产生的框架更新所带来的增益相近,如Qwen3.5-9B的更新增益与Claude Opus~4.6相当。框架增益能力与基础能力呈非单调关系:弱模型难以从更新中受益,中等模型受益最大,强模型收益反而低于中等模型。弱模型的失败模式包括无法激活相关构件,或激活后未能遵循指令。研究建议将能力预算投入任务执行智能体而非更新器。
本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。
GrepSeek是一种优化的直接语料库交互搜索智能体。它将大型文本语料库视为环境,通过执行可执行的shell命令来查找和组合证据,以解决传统检索系统的局限性。为应对在大语料库上直接应用强化学习导致的不稳定问题,研究提出了两阶段训练流程:首先使用答案感知的“导师”和答案盲目的“规划器”构建冷启动数据集;然后通过组相对策略优化进行训练,使智能体能在与语料库的直接交互中改进搜索行为。此外,引入的语义保持分片并行执行引擎在确保结果字节一致的前提下,显著提升了检索速度。实验表明,GrepSeek在多个开放域问答基准测试中表现优异。
智能搜索通过迭代推理和外部搜索使大语言模型解决复杂问题,但模型常因缺乏自我认知而导致过度搜索,引发延迟与成本。SAAS是一种强化学习框架,旨在培养动态自我感知以精准调控搜索行为。其核心包括搜索边界建模机制、边界感知奖励模块以及分阶段优化策略,通过序贯课程设计优先优化推理而非搜索正则化。实验证明,SAAS能在保持准确率的同时显著减少不必要的搜索行为。
SoundnessBench 是一个包含1,099个机器学习研究提案的基准,用于评估大语言模型(LLM)判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差:标准提示下模型常将低合理性提案误判为合理,激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明,当前LLM尚不适合作为独立的科研严谨性初筛评估工具。
针对GUI智能体缺乏从自身错误中恢复能力的问题,本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例,系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型,在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数,表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。
OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准,而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例,并收集了30个开源技能进行对比评估。研究发现,技能可用并不等同于有效使用,其增益高度依赖具体模型与智能体框架,许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。 (https://yingjiahao14.github.io/OpenSkillEval-Web/)
该研究引入LongDS基准,评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务,覆盖6个领域,共计2225轮次,任务设计围绕状态演化模式(如反事实扰动、回滚)。对五个前沿模型的评估显示,最佳模型的平均准确率仅为48.45%,其性能从早期轮次到晚期轮次下降近47个百分点,且长期错误是主要失败原因,占比52%-69%。研究指出,单纯增加智能体的交互步骤并不能有效提升性能,关键瓶颈在于正确维护随时间演变的分析状态。
大语言模型在通用任务上表现强劲,但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流,本研究正式提出“自主智能体数据工程”这一新任务,旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明,GPT-5.2作为自主数据工程师,通过智能体驱动的迭代数据适配,构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力,为智能体驱动的模型专化指明了路径,代码将于 https://github.com/zjunlp/DataAgent 发布。
一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
AI编程智能体Devin开发商Cognition完成超10亿美元融资,估值超过260亿美元。这笔巨额融资凸显了资本正大量涌入AI编程智能体领域,尽管其实际价值仍存在广泛争论。
Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
Robinhood现允许客户通过MCP协议将Anthropic的Claude等AI智能体连接到独立的投资账户。这些智能体能够自主交易股票。美国金融业监管局(FINRA)已将此类智能体列为新的风险领域,并警告其可能做出不受约束的决策。Robinhood自身也承认该产品并非适合所有客户。
Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。
NVIDIA 研究人员推出了 Polar,一个无需修改智能体框架即可利用强化学习训练语言智能体的 rollout 框架。Polar 通过在智能体框架与推理服务器之间放置模型 API 代理来捕获 token 级交互并重建可用于训练的轨迹。基于 Qwen3.5-4B 基础模型,使用 GRPO 进行训练后,Polar 将 SWE-Bench Verified pass@1 在 Codex 框架下提升了 22.6 点,在 Claude Code 下提升了 4.8 点,在 Pi 下提升了 6.2 点。该框架已注册为 NeMo Gym 环境并在 ProRL Agent Server 仓库中发布。
由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
Robinhood宣布向AI智能体开放其交易平台。交易者可以为AI智能体创建独立账户并注入特定资金,使其能够在市场上买卖股票。该功能旨在自动化投资决策,例如监控特定行业或再平衡投资组合。但Robinhood同时发出重大警告:智能体交易涉及重大风险,包括可能损失全部投资,AI驱动的策略在市场条件下可能表现不佳。
OpenAI、Thrive 与 Crete 合作,使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程,提升工作准确性并加速整体工作流。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)Box CEO Aaron Levie认为,科技CEO们是“AI精神病”的易感人群,这或许可以解释为何他们对AI带来的生产力提升抱有近乎宗教般的信念。
金融平台 Robinhood 推出一项新功能,允许用户创建一个带有预存余额的独立账户。该账户专门设计用于 AI 智能体执行股票交易操作,为自动化投资代理提供了专用资金渠道。
文章探讨了将 Claude Code 作为日常开发工具的实践,重点介绍了其核心配置文件 Claude.md、技能系统、子代理功能、插件扩展以及通过 MCP(模型上下文协议)进行集成的方法,旨在提升开发者的工作流效率。
火山引擎推出AI Trust安全产品体系,以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任,支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台,内置防御提示词攻击、防数据泄露、权限管控与全局态势监控,每日支持100亿次检测调用,在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent,覆盖代码审计、漏洞分析等7个场景,冷启动准确率超95%,经自主学习后达99%以上,广汽集团落地后告警处理效率提升10倍。
现有大语言模型智能体在理想化基准测试中表现良好,但在具有固有随机性和缺陷的真实环境中部署时,性能常会下降。研究提出了NoisyAgent训练框架,旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”(交互的歧义性)和“工具噪声”(工具执行失败)两类噪声源来增强智能体。训练过程中,噪声被策略性地施加于部分训练轮次,并随着模型适应而逐步增加难度。实验表明,该方法在噪声和动态环境中持续提升了智能体的鲁棒性,且在理想化基准测试上也获得了性能增益,证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。
开源智能体编程平台 Kilo Code 现已集成 xAI 的 Grok 模型。用户可使用其 SuperGrok 或 X Premium+ 订阅,在 VS Code、JetBrains IDE 及终端等环境中调用最新的 Grok 模型,包括专为智能体编程设计的 Grok Build。连接过程无需单独的 API 密钥,通过 OAuth 认证即可使用。Kilo Code 本身支持 500+ 种模型,并集成了工具使用、浏览器自动化及 MCP 扩展等能力,适用于软件工程与智能体工作流。
VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。