xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。
关联讨论 1 条xAI:News(网页)xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。
关联讨论 1 条xAI:News(网页)GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。
AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。
OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。
小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。
xAI 开放 Grok Voice Agent API,基于自研语音栈(VAD、tokenizer、音频模型),Big Bench Audio 基准排名第一,首音频延迟低于 1 秒(比竞品快近 5 倍),定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具,已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线,支持 [whisper] 等听觉标签,兼容 OpenAI Realtime API 规范。
inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。
开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces,便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越,在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一,在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本,支持计算机使用与多工具无缝集成,并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型,在高性能推理平台(如 Groq)上运行能显著提升效率。
AReaL v0.5.0 是由蚂蚁百灵(Ling)发布的强化学习运行时服务框架,专为智能体与推理设计。
Anthropic与Material调研500余位技术领导者显示,57%企业已将AI智能体用于多阶段工作流,16%实现跨职能部署。编码是核心场景,90%用于开发辅助,86%用于生产代码,平均节省近六成时间。80%受访者称投资已产生可衡量回报,如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例,但面临系统集成、数据质量和变革管理三大挑战。
智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。
智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。
研究团队发布了 DeepMath,一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建,旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化,力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。
蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。
研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。
为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。
Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。
Anthropic在Claude开发者平台发布三项新功能,以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具,内部测试中将上下文消耗从约7.7万令牌降至8700令牌,降幅达85%,并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具,减少对上下文窗口的影响,例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。
xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议,将在沙特建设超大规模 GPU 数据中心,并全国范围内部署 Grok 至 HUMAIN ONE 平台,为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。
xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。
关联讨论 1 条xAI:News(网页)GPT-3 发布至 Gemini 3 的三年间,大模型技术完成从聊天机器人(chatbots)到智能体(agents)的范式跃迁。
Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 功能,提供多模态 AI 一站式解决方案。
LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。
随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。
MiniMax发布新一代旗舰模型M2,采用230B总参数、10B激活参数的MoE架构,已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention,指出高效注意力机制虽能降低理论计算复杂度,但在实际工业部署中面临多重挑战:标准基准无法暴露多跳推理等深层能力缺陷,与前缀缓存、推测解码等系统兼容性不足,且受内存带宽限制难以兑现理论效率。MiniMax认为,开放场景部署中模型质量优先于计算效率。
与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。
MiniMax 在 Hugging Face 发布博客,探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标,以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思,旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。
MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。
Claude 发布金融服务 AI 代理构建指南,分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时,McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作,在合规框架下处理客户服务与风险分析,将传统分析工具升级为可独立完成交易的自主系统。
MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。
关联讨论 1 条MiniMax:Blog(网页)MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》CodeMender 是一款面向代码安全的 AI 智能体,利用先进 AI 技术自动修复关键软件漏洞。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。
企业AI团队常将原型卡在生产环节,主要瓶颈在于缺乏一套系统来跟踪模型输出变化、复现结果、监控真实使用数据、运行领域特定评估、私有增量微调模型以及满足安全合规的部署。Mistral AI Studio 作为生产级AI平台,基于 Mistral 运营大规模系统的经验而构建,为团队提供构建、评估和运行AI所需的基础设施。其核心功能包括:用于数据驱动闭环的可观测性、基于 Temporal 的有状态智能体运行时,以及用于模型和提示词版本管理的 AI 注册表。
Anthropic 推出网页版 Claude Code,以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务,无需本地终端,支持并行处理多个 GitHub 仓库的开发工作,并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行,具备网络和文件系统限制,同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。
关联讨论 3 条Claude:Blog(网页)X:Thariq (@trq212)X:宝玉 (@dotey)Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。
研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。
OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”(BYOK)请求,完全免费。