MiniMax 推出 M2.5-highspeed 模型,支持 100 TPS 极速推理,速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线,Coding Plan 提供 Plus、Max、Ultra 三档套餐,邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。
MiniMax 推出 M2.5-highspeed 模型,支持 100 TPS 极速推理,速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线,Coding Plan 提供 Plus、Max、Ultra 三档套餐,邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。
MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。
Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。
Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。
Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用,推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展,Box 将 React 迁移速度提升 80%,设计系统迁移提速 90%,同时确保企业级安全与代码质量。配合导师计划,六周内 Cursor 使用量增加 75%,800 余名开发者已实现 AI 辅助开发。
Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛,使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发,同时公布的相关基准测试显示,定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。
Meta与Hugging Face联合推出开源评估框架OpenEnv,旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境,用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API,通过标准接口连接真实工具,将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性,成为评估智能体实际能力的强大测试平台。
MiniMax 最新发布的大语言模型 M2.5,通过在数十万个复杂现实环境中进行强化学习训练,在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高,完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%,与 Claude Opus 4.6 相当。定价方面,以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练,具备从系统设计到测试的全流程能力。
GLM-5 开源,参数规模达 744B(激活 40B),预训练数据 28.5T,集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5,Agent 能力支持 SOTA 级长程任务执行,兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链,覆盖端到端开发、办公自动化等场景。
FireRed-OpenStoryline 今日正式开源,成为首个具备导演思维的视频剪辑Agent,将大模型能力从文本、图像拓展至视频剪辑领域。
Kimi推出Agent Swarm系统,支持100个子代理并行工作,可执行超1500次工具调用,任务完成速度比顺序执行快4.5倍。该系统突破单模型上下文限制,采用自我组织架构,用户下达指令后自动"招聘"CEO、研究员等角色并动态分配工作流,无需人工编写脚本。适用于大规模信息搜集、长文档生成及多视角辩论等场景,通过结构性分歧避免AI群体思维。
关联讨论 1 条Moonshot AI:Kimi Blog研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。
Qwen Studio 提供全栈功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 Artifacts 等模块。
蚂蚁百灵团队将近期刷屏的自动买车 Agent Clawdbot 的核心大脑替换为自家百灵模型,进行功能测试。Clawdbot 是本周最火的通用 Agent 架构,此次实验验证了百灵模型在工具调用任务中的实际表现。
作者基于对AI指数级发展的预测,于2025年末构建了Gas Town项目,以验证软件编排(orchestration)的早期形态。文章指出,在未来AI能编写几乎所有软件的“Software 3.0”时代,选择压力将遵循一条核心法则:节省认知资源的软件更可能生存。由于推理(Inference)消耗Token,而Token、能源与成本相互关联且受限,因此最小化认知支出(可量化为Token消耗)成为关键。作者主张,系统应优先使用能完成任务的最小模型,并通过编排将任务分配给合适的模型层,以节约能源与成本。
Meta AI 团队发布了开源工具 Daggr,旨在通过编程方式链接不同的 AI 应用,并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型(如 GPT、Claude、LLaMA)和数据处理步骤串联成自动化流程,同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。
智能体(agents)时代,管理能力将成为人类 thriving 的核心超能力。在 AI 主导的未来,懂得如何管理比单纯的技术能力更能决定成败。
LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现,由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异,导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值(并分离梯度),确保了重要性采样比率为1,从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。
MiniMax 基于产品 Talkie/Xingye 三年的观察,推出了专为角色扮演场景优化的模型 MiniMax-M2-her。团队发现,深度角色扮演的核心是“叙事精度”和“情感连接”。该模型旨在解决三大挑战:保留每个角色与世界观的“灵魂”、维持故事随时间推进的叙事活力、以及解读用户的隐式意图。其目标是提供高保真的世界体验,能主动推动故事发展以赋予张力,并动态适应用户的长期习惯,实现直觉性的偏好对齐。
Mistral AI 发布了终端原生编码智能体 Mistral Vibe 2.0,由 Devstral 2 模型驱动。其主要升级包括:可构建自定义子代理、在执行操作前提供多选项澄清、通过斜杠命令加载技能,以及配置自定义工作流程。Mistral Vibe 2.0 目前可通过 Le Chat Pro 和 Team 计划使用,支持按使用量付费或自带 API 密钥。同时,Devstral 2 模型已转向付费 API 访问。
AI Agents 的能力正逼近关键临界点,其性能飞跃已超出传统工作模式的承载范围。这要求从业者必须重新界定工作范畴、重构项目管理流程并革新任务执行策略。从需求规划到交付标准,现有方法论面临全面调整,组织与个人亟需掌握与智能体协作的新范式,以适应这一技术变革带来的深层影响。
Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。
IBM Research在Hugging Face发布AssetOpsBench,这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建,包含多行业数据集和超1000个运维事件,通过多阶段指标测试智能体的诊断、决策等能力,注重动态适应性、多模态处理和安全推理,以推动AI智能体走向实际工业应用。
Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。
Overworld推出实时交互式视频扩散模型Waypoint-1,用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构,在1万小时游戏视频及对应控制数据上训练,从一开始就专注于交互体验,支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行,例如Waypoint-1-Small在RTX 5090上能以30 FPS(4步去噪)或60 FPS(2步去噪)生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。
作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。
Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。
关联讨论 3 条Nathan Lambert:Interconnects(RSS)X:Kim (@kimmonismus)Gary Marcus:The Road to AI We Can Trust(RSS)OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。
有效的评估能帮助团队更自信地发布AI智能体,避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性,评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果,其价值在智能体整个生命周期内持续累积。
合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。
xAI 完成 200 亿美元 E 轮融资,投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户,运营超 100 万 H100 GPU 等效算力的 Colossus 超算,正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。
NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人,旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合,使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施,Reachy Mini 则提供高精度七自由度机械臂硬件,共同推动具身智能发展。
Dario Amodei 将当前 AI 发展阶段定义为「技术的青春期」,认为人类即将获得难以想象的力量,但社会和政治系统是否具备驾驭成熟度仍存疑。文章强调需避免「末日论」式恐慌,以务实、基于事实的方式讨论风险,同时承认 AI 发展速度和风险的不确定性。作者主张通过企业自愿行动与精准政府监管相结合,在避免过度干预的前提下应对潜在危险,为可能到来的更强有力行动储备证据和方案。
关联讨论 1 条Dario Amodei:Blog(网页)xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。
金融投研工具AlphaEngine完成Agent模型升级,接入Kimi K2 Thinking。该工具目前已有7万金融投研人在使用。
字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5,采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证,并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练,该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分(金牌线),9 小时内解决 Putnam 2025 的 11/12 题,在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率,刷新多项 SOTA。