可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
当模型智能的微小提升能直接转化为实际价值时,开源与闭源模型正沿着不同的增长路径发展。闭源模型通过在特定场景下提供更高的边际智能来创造价值,而开源模型则在其他维度寻找增长点,两者形成了差异化的竞争格局。
这一观点强调,单纯分析AI的输出内容,无法还原其生成过程与背后的推理逻辑,触及了当前AI可解释性研究的核心挑战。
Anthropic CEO Dario Amodei 发表博客指出,AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码,而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁,可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至,呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架,并承诺提供实质性资金支持。
小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。
Google 使用其开发工具 Google AI Studio,通过氛围编程(vibe coding)方式,创建了一个关于 Google I/O 2026 主要公告的在线测验。
文章简要指出,在“Token至上”的时代可能告一段落之后,对于人工智能(AI)的未来,存在两组截然不同的预测。
作者基于超过35年的技术面试经验指出,该流程存在根本性缺陷。面试结果极不可靠,面试官意见高度不一致,且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为,当前的人才评估方式亟需一场根本性的变革。
OpenAI 发布了一份关于第三方 AI 评估的指导框架,内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。
“技能提炼”是一种知识转移方法,由前沿大模型(如 Opus 4.7、GPT-5.1、Gemini 3 Pro)负责撰写并优化标准化的 SKILL.md 流程文件。然后,本地运行的小模型(如 Qwen 35B、Gemma 26B)直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG,其核心是提取并转移操作流程,让小模型按步骤执行,从而形成前沿模型作教师、小模型作执行者的循环。
本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 `torch.profiler` 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 `torch.compile` 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。
通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。
客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。
Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。
OpenAI、Thrive 与 Crete 合作,使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程,提升工作准确性并加速整体工作流。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)5月25日,面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分,超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB,可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配,覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧,支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线;平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。
腾讯元宝上线高考备考辅助功能,提供考前24小时备考管家,可帮助考生规划每日学习任务、一键导出时间表格并打印,还能设置任务提醒,如“该背单词啦”“全真模考时间到”。试卷分析功能支持上传考卷,快速梳理全卷题型与分值分布,帮助考生主攻提分核心考点。此外,元宝能将历史、政治等科目知识点转化为思维导图,并生成押韵记忆口诀,辅助考前快速复习。
社交媒体平台上的帖子内容正变得越来越相似。这种趋同现象可能意味着大量内容正在被AI生成或同质化处理,引发了人们对于内容原创性与人类独特视角的讨论。
在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。
Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。
文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡(open-closed balance)的讨论、美国开源力量的显著增长(America's open-source surge),以及由此引发的新兴权力博弈(emerging power struggles)。
Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。
关联讨论 1 条X:Runway (@runwayml)Uber首席运营官Andrew Macdonald表示,公司并未看到在AI上投入更多成本后,生产力获得了相应的提升。
百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出,所有前沿AI实验室都面临商业、研究及地缘政治等多重压力,这可能与做正确的事相冲突,因此外部监督至关重要。他强调,AI模型并非像飞机那样被工程化构建,而是基于人类语言和思想“生长”出来的,其内在性质可能复杂难解。他提出三个需审慎思考的问题:如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣,以及AI模型内在性质的本质。他呼吁社会各界,尤其是宗教与民间团体,严肃审视AI发展并引导其向善。
关联讨论 2 条X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
在戛纳电影节期间,导演贾樟柯与火山引擎探讨AI对电影行业的影响。贾樟柯认为,AI降低了电影制作的技术门槛,让普通人也能参与拍摄和创作,电影行业正迎来平民化变革。
百度智能云在Create2026大会上举办具身智能专题论坛,探讨AI进入物理世界后,具身模型如何重构生产力。论坛围绕具身模型的技术路线、应用场景及产业落地展开讨论。
美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。
Anthropic公司金融与战略团队的Alice Fong分享了使用Claude优化财务工作的经验。她需要为CFO和董事会维护一套连贯的财务叙事,但过去常因数据频繁更新和协作修改而耗费大量时间核对一致性。现在,她通过Claude Cowork自动校验文档中的数字与叙述是否统一、是否连贯,并利用Claude for Excel直接在财务模型中进行诊断。这帮助她将每月约10-20小时的重复性核对工作,转化为专注于前瞻分析、场景规划等更高价值的判断性工作,确保了公司快速变化背景下财务叙事的准确性与一致性。
Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始,逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角,剖析不同硬件的设计逻辑与演化路径。