早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。
早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。
本研究指出,AI智能体的下一个主要瓶颈是系统扩展,而非单纯的模型扩展。研究提出了“扩展执行层”的概念,即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成,它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈:上下文治理、可信记忆与动态技能路由。为进行具体讨论,研究开发了CheetahClaws这一参考实现,并与Claude Code、OpenClaw进行了对比。其核心观点是,AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。
CollectionLoRA是一个多教师在策略蒸馏框架,旨在解决为扩散模型定制大量视觉效果时,因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标,用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示,CollectionLoRA在显著降低部署成本的同时,实现了与独立教师模型相当或更优的概念保真度。
B³D-RWKV 是一种扩散 RWKV 变体,旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法,将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下,在 8 项任务套件中达到了与现有模型相当的准确率,同时解码吞吐量显著优于基线,平均速度提升达 1.6 倍。
本教程详细演示了如何使用 Langfuse(一个开源大语言模型工程平台)构建一套完整的可观测性与评估流水线。内容覆盖了追踪、提示词管理、评分、数据集与实验等核心功能。教程设计了一个可独立运行的完整工作流,用户既可接入真实的 OpenAI API 密钥,也可使用确定的模拟大语言模型,以便在无需付费模型访问的前提下,理解 Langfuse 的所有主要特性。
论文提出ZEDA框架,可将训练后固定的静态MoE模型(如Qwen3、GLM)转变为动态模型,允许路由器在token过于简单时跳过专家调用。实验显示,在Qwen3-30B-A3B和GLM-4.7-Flash上,ZEDA可移除约50%的专家计算量,仅带来轻微准确率损失,并实现约20%的实际推理速度提升。研究发现,计算分配主要依据模型的不确定性,而非单纯跟随任务难度。
2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。
华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。
Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...
近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。
DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。
http://x.com/i/article/2057886253249662976
华为在巴黎展示了基于自研Die-on-Board封装技术的大容量SSD。该技术将更多NAND裸片直接封装在电路板上,最高实现36层堆叠,突破了传统封装最多16层的限制,从而绕开了对400层以上先进制程NAND芯片的依赖。华为已量产61.44TB和122.88TB型号,并计划推出245TB版本。这些产品已应用于OceanStor Pacific 9926存储系统,在2U机箱中可提供4.42PB原始容量,压缩后有效容量达11PB。
在MLSys 2026 MoE模型推理优化竞赛中,清华联合腾讯混元获得冠军。针对MoE架构在异构芯片(NPU)上面临的推理性能挑战,其提出的优化方案在NPU上实现4.1倍推理速度提升。
神舟二十三号载人飞船瞄准5月24日23:08发射,朱杨柱任指令长,香港航天员黎家盈将首飞。苹果iPhone 17系列领跑2026年Q1全球畅销榜,前十机型贡献25%出货量。闻泰科技声明安世荷兰剥夺控制权并阻挠审计。全国首个人形机器人管理平台发布,已为超2.8万台机器人赋予唯一“身份证号”。DeepSeek API完成扩容,默认支持500并发。小米宣布冠名中国三大汽车赛事,其YU7 GT医疗车首次亮相赛道。
CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数,以此动态分配每一步的缓存预算:在模型不确定时保留更多上下文,自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序,并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明,在生成长度达 4K 时,其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中,CONF-KV 达到 91.4% 的准确率,远高于滑动窗口(53.8%)和 H2O(80.6%)。在 75 个 VisualWebArena 任务中,它以 2.8 倍更低的峰值内存,保留了完整 KV 缓存 95.3% 的成功率。
腾讯近期开源了TencentDB Agent Memory,这是一个基于MIT许可证的本地化AI智能体记忆系统。该系统创新地将工具日志处理为符号化的短期记忆,并采用由“会话→原子→场景→人格”构成的四层长期记忆金字塔。它以OpenClaw插件和Hermes Docker镜像形式发布,默认使用本地SQLite与sqlite-vec数据库,并融合了混合BM25与向量检索策略。性能基准测试表明,该系统在WideSearch任务中实现了超过60%的token节约和51%以上的相对通过率提升,同时将人格记忆的准确率从48%显著提高至76%。
文章介绍了一项名为“让深度学习嗡嗡作响”的技术探索,该项目从计算机体系结构的第一性原理出发,深入分析并优化深度学习计算流程。作者通过底层硬件视角审视现代深度学习框架,指出了当前系统中存在的计算瓶颈与效率损失,并提出了针对性的软硬件协同优化思路。该研究旨在通过理解计算本质来释放硬件潜力,最终实现深度学习任务执行效率的显著提升。
DeepSeek 将针对其旗舰模型 V4-Pro 的 75% 折扣调整为永久性降价。调整后,输入 token 的价格为每百万 0.435 美元,相比 GPT-5.5 至少便宜 11.5 倍;输出 token 的价格优势更为显著,至少低 34 倍。如此激进的定价策略,对于 token 消耗量巨大的智能体系统而言,将对西方人工智能服务商构成显著的价格压力。
一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。
DeepSeek 宣布其API完成输出提速与服务扩容,服务更加稳定,默认支持500个并发同时在线,企业用户可申请更高并发。同时,DeepSeek-V4-Pro模型API价格将于2026年5月31日优惠结束后调整为原定价的1/4,具体价格调整为:输入(缓存命中)0.025元/百万Tokens,输入(缓存未命中)3元/百万Tokens,输出6元/百万Tokens。
代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。
Mistral AI已与物理学AI先驱Emmi AI达成收购协议,旨在巩固其作为工业企业首要AI转型伙伴的地位。通过整合Emmi AI的先进模型及其超过30人的顶尖研究员和工程师团队,Mistral AI将大幅提升其在工程物理建模、实时仿真和数字孪生方面的能力,打造业界领先的工程师智能体。此次收购将加速Mistral AI的科学研究路线图,使其能为航空航天、汽车和半导体等高风险行业的客户提供全面集成的平台,以解决复杂工程挑战并革新核心研发流程。
Mistral AI宣布与物理AI先驱Emmi AI达成最终收购协议,旨在加强其在工业AI领域的领导地位。通过整合Emmi AI在物理仿真与数字孪生方面的专长,Mistral AI将提升其工程解决方案能力,并加速科学研发路线。Emmi AI的30余名研究员与工程师将加入Mistral AI团队,共同构建由物理AI驱动的综合技术栈。此次合作将为航空航天、汽车等高风险行业提供实时仿真与复杂问题解决平台,推动工业研发的突破性进展。
微软发布报告指出,在特定工作场景中,部署和使用人工智能(AI)的成本目前已高于支付相应的人工工资。报告分析了基于“tokens”(令牌)和“agents”(智能体)的AI使用模式,发现其综合开销超过了雇佣人类员工完成同类任务的费用。这一发现揭示了当前企业应用AI技术面临的现实经济挑战。
论文提出CODA技术,旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作(如注意力机制、前馈网络)统一抽象并重写为“通用矩阵乘法(GEMM)+ 后续操作(Epilogue)”的程序化组合。这种方法能够更高效地映射到现代硬件(如GPU)上执行,通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv,并在Hacker News社区获得关注(100点热度),反映了业界对大模型底层计算优化的持续探索。
Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度,处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证,是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计,大幅减少了芯片间通信延迟,从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要,能显著缩短测试、调试与迭代周期。
本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现,传统的分块外扩扩散流程在推理时效率较低。为此,提出了现场音乐扩散模型(LMDMs),通过引入分块KV缓存优化生成过程,显著提升了推理效率。同时,LMDMs采用ARC-Forcing范式实现稳定的后训练对齐,减少了误差累积,无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景,并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行,为音乐创作提供实时音色变换支持。
Kakuna是一款AI代理工具,旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流,模拟人类开发与运维流程,在保持功能不变的前提下,自动执行代码审查、测试补充、重构等“无聊”工作,并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例,其核心是“反熵增”与“反代码腐化”。例如,一次约16小时的运行能生成上百次提交,将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。
working on a "take this vibecoded slop app and make it a production-ready, e2e tested, maintainable, parallelizable agen...
You can also connect to inference endpoints that follow the OpenAI Chat Completions API. This includes @OpenRouter, @Lit...
摩根士丹利发布了对NVIDIA VR200的物料清单分析。报告指出,其内存成本特指LPDDR5x SOCAMM与NVMe SSD,而GPU成本中已单独包含HBM。因采用无缆设计,PCB面积与材料成本有所上升。报告列示的总成本为OEM渠道价格,大型云服务商的采购成本将更低。该机构客户自2026年2月起已获得此分析,报告同时研究了网络连接器、背板等组件的变化及供应商格局演变。
Sheesh. $NVDA VR200 Bom Analysis from MS.
Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始,逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角,剖析不同硬件的设计逻辑与演化路径。
The DeepSeek-V4-Pro discount has been extended until May 31, 2026, 15:59 UTC!
针对当前自适应计算策略导致的推理冗长与低效问题,本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型,其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中,v1.0-30B以25.8%-95.3%更少的推理token,达到了与更大参数量系统相当的性能。引入强化学习后,模型规划深度提升22.8%,而频率仅增2.0%,表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。