AI工具虽使个体效率大幅提升,却未加快组织整体产出。核心在于组织普遍缺乏“记忆”:MIT Sloan 2026年报告显示95%的企业AI投资未产生可衡量回报,超过30%的团队时间用于重复建立上下文。个体生产力因AI工具(记忆留存于个人账户)而提升,但这种收益无法在组织层面整合,导致“个人在飞,组织在垮”。Sequoia在AI Ascent峰会提出,2026年将是长周期智能体的商业元年,下一轮AI将卖结果而非工具。
AI工具虽使个体效率大幅提升,却未加快组织整体产出。核心在于组织普遍缺乏“记忆”:MIT Sloan 2026年报告显示95%的企业AI投资未产生可衡量回报,超过30%的团队时间用于重复建立上下文。个体生产力因AI工具(记忆留存于个人账户)而提升,但这种收益无法在组织层面整合,导致“个人在飞,组织在垮”。Sequoia在AI Ascent峰会提出,2026年将是长周期智能体的商业元年,下一轮AI将卖结果而非工具。
该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。
由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。
据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。
因AI服务器需求强劲,戴尔科技给出远超市场预期的全年营收展望,其股价盘前一度上涨38%。戴尔预计截至2027年1月的财年总营收约为1670亿美元,其中AI服务器销售额将贡献600亿美元。该公司第一季度AI订单额达244亿美元,销售额为161亿美元。同期,戴尔总销售额同比增长88%至438亿美元,亦高于分析师预期。
视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。
韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为,AI 当前面临的真正瓶颈并非算力,而是内存。
本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
X Premium+订阅用户现已可以安装Grok Build CLI。实际测试显示,该工具能成功生成图片,但调用 video_gen 接口生成视频的功能目前不可用,尽管官方有相关表述。此外,直接读取X平台帖子的功能也尚未实现。在编程能力上,该工具被认为不及Codex与Claude Code。
鸿海董事长刘扬伟表示,AI需求的快速增长正驱动公司业务扩张,主要云服务商今年AI领域投资规模已超7000亿美元,明年可能达1万亿美元,这为公司提供了巨大市场。他对今年下半年增长动能充满信心,并指出第一季度利润增长19%。此外,为扩张AI服务器产能,公司预计今年资本开支将较去年的1740亿新台币增长30%。
加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。
智能体AI推理的设计空间横跨两个极端:云端大语言模型性能强大但成本高,设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型,为平衡提供了可能,但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则,此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理,系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明,小语言模型确实能从大语言模型的辅助中获益,但最优架构高度依赖具体任务,且更多的前沿计算并不总能带来更好的性能。
2025年我国已建成42个万卡级智算集群,算力中心总用电量达1700亿千瓦时,占全社会用电量1.6%。全国一体化算力网络8大枢纽节点算力用电近3年平均增长率约39.5%。国家能源局预计,“十五五”时期全国算力用电量年均新增超1000亿千瓦时,到2030年预计达8000亿千瓦时,占全社会用电量6%左右。同期新型电网投资预计将超5万亿元。
推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。
TrendForce 预估 2027 年全球存储器产值将增至逾 1.28 万亿美元,同比增长 44%。2026 年产值预估也被大幅上调至 8893 亿美元。增长主要受智能体AI对服务器CPU及内存需求增加的驱动,例如新一代AI服务器CPU与GPU配置比已从1:8提升至1:4或更高。同时,HBM产能挤占通用DRAM产能,加上供应商合约价话语权强化,推动DRAM产值预期大幅增长。
联想集团在天津签约建设新一代AI算力产品研发制造中心,新产线计划于2027年秋季量产。此外,联想投资的通用服务器产线将于今年9月在天津实现量产。联想董事长杨元庆表示,未来各类终端将成为“超级智能”的载体。天津产业园已落地基于GE VLM大语言模型的LCD缺陷检测系统,将屏幕不良率从3.5%降至0.4%。联想上一财年营收达5899亿人民币,利润增速超40%。
作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。
华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer(SGL),以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节,仅需几行代码(如示例中的3行C++代码)即可接入GPU加速。该框架提供C API和NAPI接口,方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。
提出一种名为SPD的推测解码框架,通过将目标大语言模型(LLM)划分为n个流水线阶段来并行处理n个token,以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token,并与目标模型的流水线步骤严格并行执行,从而实现有限难度、更高接受率和零延迟气泡。实验显示,SPD的理论加速比显著高于主流基线。
扩散大语言模型(dLLMs)与混合专家(MoE)架构结合时,存在块并行解码与token级专家选择之间的不匹配,导致推理时激活专家数过多、内存占用高。为此,我们提出dMoE框架,它将每个块内的token级专家分布聚合为统一的块级专家分布,以更协调的方式指导专家路由。实验表明,dMoE将唯一激活专家数平均从69.5降至14.6,保留了原模型99.11%的性能,同时减少76.64%-79.84%的内存使用,并实现1.14至1.66倍的端到端延迟加速。代码已开源:https://github.com/fscdc/dMoE
Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算,具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,该框架无需重新训练模型,可实现最高2.59倍的推理加速,同时保持有竞争力的视觉质量。
Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度:在 8× AMD MI300X 上达到 3,000 tokens/s,在 8× NVIDIA H200 上达到 2,100 tokens/s(FP16,无推测解码),而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题,通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览,提供 2B 编码模型,并计划后续支持大型前沿 MoE。
🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...
AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。
The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型,而是根据任务复杂度选择标准(standard)、生产(prime)或极致(max)三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API,后端模型可根据价格与质量动态变化,从而优化成本。作者曾用Hermes Agent在本地测试,通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段,声称通过供应商竞价可使AI API成本降低最高80%,并为新用户提供首200M tokens免费额度。
The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...
Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体(agent)的公司。此次收购后,Asana将把Stack AI整合到其不断增长的AI工作流工具套件中,以增强其平台上的自动化与智能化能力。
tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。
Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...
大型交易所正在设计围绕AI token的衍生品。这些token正日益被视为一种原材料输入,如同电力或带宽,而非仅仅是计算输出。
SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。
LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。