研究团队提出了一种名为SIREN的轻量级防护模型,通过利用大型语言模型内部各层的安全相关特征来检测有害内容。该方法采用线性探测识别安全神经元,并通过自适应层加权策略整合信息,无需修改底层模型。评估显示,SIREN在多项基准测试中显著优于当前最优的开源防护模型,且可训练参数数量仅为后者的1/250。该模型对未见过的基准测试具有优异的泛化能力,支持实时流式检测,并比生成式防护模型大幅提升了推理效率。
Flash-SemiCRF 通过流式计算突破半马尔可夫条件随机场(semi-CRFs)的内存瓶颈,实现超长序列精确推理。该方法用前缀和数组即时计算替代存储边势张量,内存占用随片段长度与标签数量乘积大幅降低;采用流式前向-后向传递与检查点边界归一化,保持工作内存亚线性增长,可处理超过10万位置的基因组序列。方案融合为Triton内核,解决了传统方法在大状态空间下的不可行问题。
内存市场面临严重的供应短缺危机,且这一状况预计将持续数年。需求激增与产能扩张之间的结构性失衡导致供应链持续紧张,可能对全球数据中心建设、人工智能训练及消费电子产业造成长期影响。行业分析师警告,短期内难以缓解的短缺态势将推高内存产品价格,并制约下游科技制造业的发展。
Anthropic与Amazon签署十年协议,承诺向AWS投入超1000亿美元以获取高达5吉瓦算力,用于Claude训练与部署。Amazon追加投资50亿美元(未来可达200亿美元),新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS,目前超10万客户通过Bedrock使用Claude,Anthropic年化收入已突破300亿美元。
新一代混合注意力模型通过压缩KV Cache,使Prefill-as-a-Service架构成为可能。该方案将重计算的Prefill阶段卸载至远程集群,仅回传轻量KV Cache至本地解码,短请求则本地处理。配合智能路由与带宽感知调度,可在普通以太网高效传输。实测1T参数模型显示,50%请求远程处理时跨集群流量仅13Gbps,吞吐量提升54%,打破长上下文AI局限于单一数据中心的瓶颈。
本文提出SDVG框架,首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证:1.3B draft模型生成候选块,经VAE解码后采用ImageReward worst-frame评分,高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成,以及通过单一阈值平衡质量与速度。在832x480分辨率下,实现1.59倍加速(保留98.1%质量)至2.09倍加速(保留95.7%),无需训练即可集成到现有流程。
监测数据显示,Opus 4.7版本相较4.6版本的token"通胀率"高达45%,即新版本生成内容时消耗的token数量较上一版本大幅增加,直接导致API调用成本上升。该数据来自tokens.billchambers.me的模型对比排行榜,在Hacker News上获得133个赞。
Meta计划于5月20日裁撤约8000名员工,并将在今年晚些时候启动第二波裁员,总计可能削减超过20%的 workforce。此举旨在通过大幅降低人力成本来抵消公司在AI基础设施上的巨额支出,标志着扎克伯格正推动资源从人员配置向计算能力转移的战略转型。
研究发现在线策略蒸馏(OPD)在提升任务准确率的同时,会系统性导致模型过度自信,形成"错误校准的缩放定律"。该问题源于训练时教师模型的特权上下文与部署时信息的不匹配。为此提出 CaOPD 框架,通过模型 rollout 估计经验置信度,并以学生基础目标替代自报告置信度进行蒸馏。实验表明,CaOPD 在保持模型竞争力的同时实现帕累托最优校准,且在分布外和持续学习场景下稳健泛化。
超大规模科技公司(Hyperscalers)的资本支出总额已超过美国历史上多数标志性大型工程。这些企业在数据中心、云计算及AI基础设施上的投入规模,累计超越了阿波罗登月计划、州际公路系统等传统巨型项目。这一对比凸显了科技巨头在数字基础设施建设上的巨额资本配置,其年度支出水平正重塑全球投资格局,标志着私人部门技术投资已进入超越传统公共工程时代的新阶段。
In 2025, OpenAI announced Stargate, a $500 billion data center initiative. We surveyed all 7 US sites and found visible ...
The hyperscalers have already outspent the most famous US megaprojects
科技巨头通过游说将保密条款植入欧盟法律,使企业得以商业机密为由隐瞒数据中心的环境影响数据。Investigate Europe的调查揭示,这些条款阻碍了公众获取能耗、碳排放及水资源消耗等关键信息,让科技行业能够掩盖其数字基础设施对环境的实际破坏,规避有效监管与气候问责。
Cloudflare 推出 Agent Readiness 评分体系,帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准,并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点,将其打造为全网对 agent 最友好的网站,为行业提供了可复现的优化范例,推动网站基础设施向 AI 代理友好型架构升级。
技术团队预告了共享压缩字典功能的上线计划,这项压缩技术专为适应代理式网络的发展需求而设计,能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段,具体的 beta 测试开放时间即将公布,用户很快就能亲自体验这项新技术。
Cloudflare 发布原生功能标志服务 Flagship,直接构建于其全球网络之上,旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术,实现亚毫秒级的 flag 评估速度,满足 AI 时代对实时性能的需求,为开发者提供低延迟的功能开关能力。
Cloudflare 发布无损推理时压缩系统 Unweight,可在不牺牲模型质量的前提下,将大语言模型(LLM)的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化,使推理速度更快、成本更低,解决了在网络边缘大规模部署 LLM 时的内存效率挑战,实现了模型体积与计算资源的高效平衡。
开源系统TRACER利用LLM生产日志训练轻量级替代模型,通过设置一致性阈值α作为部署门控,仅在替代模型与教师模型(如Sonnet 4.6)一致率达标时激活,实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中,替代模型覆盖率达83%-100%;在150类任务中完全替代教师模型;而在自然语言推理任务中,系统正确识别嵌入表示不足并拒绝部署。
Unsloth团队发布Qwen3.6-35B-A3B 2bit动态量化版本,模型体积仅12.3GB且激活内存仅需1GB,可在32GB Mac上流畅运行。测试显示该版本支持30余次工具调用,相较之下前代Qwen3.5-35B-A3B的8bit版本仅能完成4-5次调用即出现性能衰减。这一突破意味着大模型在端侧设备上的实用性和多步骤任务处理能力获得显著提升。
白宫拟向主要联邦机构提供Anthropic Mythos模型,用于主动猎捕软件漏洞。该模型可在攻击者之前识别操作系统、浏览器及服务器中的安全缺陷,加速修复进程。此举体现美国政府将AI网络防御视为关键战略能力,既承认其不可替代的防御价值,又强调必须通过严格管控防止技术滥用。
针对并行推理中早期错误导致无效路径的高成本问题,研究团队提出首个路径剪枝系统化分类框架,并开发了基于可学习内部信号的STOP(Super TOken for Pruning)方法。在1.5B至20B参数的大型推理模型评估中,该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%,有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。
FlashInfer开源近1400个TRT-LLM-Gen高性能GPU内核,针对LLM推理优化。以W4A16量化GEMM为例,采用INT4权重与BF16激活,通过3级流水线及Warp专精化(加载、反量化、MMA、Epilogue)提升并行效率。因INT4反量化需CUDA核心处理寄存器,MMA被迫使用TS模式而非TMEM,导致SMEM带宽瓶颈。方案借鉴Cursor设计,通过流水线隐藏CUDA与Tensor Core计算差距,缓解吞吐量损失。
Trtllmgen kernels are now open. Fastest prefill and decode kernels for our target workloads. We wrote these to win Infer...
Cloudflare 发布 Artifacts 测试版,这是一个原生兼容 Git 协议的版本化存储服务,专为 AI Agent 设计。开发者可直接使用标准 Git 命令管理代码、配置和模型文件的版本历史,支持分支、合并等完整操作。该服务提供与 Git 完全兼容的接口,无需额外工具适配。项目在 Hacker News 获得 101 个赞,目前处于 Beta 阶段,技术细节已在官方博客公布。
Five companies - Google, Microsoft, Meta, Amazon, and Oracle - now control about two-thirds of the world's compute, up s...
xAI计划向Cursor出租数万GPU用于训练Composer 2.5,标志其从模型开发向云计算服务转型。内部备忘录显示,xAI的GPU利用率仅11%(行业正常35-45%),20万块Nvidia GPU大量闲置,出租旨在回血。双方关系微妙,xAI刚挖走Cursor两位高管。Cursor面临激烈竞争,此前Composer 2基于Moonshot AI模型,现借xAI算力寻求突破。
NEWS: xAI plans to supply tens of thousands of GPUs to coding startup Cursor to train its upcoming Composer 2.5 AI model...
Cloudflare 将 AI Gateway 重构为统一的 AI 推理层,开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能,并扩充了多模态模型目录,专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程,降低多模型集成的技术门槛。
Cloudflare 针对超大型语言模型推理需求打造了专属技术栈,通过在其全球基础设施上部署定制化高性能 AI 推理系统,实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径,解决了超大规模模型部署中的性能瓶颈,使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。
If intelligence is the log of compute... it starts with a lot of compute! And that's why we're scaling our GPU fleet fas...
一名开发者在Google AI开发者论坛披露,其Firebase项目的浏览器密钥因未设置API访问限制,短短13小时内被恶意调用Gemini API,导致账单激增5.4万欧元。该事件暴露了客户端API密钥配置不当可能引发的巨额成本风险,警示开发者需严格限制密钥权限。