AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1388 条
全部一手资讯X论文
标签「部署/工程」清除
5月29日周五
10:21IT之家(RSS)55华为全面升级星河 AI 网络,Token 生产效率提升 2 至 5 倍
09:21IT之家(RSS)64华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜
08:00HuggingFace Daily Papers(社区热门论文)49蒸馏博弈:自适应攻击与高效防御
08:00HuggingFace Daily Papers(社区热门论文)50流水线推测解码
08:00HuggingFace Daily Papers(社区热门论文)63dMoE:面向扩散大语言模型的块级专家混合架构
08:00HuggingFace Daily Papers(社区热门论文)63Light Interaction: 交互式视频世界模型的免训练推理加速
05:44TechCrunch:AI(RSS)68互联网正在为机器重建
04:14TechCrunch:AI(RSS)56Asana收购无代码智能体构建器Stack AI
03:38Hacker News 热门(buzzing.cc 中文翻译)67我们更换了 Zendesk
02:44TechCrunch:AI(RSS)52就像黄金和石油,我们很快就能交易AI token期货了
00:34LMSYS:Blog(Chatbot Arena 团队)69精选SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
23:42The Decoder:AI News(RSS)60Google Cloud 以平台应对 AI 加速的网络攻击,旨在分钟级弥合安全缺口
22:42TechCrunch:AI(RSS)23在 TechCrunch Disrupt 2026 大会上:Databricks 联合创始人谈什么会搞砸企业 AI 交易
22:00OpenRouter:Announcements(RSS)54OpenRouter 完成 1.13 亿美元 B 轮融资
22:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter 完成 1.13 亿美元 B 轮融资同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体
18:47Mistral AI:News(网页)61Mistral AI推出物理AI模型,加速工业工程
17:12MarkTechPost(RSS)67Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍
16:28HuggingFace Daily Papers(社区热门论文)59Clark Hash:神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化
16:10MarkTechPost(RSS)70精选pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南
15:15IT之家(RSS)53阿里达摩院发布"敏迭"求解器 GPU 版
12:41OpenRouter:Announcements(RSS)72精选OpenRouter 获得1.13亿美元B轮融资
11:35公众号:面壁智能(MiniCPM)61精选PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统
11:15IT之家(RSS)29智能设备迭代更新,酒泉将精准"跟拍"神舟二十一号乘组回家影像
10:28HuggingFace Daily Papers(社区热门论文)61OSP-Next:一种高效的高质量视频生成模型
10:14IT之家(RSS)36韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器
10:14IT之家(RSS)65小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
09:36Claude Code:GitHub Releases(RSS)67同事件精选Claude Code v2.1.153 版本更新同一事件,精选展示《Claude Code v2.1.163 发布》
09:09MarkTechPost(RSS)52Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为独立可训练去噪模块的分块训练框架
08:00HuggingFace Daily Papers(社区热门论文)49MergePipe:通过预算专家读取实现可扩展的权重空间模型合并
08:00HuggingFace Daily Papers(社区热门论文)55VideoMLA:面向分钟级自回归视频扩散的低秩潜在 KV 缓存
08:00HuggingFace Daily Papers(社区热门论文)64内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距
04:38TechCrunch:AI(RSS)53对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议
04:08Ars Technica:AI(RSS)66Nvidia CEO 希望台湾成为"AI革命"的中心,而非美国
04:08TechCrunch:AI(RSS)46薪资初创公司 Remote 称,其每位员工收入增长50%,且未增加员工数量
5月27日周三
23:14IT之家(RSS)58SpaceX 坦言 AI 芯片供给不足,TeraFab 项目可能无法取得成功
22:20Hugging Face:Blog(RSS)61精选TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB
18:14IT之家(RSS)45Waymo自动驾驶汽车半路"撂挑子",客服建议乘客改打 Uber 或 Lyft
16:14IT之家(RSS)43首批第三方 PCIe Gen6 SSD 将至:十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
10:21
IT之家(RSS)
55
华为全面升级星河 AI 网络,Token 生产效率提升 2 至 5 倍
产品更新部署/工程
09:21
IT之家(RSS)
64
华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜

华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer(SGL),以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节,仅需几行代码(如示例中的3行C++代码)即可接入GPU加速。该框架提供C API和NAPI接口,方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。

开源/仓库端侧部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
蒸馏博弈:自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。

arXiv安全/对齐论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
流水线推测解码

提出一种名为SPD的推测解码框架,通过将目标大语言模型(LLM)划分为n个流水线阶段来并行处理n个token,以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token,并与目标模型的流水线步骤严格并行执行,从而实现有限难度、更高接受率和零延迟气泡。实验显示,SPD的理论加速比显著高于主流基线。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
dMoE:面向扩散大语言模型的块级专家混合架构

扩散大语言模型(dLLMs)与混合专家(MoE)架构结合时,存在块并行解码与token级专家选择之间的不匹配,导致推理时激活专家数过多、内存占用高。为此,我们提出dMoE框架,它将每个块内的token级专家分布聚合为统一的块级专家分布,以更协调的方式指导专家路由。实验表明,dMoE将唯一激活专家数平均从69.5降至14.6,保留了原模型99.11%的性能,同时减少76.64%-79.84%的内存使用,并实现1.14至1.66倍的端到端延迟加速。代码已开源:https://github.com/fscdc/dMoE

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
Light Interaction: 交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算,具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,该框架无需重新训练模型,可实现最高2.59倍的推理加速,同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程
05:44
TechCrunch:AI(RSS)
68
互联网正在为机器重建

AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。

智能体现象/趋势部署/工程
04:14
TechCrunch:AI(RSS)
56
Asana收购无代码智能体构建器Stack AI

Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体(agent)的公司。此次收购后,Asana将把Stack AI整合到其不断增长的AI工作流工具套件中,以增强其平台上的自动化与智能化能力。

智能体行业动态部署/工程
03:38
Hacker News 热门(buzzing.cc 中文翻译)
67
我们更换了 Zendesk

tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。

教程/实践编码部署/工程
02:44
TechCrunch:AI(RSS)
52
就像黄金和石油,我们很快就能交易AI token期货了

大型交易所正在设计围绕AI token的衍生品。这些token正日益被视为一种原材料输入,如同电力或带宽,而非仅仅是计算输出。

行业动态部署/工程
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:42
The Decoder:AI News(RSS)
60
Google Cloud 以平台应对 AI 加速的网络攻击,旨在分钟级弥合安全缺口

Google Cloud 推出“AI Threat Defense”平台,可自动发现、评估并修补企业系统中的安全漏洞。该平台整合了 Google 部分通过收购获得的技术,旨在快速响应由 AI 加速的网络攻击。

Google产品更新部署/工程
22:42
TechCrunch:AI(RSS)
23
在 TechCrunch Disrupt 2026 大会上:Databricks 联合创始人谈什么会搞砸企业 AI 交易

企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。

大佬观点部署/工程
22:00
OpenRouter:Announcements(RSS)
54
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程
22:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程
同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
推荐理由:OpenRouter融了1.13亿美元,领投方CapitalG,跟投名单里几乎全是云计算巨头,这不是一家公司的钱,是基础设施层的一次战略布局,开发者选模型的路由成本可能因此改写。
21:11
Cloudflare Blog
41
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程
18:47
Mistral AI:News(网页)
61
Mistral AI推出物理AI模型,加速工业工程

Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
16:28
HuggingFace Daily Papers(社区热门论文)
59
Clark Hash:神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下,它将一个余弦搜索向量存储为48字节的固定宽度标量量化码,相比使用f32格式的密集存储(需1536字节),实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示,其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程
16:10
MarkTechPost(RSS)
精选70
pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由:这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码,用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。
15:15
IT之家(RSS)
53
阿里达摩院发布"敏迭"求解器 GPU 版

阿里达摩院发布“敏迭”求解器 GPU 版本。该版本利用 GPU 并行加速特性,并引入新算法缓解收敛的“长尾效应”。在约 2000 个通用线性规划算例测试中,其高精度稳定求解率超过 99%,并能支持亿级变量线性规划问题。相比业内主流产品,其在大规模问题上的成功率提升 14% 以上,速度平均提升 2.67 倍。在某数字广告平台案例中,该求解器仅用 1700 秒就对 3.3 亿变量的复杂问题求解到可靠精度。

产品更新部署/工程
12:41
OpenRouter:Announcements(RSS)
精选72
OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 融了 1.13 亿美元,说明模型路由从「小工具」变成正经防线了,开发者选模型不再单一绑定,这个方向钱和战略意义都上来了。
11:35
公众号:面壁智能(MiniCPM)
精选61
PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由:PilotDeck把Agent从对话框解放进「工作舱」,记忆可见、成本锐减、能无人值守运行。已开源,值得所有被多任务折磨的开发者试试。
11:15
IT之家(RSS)
29
智能设备迭代更新,酒泉将精准"跟拍"神舟二十一号乘组回家影像
行业动态部署/工程
10:28
HuggingFace Daily Papers(社区热门论文)
61
OSP-Next:一种高效的高质量视频生成模型

OSP-Next是一种高效的文生视频模型,旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构,稀疏部分基于 Skiparse-2D 注意力。基于此,模型提出了稀疏序列并行策略,相较 Ulysses 序列并行降低了 75% 的通信量。此外,模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明,OSP-Next 在 VBench 上超越了 Wan2.1 基线,并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时,在 Ascend 950PR 上实现了显著的加速。

视频论文/研究部署/工程
10:14
IT之家(RSS)
36
韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器

韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器,目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈,并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化,专注于高带宽数据传输。博通方面表示,此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。

推理行业动态部署/工程
10:14
IT之家(RSS)
65
小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。

产品更新推理部署/工程
09:36
Claude Code:GitHub Releases(RSS)
同事件精选67
Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

AnthropicMCP/工具产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 的一次日常小修小补,但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug,且 /model 现在可以记住默认模型了,升级一下不亏。
09:09
MarkTechPost(RSS)
52
Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络(Residual Networks)的层更新过程解释为反向扩散(reverse diffusion)的去噪步骤,从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
MergePipe:通过预算专家读取实现可扩展的权重空间模型合并

MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。

开源生态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMLA:面向分钟级自回归视频扩散的低秩潜在 KV 缓存

VideoMLA是首个在视频扩散模型中研究多头潜在注意力(MLA)的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对,将每层每token的KV缓存内存大幅减少92.7%。研究发现,尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立(预训练视频注意力非低秩),但MLA瓶颈本身决定了有效秩,使得模型能在压缩下保持生成质量。在VBench评测中,VideoMLA在长期视频生成中取得了最佳综合分数,并在单块B200上将吞吐量提升了1.23倍。

视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距

研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程
04:38
TechCrunch:AI(RSS)
53
对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议,以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好,并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程
04:08
Ars Technica:AI(RSS)
66
Nvidia CEO 希望台湾成为"AI革命"的中心,而非美国

Nvidia CEO 表示,Nvidia 将每年投资 1500 亿美元,旨在将台湾打造为“AI中心”。

数据/训练行业动态部署/工程
04:08
TechCrunch:AI(RSS)
46
薪资初创公司 Remote 称,其每位员工收入增长50%,且未增加员工数量

薪资服务商 Remote 近期年经常性收入(ARR)突破3亿美元,并实现现金流转正。这一增长得益于采用AI技术,使该公司每位员工产生的收入提升了50%,且此过程中未扩充团队规模。

数据/训练行业动态部署/工程
5月27日
23:14
IT之家(RSS)
58
SpaceX 坦言 AI 芯片供给不足,TeraFab 项目可能无法取得成功

SpaceX 在 IPO 前提交的 S-1 文件中坦言,当前可调配的 AI 芯片数量远不能满足其推进轨道人工智能规模化的需求。公司所有 GPU 均依赖采购订单临时采购,未与供应商签订长期协议。为缓解供应链风险,SpaceX 与特斯拉、英特尔计划在得克萨斯州联合建设专属半导体生产基地 TeraFab,采用英特尔 14A 制程,但该项目存在失败风险,且特斯拉与英特尔均无长期参与义务。

xAI行业动态部署/工程
22:20
Hugging Face:Blog(RSS)
精选61
TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB

异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。

Hugging Face教程/实践数据/训练部署/工程

推荐理由:异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了,带宽直接省了两个数量级,还给了可运行的TRL分支,做RL训练的可以直接上手试。
18:14
IT之家(RSS)
45
Waymo自动驾驶汽车半路"撂挑子",客服建议乘客改打 Uber 或 Lyft

本月,一名乘客在旧金山乘坐Waymo自动驾驶出租车,距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”,并建议乘客改用Uber或Lyft。Waymo事后解释,因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店,其妻子因残障步行不便,Waymo退还了车费。乘客认可Waymo技术表现,但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前,Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。

具身智能行业动态部署/工程
16:14
IT之家(RSS)
43
首批第三方 PCIe Gen6 SSD 将至:十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD,它采用EDSFF E1.S规格,顺序读取速度可达28GB/s。面向消费市场,将发布以碳纤维设计为核心的CARBON STYLE系列,涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外,整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。

产品更新数据/训练部署/工程
‹ 上一页
1…1314151617…35
下一页 ›