AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
6月1日周一
13:36SemiAnalysis56黄仁勋ComputeX演讲被批缺乏AI新进展
12:05SemiAnalysis68黄仁勋宣布微软完成首台Rubin机架验证
12:03IT之家(RSS)64英伟达黄仁勋称"AI 减少岗位是胡说八道",软件工程师数量在增加
09:28IT之家(RSS)69戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统
08:41Berryxia.AI63GitHub开源项目挑战付费订阅模式
08:28Hacker News 热门(buzzing.cc 中文翻译)58奥德修斯--自主托管的 AI 工作区
08:00OpenRouter:Announcements(RSS)77同事件精选OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架同一事件,精选展示《OpenRouter 5月发布亮点》
08:00OpenRouter:Announcements(RSS)71同事件精选OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型同一事件,精选展示《OpenRouter 5月发布亮点》
08:00HuggingFace Daily Papers(社区热门论文)48金融LLM智能体新架构:交互原生知识束(InKH)
07:28Rohan Paul28黄仁勋谈太空数据中心散热难题
04:25SemiAnalysis26解析L11诊断的两层含义
00:15Hacker News 热门(buzzing.cc 中文翻译)70精选我花200英镑把一台数据中心级GPU装进了我的游戏电脑
5月31日周日
16:47The Decoder:AI News(RSS)62软银计划在法国投资750亿欧元建设AI数据中心
15:48Rohan Paul59戴尔交付全球首个Nvidia Vera Rubin NVL72机架
15:16StepFun80同事件精选Step 3.7 Flash:可运行于桌面级设备的198B视觉模型同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
12:24IT之家(RSS)66AI 编程工具普及背后:效率提升的假象与代码维护的隐患
10:49SemiAnalysis61CoreWeave与Dell率先宣布通过Rubin VR200 NVL72诊断
08:24IT之家(RSS)42IT早报 0531:微软宣布下周携手英伟达开启 PC 新时代;深圳网约车市场已饱和官方发风险提示;苹果 iPhone 18 机模曝光;MiniMax 启动 A 股 IPO 进程…
07:24IT之家(RSS)71软银豪掷 750 亿欧元,在法国建设 5 吉瓦 AI 数据中心
05:43Simon Willison 博客73精选在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用
05:19SemiAnalysis53AI芯片短缺:前沿产能共识已变
04:17Rohan Paul76软银在法国投资750亿欧元建设欧洲最大AI算力设施
02:43Hacker News 热门(buzzing.cc 中文翻译)63OpenRouter 完成 1.13 亿美元 B 轮融资
00:34Berryxia.AI51小米MiMo-V2.5降价背后的技术重构
00:12Hacker News 热门(buzzing.cc 中文翻译)71精选随着成本飙升,美国企业开始对人工智能实施配给
5月30日周六
22:24IT之家(RSS)58全国首个绿色算力全栈 AI 平台在呼和浩特上线,兼容国产芯片与主流算力架构
19:44Xiaomi MiMo56MiMo-V2.5系列推理优化详解
19:21IT之家(RSS)61小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案
18:55Fuli Luo63MiMo-V2.5 系列 API 降价背后的推理优化
18:46Rohan Paul69RNG:规模化部署的扁平数据中心网络
18:39公众号:小米 MiMo59MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致
17:21IT之家(RSS)53抢攻亚太地区企业级 AI 市场,OpenAI 与日本云服务商 Data Section 达成战略合作
15:46Rohan Paul47日本AI数据中心热潮正推动液冷技术普及
11:41Hacker News 热门(buzzing.cc 中文翻译)61Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎
08:40Hacker News 热门(buzzing.cc 中文翻译)62神秘的大语言模型 Hy3 以巨大优势领跑 OpenRouter 模型排行榜
08:18SemiAnalysis67NVLink多播在Blackwell机密计算中受限致性能下降
07:19OpenRouter:Announcements(RSS)69精选Guardrails:保护你的智能体、数据与成本
01:18SemiAnalysis56AI算力扩张与电网审批能力存在巨大差距
01:15Rohan Paul76精选亲测为实:难以置信的推理速度
00:49Artificial Intelligence News(RSS)50用OpenAI治理框架扩展安全的企业AI
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
13:36
SemiAnalysis@SemiAnalysis_
56
黄仁勋ComputeX演讲被批缺乏AI新进展

演讲被评为黄仁勋最差之一,AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU,但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月,开发中因高速连接干扰导致视频输出完全故障。据报道,笔记本厂商被告知禁止开机或运行基准测试,暗示硬件不成熟。

大佬观点部署/工程
12:05
SemiAnalysis@SemiAnalysis_
68
突发新闻:黄仁勋刚刚宣布,微软已与其ODM合作伙伴富士康完成了首台Rubin VR200 NVL72机架的验证工作。黄仁勋还宣布晶圆级量产已启动。但需注意,机架级量产尚未开始,目前仍处于工程/质量样品阶段。
Microsoft行业动态部署/工程
12:03
IT之家(RSS)
64
英伟达黄仁勋称"AI 减少岗位是胡说八道",软件工程师数量在增加

英伟达 CEO 黄仁勋在台北电脑展表示,AI减少岗位的说法是胡说八道,实际上软件工程师数量正在增加。他认为“有用”的AI时代已至,token是新的利润单位,AI是GDP生成器。同时,黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品,由4万名工程师参与研发,将于今年下半年推出,他预计其将比Grace Blackwell更加成功。

推理行业动态部署/工程
09:28
IT之家(RSS)
69
戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统
推理行业动态部署/工程
08:41
Berryxia.AI@berryxia
63
GitHub开源项目挑战付费订阅模式

该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。

Harman: 10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...

智能体多模态开源/仓库部署/工程
08:28
Hacker News 热门(buzzing.cc 中文翻译)
58
奥德修斯--自主托管的 AI 工作区

奥德修斯是一个自主托管的 AI 工作区项目,其源代码已在 GitHub 上公开。

GitHub开源/仓库开源生态部署/工程
08:00
OpenRouter:Announcements(RSS)
同事件精选77
OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架

OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter五月更新不只是加模型,护栏、语音、模型融合全打包成API,开发团队读完就能用。月流量破百亿token还拿了1.13亿融资,平台稳定性会更强。
08:00
OpenRouter:Announcements(RSS)
同事件精选71
OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型

OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter 这次月度发布把安全护栏、多模型融合和语音 API 全补上了,Model Fusion 和 Pareto Code Router 对做 agent 的团队尤其实用,成本控制与质量权衡变得更直接。
08:00
HuggingFace Daily Papers(社区热门论文)
48
金融LLM智能体新架构:交互原生知识束(InKH)

金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构,将用户、市场、组合和工具事件转化为结构化知识,采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中,InKH平均任务质量0.815(900ms延迟)。相比agent驱动的wiki-walk记忆,延迟降低82.95%,token成本降低82.29%,过时知识使用减少96.58%,质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。

智能体论文/研究部署/工程
07:28
Rohan Paul@rohanpaul_ai
28
对于轨道数据中心,太空有大量能源,但散热很难。没有对流,热量只能辐射出去,这需要很大的表面积。但这是可以解决的,因为"太空里有很多空间" ~ Nvidia CEO Jensen Huang
大佬观点部署/工程
04:25
SemiAnalysis@SemiAnalysis_
26
好奇L11诊断是什么意思吗?让我们把它拆解成两个部分:L11和诊断。(1/5)

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

教程/实践部署/工程
00:15
Hacker News 热门(buzzing.cc 中文翻译)
精选70
我花200英镑把一台数据中心级GPU装进了我的游戏电脑

一名用户以200英镑的价格购入了一块数据中心级GPU,并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。

教程/实践端侧部署/工程

推荐理由:一个200英镑的二手 V100 加适配器,就让游戏电脑用上了 32GB 显存,跑 Qwen3.6-27B 达到 32 tok/s,噪音问题也解决了。对于想低成本本地跑大模型的人,这篇 DIY 手记很实用。
5月31日
16:47
The Decoder:AI News(RSS)
62
软银计划在法国投资750亿欧元建设AI数据中心

软银计划在法国建设最高5吉瓦容量的AI数据中心,总投资额最高达750亿欧元,这是其在欧洲最大的AI基础设施投资。计划到2031年,在法国北部三个地点建成价值450亿欧元的设施。不过,软银在全球宣布的诸多类似项目至今尚未完全落地。

行业动态部署/工程
15:48
Rohan Paul@rohanpaul_ai
59
一些很酷的视觉效果。 戴尔向CoreWeave交付全球首个Nvidia Vera Rubin NVL72机架。 它包含72个Rubin GPU、36个Vera CPU、3.6 exaFLOPS的FP4推理性能、75 TB的快速内存和260 TB/s的NVLink带宽。

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

推理行业动态部署/工程
15:16
StepFun@StepFun_ai
同事件精选80
阶跃星辰发布了Step 3.7 Flash,这是一款198B参数的视觉模型,旨在DGX Spark等桌面设备上运行。用户实测表明,128GB统一内存是运行门槛,模型占用约104GB。部署无需官方专用llama.cpp分支,主线版本即可。在上下文长度上存在权衡:启用视觉功能时,基于q8 KV cache的64K为上限;若要使用最高256K上下文,则需禁用视觉并切换至q4 KV cache,此时模型与缓存共占约114GB内存。该模型是推理模型,思考过程可能消耗大量max_tokens,需注意设置。

Sudo su: i am running stepfun's new step 3.7 flash on a dgx spark right now. 198b vision model, on a box that sits on a desk. her...

多模态教程/实践部署/工程
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:把 198B 的视觉模型塞进一台桌面盒子,还跑通了,这本身就是个小里程碑。更关键的是,这篇实战直接帮你绕开了三个大坑,省下的三小时够你喝杯咖啡慢慢试了。
12:24
IT之家(RSS)
66
AI 编程工具普及背后:效率提升的假象与代码维护的隐患
现象/趋势编码部署/工程
10:49
SemiAnalysis@SemiAnalysis_
61
突发新闻:CoreWeave与Dell是首个宣布其Rubin VR200 NVL72已完全通过L11诊断的云服务商。下一步是获取多个机架进行数周的烧机测试,并完成软件层面的启动工作,如SGLang、vLLM、Dynamo等。
推理行业动态部署/工程
08:24
IT之家(RSS)
42
IT早报 0531:微软宣布下周携手英伟达开启 PC 新时代;深圳网约车市场已饱和官方发风险提示;苹果 iPhone 18 机模曝光;MiniMax 启动 A 股 IPO 进程…

小米公布其 MiMo 模型推理系统的全链路优化技术细节,核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7,并结合分级缓存与调度,显著降低长序列推理成本,最高降价达 99%。此外,AI 独角兽 MiniMax 已与中信证券签署辅导协议,正式启动 A 股 IPO 进程。

推理行业动态部署/工程
07:24
IT之家(RSS)
71
软银豪掷 750 亿欧元,在法国建设 5 吉瓦 AI 数据中心

软银集团宣布计划投入至多 750 亿欧元,在法国扩建并运营总功率最高达 5 吉瓦的数据中心。项目一期将在敦刻尔克、博斯凯勒和布尚三地兴建,目标在 2031 年为上法兰西大区提供 3.1 吉瓦的算力容量。作为 OpenAI 的投资方,软银称这是其在欧洲规模最大的 AI 基础设施投资。

行业动态部署/工程
05:43
Simon Willison 博客
精选73
在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers,但无法执行 <script> 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发,解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示,并计划后续将此方法应用于升级 Datasette Lite。

GitHub教程/实践端侧部署/工程

推荐理由:Simon Willison 用 Service Worker 让 Python ASGI 在浏览器里真正跑了起来,这个技巧补上了 Datasette Lite 长期缺的 JS 执行能力,搞 Pyodide 的值得看看。
05:19
SemiAnalysis@SemiAnalysis_
53
我们关于AI芯片严重短缺的系列报道中,一个贯穿始终的观点是,关于前沿产能的讨论已完全转变,而大多数主流加速器模型尚未跟上N3需求的实际走向。(1/4) 🧵
现象/趋势部署/工程
04:17
Rohan Paul@rohanpaul_ai
76
软银在法国投资750亿欧元建设欧洲最大AI算力设施

软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。

数据/训练行业动态部署/工程
02:43
Hacker News 热门(buzzing.cc 中文翻译)
63
OpenRouter 完成 1.13 亿美元 B 轮融资
行业动态部署/工程
00:34
Berryxia.AI@berryxia
51
小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程
00:12
Hacker News 热门(buzzing.cc 中文翻译)
精选71
随着成本飙升,美国企业开始对人工智能实施配给

由于运行和使用AI工具的成本持续飙升,美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支,以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略,标志着企业在AI应用上从追求速度转向注重成本效益。

数据/训练现象/趋势部署/工程

推荐理由:成本飙升让大企业开始对AI‘配给’,这是面向企业的AI产品必须回答的ROI考题,以前铺量抢客户的玩法得切换成算清每一分钱的价值。
5月30日
22:24
IT之家(RSS)
58
全国首个绿色算力全栈 AI 平台在呼和浩特上线,兼容国产芯片与主流算力架构
政策/监管行业动态部署/工程
19:44
Xiaomi MiMo@XiaomiMiMo
56
MiMo-V2.5系列推理有哪些新进展? 我们刚刚发布了一篇博客,详细介绍了针对MiMo-V2.5系列的全链路推理优化,包括如何将混合SWA效率推向极限。 阅读全文请访问: https://mimo.xiaomi.com/blog/mimo-v2-5-inference
推理教程/实践部署/工程
19:21
IT之家(RSS)
61
小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案

小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案:针对 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7,线上前缀缓存命中率平均达 93%,TTFT P90 降低 30%,Prefill 性能提升约 40%,Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案,模型能力无缩减。

推理教程/实践部署/工程
18:55
Fuli Luo@_LuoFuli
63
MiMo-V2.5 系列 API 降价背后的推理优化

MiMo-V2.5 系列模型(包括 MiMo-V2.5 和 MiMo-V2.5-Pro)采用混合滑动窗口注意力(Hybrid SWA)架构,将 KVCache 存储压缩至全注意力的约1/7。为将架构优势转化为实际收益,团队重新设计了 KVCache 管理、分层缓存和前缀缓存树,并优化了 SWA KVCache 处理、调度及 Prefill/Decode 流水线。经真实生产流量验证,这些优化将有效 KVCache 容量提升近5倍,主流框架下服务器端缓存命中率达93%-95%。结合 MoE 配置调优与多模态推理优化,提升了长上下文推理效率,是近期 API 降价的基础。

产品更新推理部署/工程
18:46
Rohan Paul@rohanpaul_ai
69
RNG:规模化部署的扁平数据中心网络

亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络,并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示,RNG在性能上与传统fat-tree网络持平,但硬件需求减少69%,吞吐量提升33%,并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络,其分散负载的能力有助于提升AI集群训练效率。

论文/研究部署/工程
18:39
公众号:小米 MiMo
59
MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。

推理教程/实践部署/工程
17:21
IT之家(RSS)
53
抢攻亚太地区企业级 AI 市场,OpenAI 与日本云服务商 Data Section 达成战略合作

日本云服务提供商 Data Section 与 OpenAI 达成战略合作,将于亚太地区通过其企业级 AI 工作流平台 TAIZA 提供 OpenAI 模型。此举标志着 OpenAI 从依赖微软 Azure 的单平台策略转向多区域、分布式算力部署模式,以更好地应对数据主权与监管合规挑战。

OpenAI行业动态部署/工程
15:46
Rohan Paul@rohanpaul_ai
47
日本AI数据中心热潮正推动液冷技术普及

日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。

数据/训练现象/趋势部署/工程
11:41
Hacker News 热门(buzzing.cc 中文翻译)
61
Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码已开源至 GitHub。

开源/仓库教程/实践部署/工程
08:40
Hacker News 热门(buzzing.cc 中文翻译)
62
神秘的大语言模型 Hy3 以巨大优势领跑 OpenRouter 模型排行榜

根据2026年5月29日发布的一则消息,一个名为 Hy3 的神秘大语言模型(LLM)在 OpenRouter 模型排行榜上取得了显著领先优势,位居榜首。OpenRouter 是一个 AI 模型聚合平台,其排行榜反映了不同模型的综合表现。该信息最初发布于 minimaxir.com,并获得了科技社区 HN 的关注。然而,关于该模型的具体技术细节、开发者信息以及性能评分,原文并未提供更多说明。

DeepSeek开源生态现象/趋势部署/工程
08:18
SemiAnalysis@SemiAnalysis_
67
TRUTH SOCIAL:根据@verdacloud最近的GitHub工单,NVLink多播在Blackwell"机密计算"上不被支持,导致SGLang Qwen3.5 397B性能下降61%。NVIDIA的"机密计算"完全是垃圾,此外根据NVIDIA自己的《NVIDIA Secure AI with Blackwell and Hopper GPUs》白皮书,Hopper的机密计算也存在完全未加密的NVLink。
推理行业动态部署/工程
07:19
OpenRouter:Announcements(RSS)
精选69
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐部署/工程
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置,让投喂给 Agent 的流量有了护栏,用 OpenRouter 做生产级应用的团队可以立刻用上,不用自己搞中间件。
01:18
SemiAnalysis@SemiAnalysis_
56
我们在电力危机研究中持续关注的一个数据点,因为它捕捉了AI运营商想建设的内容与电网实际能批准的内容之间的全部错配,即ERCOT的数据中心互联请求与电网运营商愿意支持的容量之间的差距。(1/4) 🧵
现象/趋势部署/工程
01:15
Rohan Paul@rohanpaul_ai
精选76
亲测为实:难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

大佬观点推理部署/工程

推荐理由:Rohan亲自测完Kog AI的3000 token/s,把单用户推理速度拉高了10-30倍,这套monokernel设计可能改写低延迟推理的玩法,做实时AI产品的团队必须盯紧。
00:49
Artificial Intelligence News(RSS)
50
用OpenAI治理框架扩展安全的企业AI

OpenAI发布前沿治理框架(FGF),为在全球范围内部署安全、合规的企业级大语言模型提供结构化蓝图。该框架系统性地阐述了如何评估和缓解AI相关的系统性风险,并直接映射到相关标准,旨在帮助机构可持续地规模化商用AI架构。

OpenAI安全/对齐政策/监管部署/工程
‹ 上一页
1…2223242526…50
下一页 ›