AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1387 条
全部一手资讯X论文
标签「部署/工程」清除
6月5日周五
10:48Hacker News 热门(buzzing.cc 中文翻译)51Transformer 需要三个投影吗?--对 QKV 变体的系统研究
10:14IT之家(RSS)54AMD 展示其首个机架级 AI 平台 Helios,对垒英伟达 NVL72 VR200
07:14IT之家(RSS)62LM Studio 上线 LM Link,让 iPhone 直连 Mac 本地 AI 模型
06:17Hacker News 热门(buzzing.cc 中文翻译)69KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端
03:49TechCrunch:AI(RSS)57Meta 借鉴特斯拉策略,用帐篷搭建数据中心以削减成本
00:53LMSYS:Blog(Chatbot Arena 团队)77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务
00:20The Decoder:AI News(RSS)55贝恩研究:近四成公司AI成本节省目标未达成,人类干预是主因
00:12IT之家(RSS)54全球首台机器人塔吊式3D打印平台Ascend发布:最高可建100米
6月4日周四
23:42Hugging Face:Blog(RSS)66精选Hugging Face 为编码智能体重塑 hf CLI 输出格式
22:12IT之家(RSS)53撼与 Sparkle 展出首款 Arc Pro B70 单槽显卡,8 卡可组 256GB 显存工作站
20:36HuggingFace Daily Papers(社区热门论文)49IR3DE:大语言模型的线性路由器
18:18The Verge:AI(RSS)50亚马逊开发出工人可与之对话的仓库机器人 Proteus
15:11Hacker News 热门(buzzing.cc 中文翻译)66Anthropic 发布文章:我们在各产品中对克劳德的管控措施
12:11IT之家(RSS)48北京 19 个路口上线 AI 红绿灯,拥堵指数下降约 19%
11:10IT之家(RSS)61三星展示适用于 HBM5 的 HPB 封装散热结构,对线 SK 海力士的 iHBM
11:10IT之家(RSS)65GitLab 裁员约 14% 并退出 22 国,称 AI 智能体压垮基础设施
10:10IT之家(RSS)61SK集团崔泰源和台积电魏哲家会面,同意深化在HBM和先进封装领域的合作
10:10IT之家(RSS)57台积电董事长魏哲家称已购入High-NA EUV但暂不量产,全年营收预计增长超30%
09:10IT之家(RSS)75精选联合国报告:2030年AI数据中心水电消耗将翻倍
09:10IT之家(RSS)61欧盟将出台数据中心最低能效标准,应对 AI 浪潮下的能耗激增
08:10IT之家(RSS)41Uber 人力资源部门裁员 23%,称与人工智能无关
08:00HuggingFace Daily Papers(社区热门论文)62LatentSkill:用于LLM智能体的权重空间技能框架
07:26OpenAI:官网动态(RSS · 排除企业/客户案例)39Wasmer 使用 Codex 构建边缘 Node.js 运行时
03:18MarkTechPost(RSS)62如何使用Workers、Functions和Cron Triggers通过iii构建文档智能后端
00:42HuggingFace Daily Papers(社区热门论文)76精选Ultralytics YOLO26:统一实时端到端视觉模型
6月3日周三
23:42HuggingFace Daily Papers(社区热门论文)68KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积
22:09IT之家(RSS)65摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口
21:46The Decoder:AI News(RSS)61Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行
21:30Anthropic:Newsroom(网页)59精选介绍 Claude Partner Network 的 Services Track 和 Partner Hub
21:14TechCrunch:AI(RSS)58Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求
20:57Simon Willison 博客66datasette-agent-micropython 0.1a0 发布
20:54Artificial Intelligence News(RSS)36E.ON 借助 SAP S/4HANA 以 AI 现代化电网
17:53Artificial Intelligence News(RSS)55Walmart 因 LLM 成本超预期限制员工使用 AI 助手 Code Puppy
15:09IT之家(RSS)54微软 CEO 纳德拉:数据中心不推高电价方能获建设许可
14:37Hacker News 热门(buzzing.cc 中文翻译)64在 AMD MI300X 上运行 DeepSeek-V4-Flash
12:42HuggingFace Daily Papers(社区热门论文)59面向推理模型的价值感知随机KV缓存淘汰策略
12:06Hacker News 热门(buzzing.cc 中文翻译)51我们如何为RAG建立图像索引
11:09IT之家(RSS)54微软为英伟达 RTX Spark 重塑 Windows 11 底层:改写 CPU 调度、优化 AI 内存负载
10:09IT之家(RSS)54江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户
10:09IT之家(RSS)47Marvell 推出 Teralynx T100 网络交换芯片,号称业界首款专为 AI 设计的 102.4 Tbps 交换芯片
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
10:48
Hacker News 热门(buzzing.cc 中文翻译)
51
Transformer 需要三个投影吗?--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。

arXiv开源生态论文/研究部署/工程
10:14
IT之家(RSS)
54
AMD 展示其首个机架级 AI 平台 Helios,对垒英伟达 NVL72 VR200

AMD 在 2026 台北国际电脑展展示其首个机架级 AI 平台 Helios,核心配置包括第 6 代 EPYC Venice 处理器与 72 颗 Instinct MI455X 加速器,总计 31TB HBM4 显存、1400TB/s 带宽,计划 2026 年内供货。FP4 稠密精度下理论算力达 2900 PFLOPS,略落后于英伟达 NVL72 VR200,但显存容量占优,适合大语言模型等任务。72 颗加速器通过 UALink-over-Ethernet 互连,scale-up 带宽最高 260TB/s;配备 Pensando Vulcano 网卡,支持 Ultra Ethernet 规范的 800GbE,scale-out 带宽 43TB/s。

产品更新部署/工程
07:14
IT之家(RSS)
62
LM Studio 上线 LM Link,让 iPhone 直连 Mac 本地 AI 模型

6 月 5 日,LM Studio 更新 Mac 版 Locally 应用,新增 LM Link 功能,用户可直接在 iPhone 上调用 Mac 本地运行的大语言模型。需两端登录同一 LM Studio 账号,通过定制 Tailscale 网状虚拟专用网络建立端到端加密连接。支持 Mac 上任意模型,包括 Apple Intelligence 基础模型,体验取决于 Mac 性能。预览阶段免费,后续将推出付费方案,具体未公布。

产品更新端侧部署/工程
06:17
Hacker News 热门(buzzing.cc 中文翻译)
69
KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程
03:49
TechCrunch:AI(RSS)
57
Meta 借鉴特斯拉策略,用帐篷搭建数据中心以削减成本

Meta 为削减巨额数据中心成本,借鉴特斯拉的做法,用帐篷搭建数据中心。该方案旨在降低基础设施支出。

Meta行业动态部署/工程
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
00:20
The Decoder:AI News(RSS)
55
贝恩研究:近四成公司AI成本节省目标未达成,人类干预是主因

贝恩咨询对951家公司的调查显示,近40%的企业AI成本节省幅度不足10%,而大多数公司原定目标为11%至20%。原因之一是仅有7%的企业实际运行完全自主的AI智能体,其商业案例却假设了全自动化。

智能体现象/趋势部署/工程
00:12
IT之家(RSS)
54
全球首台机器人塔吊式3D打印平台Ascend发布:最高可建100米

澳大利亚Luyten公司发布全球首款机器人塔吊式起重机平台Ascend,将塔吊结构、机器人技术、3D混凝土打印及AI整合。系统工作半径45米,支撑结构最高100米,安装调试仅需1-2天。通过AI生成打印路径、优化流程并实时监控,配合专用Ultimatecrete打印混凝土,旨在减少人工依赖和模板需求,提升材料利用率。

产品更新具身智能部署/工程
6月4日
23:42
Hugging Face:Blog(RSS)
精选66
Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。

Hugging FaceMCP/工具产品更新编码

推荐理由:HF CLI 现在会自动检测 agent 并切换输出,复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub,这是必读的升级指南。
22:12
IT之家(RSS)
53
撼与 Sparkle 展出首款 Arc Pro B70 单槽显卡,8 卡可组 256GB 显存工作站

撼与 Sparkle 在台北电脑展展示单槽 Intel Arc Pro B70 32GB 显卡,型号 Sparkle Intel Arc Pro B70 32 GB Blower 1S。该卡搭载完整 BMG-G31 GPU,配备 32 个 Xe2 核心与 32GB 显存,采用涡轮散热和单 16pin 供电,加速频率 2800 MHz。单槽设计使工作站可同时安装 8 块,总显存 256GB,支持本地运行参数超 2000 亿的 AI 大语言模型。相比双槽版(230W TGP),单槽版 TGP 降至 160W。售价尚未公布,预计近期上市。

产品更新端侧部署/工程
20:36
HuggingFace Daily Papers(社区热门论文)
49
IR3DE:大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器,为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模(CLM)任务中,IR3DE性能与其他基线相当;在推理任务中,归一化性能达到98.4%,超越其他方法。该路由器支持动态添加或移除领域专家,无需重新训练,代码已开源。

推理论文/研究部署/工程
18:18
The Verge:AI(RSS)
50
亚马逊开发出工人可与之对话的仓库机器人 Proteus

亚马逊宣布了新版本的完全自主仓库机器人 Proteus,新增语言交互能力。借助 AI 升级,人类员工可以像与同事交谈一样向 Proteus 分配任务,无需再使用专用软件指挥这款用于搬运重物和大推车的地面机器人。此前工人必须通过代码操作该乌龟型系统。

产品更新具身智能部署/工程
15:11
Hacker News 热门(buzzing.cc 中文翻译)
66
Anthropic 发布文章:我们在各产品中对克劳德的管控措施

Anthropic 在其官方博客发布文章,介绍其在各产品中管控 Claude 的具体方式。该文章在 Hacker News 上获得 103 个点赞。

智能体Anthropic安全/对齐部署/工程
12:11
IT之家(RSS)
48
北京 19 个路口上线 AI 红绿灯,拥堵指数下降约 19%

北京作为全国首批“双智”城市,在海淀区19个路口正式上线AI红绿灯系统。该系统通过3D空间轨迹连续拼接技术生成全息路口,利用大模型实时分析交通流量、排队长度和拥堵状况,50秒内生成约200套配时方案,并自动延长绿灯1-15秒。四道口地区13个交叉路口上线后,整体车速提升约21%,拥堵指数下降约19%。北京计划进一步推广基于交通流量的实时智能交通管控。

行业动态部署/工程
11:10
IT之家(RSS)
61
三星展示适用于 HBM5 的 HPB 封装散热结构,对线 SK 海力士的 iHBM

三星在2026台北国际电脑展展示面向HBM5内存的HPB(热阻断路径)封装散热结构,通过在封装内部加入独立热柱降低散热压力。HPB已在HBM4E上验证,HBM4E首批12层样品已出货,速率14Gbps,可扩展至16Gbps,每堆叠带宽3.6TB/s。三星确认HBM5基底芯片将从4nm转向自家2nm工艺。SK海力士采用不同路线,其iHBM方案将冷却元件嵌入D2D PHY层,可较现有产品降低超过30%热阻。

行业动态部署/工程
11:10
IT之家(RSS)
65
GitLab 裁员约 14% 并退出 22 国,称 AI 智能体压垮基础设施

GitLab 裁员约 14%(约 350 人),作为重组一部分,退出 22 个国家/地区并精简管理层级。CEO Bill Staples 称 AI 智能体以机器规模运行,给开发者基础设施带来超出设计承受能力的压力;公司已启动 Git 代际重构以支持 100 倍增长,并与一家未透露名称的 AI 实验室合作,构建面向智能体优化的 API 和编排工具。2026 年 Q1 营收 2.64 亿美元,同比增 23%,毛利率 88%,预计产生 3000 万至 3500 万美元重组费用。

行业动态部署/工程
10:10
IT之家(RSS)
61
SK集团崔泰源和台积电魏哲家会面,同意深化在HBM和先进封装领域的合作

SK集团董事长崔泰源与台积电董事长魏哲家会面,双方同意拓展下一代HBM开发和先进封装领域合作。SK海力士在Computex 2026展出HBM4E 48GB 12Hi样品,引脚速率16.0Gbps,单堆栈带宽4.0TB/s,带宽提升38%,单Die容量提升33%。此外,SK海力士展示了基于V9 TLC的PCIe Gen5客户端固态硬盘PVF01,为其首款DRAM-less架构cSSD。

行业动态部署/工程
10:10
IT之家(RSS)
57
台积电董事长魏哲家称已购入High-NA EUV但暂不量产,全年营收预计增长超30%

台积电董事长魏哲家在股东会上披露,一季度合并营收约11341亿元新台币,税后净利润5724.8亿元新台币,每股净利润22.08元新台币。第二季度合并营收预计390亿至402亿美元,毛利率65.5%-67.5%。AI需求转向智能体模式,推升token消耗支撑先进半导体。预计全年营收增长超30%,现金股利提升超30%。针对High-NA EUV传言,魏哲家澄清公司早已购入,但暂不量产,正努力降本。他还重申保障员工权益,因多数员工也是股东。

行业动态部署/工程
09:10
IT之家(RSS)
精选75
联合国报告:2030年AI数据中心水电消耗将翻倍

联合国大学水、环境与健康研究所报告指出,受AI需求驱动,去年全球数据中心耗电448太瓦时(AI占五分之一),耗水4.5万亿升,碳排放1.89亿吨。预计到2030年,年耗电量将翻倍至945太瓦时(AI占40%),耗水增至9.3万亿升,碳排放升至3.99亿吨,占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本,AI落地还将加剧土地紧张与电子废弃物问题。

行业动态部署/工程

推荐理由:这份联合国报告把算力繁荣的隐性账单摊开了,2030年数据中心要喝掉9.3万亿升水,做AI基建的人该看看,别光比参数。
09:10
IT之家(RSS)
61
欧盟将出台数据中心最低能效标准,应对 AI 浪潮下的能耗激增

欧盟宣布将对新建及存量数据中心制定最低能效标准,配套需求评估需在2027年前完成。目前欧盟数据中心装机容量为12吉瓦,预计2030年增至28吉瓦,届时用电量占比将突破2.5%。欧盟还在制定可持续性标签,考核水资源消耗、清洁能源供电比例等指标,大型数据中心须对外公示。此举隶属于一揽子科技扶持法案,旨在壮大本土云计算与AI产业,并包括用生成式AI简化新能源项目审批、划拨专项资金研发电网AI管控工具。

政策/监管部署/工程
08:10
IT之家(RSS)
41
Uber 人力资源部门裁员 23%,称与人工智能无关

Uber 在新任总裁黑泽尔贝克主导下裁减人力资源部门 23% 的员工,波及招聘等岗位,占 3.4 万全体员工总数的远不足 1%。CEO 科斯罗萨西称此举旨在提升人力团队效率,并明确裁员与 AI 无关。Uber 证实已对员工使用的 AI 智能体工具设置分级消费限额,基础档月额度 1500 美元(约 10168 元人民币),更高档位逐级上调。据《The Information》报道,Uber 仅用四个月即耗尽 2026 年度全部 AI 项目预算。

行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
LatentSkill:用于LLM智能体的权重空间技能框架

LatentSkill通过预训练超网络将文本技能转换为即插即用的LoRA适配器,将技能知识存储在权重空间而非上下文空间,消除每步推理中的技能token开销。在ALFWorld上,seen和unseen分割成功率分别比上下文技能基线高出21.4和13.4个百分点,预填充token减少64.1%;Search-QA精确匹配提高3.0点,技能token开销降低72.2%。生成的技能LoRA形成结构化语义几何,可通过缩放系数精确控制,对齐后能通过参数空间算术组合。该方法提供了高效、模块化且暴露度更低的权重空间技能基底。

智能体论文/研究部署/工程
07:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
39
Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。

OpenAI编码行业动态部署/工程
03:18
MarkTechPost(RSS)
62
如何使用Workers、Functions和Cron Triggers通过iii构建文档智能后端

一篇教程介绍如何通过注册模块化函数,并在Workers、Functions和Cron Triggers等多个触发器间复用这些函数,使用iii构建文档智能后端。该文章展示了模块化注册与跨触发器复用的核心方法。

教程/实践部署/工程
00:42
HuggingFace Daily Papers(社区热门论文)
精选76
Ultralytics YOLO26:统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由:这次YOLO26把NMS和DFL都拿掉了,还把大模型训练的Muon优化器改成MuSGD,在COCO上的速度精度平衡比上一代强不少,做实时检测的应该拿来跑一跑。
6月3日
23:42
HuggingFace Daily Papers(社区热门论文)
68
KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv推理论文/研究部署/工程
22:09
IT之家(RSS)
65
摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口

摩根士丹利将向外部 AI 智能体开放其关键财富管理渠道。客户部署的 AI 智能体可直接从股权管理平台 ShareWorks 和 Equity Edge 提取数据,绕过传统人类界面。该公司已归集 1.2 万亿美元受托资产。摩根士丹利已向少数客户授予早期访问权限,计划明年覆盖其 3,400 家托管客户。竞争对手摩根大通和高盛已在内部使用 AI 智能体,但尚未对外开放。

智能体行业动态部署/工程
21:46
The Decoder:AI News(RSS)
61
Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行

Perplexity 发布了一个编排器,将本地计算机上的 AI 模型与云端强大模型相结合,并自动决定每个任务分配至本地处理还是云端处理。

产品更新推理部署/工程
21:30
Anthropic:Newsroom(网页)
精选59
介绍 Claude Partner Network 的 Services Track 和 Partner Hub

Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。

Anthropic产品更新行业动态部署/工程

推荐理由:Anthropic 给合作伙伴画了一条明确的爬升阶梯,从 Select 到 Global Premier,企业客户终于有个公开透明的渠道找靠谱的实施团队,做 AI 咨询的可以认真评估入局了。
21:14
TechCrunch:AI(RSS)
58
Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求

Coralogix 完成 2 亿美元 F 轮融资,估值达 16 亿美元。本轮距上次融资不到一年,公司押注 AI 智能体监控将成为重要需求。

智能体行业动态部署/工程
20:57
Simon Willison 博客
66
datasette-agent-micropython 0.1a0 发布

Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。

智能体开源/仓库部署/工程
20:54
Artificial Intelligence News(RSS)
36
E.ON 借助 SAP S/4HANA 以 AI 现代化电网

德国能源巨头 E.ON 通过 SAP S/4HANA 标准化电网数据,进而现代化基础设施并部署 AI 应用。E.ON 管理能源电网、客户解决方案和能源基础设施解决方案三个领域,维持运营需要持续的 IT 硬件与软件资本支出。公司领导层最初对大规模业务案例存在疑虑。

教程/实践部署/工程
17:53
Artificial Intelligence News(RSS)
55
Walmart 因 LLM 成本超预期限制员工使用 AI 助手 Code Puppy

Walmart 开始限制员工使用内部 AI 助手 Code Puppy。该工具后端的大语言模型需求超出预期,导致运营成本过高。此前员工被鼓励无限制使用,现需遵守新的使用配额。

行业动态部署/工程
15:09
IT之家(RSS)
54
微软 CEO 纳德拉:数据中心不推高电价方能获建设许可

AI数据中心建设引发社区反对,盖洛普民调显示更多受访者宁愿住在核反应堆附近。微软CEO纳德拉在Build大会回应,承诺推行“社区优先”的AI基础设施计划,确保数据中心不推高居民电价、补充用水、创造就业并投资社区培训。微软Azure云业务目前覆盖80个区域、500多个数据中心,过去18个月新增容量已超过Azure最初10年总和。纳德拉称数据中心采用一次性注水冷却回路,日均用水量大致相当于一家餐厅。

Microsoft行业动态部署/工程
14:37
Hacker News 热门(buzzing.cc 中文翻译)
64
在 AMD MI300X 上运行 DeepSeek-V4-Flash

一篇来自 fergusfinn.com 的博客文章,介绍了在 AMD MI300X GPU 上运行 DeepSeek-V4-Flash 模型的过程。

DeepSeek教程/实践部署/工程
12:42
HuggingFace Daily Papers(社区热门论文)
59
面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程
12:06
Hacker News 热门(buzzing.cc 中文翻译)
51
我们如何为RAG建立图像索引

为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程
11:09
IT之家(RSS)
54
微软为英伟达 RTX Spark 重塑 Windows 11 底层:改写 CPU 调度、优化 AI 内存负载

为适配英伟达 RTX Spark 芯片,微软正改造 Windows 11 底层能力。该芯片采用双 Die 设计,整合 20 核 Arm CPU、Blackwell RTX GPU(最多 6144 个 CUDA 核心)及统一内存,定位为 Windows on Arm 的 AI 超级芯片,可本地运行 120B 参数大语言模型,上下文窗口达 100 万 Token。为此,Windows 11 引入了工作负载配置调度以动态分配 CPU 核心算力,并优化了大内存页处理与 GPU 可访问内存的页面管理。同时,Prism 模拟器已针对该芯片微架构调优,以提升 x86 应用兼容性。

Microsoft产品更新端侧部署/工程
10:09
IT之家(RSS)
54
江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户

江苏全省首个商用万卡集群“词元超市(Token 超市)”已试运行,汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商,提供阿里通义、DeepSeek、阶跃星辰等主流大模型,用户可按需选择文本创作、智能问答等业务场景,并依据实际 Token 用量按需付费。该模式已服务近五十家客户,帮助本地企业降低研发成本。

推理行业动态部署/工程
10:09
IT之家(RSS)
47
Marvell 推出 Teralynx T100 网络交换芯片,号称业界首款专为 AI 设计的 102.4 Tbps 交换芯片

Marvell 发布 Teralynx T100 网络交换芯片,采用 3nm 制程和单片式结构,支持至多 512 个端口,兼容 ESUN、UEC 等新兴互联协议,可配置为 BGA、CPC、CPO 封装。其典型功耗低于 1000W,宣称比竞品节能 25%。该芯片专为 AI 负载优化设计,旨在降低功耗与延迟,提升集群效率。

产品更新部署/工程
‹ 上一页
1…1011121314…35
下一页 ›