AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1385 条
全部一手资讯X论文
标签「部署/工程」清除
6月29日周一
08:03OpenAI:官网动态(RSS · 排除企业/客户案例)41惠普与OpenAI启动Frontier战略合作伙伴关系
05:33Hacker News 热门(buzzing.cc 中文翻译)55由于AI表现未达预期,福特重新聘用"灰胡子"工程师
03:24TechCrunch:AI(RSS)49福特因AI未达预期重新雇佣"灰胡子"工程师
01:03Hacker News 热门(buzzing.cc 中文翻译)75精选Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由
00:54TechCrunch:AI(RSS)65美光因AI内存短缺股价飙升236%,市值一度超越Meta和特斯拉
6月28日周日
20:40The Decoder:AI News(RSS)65Coinbase 转向中国 AI 模型,西方实验室面临定价压力测试
15:03Hacker News 热门(buzzing.cc 中文翻译)66两节点 AMD Strix Halo RDMA 集群设置指南
15:00IT之家(RSS)61谷歌因算力限制对 Meta 调用 Gemini 大模型实施限制
14:33Hacker News 热门(buzzing.cc 中文翻译)67福特公司雇佣了人工智能,解雇了人类员工。结果适得其反。
12:00IT之家(RSS)61M-Robots OS 完整捐献至开放原子开源基金会
04:50TechCrunch:AI(RSS)54软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
01:06MarkTechPost(RSS)79精选DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%
00:03Hacker News 热门(buzzing.cc 中文翻译)81精选一次失败的(民族国家?)攻击的剖析
6月27日周六
18:59IT之家(RSS)51鹏城云脑III登顶IO500双榜:依托华为OceanStor A800存储
15:59IT之家(RSS)66DeepSeek 联合北大发布 DSpark 推理加速框架,速度提升 60% 至 85%
13:59IT之家(RSS)51美满升级 Structera CXL 控制器:内联压缩最高 3.64x,缓解 AI 场景内存压力
08:59IT之家(RSS)57马斯克获准收购初创公司Mesh,加码AI数据中心光通信布局
01:44TechCrunch:AI(RSS)50从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)
6月26日周五
22:32Hacker News 热门(buzzing.cc 中文翻译)55为何当前大语言模型成本不可持续
21:59IT之家(RSS)47openEuler 24.03 LTS SP4 发布:弹性内存、64K 内核、AI 图编译器全面升级
20:00公众号:面壁智能(MiniCPM)42面壁智能亮相链博会,展示端侧AI全链能力
16:20公众号:百度智能云(文心)36千帆Coding Plan产品升级公告
15:59IT之家(RSS)48高通与 Hugging Face 扩大合作,构建端到云 AI 开发生态
14:59IT之家(RSS)55消息称 OpenAI、博通合作 Jalapeño 芯片采用台积电 3nm 工艺制程
11:59IT之家(RSS)45中国信通院联合华为云等 22 家单位,筹备成立 AIIA 词元(Token)服务工作组
08:00HuggingFace Daily Papers(社区热门论文)55ReFreeKV:迈向无阈值KV缓存压缩
07:59IT之家(RSS)49华为与湖北移动完成全国运营商首个AI推理加速方案现网测试
07:35Meta Engineering Blog(RSS)54Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则
01:37Google Research:Blog(网页)48用线性弹性缓存优化云经济
00:01Hacker News 热门(buzzing.cc 中文翻译)58由于人工智能未能保留专业知识或培训后辈,福特重新聘用了350名工程师
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
00:00LMSYS:Blog(Chatbot Arena 团队)58精选SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡
6月25日周四
22:58IT之家(RSS)42MWC上海2026开幕,华为携手运营商发布5G-A与U6GHz等创新成果
20:11The Verge:AI(RSS)55福特因过度依赖自动化系统召回前工程师修复错误
20:07TechCrunch:AI(RSS)52亚马逊在印度追加130亿美元投资AI基础设施
19:58IT之家(RSS)54英伟达黄仁勋:AI基建周期长达数十年,将成人类史上最大基建项目
19:30公众号:百度智能云(文心)40浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景
18:13HuggingFace Daily Papers(社区热门论文)67开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究
17:58IT之家(RSS)48联想发布问天超节点算力解决方案及万全异构智算平台V5.0
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月29日
08:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体OpenAI行业动态部署/工程
05:33
Hacker News 热门(buzzing.cc 中文翻译)
55
由于AI表现未达预期,福特重新聘用"灰胡子"工程师

福特重新聘用350名资深工程师(部分为前员工,部分来自供应商),原因是AI和自动化质量系统未达预期效果。首席运营官Kumar Galhotra表示公司此前过度依赖自动化质量系统,结果令人失望,因此召回技术专家在零件进入工厂前排查故障点。福特并未放弃AI,而是让这些“灰胡子”工程师培训年轻员工并重新编程AI工具。此举预计今年将节省10亿美元成本,福特本周还在JD Power初始质量调查中位列主流品牌榜首。

行业动态部署/工程
03:24
TechCrunch:AI(RSS)
49
福特因AI未达预期重新雇佣"灰胡子"工程师

福特汽车在AI和自动化系统未达到预期质量后,重新雇佣了350名资深工程师,其中部分为前员工,部分来自供应商。首席运营官Kumar Galhotra表示,福特此前“越来越依赖自动化质量系统”但结果令人失望,因此请回技术专家在零部件进入工厂前查找故障点。负责车辆硬件工程的副总裁Charles Poon承认,“错误地认为只要引入AI并吸收设计需求就能产出高质量产品”。福特并未完全放弃AI,而是让返聘工程师培训年轻员工并重新编程AI工具。此举预计今年将节省10亿美元成本。福特还在本周发布的JD Power初始质量调查中位列主流品牌榜首。

行业动态部署/工程
01:03
Hacker News 热门(buzzing.cc 中文翻译)
精选75
Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构(长度、标题、列表、代码)和措辞(证明、数学、硬约束),在微秒级完成路由决策,完全离线且无需调用其他模型。默认仅使用结构特征,词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器(如 RouteLLM、NotDiamond),它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API(含 Ollama、Anthropic、Groq、vLLM 等),可自托管。提供终端和网页演示(--dry-run 无需密钥),以及基准测试和 FAQ。

开源/仓库部署/工程

推荐理由:Wayfinder Router 把 prompt 路由变成了离线文本分析,无需额外模型调用,对希望节省成本同时保持私密的开发者很实用,比现有方案更轻量和确定,但纯语义难题仍是短板。
00:54
TechCrunch:AI(RSS)
65
美光因AI内存短缺股价飙升236%,市值一度超越Meta和特斯拉

内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND(尤其是HBM)供应短缺,股价过去一个月飙升236%,市值接近1.27万亿美元,一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元,利润从18.8亿美元暴涨至282亿美元,并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度,缺货(RAMageddon)预计持续至2027年。

数据/训练行业动态部署/工程
6月28日
20:40
The Decoder:AI News(RSS)
65
Coinbase 转向中国 AI 模型,西方实验室面临定价压力测试

Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型,采用智谱 GLM 5.2 和月之暗面 Kimi 2.7,token 用量攀升但支出减半。91% 的开发者从未触及旧用量上限。初创公司 Lindy 近期转向 DeepSeek V4,Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统,根据任务、价格和缓存潜力选择模型,缓存命中率从 5% 提升至 60%。开发者被要求保持上下文精简并开启新会话。公司让每位开发者用量透明但不设上限,Armstrong 表示“AI 支出越多,预期影响越大”。这些举措使 AI 总支出减半。同时,OpenAI 的 GPT-5.6-Sol 与 GPT-5.5 定价相同但更省 token,并推出两个廉价变体,加剧与 Anthropic 的价格战。

DeepSeekOpenAI行业动态部署/工程
15:03
Hacker News 热门(buzzing.cc 中文翻译)
66
两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs(TCP/IP 为 70‑100µs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。

推理教程/实践部署/工程
15:00
IT之家(RSS)
61
谷歌因算力限制对 Meta 调用 Gemini 大模型实施限制

Meta 向谷歌申请的 Gemini 算力规模超出后者供给能力,谷歌现已对 Meta 调用其 Gemini 大模型实施使用限制。Alphabet 约在今年 3 月告知 Meta 无法满足所需算力,导致 Meta 多项内部 AI 项目受阻延期。Meta 已要求员工节约使用模型 token。谷歌一季度云营收达 200 亿美元,CEO 皮查伊表示算力供给瓶颈制约云业务增速,同时令云部门积压订单量环比近乎翻倍。

GoogleMeta行业动态部署/工程
14:33
Hacker News 热门(buzzing.cc 中文翻译)
67
福特公司雇佣了人工智能,解雇了人类员工。结果适得其反。

福特因激进采用AI质检系统导致成本损失数十亿美元,三年内返聘350多名资深工程师(内部称“gray beards”),负责质量审查并帮助改进AI。首席运营官Kumar Galhotra承认自动化系统未达预期,经验丰富的工程师能预先发现故障点。返聘后,福特在J.D. Power年度新车质量调查中16年来首次获得主流品牌排名第一。公司表示不会放弃AI,但未来将结合人类监督与经验使用该技术。

行业动态部署/工程
12:00
IT之家(RSS)
61
M-Robots OS 完整捐献至开放原子开源基金会

深圳开鸿数字产业发展有限公司 CEO 王成录宣布,全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式完整捐献至开放原子开源基金会,专属一级根社区同步启动运营。该系统 1.0 版本于 2025 年 4 月发布,今年 5 月升级至 2.0 版本。2.0 版本具备积木式框架、混合部署、自研 M-DDS 分布式通信、硬件能力及算法共享、AI 原生及中间件生态兼容等核心能力,其中本体间音视频时延低至 4 毫秒,应用迁移成本降低 80%。

具身智能开源/仓库部署/工程
04:50
TechCrunch:AI(RSS)
54
软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想,认为其成本高、周期长,而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额,主要依赖Starlink业务;建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期,芯片公司Groq完成6.5亿美元融资,OpenAI推进定制芯片计划。

大佬观点数据/训练部署/工程
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
01:06
MarkTechPost(RSS)
精选79
DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek推理论文/研究部署/工程

推荐理由:DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上,关键在于不换模型就能加速,对用 API 做产品的人是立即可用的性能提升。代码和权重都给了,值得一试。
00:03
Hacker News 热门(buzzing.cc 中文翻译)
精选81
一次失败的(民族国家?)攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的“测试”。作者将仓库交给Claude扫描,在typescript+5.9.2.patch中发现base64混淆载荷,该载荷在patch-package安装时触发,向~/.cache-等目录写入payload.js和mutex.js,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

安全/对齐开源生态部署/工程

推荐理由:这是一次近乎完美的开发者定向攻击复盘,虚假面试加上精心构造的补丁注入 RAT,手法隐蔽到连作者都差点中招,所有靠开源吃饭的人都该认真看看 Ioc 并重新审视自己的代码审查盲区。
6月27日
18:59
IT之家(RSS)
51
鹏城云脑III登顶IO500双榜:依托华为OceanStor A800存储

华为宣布,基于OceanStor A800存储搭建的“鹏城云脑Ⅲ”系统登顶IO500 Full List与Research List榜首,总分603,334.58分,带宽8,291.11 GiB/s,元数据性能43,903,983.64 kIOP/s,整体性能较此前最高纪录提升2.8倍。测试部署664个计算节点、79,680个并行进程,历经13项测试用例。OceanStor A800采用对等全互联架构与数控分离架构,DPU直通SSD,单框吞吐量500GB/s,支持双向扩展,单集群最多512个控制器,聚合带宽超100TB/s,并内置DataTurbo加速引擎与智能缓存换出机制。

行业动态部署/工程
15:59
IT之家(RSS)
66
DeepSeek 联合北大发布 DSpark 推理加速框架,速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制,在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中,DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下,V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%,120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。

DeepSeek开源/仓库推理部署/工程
13:59
IT之家(RSS)
51
美满升级 Structera CXL 控制器:内联压缩最高 3.64x,缓解 AI 场景内存压力

美满电子(Marvell)6月24日发布Structera X和Structera A两款CXL控制器,集成CDB压缩-解压硬件模块,实现内联LZ4无损压缩。压缩比最高3.64x(Database nci数据),全零页面达64:1。Structera X定位CXL内存扩展,支持DDR5/DDR4,最大6TB/4TB容量,200 GB/s带宽,配备4个ARM Cortex-M7核心;Structera A面向近内存加速,集成16个Arm Neoverse V2核心、64MB末级缓存及4个DDR5-6400通道。两者均支持内联XTS-AES 256位加密,为首批将硬件内联内存压缩写入OCP规格的产品。

产品更新部署/工程
08:59
IT之家(RSS)
57
马斯克获准收购初创公司Mesh,加码AI数据中心光通信布局

埃隆·马斯克已获美国联邦贸易委员会(FTC)批准,收购由SpaceX前员工创立的Mesh Optical Technologies Corp.。Mesh主要设计面向AI数据中心的光通信收发器,可将电信号直接转换为光信号,解决传统铜缆在传输速度、带宽和发热上的物理瓶颈,实现服务器与GPU之间接近瞬时的数据传输。2026年2月,Mesh完成了5000万美元(约合3.4亿元人民币)A轮融资。

行业动态部署/工程
01:44
TechCrunch:AI(RSS)
50
从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)

OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。

OpenAI推理现象/趋势部署/工程
6月26日
22:32
Hacker News 热门(buzzing.cc 中文翻译)
55
为何当前大语言模型成本不可持续

AI成本正困扰企业:Uber 4个月花光全年AI预算,微软等公司削减员工AI支出。前沿模型价格高昂,如GPT 5.5每百万输入/输出token分别收费5美元和30美元,作者用该模型修复50个TypeScript文件花费54美元。成本不可持续的原因包括:模型性能提升趋缓;开源权重模型GLM-5.2在编码测试中表现不输前沿模型,成本仅为GPT 5.5的1/10;专用芯片(TPU比H100便宜30-70%)和MoE架构改进持续降低推理成本;零转换成本使用户可瞬间切换模型;本地模型将在4-5年内因芯片进步和RAM降价普及,进一步压低云端需求。

现象/趋势端侧部署/工程
21:59
IT之家(RSS)
47
openEuler 24.03 LTS SP4 发布:弹性内存、64K 内核、AI 图编译器全面升级

openEuler 24.03 LTS SP4 于6月25至26日发布,基于6.6内核LTS,面向服务器、云计算、灵衢超节点和AI场景,升级弹性内存、64K内核、AI图编译器、虚拟化优化、低时延通信、Agent沙箱、推理软件适配和智能调优。哈萨克斯坦自由云加入社区成为首家境外实体生态伙伴。麒麟软件、麒麟信安、软通天鹤AIOS、超聚变FusionOS 26、天翼云CTyunOS、联通数科CUOS等伙伴展示了在智能运维、高可靠场景、AI原生OS等方向的落地应用。

智能体产品更新部署/工程
20:00
公众号:面壁智能(MiniCPM)
42
面壁智能亮相链博会,展示端侧AI全链能力

面壁智能在第四届链博会上展示端侧AI全链能力,涵盖模型研发、芯片适配、终端部署到产业应用和生态协同。以“密度定律”提升单位参数智能密度,已围绕高效模型、端侧推理、软硬协同、多模态交互形成系统能力,完成多类主流芯片适配。现场展出智能体平台PilotDeck,可根据任务难度自动调度模型、控制推理成本,并能挂载端侧模型处理隐私敏感任务。面壁智能正与芯片、终端、行业伙伴共同推动端侧AI在汽车、手机、PC、机器人等设备上规模化落地。

端侧行业动态部署/工程
16:20
公众号:百度智能云(文心)
36
千帆Coding Plan产品升级公告

百度千帆宣布Coding Plan产品升级,后续将逐步迁移至Token Plan个人版。即日起现有Coding Plan套餐停止续费,7月初通过Token Plan提供更丰富模型选择和灵活使用方式。已购买用户可继续使用至当前周期结束;自动续费用户自公告发布30日后自动失效。升级用户可一键迁移,获得Token Plan对应套餐完整权益,已使用的Coding Plan额度重置,原套餐剩余有效期顺延一个月。

产品更新部署/工程
15:59
IT之家(RSS)
48
高通与 Hugging Face 扩大合作,构建端到云 AI 开发生态

高通与 Hugging Face 宣布扩大合作,携手构建从端到云无缝衔接的 AI 开发生态。Hugging Face 的 AI 存储和推理服务将适配高通 Dragonfly“飞龙”数据中心解决方案。其生态中百万量级 AI 模型将通过智能体接入高通平台,加速在芯片终端与数据中心机架上的部署。Hugging Face 还向使用高通芯片的客户提供 PRO 专业版访问权限。双方计划共同支持分布式 AI 框架,使智能体在端、云平台之间灵活流转。

Hugging Face开源生态端侧行业动态
14:59
IT之家(RSS)
55
消息称 OpenAI、博通合作 Jalapeño 芯片采用台积电 3nm 工艺制程

OpenAI 与 Broadcom(博通)合作开发的 LLM 优化 AI 推理 ASIC 芯片 Jalapeño 基于台积电 3nm 工艺制程,由台积电负责晶圆代工,目标在今年底实现初步部署。双方第二代 AI ASIC 项目则有望导入台积电 A16 节点,利用背面供电技术提升密度与性能。

OpenAI行业动态部署/工程
11:59
IT之家(RSS)
45
中国信通院联合华为云等 22 家单位,筹备成立 AIIA 词元(Token)服务工作组

6月25日,中国人工智能产业发展联盟正式启动词元服务工作组筹备,由中国信通院牵头,联合华为云、百度智能云、中国移动等22家单位。工作组致力于解决Token服务性能、安全可信、计量计费不规范等问题,将推进标准体系、能力攀登计划、跨境流动、国产自主可控等八项任务,覆盖生产、流通、应用、运营全流程,并构建绿色Token服务生态。

行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
ReFreeKV:迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv推理论文/研究部署/工程
07:59
IT之家(RSS)
49
华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构,搭载UCM(推理记忆数据管理)技术,完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型,在8K至190K长序列场景下,Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟(TTFT)优化26%~62%,单NPU卡TPS在64K序列提升58%、128K提升78%;GLM-5.1下TTFT优化51%~93%,TPS提升56%~372%。

推理行业动态部署/工程
07:35
Meta Engineering Blog(RSS)
54
Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则

Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。

Meta教程/实践部署/工程
01:37
Google Research:Blog(网页)
48
用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google论文/研究部署/工程
00:01
Hacker News 热门(buzzing.cc 中文翻译)
58
由于人工智能未能保留专业知识或培训后辈,福特重新聘用了350名工程师

福特汽车公司重新聘用了350名工程师,原因是其部署的AI系统未能有效保留资深工程师的专业知识,也无法对初级员工进行培训。据彭博社报道,福特曾尝试用AI替代部分经验传承和培训职能,但结果未达预期,因此不得不重新召回已离职或退休的资深工程师。此举凸显了当前AI在复杂工业领域知识转移和人才培养方面的局限性。

行业动态部署/工程
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选58
SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由:SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法,实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%,用 SGLang 跑 MoE 推理的开发者值得一试。
6月25日
22:58
IT之家(RSS)
42
MWC上海2026开幕,华为携手运营商发布5G-A与U6GHz等创新成果

为期三天的2026上海世界移动通信大会6月24日开幕。华为轮值董事长汪涛发表演讲。展会期间,华为携手中国移动、中国联通、中国电信发布5G-A大上行、AI焕新主营业务、Token经营等创新成果,并发布AI-Centric目标网。5G-A用户数已破亿。U6GHz被认定为下一代频谱,超20个国家和地区已明确用于国际移动通信;2026年是U6GHz商用元年,中东、中国香港、中国澳门等将启动商用部署。中国移动与华为的无线网络智能化方案获“亚洲最佳AI驱动网络解决方案奖”等两项大奖,已在六大省市试点,网络质差工单自动闭环率提升至15%,额外节能增益达5.5%。

行业动态部署/工程
20:11
The Verge:AI(RSS)
55
福特因过度依赖自动化系统召回前工程师修复错误

福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。

数据/训练现象/趋势部署/工程
20:07
TechCrunch:AI(RSS)
52
亚马逊在印度追加130亿美元投资AI基础设施

亚马逊周四宣布,到2030年将在印度追加130亿美元,用于扩建AWS在孟买和海得拉巴的数据中心容量。这是亚马逊三年内对印度的第三项重大承诺:2023年承诺投资150亿美元(含127亿美元AWS),2025年12月承诺超350亿美元,目前在印总投资承诺累计达480亿美元。微软12月承诺2029年前投资175亿美元,谷歌10月承诺150亿美元建设AI枢纽和数据中心。亚马逊今年还将在印新增20多个物流中心和100多个末端配送站,并计划将即时零售服务Amazon Now扩展至300多个城镇。

行业动态部署/工程
19:58
IT之家(RSS)
54
英伟达黄仁勋:AI基建周期长达数十年,将成人类史上最大基建项目

英伟达CEO黄仁勋在年度股东大会上表示,人工智能代表计算模式的根本性转变,从检索存储转向生成智能。Token是智能的基本单位,在“AI工厂”中被制造,计算能力越强,生成的Token越多,收益越丰厚。AI基础设施建设周期将长达数十年,类比电网、交通系统和互联网,有望成为人类历史上规模最大的基建项目。AI智能体正在加速投资,因为AI首次能胜任实质性工作并创造真实经济价值。

大佬观点部署/工程
19:30
公众号:百度智能云(文心)
40
浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。

智能体行业动态部署/工程
18:13
HuggingFace Daily Papers(社区热门论文)
67
开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程
17:58
IT之家(RSS)
48
联想发布问天超节点算力解决方案及万全异构智算平台V5.0

联想昨日发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB,访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,支持40卡/32卡配置,采用无线缆正交直插架构,兼容标准19英寸机箱,部署周期压缩至数小时。同时发布的万全异构智算平台V5.0升级两大技术:集群训推加速技术通过分层解耦PD分离架构和KV Cache共享缓存优化提升资源利用率;芯模编译优化技术实现计算图自适应匹配与算子自动生成,适配多元算力芯片生态。

产品更新数据/训练部署/工程
‹ 上一页
12345…35
下一页 ›