AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1385 条
全部一手资讯X论文
标签「部署/工程」清除
6月25日周四
16:58IT之家(RSS)53亚马逊追加130亿美元投资,2030年前在印总投资达480亿美元
16:58IT之家(RSS)57月之暗面黄震昕:Kimi B端业务占比持续提升,目标与海外三家模型掰手腕
15:58IT之家(RSS)45康宁推出玻璃基光互连技术 Glass Bridge,瞄准下一代 AI 数据中心架构
14:07Artificial Intelligence News(RSS)53OpenAI Jalapeño芯片背后的成本逻辑
11:58IT之家(RSS)48Saint-Gobain 巴赞谈美国 AI 基建:"有钱,没电没人"
09:58IT之家(RSS)41高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器
08:37TechCrunch:AI(RSS)59欧洲反击华盛顿芯片战:荷兰部长访美反对MATCH法案
08:08Simon Willison 博客69browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
07:59Hacker News 热门(buzzing.cc 中文翻译)51PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍
07:29Hacker News 热门(buzzing.cc 中文翻译)69高通将收购Modular
06:59Hacker News 热门(buzzing.cc 中文翻译)36NVIDIA 45C冷却设计将数据中心用水量降至接近零
06:55Ars Technica:AI(RSS)54OpenAI与Broadcom联合发布定制芯片Jalapeño,专为大语言模型推理设计
02:59Hacker News 热门(buzzing.cc 中文翻译)57OpenAI 发布首款定制芯片 Jalapeño,由博通制造
01:32Tomer Tunguz 博客(VC 分析)32防御AI驱动的攻击者
01:29Hacker News 热门(buzzing.cc 中文翻译)69OpenAI 与博通推出 LLM 推理优化芯片
6月24日周三
23:03TechCrunch:AI(RSS)65OpenAI 发布首款自研推理芯片 Jalapeño,由 Broadcom 制造
21:58IT之家(RSS)39首款搭载宁德时代电池的重载人形机器人上岗
21:58IT之家(RSS)52高通官宣将收购 AI 软件栈企业 Modular,交易预计 2026H2 完成
21:03The Decoder:AI News(RSS)57OpenAI 部署负责人谈 Codex 增长、AI 价格下降与 ROI 问题
21:01OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño
20:58IT之家(RSS)44中科曙光 ParaStor F9000 包揽 IO500 双榜冠军,刷新全球存储性能纪录
18:50IT之家(RSS)34日月光投控:预计先进封测营收 2026 年翻倍增长,集团今年开发 15 座新厂
18:31公众号:火山引擎66精选火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级
18:29Artificial Intelligence News(RSS)47三星开放ChatGPT Enterprise和Codex访问权限
17:50公众号:火山引擎56三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系
16:44IT之家(RSS)57公司历来规模最大:消息称字节跳动寻求 200 亿美元海外贷款
16:11公众号:百度智能云(文心)56百度千帆Token Plan企业版发布,接入GLM-5.2
15:42IT之家(RSS)58马斯克官宣 Starmind 太空 AI 算力项目名称,规划 100 万颗计算卫星
15:37MarkTechPost(RSS)74精选DFlash:块扩散草稿模型实现最高15倍吞吐量提升
15:20公众号:蚂蚁百灵(Ling)49Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运
13:42IT之家(RSS)38华为将在 WAIC 2026 首次展出业界最大规模超节点 Atlas 950 SuperPoD 真机
12:42IT之家(RSS)45阿里云:QoderWork 推出"峰谷 Token",错峰使用 Qwen 3.7 低至 2 折
02:26Hugging Face:Blog(RSS)64精选在 Transformers.js 中实验提议的跨源存储 API
01:14Claude:Blog(网页)42Claude Tag 的 Agent Identity 访问模型
6月23日周二
23:56Hacker News 热门(buzzing.cc 中文翻译)73Mistral OCR 4 发布
22:13IT之家(RSS)32进迭时空新一代高性能一致性互联总线N200研发完成
21:13IT之家(RSS)52戴尔发布新一代超算 AI 服务器 PowerEdge XE8812:每机架 144 GPU,全液冷设计
20:11IT之家(RSS)39华为乾崑详解全维防碰撞系统 CAS 5.0:新增第六维"全时域安全目标"
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
16:58
IT之家(RSS)
53
亚马逊追加130亿美元投资,2030年前在印总投资达480亿美元

6月25日,亚马逊CEO安迪·贾西与印度总理莫迪会面,宣布追加130亿美元投资,用于在印度扩建AI及云基础设施,期限至2030年。2026年至2030年,亚马逊在印总投资达480亿美元,其中AI及云领域规划投入超210亿美元。新增投资将扩展AWS在孟买和海得拉巴的数据中心容量,提供Trainium定制AI芯片、Amazon Bedrock等服务。亚马逊还承诺到2030年支持超380万个就业岗位,助力实现800亿美元电子商务出口,使1500万家小企业和400万公立学校学生受益。

行业动态部署/工程
16:58
IT之家(RSS)
57
月之暗面黄震昕:Kimi B端业务占比持续提升,目标与海外三家模型掰手腕

6月25日,月之暗面B端负责人黄震昕透露,Kimi B端业务占比持续提升,覆盖互联网、金融、制造、教育、医疗等行业,海外业务快速增长。目前员工仅300多人,资源配置最高优先级仍在模型研发层,最终目标与OpenAI、谷歌、Anthropic竞争。用户对高性能Token愿意支付溢价,模型厂商通过Cache命中率优化与推理优化对冲成本,Kimi原厂服务Cache命中率已超90%。6月12日,月之暗面开源Kimi K2.7 Code模型,相比K2.6提升了长上下文编程指令遵循与长程任务性能,平均token消耗减少30%。

行业动态部署/工程
15:58
IT之家(RSS)
45
康宁推出玻璃基光互连技术 Glass Bridge,瞄准下一代 AI 数据中心架构

康宁在“AI 数据中心光通信与互连技术大会”推出玻璃基光互连技术 Glass Bridge,可直接连接光子集成电路(PIC)与光纤,用于共封装光学(CPO)和玻璃芯半导体封装。该技术通过晶圆级离子交换波导制备光通路,解决片上波导与光纤纤芯尺寸差问题。初期支持芯片核心间距 30 微米及以上,耦合损耗目标低于 2 dB,单连接器支持超 24 个光学通道,接口基于标准 TMT 物理接触式设计。同时发布 GlassWorks AI 光通信平台,已与 Meta、英伟达、亚马逊等签订数十亿美元长期供应协议。

产品更新部署/工程
14:07
Artificial Intelligence News(RSS)
53
OpenAI Jalapeño芯片背后的成本逻辑

OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。

OpenAI产品更新推理部署/工程
11:58
IT之家(RSS)
48
Saint-Gobain 巴赞谈美国 AI 基建:"有钱,没电没人"

Saint-Gobain 首席执行官贝努瓦·巴赞接受 Bloomberg TV 采访时指出,北美数据中心项目已受技能人才短缺影响,欧洲也开始出现同类问题。AI 基建落地需要电工、高压技术员、光纤安装工、暖通专家等专业岗位,普通商业建筑队伍无法胜任,相关技能需多年培训积累,即便资金充裕也难以快速推进。此外,电力供应仍是首要约束,电网、变电站、变压器及并网能力均承受压力。

现象/趋势部署/工程
09:58
IT之家(RSS)
41
高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器

高通在投资者日发布 Dragonfly 方案,含 HBC 分离式架构(2D 基板+TSV 堆叠 LPDDR DRAM,能效与 TCO 优于 HBM)、C1000 CPU(250+ Oryon 内核、>5GHz,能效达竞品 2 倍,2028 年上市)及 AI300 推理平台(HBC Gen 2,每 W 带宽较今天 GPU 提升 4~8 倍,有效内存带宽为 AI200 的 54 倍,2028 年送样)。HBC Gen 1 的 AI250 加速器单卡读写 133TB/s,有效带宽为 AI200 的 18 倍,2027 年中启动样品测试。高通另提供芯片设计服务与 800G/1.6T 互连方案。

产品更新推理部署/工程
08:37
TechCrunch:AI(RSS)
59
欧洲反击华盛顿芯片战:荷兰部长访美反对MATCH法案

荷兰贸易部长Sjoerd Sjoerdsma本周访问华盛顿,与商务部长及国会议员会面,反对MATCH法案。该法案将禁止中国芯片制造商获取西方半导体设备,尤其影响荷兰ASML——全球唯一生产尖端光刻机的公司。中国占ASML净系统销售额的19%。MATCH法案在现有禁令基础上进一步限制深紫外浸没式设备出口,此前已禁止最先进的极紫外(EUV)工具对华出口。ASML CEO表示中国目前可购买的是约十年前出货的老一代深紫外工具。法案于4月提出,尚未在众议院或参议院全院表决。

政策/监管部署/工程
08:08
Simon Willison 博客
69
browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库

Simon Willison 受 Mozilla 新 MDN MCP 服务启发,将 mdn/browser-compat-data 的浏览器兼容性数据转为 SQLite 数据库。他用 Claude Code for web (Opus 4.8) 生成基于 sqlite-utils 的转换脚本,再用 Codex Desktop (GPT-5.5) 编写 GitHub Actions 工作流,将约 66MB 数据库 force-push 到仓库的 db 孤立分支,使其可通过 GitHub CDN 访问并附带开放 CORS 头。用户可直接下载或通过 Datasette Lite 在线探索。

GitHubMCP/工具开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
07:59
Hacker News 热门(buzzing.cc 中文翻译)
51
PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍

PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器,将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成,采用图遍历解释器,性能受限;新解析器采用手动编写的递归下降解析器配合Pratt表达式循环,仅在必要时引入前瞻与回溯。开发过程中通过属性测试(Hypothesis)确保与原始C++解析器在真实查询上的等价性。

教程/实践编码部署/工程
07:29
Hacker News 热门(buzzing.cc 中文翻译)
69
高通将收购Modular

6月24日,高通宣布将收购Modular,具体交易条款尚未披露。该消息在Hacker News上获得102个点赞。

行业动态部署/工程
06:59
Hacker News 热门(buzzing.cc 中文翻译)
36
NVIDIA 45C冷却设计将数据中心用水量降至接近零

NVIDIA 推出的 45C 冷却设计将数据中心用水量降至接近零,大幅降低水资源消耗。该方案源自 NVIDIA 官方博客。

教程/实践部署/工程
06:55
Ars Technica:AI(RSS)
54
OpenAI与Broadcom联合发布定制芯片Jalapeño,专为大语言模型推理设计

OpenAI与Broadcom宣布推出名为Jalapeño的定制ASIC芯片,专为数据中心大规模大语言模型推理设计。该芯片基于OpenAI研究人员提供的洞察及未来模型路线图,研发耗时9个月。早期测试显示其能效显著优于当前最先进方案,但完整性能数据尚未公布,详细技术报告将在未来数月内发布。该项目旨在通过垂直整合降低对Nvidia等外部供应商的依赖,首批芯片计划于今年年底部署到数据中心。

OpenAI行业动态部署/工程
02:59
Hacker News 热门(buzzing.cc 中文翻译)
57
OpenAI 发布首款定制芯片 Jalapeño,由博通制造

OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。

OpenAI产品更新推理部署/工程
01:32
Tomer Tunguz 博客(VC 分析)
32
防御AI驱动的攻击者

7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。

安全/对齐部署/工程
01:29
Hacker News 热门(buzzing.cc 中文翻译)
69
OpenAI 与博通推出 LLM 推理优化芯片

OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。

OpenAI产品更新推理部署/工程
6月24日
23:03
TechCrunch:AI(RSS)
65
OpenAI 发布首款自研推理芯片 Jalapeño,由 Broadcom 制造

OpenAI 周三公布其首款自研推理处理器 Jalapeño,由 Broadcom 设计制造,专为推理系统优化,OpenAI 自身 AI 模型参与了芯片开发。早期测试显示能效比显著优于当前顶尖替代方案。该芯片旨在降低实时编码模型的运行成本,但预训练等高性能任务仍将依赖 Nvidia GPU。OpenAI 称此举使其能全栈优化芯片架构、内核、内存系统、调度等基础设施,以提升模型速度、可靠性和经济性。

OpenAI产品更新部署/工程
21:58
IT之家(RSS)
39
首款搭载宁德时代电池的重载人形机器人上岗

6月24日,宁德时代与银河通用机器人签署全球战略合作协议,银河通用研发的重载人形机器人Galbot S1成为全球首款搭载宁德时代电池的具身智能常态化运营机器人。该机器人具备双臂50公斤级载重、纯视觉厘米级定位、360°全向避障能力;宁德时代电芯失效率达PPB级别,保障8小时超长续航与产线高安全性。目前Galbot S1已在宁德时代智慧产线中替代物料搬运、拣选等高强度人工。

具身智能行业动态部署/工程
21:58
IT之家(RSS)
52
高通官宣将收购 AI 软件栈企业 Modular,交易预计 2026H2 完成

高通宣布收购Modular,交易预计2026H2完成。Modular并非AI芯片硬件企业,而是为AI XPU提供高效软件堆栈的软件公司,其AI原生软件平台可在各类XPU上以业界领先性能运行AI模型,开发者和企业仅需一次构建,无需针对每种架构重写代码。高通将结合硬件领先地位与Modular的软件专业知识,帮助客户将AI从端侧迁移到云上,构建速度更快、效率更高、更易扩展的系统。

端侧行业动态部署/工程
21:03
The Decoder:AI News(RSS)
57
OpenAI 部署负责人谈 Codex 增长、AI 价格下降与 ROI 问题

OpenAI 部署负责人 Arnaud Fournier 在采访中透露,DeployCo 团队正通过派驻自家工程师将 AI 深度嵌入大型企业。他称 Codex 正经历爆发式增长,客户反馈已直接回传至模型开发环节,并指出 AI 智能价格已大幅下降。

OpenAI编码行业动态部署/工程
21:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。

OpenAI产品更新推理部署/工程

推荐理由:OpenAI 首次亲自设计芯片,和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño,从设计到流片仅 9 个月。虽然还只是早期测试,但性能功耗比大幅领先,一旦大规模部署,推理成本可能跳水,用 ChatGPT 的每个人都能感知到更快更便宜。
20:58
IT之家(RSS)
44
中科曙光 ParaStor F9000 包揽 IO500 双榜冠军,刷新全球存储性能纪录

中科曙光 ParaStor F9000 分布式全闪存储系统在 ISC High Performance 2026 上包揽 IO500 生产型总榜与 10 节点挑战榜双项冠军,刷新世界纪录。该系统已在数万卡集群中稳定运行超一年,支持千亿参数大模型部署时间缩短 1 倍、训练效率提升 50%。联合龙讯旷腾 MatPL 及 scaleX 万卡算力平台,完成 414.7 亿原子规模的液态水分子动力学模拟(第一性原理级精度),超越此前 290 亿原子纪录,在 4096 张异构加速卡并行下完成。同期展出 scaleX AI 超集群、全栈自研 400G 无损高速网络 scaleFabric 等产品。

行业动态部署/工程
18:50
IT之家(RSS)
34
日月光投控:预计先进封测营收 2026 年翻倍增长,集团今年开发 15 座新厂

日月光投控 COO 吴田玉在股东会上透露,2025 年先进封装营收 502 亿新台币,封测占比从 6% 升至 13%;预计今年先进封测营收翻倍。2026-2027 年支出维持高位,旗下日月光、矽品今年共开发 15 个厂区(含 2 个外购)。业界首条 310mm PLP 先进封装自动化产线最快 2026 年底量产。

其他部署/工程
18:31
公众号:火山引擎
精选66
火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。

智能体产品更新部署/工程

推荐理由:Agent 从聊天机器人到企业生产工具,缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来,是企业 AI 落地的关键一步。
18:29
Artificial Intelligence News(RSS)
47
三星开放ChatGPT Enterprise和Codex访问权限

三星电子扩大员工对ChatGPT Enterprise和Codex的访问权限,使员工更广泛地将AI工具用于技术与非技术工作。该部署覆盖韩国所有三星电子员工及全球所有Device eXperience员工,DX部门涵盖智能手机、消费电子和家电。

OpenAI行业动态部署/工程
17:50
公众号:火山引擎
56
三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系:“1”是AgentSphere数字员工派遣站,“N”是开箱即用应用,“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work,实现一个账号切换IDE与办公端、一个后台统一管理,内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时,代码贡献率提升42%,千行代码缺陷率降低35%。扣子升级3.0,强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环,引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后,活动筹备周期从4周压缩至5个工作日,效率提升约3.5倍。

智能体产品更新部署/工程
16:44
IT之家(RSS)
57
公司历来规模最大:消息称字节跳动寻求 200 亿美元海外贷款

字节跳动正与多家银行磋商,寻求一笔约 200 亿美元(约合 1360.08 亿元人民币)的海外贷款,期限 3 年并附带延长期权,最长可至 5 年。若传闻属实,这将是字节跳动历史上规模最大的离岸融资项目,资金将为其 AI、云计算扩展提供支持。

行业动态部署/工程
16:11
公众号:百度智能云(文心)
56
百度千帆Token Plan企业版发布,接入GLM-5.2

百度千帆发布企业级AI生产力订阅服务Token Plan企业版,采用“席位制+企业共享积分包”模式,支持按需采购席位、统一额度池共享调度,并提供成员管理、用量统计、告警等运营能力。模型方面聚合DeepSeek-V4系列、GLM-5系列、Kimi-K2.6等,已率先接入智谱GLM-5.2,开箱即用。提供轻享版、标准版、高级版等多档位,承诺不使用用户数据训练,支持企业级SLA。

产品更新部署/工程
15:42
IT之家(RSS)
58
马斯克官宣 Starmind 太空 AI 算力项目名称,规划 100 万颗计算卫星

马斯克在 X 平台确认,SpaceX 轨道 AI 数据中心项目正式定名为 Starmind,xAI 已注册该商标。SpaceX 于 2026 年 1 月 30 日向美国联邦通信委员会提交申请,计划发射最多 100 万颗计算卫星部署于近地轨道。首代硬件 AI1 卫星高 20 米、翼展 70 米,单颗平均提供 120 kW 算力、峰值 150 kW,接近地面现代 AI 服务器机架。Starmind 卫星通过高速光学链路连接 Starlink,再由星链中继数据到地面站。

xAI行业动态部署/工程
15:37
MarkTechPost(RSS)
精选74
DFlash:块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由:DFlash把扩散模型引入推测解码草案阶段,一次并行生成整块token,单流加速最高6倍,NVIDIA实测吞吐量提升15倍,推理成本下降幅度很大,部署大模型的团队可以立刻关注。
15:20
公众号:蚂蚁百灵(Ling)
49
Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程
13:42
IT之家(RSS)
38
华为将在 WAIC 2026 首次展出业界最大规模超节点 Atlas 950 SuperPoD 真机

华为宣布将在 WAIC 2026(7 月 17 日-7 月 20 日)首次展出业界最大规模超节点 Atlas 950 SuperPoD 真机,该产品以单柜 64 卡为基本单元,最大支持 8192 张 NPU 卡高速互联,全局统一内存编址,加速万亿参数大模型训练与推理。同期展示 Atlas 850E 风冷超节点真机,采用升级 VCE 散热技术,为 Agentic 推理提供高吞吐、低时延体验。昇腾 AI 基础软件开源开放,兼容第三方训练加速库等;超节点已在互联网、运营商等 11 大行业规模部署。

行业动态部署/工程
12:42
IT之家(RSS)
45
阿里云:QoderWork 推出"峰谷 Token",错峰使用 Qwen 3.7 低至 2 折

阿里云公告称,QoderWork 推出“峰谷 Token”,每晚 22:00 至次日 08:00 运行可自动享受优惠,其中 Qwen3.7-Max 模型低至 2 折。夜间折扣覆盖 QoderWork、QoderDesktop、CLI 等产品。用户可白天设置定时任务或睡前提交长程指令,由 Agent 在夜间自动执行,积分消耗仅为白天的 20%-40%。QoderWork 是阿里于 2026 年 1 月推出的桌面 AI 智能体工具,支持自然语言操作本地应用和文件,已服务全球超 500 万用户。

行业动态部署/工程
02:26
Hugging Face:Blog(RSS)
精选64
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face开源生态教程/实践部署/工程

推荐理由:这个Chrome提案让不同网站的AI模型共享缓存,对用Transformers.js的Web开发者是切实的性能改进,但还只是早期实验。
01:14
Claude:Blog(网页)
42
Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

智能体Anthropic教程/实践部署/工程
6月23日
23:56
Hacker News 热门(buzzing.cc 中文翻译)
73
Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4,除提取文本外还返回边界框、块分类(标题、表格、公式、签名等)和逐页/逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分,独立标注者偏好率达 72%。API 定价 $4/千页,Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件,为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程
关联讨论 2 条Mistral AI:News(网页)MarkTechPost(RSS)
22:13
IT之家(RSS)
32
进迭时空新一代高性能一致性互联总线N200研发完成

进迭时空今日宣布完成自研互联总线N200的研发。N200将与通算CPU核X200、智算AI核A200共同应用于下一代计算芯片,预计2027年量产。N200支持AXI2CHI/CHI2AXI协议转换桥、多种聚合节点、专有消息与配置通路、符合RISC-V RERI规范的端到端RAS、灵活时钟结构、Debug & Trace、PMU性能统计接口及Partial Good设计,并提供完整配置GUI,支持RTL分区分层自动生成与校验。目前N200已完成架构设计、RTL开发验证、PPA Push、驱动开发与软硬件协同验证,并基于FPGA原型与X200构建的原型系统完成多项关键验证。

行业动态部署/工程
21:13
IT之家(RSS)
52
戴尔发布新一代超算 AI 服务器 PowerEdge XE8812:每机架 144 GPU,全液冷设计

戴尔科技发布 PowerEdge XE8812 服务器,采用 NVIDIA Vera Rubin NVL4 架构,每机架最多支持 144 块 GPU。全液冷设计覆盖 CPU 和 GPU,支持超过 300kW 供电。与上一代 GB200 NVL4 相比,CPU 核心从 144 个增至 176 个,每个插槽内存容量和 GPU 显存均提升 50%。从部署到运行负载仅需六小时。已有超 5000 家客户部署戴尔 AI Factory,实例包括劳伦斯伯克利国家实验室的 Doudna 超算、InstaDeep 的 Kyber 集群等。戴尔援引行业预测称 2026 年 AI 投资同比增长 44%。

产品更新部署/工程
20:11
IT之家(RSS)
39
华为乾崑详解全维防碰撞系统 CAS 5.0:新增第六维"全时域安全目标"

华为乾崑公布 CAS 5.0 详解:新增与主、被动安全同级别的第六维“全时域安全目标”,基于安全风险场技术,将安全能力从“事前预防”延伸到“事后守护”。前向 AEB 最低触发速度降至 1km/h,侧向防碰撞 LOCP 降至 10km/h,通过新增前向高精度固态激光雷达和优化融合感知算法实现。eAES 升级至 3.0 版本,防护范围覆盖侧后方,可提前察觉侧后方车辆加塞、抢道,并在后方来车可能碰撞、前方无车时向前加速避险,实现从“避免撞别人”到“避免被别人撞”。

产品更新端侧部署/工程
‹ 上一页
123456…35
下一页 ›