6月24日

21:48

meng shao@shao__meng

OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño，9 个月完成流片，专为 LLM 推理优化，能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署，用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节，通过自研芯片构建飞轮：更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性，是 AI 触达用户的环节。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI 产品更新推理部署/工程

21:43

🚨 AI News | TestingCatalog@testingcatalog

OpenAI与Broadcom合作推出首款AI芯片Jalapeño，专为ChatGPT、Codex、API及未来Agent产品等大语言模型工作负载设计。该芯片在能效上实现新SOTA，开发过程使用OpenAI模型加速，计划以千兆瓦规模多代部署。此举标志着OpenAI从产品到模型再到基础设施的全栈化。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI 产品更新推理

21:30

Chubby♨️@kimmonismus

OpenAI 发布首款自研 AI 芯片 Jalapeño，专为大语言模型推理设计

OpenAI 推出其首款自研 AI 芯片 Jalapeño，与 Broadcom 和 Celestica 合作构建，针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载，包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平，详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖，增强对计算经济的控制，并强化模型、产品、收入与基础设施之间的飞轮效应。

OpenAI: https://openai.com/index/openai-broadcom-jalapeno-inference-chip/

OpenAI 产品更新推理部署/工程

21:19

OpenAI@OpenAI

我们设计并制造了首款 AI 芯片：Jalapeño。由 OpenAI 从零设计，并与 @Broadcom 合作投入生产，Jalapeño 专为支撑 ChatGPT、Codex、API 及未来智能体产品的 LLM 工作负载而打造。芯片是 AI 经济的基础。自建芯片扩展了我们从产品到模型再到基础设施的全栈平台，并将助力我们扩展智能、服务更多人、扩大 AI 的普及。

OpenAI 产品更新推理数据/训练

21:12

HuggingFace Daily Papers（社区热门论文）

AGORA：一个基于档案的智能体工作场所文档推理基准

大语言模型正越来越多地作为智能体在文档上进行推理，而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token，远超任何模型的上下文窗口，迫使智能体进行审慎探索而非穷举扫描。评估8个模型后，最强模型准确率仅为59.4%，且各领域表现差异显著。

智能体推理论文/研究

21:11

OpenBMB@OpenBMB

面壁智能 OpenBMB 联合清华等提出 Know More， Know Clearer 元认知框架，应对 LLM 认知错位幻觉

面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer，应对 LLM 因认知错位导致的幻觉。框架包含三项：结构性衰减定律（准确率随不确定性指数衰减）；Know More（CGKE）将知识空间分为掌握/混淆/缺失三区针对性增强；Know Clearer（CDKC）基于 GRPO 对齐置信度，使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上，CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%（+24.59 点），Qwen2.5-7B 从 25.76% 提升至 48.29%（+22.53 点）。自知识基准上 CBS 达 73.43%、CAE 达 68.18%，正确决策率 63.37%，边界识别 79.07%，达到最佳平衡。

推理论文/研究

21:01

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño，专为当前及未来 LLM 从头设计。早期测试显示，其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月，并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心，推出多代计算平台。

OpenAI 产品更新推理部署/工程

推荐理由：OpenAI 首次亲自设计芯片，和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño，从设计到流片仅 9 个月。虽然还只是早期测试，但性能功耗比大幅领先，一旦大规模部署，推理成本可能跳水，用 ChatGPT 的每个人都能感知到更快更便宜。

15:37

MarkTechPost（RSS）

精选74

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出，是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token，再由目标模型并行验证，保证输出无损。相比 EAGLE-3，DFlash 实现最高 2.5 倍加速，在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍（MATH-500 达 6.08×）。在 NVIDIA Blackwell 上（TensorRT-LLM），gpt-oss-120b 模型吞吐量提升最高 15 倍，约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影，使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由：DFlash把扩散模型引入推测解码草案阶段，一次并行生成整块token，单流加速最高6倍，NVIDIA实测吞吐量提升15倍，推理成本下降幅度很大，部署大模型的团队可以立刻关注。

15:20

公众号：蚂蚁百灵（Ling）

Ling-2.6-1T TPU 推理优化：用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel，将 scatter、expert FFN 和 gather 合并，通过计算与数据搬运重叠降低延迟。相比 V1，MoE prefill latency 从 5.16 ms 降至 2.42 ms（降 53%），decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%，decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下，16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone，包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程

11:47

Rohan Paul@rohanpaul_ai

微软NextLat：预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法，在常规token预测基础上增加预测下一隐藏状态的任务，迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优，生成速度通过自推测解码最高提升3.3x，且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft 推理数据/训练论文/研究