中国公司 z.AI 以 MIT 许可证开源 GLM-5.2 模型,拥有百万 token 上下文窗口,基于华为昇腾芯片训练,性能接近 Claude Opus 4.8 和 GPT-5.5。与此同时,Amazon、Meta、Uber 等美国公司因工程师过度消耗 token 而开始限制 AI 预算(Uber 每员工上限 1500 美元),推动开源模型需求。GLM 团队源自学术项目,长期适配国产芯片;DeepSeek 投入 28 亿美元,共同成为“Tokenmaxxing”趋势的替代方案。
中国公司 z.AI 以 MIT 许可证开源 GLM-5.2 模型,拥有百万 token 上下文窗口,基于华为昇腾芯片训练,性能接近 Claude Opus 4.8 和 GPT-5.5。与此同时,Amazon、Meta、Uber 等美国公司因工程师过度消耗 token 而开始限制 AI 预算(Uber 每员工上限 1500 美元),推动开源模型需求。GLM 团队源自学术项目,长期适配国产芯片;DeepSeek 投入 28 亿美元,共同成为“Tokenmaxxing”趋势的替代方案。
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。
多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。
Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
iLLaDA是一个8B参数的掩码扩散语言模型,采用完全双向注意力机制训练,预训练数据量达12T tokens,并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA,iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点,iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练,iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。
高通在投资者日发布 Dragonfly 方案,含 HBC 分离式架构(2D 基板+TSV 堆叠 LPDDR DRAM,能效与 TCO 优于 HBM)、C1000 CPU(250+ Oryon 内核、>5GHz,能效达竞品 2 倍,2028 年上市)及 AI300 推理平台(HBC Gen 2,每 W 带宽较今天 GPU 提升 4~8 倍,有效内存带宽为 AI200 的 54 倍,2028 年送样)。HBC Gen 1 的 AI250 加速器单卡读写 133TB/s,有效带宽为 AI200 的 18 倍,2027 年中启动样品测试。高通另提供芯片设计服务与 800G/1.6T 互连方案。
人工智能芯片公司凌川科技近日完成数亿元A+轮融资,由啟赋资本领投,新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起,前身为快手异构计算与芯片事业部,自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片,针对散热、一致性、可靠性等关键问题做了设计,是韬(τ)定律面向互联网数据中心应用的具体呈现。
美光科技与高通发布超预期业绩展望,推动 AI 芯片板块市值单日增长超 4000 亿美元。美光盘后交易大涨 12%,季度盈利预期显示企业 AI 投入将拉动存储芯片需求。高通计划转型 AI,预计 2029 年数据中心业务营收达 150 亿美元。板块内西部数据、闪迪、希捷涨超 8%,Arm 涨约 6%。此前费城半导体指数曾大跌,但年内仍累涨 90%。
OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño,九个月流片,工程样片已跑GPT‑5.3‑Codex‑Spark,能效比显著领先,计划2026年吉瓦级部署。Anthropic公开多智能体协作经验,提出需持久记忆、独立凭证、广泛信息访问,总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review,一周5k星,采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。
提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。
JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。
多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。
大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。
Cerebras上市后首份财报显示一季度营收超预期,但股价周三暴跌近20%。公司预测全年核心业务毛利率38%至41%,低于一季度的47%。CEO Feldman称投资者误解了利润率指引,公司需从一家大客户处租回部分设备以提前释放产能。一季度营收达1.93亿美元,同比增长94%;净亏损从去年同期的2390万美元收窄至1400万美元。
据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。
Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。
GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。
OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
This is the strongest ARC-AGI-2 performance to date by an open-source model.
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。
OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。
🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...
OpenAI 发布首颗自研 AI 芯片 "Jalapeño",专为 LLM 推理设计,与 Broadcom 合作生产。从设计到流片仅 9 个月,且由自身 AI 模型辅助设计。首批样片已到手,性能功耗比显著优于当前顶级加速器,Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU,同时成本降低约一半。目标 2026 年底实现吉瓦级部署,推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品,标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。
OpenAI发布首款自研AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计,由Broadcom生产。从设计到流片仅用9个月,借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器,Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU,成本减半。若2026年底实现吉瓦级部署,推理成本有望降低约50%。Jalapeño仅针对推理,训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...
OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño(ASIC),专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下,Jalapeño比NVIDIA GPU更便宜、更快,通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率,能效更优。该芯片从设计到流片仅用9个月,OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈(模型、软件、服务器、网络、芯片)的战略转变。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI与博通合作,九个月内完成首款自研AI芯片Jalapeño的设计到流片。该芯片专为大语言模型推理场景打造,用于ChatGPT、Codex、API及未来智能体产品,每瓦性能优于当前最先进水平。推理成本可降低30%–50%,为日常持续消耗大头。传统芯片设计周期2–3年,Jalapeño通过AI辅助设计跑通“AI造AI硬件”自循环。OpenAI意图走全栈路线,摆脱对英伟达依赖,掌握底层算力定价权。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 推出与 Broadcom 合作打造的首款定制芯片 Jalapeño,这是一款专用于 AI 推理的 ASIC,用于处理 ChatGPT 请求。据称其性能与 Nvidia Blackwell 和 Google TPU 相当,每瓦性能显著优于当前 SOTA。Jalapeño 是 OpenAI 多代计算平台的首步,预计 2026 年底部署。
OpenAI 推出首款自研 AI 芯片 Jalapeño,专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月,ChatGPT 参与了芯片设计,堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工,针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗,成功运行 GPT-5.3-Codex-Spark 等 ML 负载;性能功耗比显著优于当前 SOTA,详细基准后续公布。部署计划于 2026 年底启动,战略上旨在减少对外部 GPU 依赖,加强对算力经济的控制。
OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving dee...
OpenAI与Broadcom联合发布首款定制芯片"Jalapeño",专为大语言模型推理而设计,从零打造而非修改通用芯片。OpenAI称其性能功耗比“显著优于”当前最先进硬件,但为自报数据,尚未独立验证。芯片开发耗时9个月,OpenAI自身模型辅助加速设计。工程样片已运行包括GPT-5.3-Codex-Spark在内的ML工作负载。计划于2026年底进行大规模部署,微软预计将购买其中40%的芯片。