全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1187 条

全部一手资讯 X 论文

标签「推理」清除

6月30日周二

08:00HuggingFace Daily Papers（社区热门论文）52GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

08:00HuggingFace Daily Papers（社区热门论文）45PixelEyes：解耦感知与推理实现精准视觉证据定位

08:00HuggingFace Daily Papers（社区热门论文）64Seed2.0 Model Card：迈向解决真实世界复杂问题的智能前沿

07:51公众号：千问APP（阿里）38千问免费志愿报告突破2000万份

6月29日周一

19:10公众号：小红书技术（dots.llm）72精选小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

18:10公众号：蚂蚁百灵（Ling）51如何优雅地给 MLA 加上 QK-Norm？

18:01IT之家（RSS）53DeepSeek V4 正式版 7 月中旬上线，API 引入峰谷定价

17:01IT之家（RSS）56小鹏集团发布 X-Mind，让自动驾驶拥有"预见未来"的大脑

15:01IT之家（RSS）44网传字节跳动考虑采用百度昆仑芯，接近字节人士称目前没有合作意向

08:00HuggingFace Daily Papers（社区热门论文）55评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

6月28日周日

20:01IT之家（RSS）43马斯克：Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus 模型

16:10The Decoder：AI News（RSS）70精选新浪开源VibeThinker-3B：推理可压缩，事实知识不能

15:03Hacker News 热门（buzzing.cc 中文翻译）66两节点 AMD Strix Halo RDMA 集群设置指南

11:00IT之家（RSS）76精选四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

08:00IT之家（RSS）30DeepSeek成美国企业AI账单失控下的"香饽饽"，阿里千问输入法macOS版上线

01:06MarkTechPost（RSS）79精选DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

6月27日周六

18:32Hacker News 热门（buzzing.cc 中文翻译）51DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

16:09The Decoder：AI News（RSS）58字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

15:59IT之家（RSS）66DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

15:02Hacker News 热门（buzzing.cc 中文翻译）50当AI能解数学时，成为数学家意味着什么

09:02Hacker News 热门（buzzing.cc 中文翻译）58开源LLM与闭源LLM之间的差距

08:00HuggingFace Daily Papers（社区热门论文）66当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

08:00HuggingFace Daily Papers（社区热门论文）52Agentic Abstention：大语言模型智能体何时应停止行动

06:59IT之家（RSS）74OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

06:10Simon Willison 博客23Timothy B. Lee：LLM 并非没有学习曲线

03:35MarkTechPost（RSS）77OpenAI 预览 GPT-5.6 系列：Sol、Terra、Luna 三层模型及新推理模式

02:47TechCrunch：AI（RSS）73OpenAI 应美国政府要求限制 GPT-5.6 发布，称限制不应成为常态

02:10Simon Willison 博客79OpenAI 发布 GPT-5.6 系列：旗舰模型 Sol、日常模型 Terra、低价模型 Luna

02:02Hacker News 热门（buzzing.cc 中文翻译）73OpenAI 预览 GPT-5.6 Sol：新一代模型

01:44TechCrunch：AI（RSS）50从 OpenAI 到 SpaceX，为何都在自研芯片（并给 Nvidia 施压）

01:02OpenAI：官网动态（RSS · 排除企业/客户案例）78精选OpenAI 预览新一代模型 GPT-5.6 Sol

00:44TechCrunch：AI（RSS）51OpenAI公布定制推理芯片Jalapeño，减少对Nvidia单一依赖

6月26日周五

23:51Dwarkesh Patel：Podcast & Blog（RSS）61精选下一个重大突破：AI在工作中学习

12:20公众号：卡尔的AI沃茨49Claude Fable5 降智，作者推荐动态工作流 + Sonnet 4.6 替代方案

08:00HuggingFace Daily Papers（社区热门论文）55ReFreeKV：迈向无阈值KV缓存压缩

08:00HuggingFace Daily Papers（社区热门论文）46大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测

08:00HuggingFace Daily Papers（社区热门论文）52基于Gist Token的简化稀疏注意力

08:00HuggingFace Daily Papers（社区热门论文）55迈向自动化科学评审：Google 的 Paper Assistant Tool（PAT）

07:59IT之家（RSS）49华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

04:32Tomer Tunguz 博客（VC 分析）47Sail Research 构建集群感知编排，加速异步推理

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月30日

08:00

HuggingFace Daily Papers（社区热门论文）

52

GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同，实则都调节同一个数值——组标准差。对于二值奖励（正确/错误），组标准差衡量同一提示下多个答案的不一致程度：答案对半开时最大，全一致时为零。GRPO 除以该标准差，Dr. GRPO 去掉除法，DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置，并给出组标准差同一性：不一致的组产生最大更新，一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Seed2.0 Model Card：迈向解决真实世界复杂问题的智能前沿

Seed2.0 模型系列从识别的用户真实需求出发，构建了基于复杂真实场景的评测体系，重点攻克长尾知识和复杂指令跟随两个持久挑战，显著提升了模型在长程复杂任务上的可靠性。同时，Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平，并通过大量真实用例展示了其初步处理复杂实际任务的能力，为数亿用户提供更大价值。

多模态推理模型发布

07:51

公众号：千问APP（阿里）

38

千问免费志愿报告突破2000万份

截至6月29日23:58，千问生成的免费志愿报告突破2000万份。祝每位考生志如所愿！

推理行业动态

6月29日

19:10

公众号：小红书技术（dots.llm）

精选72

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXiv GitHub 产品更新推理

推荐理由：小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

18:10

公众号：蚂蚁百灵（Ling）

51

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

18:01

IT之家（RSS）

53

DeepSeek V4 正式版 7 月中旬上线，API 引入峰谷定价

DeepSeek 团队 6 月 29 日宣布，DeepSeek V4 正式版计划于 7 月中旬上线，届时 API 定价将引入峰谷机制，高峰时段（每日 9:00-12:00、14:00-18:00）价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源，拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先，按大小分为两个版本。另外，DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。

DeepSeek 开源生态推理模型发布

17:01

IT之家（RSS）

56

小鹏集团发布 X-Mind，让自动驾驶拥有"预见未来"的大脑

小鹏集团发布 X-Mind 技术框架，内嵌预测性世界模型，采用循环块扩散机制在单次前向传播中生成紧凑抽象草图，并实例化视觉思维链（Visual CoT）进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”，借助深度压缩自编码器（DC-AE）将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型，X-Mind 在轨迹预测误差上显著降低，推理延迟极低，具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露，2026年底自动驾驶可合法进入全球。

具身智能推理模型发布

15:01

IT之家（RSS）

44

网传字节跳动考虑采用百度昆仑芯，接近字节人士称目前没有合作意向

百度旗下昆仑芯计划赴港上市，目标估值约500亿美元，今年1月1日已提交上市申请表。消息称腾讯已成为昆仑芯客户，字节跳动亦在考虑采用其AI芯片。不过，接近字节跳动的人士对此回应称，字节跳动目前没有和昆仑芯片合作的意向。

推理行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

55

评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性（approach-level diversity），即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架，发现现有表面多样性指标无法可靠反映策略多样性，且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果，但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究

6月28日

20:01

IT之家（RSS）

43

马斯克：Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus 模型

Grok 4.5 基于自研 1.5 万亿参数 V9 基础大模型打造，并引入 Cursor 数据完成补充训练，已在 SpaceX 和特斯拉内部开启测试。早期评测显示其性能接近甚至有望超越 Opus 模型。基于人类反馈的强化学习持续提升模型能力，Grok 配套调度框架每日迭代优化。马斯克还透露，SpaceX 今年每个月将推出一批完全从零开始训练的全新模型。

推理行业动态

16:10

The Decoder：AI News（RSS）

精选70

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

Hugging Face 开源生态推理模型发布

推荐理由：VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型，推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。

15:03

Hacker News 热门（buzzing.cc 中文翻译）

66

两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群，通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联，用于分布式 vLLM 推理（Tensor Parallelism）。硬件采用两块 Framework Desktop 主板（AMD Ryzen AI MAX+ "Strix Halo"，128GB 统一内存）及 E810-CQDA1 100GbE 网卡，直连无需交换机。软件栈基于 Fedora 43，使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs（TCP/IP 为 70‑100µs）。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。

推理教程/实践部署/工程

11:00

IT之家（RSS）

精选76

四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%（感知盲区），计划后10回合内执行率仅48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。

智能体推理现象/趋势

推荐理由：前首相府数据科学家让 Claude、GPT 等打《文明 VI》，揪出了 AI 的「感知盲区」和「知行差距」——更聪明的大脑解决不了睁不开眼、伸不出手的问题，做智能体的必须直面这两个工程瓶颈。

08:00

IT之家（RSS）

30

DeepSeek成美国企业AI账单失控下的"香饽饽"，阿里千问输入法macOS版上线

AI账单失控背景下，越来越多的美国企业转向Tokenminimizing策略，部分企业已100%切换使用DeepSeek以降低Token消耗。阿里千问输入法macOS版正式上线，主打最快300字/分的语音输入和AI自动润色功能，支持9种方言且无广告；官方预告iOS、Android、Windows版将于近日发布。

DeepSeek 开源生态推理行业动态

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

18:32

Hacker News 热门（buzzing.cc 中文翻译）

51

DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec，并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%，具体实现细节见论文。

DeepSeek 开源生态推理论文/研究

16:09

The Decoder：AI News（RSS）

58

字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

中国人民大学与字节跳动联合发布 iLLaDA，一个 8B 参数、从头训练的密集扩散语言模型。该模型从掩码 token 序列开始，通过多次并行迭代双向精炼文本，不同于自回归模型的逐 token 生成。iLLaDA 在 12 万亿 token 上预训练，并经过 12 轮微调。基础版本 iLLaDA-Base 平均得分 63.9，略超 Qwen2.5 7B 的 63.3，其中推理测试 BBH 提升 21.6 分至 71.3。但指令微调版 iLLaDA-Instruct 得分 67.1，落后于 Qwen2.5 7B Instruct 的 77.1，差距主要在数学和代码任务，作者归因于缺少额外的强化学习对齐。

推理模型发布编码

15:59

IT之家（RSS）

66

DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架，已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制，在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中，DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下，V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%，120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。

DeepSeek 开源/仓库推理部署/工程

15:02

Hacker News 热门（buzzing.cc 中文翻译）

50

当AI能解数学时，成为数学家意味着什么

数学研究者探讨AI对数学领域的影响，认为AI可能带来人机协作的“大数学”时代。加州大学洛杉矶分校的陶哲轩指出，人类与机器可共同攻克复杂问题。卡内基梅隆大学的Jeremy Avigad强调，数学家从长期思考中获得理解之美与成就感，这种驱动力并未因AI而改变。文章回顾了纯数学博士多年钻研抽象问题的经历，提出AI虽能加速计算，但数学研究的本质——探索与理解——依然由人主导。

DeepMind OpenAI 推理现象/趋势

09:02

Hacker News 热门（buzzing.cc 中文翻译）

58

开源LLM与闭源LLM之间的差距

在Artificial Analysis Intelligence Index上，开源LLM与闭源LLM的性能差距自2024年夏季开始持续缩小，线性外推预测到2026年12月3日差距降为零。但在全部18个不同基准上的平均差距几乎恒定，保持在不到5个月。编码基准的差距从15个月缩小至1-2个月，多数其他基准差距反而略有扩大。这一分析表明，LLM质量评测的单一基准可能误导结论，整体差距并未显著缩小。

开源生态推理现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

66

当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

推理系统通过多次采样（测试时扩展）来回答难题，覆盖率随采样次数增加而上升，但系统必须选出唯一答案。选择精度存在上限——模态天花板，在数十次采样内投票结果即趋稳定；相关性天花板则更早达到。超出这两个天花板后，额外采样只会增加计算成本，甚至让模型更确信错误答案，形成“可识别性差距”：模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数，指出瓶颈在于识别正确答案而非生成更多候选。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

Agentic Abstention：大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题，即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机：部分从不停止，部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法，将完整交互轨迹蒸馏为可复用停止规则，在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究

06:59

IT之家（RSS）

74

OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

6月27日，OpenAI发布GPT-5.6系列，包含旗舰版Sol（输入$5/百万tokens，输出$30）、均衡版Terra（$2.5/$15）和速度版Luna（$1/$6）。Sol在Terminal-Bench 2.1标准模式下得分88.8%，超Claude Mythos 5的88.0%，Ultra模式达91.9%；GeneBench v1上消耗更少token且胜GPT-5.5；ExploitBench中以约1/3输出token达Mythos Preview相近表现。目前仅向“可信合作伙伴”提供预览，未来几周公开上线，7月在Cerebras上线Sol，速度最高750 token/s。

OpenAI 安全/对齐推理模型发布

关联讨论 8 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

06:10

Simon Willison 博客

23

Timothy B. Lee：LLM 并非没有学习曲线

Timothy B. Lee 反驳“LLM 无需技能、没有学习曲线”的观点，将其类比为认为管理者没有学习曲线——因为员工会完全服从指令。他强调，使用 LLM 同样需要技能和经验积累。

大佬观点推理

03:35

MarkTechPost（RSS）

77

OpenAI 预览 GPT-5.6 系列：Sol、Terra、Luna 三层模型及新推理模式

OpenAI 开始有限预览 GPT-5.6 系列，分为旗舰 Sol、日常生产 Terra 和低成本快速 Luna 三个层级。新增两种推理控制：max（加深单链推理）和 ultra（利用子智能体并行处理复杂任务）。在 Terminal-Bench 2.1 上，Sol (ultra) 得分 91.91%，Sol (max) 88.76%，超过 Claude Mythos 5（88%）和 GPT-5.5（83.4%）。定价方面，Sol 输入/输出每百万 token 为 $5/$30，Terra 为 $2.50/$15，Luna 为 $1/$6。目前仅向约 20 个合作伙伴开放 API 和 Codex 预览，更广泛接入计划在未来几周内推出。OpenAI 还计划在 7 月用 Cerebras 硬件使 Sol 达到每秒 750 token。

OpenAI 安全/对齐推理模型发布

关联讨论 8 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

02:47

TechCrunch：AI（RSS）

73

OpenAI 应美国政府要求限制 GPT-5.6 发布，称限制不应成为常态

OpenAI 周五宣布，应美国政府要求，将新一代 GPT-5.6 系列模型仅向“小部分受信任的合作伙伴”开放预览。系列包括旗舰模型 Sol、均衡模型 Terra 和低成本快速模型 Luna。Sol 具备增强的智能体能力（编码、生物学、网络安全），引入“max”推理努力模式和“ultra”子智能体协调模式，在编码基准上略优于 Anthropic 的 Claude Mythos 5，输出 token 仅为后者三分之一。定价方面，Sol 每百万输入 token 5 美元、输出 30 美元；Terra 半价；Luna 分别为 1 美元和 6 美元。OpenAI 称此为短期措施，计划未来数周逐步向 ChatGPT、Codex 和 API 用户开放。

OpenAI 安全/对齐推理模型发布

关联讨论 9 条X：邵猛 (@shao__meng)IT之家（RSS）X：Nathan Lambert (@natolambert)X：Rohan Paul (@rohanpaul_ai)X：宝玉 (@dotey)X：Berry Xia (@berryxia)The Decoder：AI News（RSS）Hacker News 热门（buzzing.cc 中文翻译）The Verge：AI（RSS）

02:10

Simon Willison 博客

79

OpenAI 发布 GPT-5.6 系列：旗舰模型 Sol、日常模型 Terra、低价模型 Luna

OpenAI 推出 GPT-5.6 系列三个模型：Sol 为旗舰，Terra 面向日常工作（性能对标 GPT-5.5 但价格便宜 2 倍），Luna 为快速低价模型。定价按每百万模型 token 计算：Sol 输入 $5 / 输出 $30，Terra 输入 $2.5 / 输出 $15，Luna 输入 $1 / 输出 $6。新版引入更可预测的提示词缓存，支持显式缓存断点和 30 分钟最小缓存生命期；缓存写入按 1.25 倍非缓存输入速率计费，缓存读取继续享受 90% 折扣。目前仅面向部分受信任合作伙伴提供有限预览，未来几周全面开放。

OpenAI 推理模型发布

关联讨论 8 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

02:02

Hacker News 热门（buzzing.cc 中文翻译）

73

OpenAI 预览 GPT-5.6 Sol：新一代模型

OpenAI 预览了 GPT-5.6 Sol，这是一款新一代模型。该预览由 OpenAI 官方发布，标题明确指出其为“next-generation model”。目前预览信息有限，仅确认了模型名称与定位，未包含具体技术细节或功能披露。

OpenAI 安全/对齐推理模型发布

关联讨论 8 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

01:44

TechCrunch：AI（RSS）

50

从 OpenAI 到 SpaceX，为何都在自研芯片（并给 Nvidia 施压）

OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片，加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升，旨在降低对 Nvidia 单一供应商的依赖，形成对冲而非彻底脱钩。

OpenAI 推理现象/趋势部署/工程

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 8 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

00:44

TechCrunch：AI（RSS）

51

OpenAI公布定制推理芯片Jalapeño，减少对Nvidia单一依赖

OpenAI公布与Broadcom合作开发的定制推理芯片Jalapeño，旨在减少对Nvidia的单一供应商依赖，提供更好的控制和性能优化。同一期TechCrunch播客还讨论了Groq的6.5亿美元融资、AI智能体循环的重要性（Claude Code创始人认为其与“从源码到智能体”同等重要）、Agility Robotics计划通过SPAC上市，以及Google DeepMind投资A24开发AI电影制作工具。

OpenAI 推理行业动态

6月26日

23:51

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

下一个重大突破：AI在工作中学习

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由：RLVR 范式能否通向 AGI？Dwarkesh 指出关键瓶颈在于样本效率和 grindability，他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界，虽然离落地尚远，但值得每一个关心 AI 下一步的人细读。

12:20

公众号：卡尔的AI沃茨

49

Claude Fable5 降智，作者推荐动态工作流 + Sonnet 4.6 替代方案

Fable5 小范围灰度测试降智，安全加强导致上下文窗口和长文本优化受限。不过在 Claude Code v2.1.190 版本中，Fable5 计费已从单独 API 改为包含在每周套餐里。受此影响，GPT-5.6 被要求分阶段发布，从六月推迟到七月中。作者推荐在 Claude Code 中开启动态工作流（多 Agent），使用低一档的 Sonnet 4.6 模型并将 ultracode 推理程度拉满，作为降智后的替代方案。

智能体 Anthropic OpenAI 推理

08:00

HuggingFace Daily Papers（社区热门论文）

55

ReFreeKV：迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法，通过自适应调整预算分配来消除对输入特定阈值的依赖，解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明，该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

46

大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测

现有方法依赖人工校准或文本表示，缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列，提取动态特征并与语义表示结合，进行人类题目难度预测。在四个真实数据集上，Epi2Diff全面超越包括有监督LLM微调在内的强基线，在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态，而非仅更长的回答。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

基于Gist Token的简化稀疏注意力

简化稀疏注意力（SSA）无需改变架构，通过在序列中插入gist token并施加注意力掩码进行继续预训练，使模型将各分块关键信息压缩至gist token。推理时，查询仅与少量gist token打分，选择性展开top-k分块的原始token，避免全KV缓存带宽开销。在LongBench上，SSA在相同压缩比下优于压缩和推理时稀疏注意力基线；在检索增强生成中，经继续预训练后超过全注意力5.7个百分点，归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下，在32倍压缩比时仍维持或提升精度。代码已开源。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

55

迈向自动化科学评审：Google 的 Paper Assistant Tool（PAT）

Google 发布 Paper Assistant Tool（PAT），一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文，生成综合评估，包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术，PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点，可发现关键错误并提出实质性改进，在保留评审员对结果控制权的同时减轻其认知负担。

智能体 Google 推理论文/研究

07:59

IT之家（RSS）

49

华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构，搭载UCM（推理记忆数据管理）技术，完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型，在8K至190K长序列场景下，Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟（TTFT）优化26%~62%，单NPU卡TPS在64K序列提升58%、128K提升78%；GLM-5.1下TTFT优化51%~93%，TPS提升56%~372%。

推理行业动态部署/工程

04:32

Tomer Tunguz 博客（VC 分析）

47

Sail Research 构建集群感知编排，加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体，运行时长可达数小时。Sail Research 为此构建了集群感知（fleet‑aware）编排系统，以最大化每美元推理支出的吞吐量。

推理现象/趋势

123 4…30