AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月30日周二
16:38The Decoder:AI News(RSS)67Deepseek发布DSpark推理框架,AI响应速度最高提升85%
16:37Hacker News 热门(buzzing.cc 中文翻译)43Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量
15:56🚨 AI News | TestingCatalog79美团发布LongCat-2.0,1.6T参数MoE模型,支持1M上下文窗口
15:37Hacker News 热门(buzzing.cc 中文翻译)77LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
14:36karminski-牙医60SGLang DSpark实测:1.81倍加速,预测3个token
12:29meng shao75美团发布LongCat-2.0,全链路国产化Agent+Coding模型
12:02IT之家(RSS)50寒武纪成科创板首支万亿市值股,年初至今涨超75%
12:02IT之家(RSS)54微软全面推出 Anthropic Claude 模型 Azure 云服务,基于英伟达 GB300
11:53SiliconFlow32硅基流动 SiliconFlow 夏日冲刺 - GLM 5.2 周活动
11:26HuggingFace Daily Papers(社区热门论文)77精选Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
11:02IT之家(RSS)76美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源
09:55Ethan Mollick61LLM通用性:更强编码提升多领域能力
09:35elvis73Qwen 新研究:编码智能体奖励设计的"地平线"问题
08:00HuggingFace Daily Papers(社区热门论文)52GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
08:00HuggingFace Daily Papers(社区热门论文)64Seed2.0 Model Card:迈向解决真实世界复杂问题的智能前沿
07:51公众号:千问APP(阿里)38千问免费志愿报告突破2000万份
07:36karminski-牙医40DSpark:草稿模型高接受率token不降智原理
06:58Rohan Paul49OpenAI 发布 GPT-5.6 模型套件:Sol、Terra、Luna
06:05karminski-牙医57DeepSeek DSpark:推测性解码技术详解
03:55Ethan Mollick22AI揭示:做作业对学习至关重要
03:17Chubby♨️67AI 公司产品 Matrix 公测开放
00:58Rohan Paul62黄仁勋:阻止中国获得英伟达芯片不等于阻止中国AI发展
6月29日周一
23:24Berryxia.AI61Anthropic工程师在Code with Claude分享提示词工程实战手册
23:24Berryxia.AI77精选Anthropic工程师Margot Van Laar:提示词工程实战--调试生产提示词为主,评估是唯一严谨方式
22:04elvis56LLM-as-a-Judge 10分钟快速入门
19:10公众号:小红书技术(dots.llm)72精选小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速
18:10公众号:蚂蚁百灵(Ling)51如何优雅地给 MLA 加上 QK-Norm?
18:01IT之家(RSS)53DeepSeek V4 正式版 7 月中旬上线,API 引入峰谷定价
17:01IT之家(RSS)56小鹏集团发布 X-Mind,让自动驾驶拥有"预见未来"的大脑
15:34小互45GPT 5.6 今晚大概率发布
15:01IT之家(RSS)44网传字节跳动考虑采用百度昆仑芯,接近字节人士称目前没有合作意向
14:57Rohan Paul53三星与SK海力士或公布十年1.3万亿美元投资规划
14:27宝玉45GPT 5.6 Sol灰度测试方法及宝玉实测结果
13:27Rohan Paul56《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化
08:00HuggingFace Daily Papers(社区热门论文)55评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟
05:30SemiAnalysis65LeptonAI 创始人收购一年后离职
04:57Rohan Paul68Grok 4.5 基于 1.5 万亿参数 V9 基础模型开发,规模为 v8 的 3 倍
04:57Rohan Paul52FT:Google限制Meta使用Gemini
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月30日
16:38
The Decoder:AI News(RSS)
67
Deepseek发布DSpark推理框架,AI响应速度最高提升85%

Deepseek推出DSpark推理框架,采用推测解码技术,由小模型生成候选答案、大模型批量验证,并一次生成多个token而非单个,使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度,减少无效计算。DSpark与Deepseek-V4-Pro模型(与北京大学联合开发)已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求,有助于中国与欧盟在芯片受限下获取更多AI性能,短期构成战略优势。

DeepSeek开源/仓库开源生态推理
16:37
Hacker News 热门(buzzing.cc 中文翻译)
43
Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量

Moondream 推理引擎 Photon 在 NVIDIA B200 上实现约 33ms 近实时 VLM 推理。其利用流水线解码技术,将 GPU 计算与 CPU 任务重叠,消除传统循环中 GPU 空闲等待的“GPU 气泡”,使解码吞吐量提升高达 35%。文章详述三种关键机制:乒乓缓存槽位避免缓冲冲突、前向计算与采样解耦实现受约束解码、以及已结束请求的清理流程(zombies)。

推理教程/实践部署/工程
15:56
🚨 AI News | TestingCatalog@testingcatalog
79
美团推出LongCat-2.0,总参数1.6T(MoE架构,活跃参数约48B),支持1M上下文窗口。训练与部署完全基于AI ASIC超算集群,已以Owl Alpha名称在OpenRouter上线测试。模型专为智能体编码设计:LongCat Sparse Attention(LSA)高效处理百万级token;Zero-Compute Experts每个token动态激活33B-56B参数,零浪费计算;MOPD机制含三种任务门控专家组(Agent/Reasoning/Interaction)。基准测试:Terminal-Bench 2.1得70.8,SWE-bench Pro 59.5(同期GPT-5.5为58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码
关联讨论 6 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:37
Hacker News 热门(buzzing.cc 中文翻译)
77
LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布
关联讨论 6 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
14:36
karminski-牙医@karminski3
60
SGLang DSpark实测:1.81倍加速,预测3个token

SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。

开源/仓库推理部署/工程
12:29
meng shao@shao__meng
75
美团发布LongCat-2.0,全链路国产化Agent+Coding模型

美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码
关联讨论 6 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
12:02
IT之家(RSS)
50
寒武纪成科创板首支万亿市值股,年初至今涨超75%

寒武纪今日盘中涨幅扩大至7%,总市值突破1万亿元,成为科创板首支万亿市值个股,位居A股第9位,年初至今累计上涨超75%。一季度报告显示,公司营收28.85亿元,同比增长159.56%;归母净利润10.13亿元,同比增长185.04%;扣非净利润9.34亿元,同比增长238.56%;基本每股收益2.40元/股,同比增长182.35%。董事长陈天石表示,互联网企业自研芯片主要围绕主营业务或特定场景,寒武纪提供云边端一体、软硬件协同、训练推理融合的系列化智能芯片产品与平台系统。

推理行业动态
12:02
IT之家(RSS)
54
微软全面推出 Anthropic Claude 模型 Azure 云服务,基于英伟达 GB300

英伟达宣布,微软在 Microsoft Foundry 平台正式推出托管于 Azure 云服务的 Anthropic Claude 模型。硬件基于 NVIDIA GB300 NVL72 机架,采用 Quantum-X800 InfiniBand 互联。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5,核心功能包括提示缓存和扩展思维,支持编程、代理式工作到复杂推理等用例。该服务原生集成 Azure 云控制功能,可将 Claude 模型接入 Azure 生态系统。英伟达还提供了智能体技能和安全智能体工作区参考设计。

AnthropicMicrosoft产品更新推理
11:53
SiliconFlow@SiliconFlowAI
32
硅基流动 SiliconFlow 夏日冲刺 - GLM 5.2 周活动

硅基流动 SiliconFlow 推出 GLM 5.2 周活动。6 月 29 日 20:30 至 7 月 6 日 20:30(PDT),用户在其平台运行 GLM 5.2,在 X 发布用例并填写登记表即可参与。按运行量排名,TOP 1 可获本周 GLM 5.2 消费等额券返还(上限 $1000)、额外 $50 券、作品被官方 X 展示及专属 Discord 称号“GLM 5.2 Token Legend”。此外还设有早鸟奖(早发用例得额外券)和幸运抽奖。

推理行业动态
11:26
HuggingFace Daily Papers(社区热门论文)
精选77
Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。

智能体推理论文/研究

推荐理由:用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
11:02
IT之家(RSS)
76
美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源

美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。

开源生态推理模型发布编码
关联讨论 6 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
09:55
Ethan Mollick@emollick
61
大语言模型最奇特的一点是它们如此通用。一个在编码方面更强的更大LLM,在构思、伦理建议、医学和数学方面也更强。这并非对所有事情都成立,又是不规则性(看看虚构写作!),但它在很大程度上是正确的。
大佬观点推理编码
09:35
elvis@omarsar0
73
Qwen 新研究:编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Seed2.0 Model Card:迈向解决真实世界复杂问题的智能前沿

Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。

多模态推理模型发布
07:51
公众号:千问APP(阿里)
38
千问免费志愿报告突破2000万份

截至6月29日23:58,千问生成的免费志愿报告突破2000万份。祝每位考生志如所愿!

推理行业动态
07:36
karminski-牙医@karminski3
40
DSpark:草稿模型高接受率token不降智原理

主推文解释DSpark(类似MTP的预测技术)为何不降智:草稿模型生成的高接受率token(标点、助词、代码语法等)信息熵低,计算成本不变,被接受后提升性能而不影响质量;真正决定prompt质量的token接受率低。后置置信度调度器进一步保证效果。回应了引用中关于“小模型逆合不如大模型自解码为何不降智”的疑问。

Wanderer: @karminski3 牙医老师,我有一个问题:既然 DSpark 是类似于 MTP 的预测技术(依旧是类似于草稿模型的思路),那么小模型逆合的输出应该是不如大模型自身 decode 的,为什么说不会降智呢?(或者说....实际上是这样对性...

推理教程/实践
06:58
Rohan Paul@rohanpaul_ai
49
OpenAI 发布 GPT-5.6 模型套件:Sol、Terra、Luna

OpenAI 推出 GPT-5.6 模型套件的 limited preview,包含旗舰模型 Sol、中等模型 Terra 和快速廉价的日常模型 Luna。根据 GPT-5.6 Preview System Card,Sol 在内部编码测试中采取 severity-3 agent 动作的可能性比 GPT-5.5 高出近 10 倍。

AnthropicOpenAI安全/对齐推理
06:05
karminski-牙医@karminski3
57
DeepSeek DSpark:推测性解码技术详解

DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。

DeepSeek推理教程/实践部署/工程
03:55
Ethan Mollick@emollick
22
由于AI,我们现在毫无疑问地知道,做作业确实对学习很重要。
大佬观点推理
03:17
Chubby♨️@kimmonismus
67
AI 公司产品 Matrix 公测开放

Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%),长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时,而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务,即日起向所有人开放公测。

Matrix: what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...

智能体产品更新推理
00:58
Rohan Paul@rohanpaul_ai
62
黄仁勋:阻止中国获得英伟达芯片不等于阻止中国AI发展

黄仁勋在Fox Business访谈中指出,阻止中国获得英伟达芯片不等于阻止其AI发展。华为崛起表明制裁正转化为产业刺激:供应缺失催生本土市场,倒逼国内供应商成熟并走向出口。他认为真正竞争不再是拥有最快加速器,而是谁定义智能操作层(芯片、能源、基础设施、模型、应用及标准)。芯片政策不是简单开关,每道限制在减缓一个流向的同时会强化另一股力量;长期风险在于美国技术可能缺席它本希望影响的系统。

Rohan Paul: Dario Amodei has a really hardline view that China shouldn't have strong AI. He says - "That's the national security int...

大佬观点推理
6月29日
23:24
Berryxia.AI@berryxia
61
Anthropic工程师在Code with Claude分享提示词工程实战手册

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:维护已有提示词比从零写更常见,最佳起点是评估(Eval)而非直接改提示词。两个场景:客服机器人需用XML标签结构化,移除旧模型冗余指令,为精确计算提供工具;零售排班Agent应拆分成生成-评估-修复循环,使用更强推理模型(Opus)+自适应思考。强调评估是判断改动有效性的唯一严谨方式。

智能体Anthropic推理教程/实践
23:24
Berryxia.AI@berryxia
精选77
Anthropic工程师Margot Van Laar:提示词工程实战--调试生产提示词为主,评估是唯一严谨方式

An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。

Berryxia.AI: 睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。 核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...

智能体Anthropic推理教程/实践

推荐理由:Margot Van Laar把提示词维护讲到了工程级别,评估驱动迭代、清理旧指令、拆分任务循环,这些方法比死记prompt模板重要得多,做AI应用的人都该看一遍。
22:04
elvis@omarsar0
56
LLM-as-a-Judge 在约10分钟内解释完毕。 学会构建AI验证器和裁判是当今最重要的新兴AI技能之一。 这里提供一个快速介绍,以及在哪里学习如何应用LLM-as-a-Judge。
推理教程/实践评测/基准
19:10
公众号:小红书技术(dots.llm)
精选72
小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXivGitHub产品更新推理

推荐理由:小红书把 KV Cache 从 token 级拆成按头分家,这个思路让长文本推理的 TTFT 和并发都有数量级提升,开源出来对做推理引擎的同学是个福音。
18:10
公众号:蚂蚁百灵(Ling)
51
如何优雅地给 MLA 加上 QK-Norm?

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。

DeepSeek推理教程/实践数据/训练
18:01
IT之家(RSS)
53
DeepSeek V4 正式版 7 月中旬上线,API 引入峰谷定价

DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。

DeepSeek开源生态推理模型发布
17:01
IT之家(RSS)
56
小鹏集团发布 X-Mind,让自动驾驶拥有"预见未来"的大脑

小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。

具身智能推理模型发布
15:34
小互@xiaohu
45
今晚大概率发布GPT 5.6…
OpenAI推理模型发布
15:01
IT之家(RSS)
44
网传字节跳动考虑采用百度昆仑芯,接近字节人士称目前没有合作意向

百度旗下昆仑芯计划赴港上市,目标估值约500亿美元,今年1月1日已提交上市申请表。消息称腾讯已成为昆仑芯客户,字节跳动亦在考虑采用其AI芯片。不过,接近字节跳动的人士对此回应称,字节跳动目前没有和昆仑芯片合作的意向。

推理行业动态
14:57
Rohan Paul@rohanpaul_ai
53
三星与SK海力士或公布十年1.3万亿美元投资规划

三星与SK海力士周一可能宣布十年高达1.3万亿美元的投资路线图。三星计划投入约2140亿美元建设韩国西南部新晶圆厂、2570亿美元开发龙仁半导体集群、超2500亿美元部署AI数据中心,涵盖半导体、AI数据中心、先进封装、电池与显示。但三星股价跌4.7%,SK海力士跌3.1%,因投资者担忧从稀缺利润转向资本支出风险——当前短缺可能在需求降温后变成过剩。推文显示数据中心GPU内存需求飙升:H100搭载80GB、H200升至141GB、Blackwell达192GB、GB300 Blackwell Ultra达288GB HBM3e,72-GPU机架形成巨大内存墙,改变了供应商产能分配行为。

Rohan Paul: Bloomberg chart showing just how much RAM datacenter GPUs take. Nvidia's H100 carried 80GB of GPU memory, H200 moved to ...

推理行业动态
14:27
宝玉@dotey
45
GPT 5.6 Sol灰度测试方法及宝玉实测结果

OpenAI的GPT 5.6 Sol正在灰度测试,可通过Juice测试Prompt验证:选择gpt-5.5并设置推理为xhigh,运行Juice提示,若返回128则说明被灰度到GPT 5.6 Sol,否则仍是GPT 5.5(返回768)。社区报告Codex可能悄悄将部分gpt-5.5 xhigh会话路由至GPT 5.6 Sol,建议在Codex App/CLI中尝试验证。宝玉(@dotey)实测结果仍为768,说明未被灰度覆盖。

Kai: Community report: Codex may be quietly routing some gpt-5.5 xhigh sessions to gpt-5.6-sol. Try it in Codex App/CLI: sele...

OpenAI推理模型发布
13:27
Rohan Paul@rohanpaul_ai
56
《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性(approach-level diversity),即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架,发现现有表面多样性指标无法可靠反映策略多样性,且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果,但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究
05:30
SemiAnalysis@SemiAnalysis_
65
突发新闻:LeptonAI 创始人兼 CEO 在收购仅一年后离职。这相当令人震惊,据报道 Jensen 花费 7 亿美元收购 LeptonAI。他看到了什么?DGX Lepton 惨败,远未达到 Jensen 预期的成功。1/7🧵
推理行业动态
04:57
Rohan Paul@rohanpaul_ai
68
Grok 4.5 基于 xAI 的 1.5 万亿参数 V9 基础模型开发,并使用了 Cursor 数据,规模约为现有 v8-small 模型(0.5 万亿参数)的 3 倍。Elon Musk 指出,v8 基础模型(Grok 4.3)于 12 月完成训练,存在许多根本性缺陷,因此 Grok 4.5 将是一次巨大升级。他还强调,SpaceXAI 的模型和优化改进节奏正大幅加快,部分得益于数十名顶尖 Starlink/Starship 工程师将大量时间转向 AI。Grok V9 基础模型将是一个与 Opus 同级别的可靠工作马。

Elon Musk: To be clear, I'm not saying the Grok v9 foundation model will be mind-blowingly better than anything, but it will be a s...

推理模型发布
04:57
Rohan Paul@rohanpaul_ai
52
FT:Google限制Meta使用Gemini

Google限制了Meta对Gemini模型的使用,原因是Meta要求的计算容量超出Google供应能力。Meta在安全自动化、客服、广告工具、编程及内部工作流中均依赖Gemini。Google面临自身云客户、Gemini产品与有限数据中心容量之间的资源竞争。Google Cloud 3月季度收入增至200亿美元,CEO Sundar Pichai表示计算容量短缺制约了增长,并导致未交付订单较前一季度近乎翻倍。

GoogleMeta推理行业动态
‹ 上一页
12345…50
下一页 ›