AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
今天7月3日 周五
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
05:08Apple Machine Learning Research(RSS)52Conformal Thinking:计算预算下推理的风险控制框架
05:08Apple Machine Learning Research(RSS)51残差上下文扩散语言模型(Residual Context Diffusion Language Models)
04:41François Chollet43AI汇聚于直觉引导的符号建模
04:35Ethan Mollick77精选关于Mythos和网络安全的讨论并非炒作
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
01:08Apple Machine Learning Research(RSS)46通过可追踪轨迹控制学习结构化推理
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
01:04Ethan Mollick52持续学习是AI最大障碍,EBR-bench无改进
00:34Epoch AI54EBR-bench:即时学习能力基准测试
00:09elvis35构建LLM验证器和裁判成高需求技能
7月2日周四
21:14Hacker News 热门(buzzing.cc 中文翻译)57"定理经济"的衰落
17:31HuggingFace Daily Papers(社区热门论文)49图原生强化学习通过概念重组实现可追溯的科学假设生成
15:28HuggingFace Daily Papers(社区热门论文)39ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由
15:28HuggingFace Daily Papers(社区热门论文)54多模态连续推理:非对称互变分学习
15:04IT之家(RSS)42阿里云秒悟 Meoo 上线夜间计划,每晚 22:00 后用 Qwen3.7-Max AI 工具最低 2 折
11:28HuggingFace Daily Papers(社区热门论文)51Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架
08:10Hao AI Lab51DSpark 与 JetSpec 对比:两种面向因果一致性的推测解码技术
07:37SemiAnalysis57DeepSeek V4 在 InferenceX 部署与性能探讨
07:34Rohan Paul53Fable 5 在 HTML5 物理竞赛中表现优异,但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍
07:22Chubby♨️44Fable-5 RLI得分16.10%,GPT-5.6下周发布传闻
05:29Ethan Mollick47OpenAI从GPT-5教训:预分类路由易致糟糕结果
05:03Rohan Paul42Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解
04:59Ethan Mollick47Ethan Mollick:预分类路由易低估智能价值
04:37elvis50Fable 5热度消退预测:组合AI模型更优
04:36SemiAnalysis52SemiAnalysis:推理不断被切分,每次切分都让智能更便宜
7月1日周三
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
19:40The Decoder:AI News(RSS)58Claude Sonnet 5延续Anthropic隐藏涨价的模式
18:51Chubby♨️41OpenAI分拆团队内存效率架构突破即将公布
18:22X.PIN63美团发布1.6万亿参数大模型LongCat-2.0,完全基于国产AI处理器集群
18:10The Decoder:AI News(RSS)70精选OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略
18:00Artificial Analysis47Etched 出隐身模式,首套推断系统今夏发货
16:32MarkTechPost(RSS)73精选NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型
15:32Orange AI54Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平
14:28HuggingFace Daily Papers(社区热门论文)40多块扩散语言模型
14:03IT之家(RSS)49英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍
13:51向阳乔木66Grant Sanderson与Dwarkesh Patel探讨AI数学突破:连接闪电与建造山峰
13:51向阳乔木34Grant Sanderson访谈:AI跨领域连接与创造力局限
12:21向阳乔木61美团发布并开源LongCat-2.0万亿参数MoE大模型
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
05:08
Apple Machine Learning Research(RSS)
52
Conformal Thinking:计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展,准确率随 token 预算增加而提升,但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题:在最小化计算量的同时限制错误率。该框架引入上阈值(模型足够自信时停止推理,承担输出错误的风险)和下阈值(提前终止无法解决的实例,承担过早停止的风险)。给定目标风险与验证集后,使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明,该方法在遵守用户指定风险目标的同时,通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究
05:08
Apple Machine Learning Research(RSS)
51
残差上下文扩散语言模型(Residual Context Diffusion Language Models)

扩散大语言模型(dLLM)可并行解码多个token,但现有分块式dLLM依赖重新掩码机制,仅保留最置信token而丢弃其余,造成计算浪费。本文提出Residual Context Diffusion(RCD)模块,将丢弃token的表示转化为上下文残差并注入下一次去噪步骤,采用解耦两阶段训练绕过内存瓶颈。在长CoT推理(SDAR)和短CoT指令跟随(LLaDA)模型上验证,标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点,在最具挑战的AIME任务上几乎翻倍基线准确率,等效精度下减少4–5倍去噪步数。

推理论文/研究
04:41
François Chollet@fchollet
43
最终,大部分AI将趋近于直觉引导的符号世界建模,即深度学习引导的程序合成。这是不可避免的。符号建模让系统能够用最少的数据构建一个紧凑、可复用、高度泛化的问题空间心智模型。
大佬观点推理
04:35
Ethan Mollick@emollick
精选77
关于Mythos和网络安全的讨论并非炒作。 (正如任何使用Fable进行自主工作的人可能已经认识到的那样。)

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic安全/对齐推理

推荐理由:AI在安全漏洞发现上第一次展现出规模化能力,6月CVE数直接翻了3.5倍,所有做安全的人今天起都得重新评估自己的攻击面。
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
01:08
Apple Machine Learning Research(RSS)
46
通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
01:04
Ethan Mollick@emollick
52
Ethan Mollick指出,持续学习是AI爆炸式采用的最大障碍,并对递归自我改进有重大影响。只要模型健忘、需人类替其学习,采用速度就受限于人类流程。EpochAI Research为此推出EBR-bench,通过让AI反复玩Earthborne Rangers棋盘游戏来测试其即时学习能力。初步结果显示:AI未能从错误中改进,至今无提升迹象。

Epoch AI: Introducing EBR-bench, our new benchmark to measure on-the-fly learning. AI repeatedly plays a challenging board game ca...

大佬观点推理现象/趋势
00:34
Epoch AI@EpochAIResearch
54
介绍 EBR-bench,我们用于衡量即时学习的新基准。 AI 反复玩一款名为 Earthborne Rangers 的挑战性棋盘游戏,并尝试从错误中学习。迄今为止:没有改进的迹象。
推理论文/研究
00:09
elvis@omarsar0
35
Elvis Saravia(DAIR.AI)指出,调优和构建LLM验证器及裁判(verifiers/judges)正成为高需求技能。他将这些组件用于自己的测试框架(harness),解锁了远超市面现有方案的智能体编码工作流。同时,引用案例显示,Bridgewater利用其金融专业知识,与Tinker API合作微调模型,帮助分析师聚焦关键任务,体现了"专家提升AI,AI赋能专家"的闭环。

Mira Murati: Bridgewater used their unique financial knowledge and partnered with us on @tinkerapi to fine-tune a model that helps th...

大佬观点推理
7月2日
21:14
Hacker News 热门(buzzing.cc 中文翻译)
57
"定理经济"的衰落

数学家 David Bessis 在文中反思,数学的核心产物是清晰与理解,而非定理本身。他用自己的两个未发表定理经历说明,证明定理并非最难,难点在于直觉和概念框架的构建。面对 AI 的快速发展,他感到既兴奋又担忧:AI 可能摧毁数学的“定理经济”,但几乎不触及数学本质——人类的直觉与创造力。他认为公众对数学的误解正在成为学科本身的生存威胁。

DeepMindOpenAI大佬观点开源生态
17:31
HuggingFace Daily Papers(社区热门论文)
49
图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。

arXiv推理数据/训练论文/研究
15:28
HuggingFace Daily Papers(社区热门论文)
39
ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。

推理论文/研究部署/工程
15:28
HuggingFace Daily Papers(社区热门论文)
54
多模态连续推理:非对称互变分学习

多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。

多模态推理论文/研究
15:04
IT之家(RSS)
42
阿里云秒悟 Meoo 上线夜间计划,每晚 22:00 后用 Qwen3.7-Max AI 工具最低 2 折

阿里云为秒悟 Meoo 推出夜间计划,每晚 22:00 至次日 08:00 期间,用户通过 Qoder 或 Meoo 调用 Qwen 3.7-Max 旗舰模型可享 2 折优惠,调用 Qwen 3.7-Plus 模型可享 4 折优惠。活动面向 Meoo Pro 或 Max 套餐用户,系统自动按比例扣减积分,不影响模型质量与响应速度,旨在利用夜间算力资源实现最高 80% 的成本节省。

产品更新推理
11:28
HuggingFace Daily Papers(社区热门论文)
51
Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究
08:10
Hao AI Lab@haoailab
51
DSpark 与 JetSpec 对比:两种面向因果一致性的推测解码技术

DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。

大佬观点推理部署/工程
07:37
SemiAnalysis@SemiAnalysis_
57
本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel,以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。
DeepSeek推理评测/基准部署/工程
07:34
Rohan Paul@rohanpaul_ai
53
Fable 5 在 HTML5 物理竞赛中表现优异,但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍

在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。

atomic.chat: Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...

AnthropicOpenAI推理编码
07:22
Chubby♨️@kimmonismus
44
Fable-5在Remote Labor Index(RLI)取得16.10%分数,领跑公开排行榜。RLI使用240个真实远程工作项目(覆盖23个领域、总价值超14万美元),评审将AI输出与人类交付物对比,判断合理客户是否接受。该成绩被称为"疯狂的跃升",表明AI仍处于指数发展期。与此同时,传闻GPT-5.6将于下周发布,作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Chubby♨️: This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...

推理评测/基准
05:29
Ethan Mollick@emollick
47
Ethan Mollick指出,预分类路由(先判断任务难易再分配模型)看似节省成本/延迟,但实际路由很难,且易低估智能在诸多问题上的价值。OpenAI在GPT-5上已吸取此教训,如今这类思路再次流行。@MParakhin补充:要可靠运行预分类器必须先解决任务本身,唯一正确方式是采用顾问模型(advisory model)方法。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI大佬观点推理
05:03
Rohan Paul@rohanpaul_ai
42
Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解

Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。

Meta推理论文/研究
04:59
Ethan Mollick@emollick
47
Ethan Mollick 指出预分类路由器(pre-classifying routers)会导致糟糕结果,因为路由本身很难,且常低估智能的价值。OpenAI 在 GPT-5 上已吃过亏,如今这类思路又热起来。引用的 @MParakhin 也认为,用预分类器先判断任务是否简单再调用小模型看似省钱省延迟,但可靠执行必须先解决任务本身,唯一可行的是 advisory model approach。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI大佬观点推理
04:37
elvis@omarsar0
50
作者预测Fable 5的兴奋感将迅速消退,并提醒用户注意token限制和功能局限。建议通过组合多个AI模型(如Opus 4.8用于规划、GPT-5.5用于执行)获得相同或更好效果,也可混合前沿开放权重模型。此外,将任务分解为更小子步骤以提升质量的方法常被低估,这正是动态工作流的重要性所在。

elvis: Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...

AnthropicOpenAI大佬观点推理
04:36
SemiAnalysis@SemiAnalysis_
52
SemiAnalysis:推理不断被切分,每次切分都让智能更便宜

SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。

推理现象/趋势部署/工程
7月1日
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
19:40
The Decoder:AI News(RSS)
58
Claude Sonnet 5延续Anthropic隐藏涨价的模式

Claude Sonnet 5在Artificial Analysis评测中以53分(峰值)排名第五,与GPT-5.5 (high)并列。虽输入/输出token价格维持$3/$15不变,但每任务平均成本达$2.29,高于Opus 4.8的$1.97。原因:max设置下输出token消耗比Sonnet 4.6多40%,在agent任务中运行约3倍循环,成本接近翻倍。Anthropic延续了通过新tokenizer增加约30% token消耗的隐藏涨价策略。Sonnet 5在CritPt仅得17%,低于多个更强模型;但Terminal-Bench v2.1、HLE、SciCode分别提升9、10、7分。目前有促销价$2/$10至9月1日,但隐藏成本上涨使其与低价竞品竞争时处于劣势。

Anthropic推理行业动态
18:51
Chubby♨️@kimmonismus
41
@AndrewCurran_ 预测一项重大架构突破即将公布,重点提升内存效率,来自从OpenAI分拆的团队(非SSI)。主推文@Kim 指出,若属实其意义远超普通模型发布--内存效率是长上下文模型、AI智能体和推理成本的核心瓶颈,架构级突破可使长时间跨度AI系统大幅降价并更实用。Andrew被视为最可靠信源之一,Kim认为可能正处于转折点。

Andrew Curran: I'm posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - spe...

OpenAI大佬观点推理
18:22
X.PIN@thexpin
63
美团发布1.6万亿参数大模型LongCat-2.0,完全基于国产AI处理器集群

美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。

推理模型发布部署/工程
18:10
The Decoder:AI News(RSS)
精选70
OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略

OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。

OpenAI推理行业动态

推荐理由:论文意外曝光 GPT-5.6 Pro 将有三个变体,Pro 不再只是一个最强模型,而是让用户按推理需求选版本,这才是匹配 200 美元月费该有的逻辑。
18:00
Artificial Analysis@ArtificialAnlys
47
Etched 宣布走出隐身模式,基于成功的 A0 tapeout 制造出首批机架,已获得超 10 亿美元客户合同并融资 8 亿美元。早期客户测试显示其在推断吞吐量、延迟和能效上达到 SOTA。首批机架将于今夏发货。Artificial Analysis 祝贺并透露将用自研基准 AA-AgentPerf 对系统进行评测,该基准衡量每兆瓦运行功率可同时运行的 agent 数量。

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理部署/工程
16:32
MarkTechPost(RSS)
精选73
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
15:32
Orange AI@oran_ge
54
Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平

Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Anthropic推理编码评测/基准
14:28
HuggingFace Daily Papers(社区热门论文)
40
多块扩散语言模型

MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF

推理数据/训练论文/研究
14:03
IT之家(RSS)
49
英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek推理行业动态部署/工程
13:51
向阳乔木@vista8
66
Grant Sanderson与Dwarkesh Patel探讨AI数学突破:连接闪电与建造山峰

Grant Sanderson(3Blue1Brown)与Dwarkesh Patel对话指出,2024年AI在IMO已达金牌,但组合数学仍卡住。AI数学进展分两类:连接闪电(跨领域连接,如Erdős第1196号问题、单位距离猜想反例)和建造山峰(如伽罗瓦群论,需百年验证)。训练依赖RLVR,但伽罗瓦想法当时被拒,无反馈信号。可验证仅是必要条件,可磨性(并行实例)才是充分条件;电脑操作虽可验证但缺可磨性,进展慢。

大佬观点推理
13:51
向阳乔木@vista8
34
Grant Sanderson访谈:AI跨领域连接与创造力局限

3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点:① 知识跨领域连接在自回归框架中属于低概率事件;② AI 擅长跨领域打通已有知识,但尚无法创造全新思考框架;③ AI 最被低估的优势是并行化,而非智力;④ 数学和代码能被 AI 快速迭代,不仅因为答案可验证,更因为可以容器化、并行磨练。完整访谈见视频链接。

向阳乔木: http://x.com/i/article/2072191016476856320

大佬观点推理
12:21
向阳乔木@vista8
61
美团发布并开源LongCat-2.0万亿参数MoE大模型

美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

开源生态推理教程/实践数据/训练
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
‹ 上一页
123…50
下一页 ›