全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

6月19日周五

18:50🚨 AI News | TestingCatalog34ClickUp Brain 将推上下文压缩功能

17:59AYi48Aether AI 首轮融资，因果大模型第四代获资本下注

09:48Berryxia.AI33GLM-5.2 达到 Opus 4.6 水平

09:47HuggingFace Daily Papers（社区热门论文）51SEVRA：面向预算感知推理的选择性验证服务层控制器

08:54Ethan Mollick43LLM时代关键：GPT-3.5与微软未关闭Bing

08:00HuggingFace Daily Papers（社区热门论文）46CalVerT：带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

07:54Ethan Mollick67Ethan Mollick 称赞 AA-Briefcase 为真实知识工作优质基准

07:47HuggingFace Daily Papers（社区热门论文）51REVES：基于修订与验证的测试时扩展训练框架

07:24Artificial Analysis55AA-Briefcase 基准发布：评估模型长期知识工作智能体能力

05:53Greg Brockman28推理范式解锁人类医学进步

05:49TechCrunch：AI（RSS）64AI推理公司Baseten据报以130亿美元估值融资15亿美元

04:54MarkTechPost（RSS）55Perplexity 推出自改进记忆系统 Brain，构建智能体工作上下文图

04:26Rohan Paul45Yann LeCun：LLM 现实智能受限，因语言只是世界的简化描述

03:49Emad41Elon Musk：中国模型实用性或超基准测试

03:23Artificial Analysis63Wisedocs 推出医学长上下文推理基准 MLCR

02:52Greg Brockman79OpenAI 联合多国医生：GPT-5.5 Instant 健康问答能力追平前沿 Thinking 模型

02:22OpenAI60GPT-5.5 Instant健康问题达前沿思考模型水平

01:51🚨 AI News | TestingCatalog64Perplexity Brain：持续学习内存系统上线

01:47Chubby♨️45GPT-5.6 将于下周四发布

00:55Noam Brown35OpenAI 公开 o1 被质疑，o3 医疗研究力证开放价值

00:51Greg Brockman51OpenAI o3 Deep Research 助解 376 例罕见病，发现 18 种新诊断

00:50🚨 AI News | TestingCatalog45GPT-5.6系列准备发布，Pro版已现测试

00:17AYi74GLM-5.2 发布：开源模型压缩84%至238GB本地运行

6月18日周四

23:21OpenAI46OpenAI o3 研究助解罕见儿科病例

23:21Hacker News 热门（buzzing.cc 中文翻译）52MAME Power Macintosh仿真取得进展：Claude Code协助修复多项Bug

23:05OpenAI：官网动态（RSS · 排除企业/客户案例）72精选OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

22:52The Decoder：AI News（RSS）78精选Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

22:50elvis40SkillWeaver：组合式技能路由用于LLM智能体

22:44HuggingFace Daily Papers（社区热门论文）50ViGOS：视觉引导的在线自蒸馏框架

21:13OpenBMB51SOAR 2026 挑战赛落幕：单消费级 GPU 推理性能优化

19:44HuggingFace Daily Papers（社区热门论文）48EfficientRollout：面向RL推理生成的自推测解码框架

17:17MarkTechPost（RSS）41KV缓存压缩竞赛：TurboQuant vs OSCAR vs EpiCache

15:20The Decoder：AI News（RSS）75Gemini 联合负责人 Noam Shazeer 加入 OpenAI

14:45Hacker News 热门（buzzing.cc 中文翻译）68本地版 Qwen 并不是比 Opus 差，它只是另一种工具

13:44Berryxia.AI55Vivek Nair：AI让"假研究"更舒适

11:19Ant Ling50蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署

11:14IT之家（RSS）47华为昇腾 0 Day 支持智谱 GLM-5.2 模型，提供全面推理优化

10:15AYi60UCSD教授黄碧薇创办Aether AI完成2000万美元融资，押注因果世界模型

09:20Rohan Paul67LoopCoder-v2：仅循环一次即可高效利用测试时计算

08:43Berryxia.AI48Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月19日

18:50

🚨 AI News | TestingCatalog@testingcatalog

34

ClickUp Brain 将推上下文压缩功能

ClickUp 正在为 Brain 开发上下文压缩功能。该功能可在后台压缩整个工作空间（含文档、任务和历史），使 Brain 能像深度研究智能体一样推理多年材料，响应仍保持在秒级。例如，指向多年审计时，Brain 可自动追踪相关政策变更、提取支持文档并生成时间线，无需手动搜索存档。

产品更新推理

17:59

AYi@AYi_AInotes

48

Aether AI 首轮融资，因果大模型第四代获资本下注

UCSD 黄碧薇教授将近 30 年 AI 分为四代：相关性小模型、因果小模型、相关性大模型（LLM）、因果大模型，认为我们正站在第四代门口。她深耕因果 AI 12 年，是 causal-learn 作者、Apple Scholar 入选者。其创立的 Aether AI 今日官宣完成首轮融资，被解读为资本开始为下一代 AI 范式（因果大模型）下注，而非继续堆参数、拼体量的“相扑式”竞争。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

推理行业动态

09:48

Berryxia.AI@berryxia

33

GLM-5.2 这次真的有 Opus 4.6 的水平了，牛逼~~

大佬观点推理

09:47

HuggingFace Daily Papers（社区热门论文）

51

SEVRA：面向预算感知推理的选择性验证服务层控制器

SEVRA是一种服务层控制器，使用冻结的Qwen3-4B求解器，通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上，选择性验证达76.3%准确率，高于始终验证的75.5%，后生成token减少26.8%，有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上，选择性策略仅验证3.0%样本，准确率从93.4%提升至94.5%，验证token减少91.2%。部署规则：先调整初始预算，再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。

推理论文/研究

08:54

Ethan Mollick@emollick

43

LLM时代的关键时刻之一，与GPT-3.5以及微软在@kevinroose纽约时报文章后没有关闭Bing/Sydney/GPT-4的决定相提并论。

roon: imo it is crazy that openai, years into the heated AGI race, released o1 and described in quite a bit of detail the prin...

OpenAI 大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

46

CalVerT：带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整，导致过早给出自信但无支撑的回答，或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数，提供更完整的状态空间视图。在四个QA基准上，无需训练即可提升F1，既触发对过度依赖参数知识的检索，又减少冗余检索。经强化学习训练后，添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究

07:54

Ethan Mollick@emollick

67

Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准，未饱和且含私有保留测试，同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布，测试模型在多周、多任务项目中的能力，输入含数万条 Slack 消息和数千封邮件。模型排名：Claude Fable 5（已不可用）以 1587 Elo 居首，Claude Opus 4.8（1356）第二，GLM-5.2 max（1266）第三。结果凸显难度：最佳模型仅 3% 任务满足全部标准，31/91 任务无模型超过 50%，成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体 Anthropic 推理评测/基准

07:47

HuggingFace Daily Papers（社区热门论文）

51

REVES：基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架，通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示，聚焦于答案变换与错误识别，相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上，使用公开测试用例作为反馈，较RL基线提升+6.5点，较标准多轮训练提升+4.0点。在circle packing任务上，仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

arXiv GitHub 推理数据/训练

07:24

Artificial Analysis@ArtificialAnlys

55

AA-Briefcase 基准发布：评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase，用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景（每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文）及一个公开演示场景。评测结果：Claude Fable 5 以 Elo 1587 领先，其次为 Claude Opus 4.8（1356）、Opus 4.7 及智谱 GLM 5.2（max，1266）。成本方面，Claude Fable 5 平均每任务 $31，Opus 4.8 为 $10.40，GPT-5.5 (xhigh) 为 $3.68，GLM 5.2 (max) 为 $2.40，DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准，31/91 个任务无模型得分超 50%，显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体 Anthropic Hugging Face 推理

05:53

Greg Brockman@gdb

28

推理范式正在解锁人类医学进步

Noam Brown: When we announced @OpenAI o1 some researchers from other labs told me we made a strategic mistake and should have kept i...

OpenAI 大佬观点推理

05:49

TechCrunch：AI（RSS）

64

AI推理公司Baseten据报以130亿美元估值融资15亿美元

AI推理公司Baseten接近完成15亿美元融资，估值130亿美元，据《华尔街日报》报道。本轮为分价轮，部分投资者以130亿美元估值进入，部分以110亿美元。交易由Spark Capital、Sands Capital、Altimeter Capital和Wellington Management联合领投。五个月前该公司刚完成3亿美元E轮融资（估值50亿美元），再之前九个月完成1.5亿美元D轮。Baseten成立于2019年，致力于快速推理并通过路由请求至最优低成本开源模型来控制成本，受益于“推理淘金热”。

推理行业动态

04:54

MarkTechPost（RSS）

55

Perplexity 推出自改进记忆系统 Brain，构建智能体工作上下文图

Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图（LLM wiki），记录代理完成的工作、成功、失败及用户修正，并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升：答案正确性 +25%、召回 +16%、成本 -13%（基于 Perplexity 内部测试）。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。

智能体产品更新推理

04:26

Rohan Paul@rohanpaul_ai

45

Yann LeCun：LLM 现实智能受限，因语言只是世界的简化描述

Yann LeCun 在 Bloomberg 采访中指出，LLM 只能处理离散符号序列，而语言是对世界的近似简化描述。互联网公开文本约 20 万亿词（30 万亿 token），而一个 4 岁孩子通过视觉在 4 年内就能看到同等数据量——文本则需要 40 万年阅读。感官输入提供远多于语言的密集反馈，文本剥离了大部分真实世界体验。这解释了 LLM 能流畅谈论物理却缺乏对易碎玻璃的直观感受，也呼应了 Moravec 悖论：机器难以掌握婴儿通过身体习得的常识。

大佬观点推理现象/趋势

03:49

Emad@EMostaque

41

Elon Musk 在回应中表示，中国模型在基准测试上或达前沿水平，但按真正有用性衡量，即使 Q1 表现也会令人印象深刻。他指出 Anthropic 正确聚焦于最大化有用智能，该能力不体现在基准测试但直接反映在收入中。Emad Mostaque 补充认为中国实验室在实用性反馈循环和 AI 采用率上比美国更具优势，中国更强调实用性高于一切。

Elon Musk: @jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...

大佬观点推理

03:23

Artificial Analysis@ArtificialAnlys

63

Wisedocs 推出医学长上下文推理基准 MLCR

Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准，测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题，横跨 6 个难度等级，另设私有保留集，涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。

Wisedocs: Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...

开源/仓库推理评测/基准

02:52

Greg Brockman@gdb

79

OpenAI 与全球 60 个国家、49 种语言、26 个专科的数百名医生合作，通过医生主导的评估大幅提升了 GPT-5.5 Instant 在健康相关问题的智能水平，现已能与公司前沿 Thinking 模型（推理模型）相当。该模型每周为超过 2.3 亿 ChatGPT 用户服务，能更好识别紧急医疗需求、询问相关上下文、解释不确定性并简化复杂信息。由于面向所有 ChatGPT 免费用户开放，这些改进可惠及更多人。

OpenAI: GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...

OpenAI 产品更新推理

关联讨论 3 条X：Rohan Paul (@rohanpaul_ai)The Decoder：AI News（RSS）OpenAI：官网动态（RSS · 排除企业/客户案例）

02:22

OpenAI@OpenAI

60

GPT-5.5 Instant健康问题达前沿思考模型水平

GPT-5.5 Instant在健康相关问题上的表现已与OpenAI的前沿思考模型持平。每周超过2.3亿用户向ChatGPT咨询健康问题，GPT-5.5 Instant能更准确地识别需紧急护理的情况、主动询问相关背景、解释不确定性并简化复杂信息。该模型已向ChatGPT所有免费用户开放。医生主导的评估对这些重大智能提升至关重要。

OpenAI 产品更新推理

01:51

🚨 AI News | TestingCatalog@testingcatalog

64

Perplexity 为 Computer 推出 Brain 功能，一个持续学习的内存系统，能自动构建底层上下文图。该功能让每项任务从一开始就携带项目、决策和来源的完整上下文，不再从零开始。在需要过往上下文的任务上，Brain 使答案正确性提升 25%，召回率提升 16%，每任务运行成本降低 13%。目前已作为研究预览向所有 Perplexity Max 订阅者开放。

Perplexity: With Brain, Computer starts each task with full context of your projects, decisions, and sources instead of from scratch...

产品更新推理搜索

01:47

Chubby♨️@kimmonismus

45

不错，看来下周四将有大动作：GPT-5.6 即将发布

leo 🐾: If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...

OpenAI 推理模型发布

00:55

Noam Brown@polynoamial

35

Noam Brown 发文称，OpenAI 公开 o1 后，有其他实验室研究者认为这是战略失误，应保密以拉开差距。但他引用的最新研究让他确信公开正确：OpenAI 与波士顿儿童医院、哈佛合作，在 NEJM AI 发表研究，展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例，为等待多年的家庭找到答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理论文/研究

00:51

Greg Brockman@gdb

51

OpenAI 与波士顿儿童医院、哈佛大学合作，在 NEJM AI 发表研究，使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例，帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病，在她 28 岁生日前不久得到确诊，为等待多年的家庭提供了答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理搜索论文/研究

00:50

🚨 AI News | TestingCatalog@testingcatalog

45

OPENAI 🔥：GPT-5.6 模型系列正在为即将到来的发布做准备，因为 GPT-5.6-Pro 已在测试中被发现。很快 👀

Chetaslua: 🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...

OpenAI 推理模型发布

00:17

AYi@AYi_AInotes

74

GLM-5.2 发布开源权重，MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB，可在 256GB Mac 或同档硬件本地运行，保留 82% 性能。拥有 1M 上下文窗口，编码和智能体任务显著提升。提供两种推理力度：GLM-5.2 （max）极限推理，GLM-5.2 （high）平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face 开源生态推理模型发布

6月18日

23:21

OpenAI@OpenAI

46

与波士顿儿童医院和哈佛的研究人员合作，我们在NEJM AI上发表了一项研究，展示了o3 Deep Research如何帮助临床医生重新审视此前未解决的罕见儿科疾病案例，并为等待多年的家庭找到答案。

OpenAI 推理论文/研究

23:21

Hacker News 热门（buzzing.cc 中文翻译）

52

MAME Power Macintosh仿真取得进展：Claude Code协助修复多项Bug

开发者使用Claude Code控制并调试MAME的Power Macintosh仿真。Claude通过生成Lua脚本和修改日志，发现了6522 VIA仿真故障、PowerPC DRC缓存值未覆盖实际状态的反模式、PowerPC 601的两处Bug，以及原子加载/存储指令模拟错误。修复后，Pippin播放启动音并显示Logo、鼠标可移动；PowerMac 7200显示启动磁盘搜索画面；PowerMac 6100成功启动System 7.5.3和7.5.5。此外，GPT 5.5 Pro（经Codex）在固件逆向中能快速给出内存映射和子程序猜测。

Anthropic OpenAI 大佬观点推理

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

22:52

The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

智能体 GitHub Google OpenAI

推荐理由：两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。

22:50

elvis@omarsar0

40

SkillWeaver：组合式技能路由用于LLM智能体

传统LLM智能体技能路由仅从工具库选取单一技能，难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”，将复杂查询分解为原子子任务，为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准，含300个组合查询和2,209个真实技能，直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。

智能体推理论文/研究

22:44

HuggingFace Daily Papers（社区热门论文）

50

ViGOS：视觉引导的在线自蒸馏框架

针对在线自蒸馏（OPSD）直接扩展到多模态大语言模型（MLLM）时产生的捷径（特权目标依赖文本参考而非图像），ViGOS提出视觉引导的OPSD框架：学生先写出视觉描述再推理。有效rollout中，纯图像感知教师监督描述，特权推理教师监督推理和答案；无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势，并改善了图像依赖行为。

多模态推理论文/研究

21:13

OpenBMB@OpenBMB

51

SOAR 2026 挑战赛落幕：单消费级 GPU 推理性能优化

由 OpenBMB、SGLang 和 NVIDIA 联合主办的 SOAR 2026 挑战赛结束，旨在单消费级 GPU 上最大化 MiniCPM-SALA（稀疏+线性混合注意力模型）推理性能。最终 326 支队伍注册，4300+ 次提交，69 队入围排行榜。冠军团队实现整体 6.33 倍加速，单请求推理峰值达 9.72 倍，方案结合 NVFP4 量化、FlashInfer plan-cache 优化、自定义 Triton 内核、EAGLE-3 推测解码及运行时感知调度。低比特量化、推测解码、稀疏注意力和阶段感知调度被视为下一代高效推理核心支柱。

开源生态推理行业动态

19:44

HuggingFace Daily Papers（社区热门论文）

48

EfficientRollout：面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式，但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型，无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架：从目标模型量化出草稿模型，无需额外预训练或在线适应；同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线，该框架将推理生成延迟降低最高19.6%，端到端延迟降低12.7%，且不损失最终模型质量。

推理数据/训练论文/研究

17:17

MarkTechPost（RSS）

41

KV缓存压缩竞赛：TurboQuant vs OSCAR vs EpiCache

长上下文大语言模型的KV缓存随序列和批次线性增长，成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化，在3–4 bit位宽实现近乎无损，4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准，INT2（2.28有效比特）下精度不崩溃，集成SGLang，Qwen3-32B上仅差0.02分，GLM-4.7-FP8匹配BF16，解码速度提升约3倍，KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣，具有理论互补潜力。

Google 推理评测/基准部署/工程

15:20

The Decoder：AI News（RSS）

75

Gemini 联合负责人 Noam Shazeer 加入 OpenAI

"Attention Is All You Need"论文合著者 Noam Shazeer 离开 Google 加入 OpenAI。他此前担任 Google 工程副总裁，与 Jeff Dean、Oriol Vinyals 共同领导 Gemini 模型。Shazeer 于 2000 年加入 Google，2021 年离职创办 AI 聊天机器人初创公司 Character.AI，2024 年作为价值 27 亿美元交易的一部分返回 Google，负责改进公司至今未追上 OpenAI 和 Anthropic 的推理模型。此次跳槽是今年最重大的 AI 人才变动之一。

Google OpenAI 推理行业动态

关联讨论 8 条IT之家（RSS）X：Kim (@kimmonismus)X：Jason Liu (@jxnlco)X：Yuchen Jin (@Yuchenj_UW)Hacker News 热门（buzzing.cc 中文翻译）X：歸藏 (@op7418)X：Sam Altman (@sama)TechCrunch：AI（RSS）

14:45

Hacker News 热门（buzzing.cc 中文翻译）

68

本地版 Qwen 并不是比 Opus 差，它只是另一种工具

一位小型软件公司创始人基于自身业务和开源项目分享，本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值，使用 RTX 6000 Pro 显卡运行，显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉，无法无人监督使用，作者认为不应过度吹捧替代云端 Opus，而是把它看作另一种工具。

开源生态推理现象/趋势部署/工程

13:44

Berryxia.AI@berryxia

55

Vivek Nair：AI让"假研究"更舒适

Vivek Nair的文章（520万阅读）指出，2026年AI让研究变成“看起来像在研究”而非真正研究。算法选论文、AI总结摘要、生成代码，使“SFT型”（监督微调）研究异常舒适，但判断力无法被替代。真正的原创研究是“RL型”：从目标出发推理。Vivek开出药方：自己选题、读原文、写下来、盯着失败看。大多数人阅读后继续刷下一条。

Berryxia.AI: http://x.com/i/article/2067469942132490241

推理现象/趋势

11:19

Ant Ling@AntLingAGI

50

蚂蚁百灵与 SGLang 团队合作，将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括：升级 Fused MoE V2 内核（token 和累加器驻留 VMEM，双缓冲专家权重，隐藏路由与预取）；混合内存池（10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态）；GLA 线性注意力逐块并行预填充；单控制器 DP 保持分组 RMSNorm 芯片本地化。效果：MoE 预填充延迟降低 53%；在 16 芯片 TPU v7x 切片上，解码吞吐量比同类 H200 集群最高提升 1.77 倍。

LMSYS Org: 🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...

推理论文/研究部署/工程

11:14

IT之家（RSS）

47

华为昇腾 0 Day 支持智谱 GLM-5.2 模型，提供全面推理优化

昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署，围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一；专为长程任务设计，支持 1M 上下文，表现介于 Claude Opus 4.7 与 4.8 之间，为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配，单位 token FLOPs 降至 2.9 倍。

推理行业动态部署/工程

10:15

AYi@AYi_AInotes

60

UCSD教授黄碧薇创办Aether AI完成2000万美元融资，押注因果世界模型

UCSD教授黄碧薇（@huang_biwei）创办的 Aether AI 宣布完成 2000 万美元首轮融资，目标是构建因果世界模型。她认为当前视频生成、VLA 等 AI 仅学习像素层面的统计相关性，无法理解背后因果，并提出第四代 AI 范式——因果大模型，让模型从普通视频中自动抽取出人类写不出的物理规律，甚至发现未知新物理。黄碧薇深耕因果 AI 12 年，是 causal-learn 作者，入选 Apple Scholar。本轮融资被视为跳出“堆参数、比算力”的 scaling 路线，转向下一代 AI 范式的关键信号。

Biwei Huang: I've spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of ...

推理行业动态

09:20

Rohan Paul@rohanpaul_ai

67

LoopCoder-v2：仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构，使循环可并行运行并共享内存。他们训练了7B参数的代码模型（1/2/3/4次循环），在18T tokens上预训练并微调，测试代码编写、推理、软件工程和工具使用任务。主要结果：2次循环效果最好，将SWE-bench Verified从43.0提升至64.4，而3次和4次循环性能下降。内部分析显示，第二次循环进行了有意义的精炼（改变隐藏状态、注意力模式和预测），后续循环则主要添加重复和噪声。结论：增加一次隐藏循环可大幅提升性能，但继续增加并非自动有益。

arXiv 推理编码论文/研究

08:43

Berryxia.AI@berryxia

48

Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

谷歌即将发布 Gemini 3.5 Pro，已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro，预计视觉能力更强、多模态推理更出色，SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制，定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

Google 多模态推理行业动态

1…7 8910 11…50