全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

5月20日周三

07:03SemiAnalysis63AI市场：泡沫还是经济重塑？--产业链瓶颈与前沿议题全解析

06:42karminski-牙医61Gemini-3.5-flash发布！价格直接翻三倍？

05:40Google AI83精选谷歌推出全新AI智能搜索框，支持多模态交互

05:03Artificial Analysis37Cerebras上市，推理性能获权威认可

04:04HuggingFace Daily Papers（社区热门论文）61SCICONVBENCH：面向计算科学任务构型的LLM多轮澄清能力基准

04:04HuggingFace Daily Papers（社区热门论文）68OSCAR：面向2比特KV缓存量化的离线频谱感知协方差旋转

03:01François Chollet62Gemini 3.5 Flash在ARC-AGI测试中表现亮眼

02:59Sundar Pichai34Gemini 3.5 Flash性能表现优异

02:59Hacker News 热门（buzzing.cc 中文翻译）84Gemini 3.5 Flash：前沿智能，即刻行动

02:55AYi57Google掀桌子，AI游戏规则真的变了

02:29Google AI Developers84Gemini 3.5发布：智能与行动结合的新模型家族

02:29Sundar Pichai90Gemini 3.5 Flash发布，性能与速度兼优

02:28向阳乔木62LeCun从Meta离职创业，押注"反LLM"架构方向

02:18Google Blog：AI（RSS）83精选Gemini 3.5：前沿智能与行动能力相结合

02:09Google AI85Gemini 3.5系列发布，强化智能体与编程性能

01:55IT之家（RSS）73谷歌发布 Gemini 3.5 Flash 模型：AI 输出速度 4 倍于 GPT-5.5

01:37Google Gemini79Gemini 3.5 Flash发布，高效处理任务新选择

01:32SemiAnalysis56AMD MI355在GLM5架构上推理成本显著低于NVIDIA B200

5月19日周二

21:01HuggingFace Daily Papers（社区热门论文）53评估交互式AI代理的认知年龄对齐

20:33🚨 AI News | TestingCatalog76精选谷歌I/O大会发布Gemini 3.5 Flash

18:51IT之家（RSS）58搜狐张朝阳：AI 时代科普应注重原理和推导，过度依赖 AI 易致"思维萎缩"

17:51IT之家（RSS）53AMD 苏姿丰谈 AI：在科技行业工作超 30 年，没有比今天更"兴奋"的时刻了

16:00HuggingFace Daily Papers（社区热门论文）65监控内部独白：探测轨迹揭示推理动态

15:51IT之家（RSS）48比利时 Imec 公布 3D CCD 内存架构，结合 DRAM 速度与 NAND 密度提升 AI 推理性能

11:51HuggingFace Daily Papers（社区热门论文）71精选训练后 MoE 可通过自蒸馏跳过一半专家

11:45IT之家（RSS）57消息称 Tenstorrent 吸引英特尔、高通收购意向，估值或超 50 亿美元

10:51HuggingFace Daily Papers（社区热门论文）61SNLP：通过结构化牛顿校正的层并行推理

10:45IT之家（RSS）60马斯克推广 Cursor Composer 2.5 AI 模型，基于 Kimi K2.5 构建

09:45IT之家（RSS）65英伟达宣布向 Anthropic、OpenAI、SpaceXAI、甲骨文交付首批 Vera CPU

08:00HuggingFace Daily Papers（社区热门论文）46重新思考记忆方式：超越终身LLM智能体记忆中的原子事实

08:00HuggingFace Daily Papers（社区热门论文）55从感知到推理：解耦感知与推理以改进视觉-语言模型的后训练

08:00HuggingFace Daily Papers（社区热门论文）61TIDE：基于输入输出感知专家卸载的高效无损混合专家扩散大语言模型推理

08:00HuggingFace Daily Papers（社区热门论文）57LLMEval-Logic：一个经求解器验证的中文逻辑推理LLM评估基准

08:00HuggingFace Daily Papers（社区热门论文）58Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

08:00HuggingFace Daily Papers（社区热门论文）64MOCHA：多目标切比雪夫退火用于智能体技能优化

08:00HuggingFace Daily Papers（社区热门论文）61大型视觉语言模型胸部X光推理视觉归因的再思考

08:00HuggingFace Daily Papers（社区热门论文）69OScaR：面向LLM及其多模态扩展的极致KV缓存压缩框架

06:06Chubby♨️71Composer 2.5发布，性能与效率大幅提升

03:55karminski-牙医54Qwen3.7内测跑分出炉，空间理解与指令遵循大幅提升

03:34Hacker News 热门（buzzing.cc 中文翻译）78精选Qwen 3.7 预览版

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月20日

07:03

SemiAnalysis@SemiAnalysis_

63

AI市场：泡沫还是经济重塑？--产业链瓶颈与前沿议题全解析

本期探讨AI市场究竟是暂时泡沫，还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局，涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争，以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题，并结合宏观趋势、机器人技术和“总Token产量”等指标，对市场热度与潜在风险进行犀利点评。

推理现象/趋势部署/工程

06:42

karminski-牙医@karminski3

61

Gemini-3.5-flash发布！价格直接翻三倍？

在Google I/O大会上，Gemini-3.5-flash模型正式发布，其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示，其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间，但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略，计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价，以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具，定位类似Claude Code中的Sonnet模型，从而构建其开发生态。

Google 推理模型发布编码

05:40

Google AI@GoogleAI

精选83

谷歌推出全新AI智能搜索框，支持多模态交互

谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验，支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话，搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。

Google 产品更新多模态推理

推荐理由：Google搜索史上最大一次交互变革，Gemini 3.5加持的搜索框能理解文本、图片、视频，AI Overviews和对话模式彻底融合，搜索终于变成真正的对话助手。

05:03

Artificial Analysis@ArtificialAnlys

37

祝贺 Cerebras 上周成功上市！ Artificial Analysis 基准测试在 Cerebras 的 S-1 文件中被引用，涉及推理性能。自 2024 年 8 月 Cerebras 无服务器 API 上线以来，我们一直对其进行基准测试。此后，在 Artificial Analysis 基准测试中，Cerebras 在支持的模型上始终提供最快的输出速度。祝贺 @andrewdfeldman 和整个 @cerebras 团队。

推理行业动态

04:04

HuggingFace Daily Papers（社区热门论文）

61

SCICONVBENCH：面向计算科学任务构型的LLM多轮澄清能力基准

本研究推出了SCICONVBENCH，这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域，重点考察模型获取缺失信息（消歧）与识别纠正内部矛盾请求（一致性解决）的能力。研究采用结构化任务本体与量规评估框架，系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明，前沿模型在一致性解决上表现较好，但在流体力学消歧任务中最佳模型仅解决了52.7%的问题，且模型常进行未基于对话的隐式假设与规格修复。

arXiv 推理数据/训练论文/研究

04:04

HuggingFace Daily Papers（社区热门论文）

68

OSCAR：面向2比特KV缓存量化的离线频谱感知协方差旋转

针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题，本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构，推导出固定的旋转矩阵和裁剪阈值，使KV缓存量化与下游注意力计算对齐。实验表明，OSCAR显著提升了量化精度：在Qwen3-4B和Qwen3-8B上，其与BF16的差距分别缩小至3.78和1.42个百分点，而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面，OSCAR将KV缓存内存占用降低约8倍，并将大批次吞吐量提升最高达7倍。

推理论文/研究部署/工程

03:01

François Chollet@fchollet

62

Gemini 【引用 @arcprize】：Gemini 3.5 Flash ARC-AGI（已验证） ARC-AGI-2： - 高配：72.1%，$0.85 - 最低配：8.9%，$0.11 ARC-AGI-1： - 高配：92.5%，$0.42 - 最低配：48.8%，$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5（中配）表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google 多模态推理评测/基准

02:59

Sundar Pichai@sundarpichai

34

主力模型！（希望你喜欢你的第一个 I/O）

Chubby♨️: Insane evals for a Flash model! Gemini 3.5 Flash is really good for its size!

Google 大佬观点推理

02:59

Hacker News 热门（buzzing.cc 中文翻译）

84

Gemini 3.5 Flash：前沿智能，即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型，这是Gemini系列的最新版本，主打“前沿智能，即刻行动”。该模型强调高效的实时响应与处理能力，适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度，显示出开发者对其性能与应用潜力的浓厚兴趣。不过，目前关于该模型在速度、准确率等具体性能指标上的提升幅度，官方尚未提供详细数据。

Google 多模态推理模型发布

02:55

AYi@AYi_AInotes

57

Google掀桌子，AI游戏规则真的变了

Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台，标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈，使24/7自主Agent成为可能；Antigravity则提供桌面端、CLI、SDK等全栈开放底座，目标成为“Agent时代的AWS”。Google将这些能力全量开放，意在降低Agent开发门槛，争夺生态定价权。这宣告了AI行业正从聊天机器人时代，迈入构建数字劳动力生态的新阶段。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

智能体 Google 大佬观点推理

02:29

Google AI Developers@googleaidevs

84

✨ 推出 Gemini 3.5，这是我们最新的模型家族，将前沿智能与行动能力相结合。该系列为智能体模型树立了新标准，它们不仅能推理，更能执行。

智能体 Google 推理模型发布

02:29

Sundar Pichai@sundarpichai

90

刚结束 #GoogleIO 活动，分享今早的一些亮点 🧵 Gemini 3.5 Flash 今日起面向所有用户开放，可在 @antigravity 及我们的产品和 API 中使用。与 3.1 Pro 相比，3.5 Flash 在几乎所有基准测试中表现更优，编程能力大幅提升。它性能可比肩顶尖模型，但速度极快（每秒生成 token 数是其他前沿模型的 4 倍）。从智能水平与输出速度的综合表现来看，它在右上象限独占鳌头。

Google 推理模型发布

02:28

向阳乔木@vista8

62

LeCun从Meta离职创业，押注"反LLM"架构方向

Yann LeCun离职Meta后创办AMI，押注基于世界模型的JEPA架构，与主流LLM不同。他批评LLM虽在语言任务有效，但缺乏预测行动后果和规划能力，无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习，以推动智能泛化。同时，他推进Tapestry项目，通过联邦学习构建去中心化的全球共识模型，应对AI控制集中化问题。

Meta 大佬观点推理

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体 Google 多模态推理

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

02:09

Google AI@GoogleAI

85

三年前，Gemini从理解世界开始。随着Gemini 2，模型学会了思考和推理。去年底，Gemini 3将任何想法变为现实。今天，我们继续这段旅程，推出Gemini 3.5系列，首先发布Gemini 3.5 Flash，为智能体和编程提供前沿性能。

智能体 Google 推理模型发布

01:55

IT之家（RSS）

73

谷歌发布 Gemini 3.5 Flash 模型：AI 输出速度 4 倍于 GPT-5.5

谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代，并实现了每秒289 tokens的输出速度，较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外，谷歌团队使用Antigravity工具，在12小时内启动93个子智能体，生成26亿tokens，成功构建出一个可运行的操作系统核心，展示了模型的强大能力。

Google 推理模型发布

01:37

Google Gemini@GeminiApp

79

Gemini 3.5 Flash现已推出，这是我们迄今为止在快速高效完成任务方面表现最佳的模型。无论您需要处理日常任务还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

Google 推理模型发布

01:32

SemiAnalysis@SemiAnalysis_

56

AMD MI355在GLM5架构上推理成本显著低于NVIDIA B200

最新基准测试显示，在GLM5架构下，AMD MI355单节点FP8推理成本较NVIDIA B200降低了约40%。这一成果建立在SGLang v0.12针对CUDA与ROCm平台进行的非MTP、MTP及投机解码等多维度优化之上，团队认为性能速度是构建核心壁垒的关键。后续重点将是推动MI355X在生产级推理优化（如FP4）及分布式推理领域追赶CUDA的生态与性能，通过多卡协同提升单卡算力效率，从而进一步降低百万Token的推理成本。

推理行业动态部署/工程

5月19日

21:01

HuggingFace Daily Papers（社区热门论文）

53

评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力，但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发，本研究推出ChildAgentEval——首个基于心理测量学的交互式基准，用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段，揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准

20:33

🚨 AI News | TestingCatalog@testingcatalog

精选76

谷歌I/O 🔥：我们今天将迎来 Gemini 3.5 Flash！ &gt； GEMINI &gt； GEMINI &gt； GEMINI &gt； GEM 👀 【引用 @AiBattle_】：Gemini 3.5 Flash 刚刚出现在 Google Cloud 控制台中它来了

AiBattle: Gemini 3.5 Flash just showed up in the Google Cloud Console It's coming

Google 推理模型发布

推荐理由：如果 Cloud Console 截图属实，今天 I/O 上 Gemini 3.5 Flash 就是板上钉钉，它能压到多低延迟比分数更重要，实时应用开发者该盯紧。

18:51

IT之家（RSS）

58

搜狐张朝阳：AI 时代科普应注重原理和推导，过度依赖 AI 易致"思维萎缩"

搜狐创始人张朝阳在2026搜狐科技年度论坛上指出，AI技术为科普提供了便利，但也带来了新问题。他主张AI时代的科普应注重原理推导和互动体验，避免公众认知停留在浅层“哇哦”状态。张朝阳援引麻省理工学院研究称，过度依赖AI会导致人的主动思维能力萎缩，实验显示使用AI者的脑部活跃度仅为独立完成任务者的一半。他强调，人类必须保持原创思考和动手能力，主动深度思考是不可被替代的核心竞争力。

大佬观点推理

17:51

IT之家（RSS）

53

AMD 苏姿丰谈 AI：在科技行业工作超 30 年，没有比今天更"兴奋"的时刻了

AMD 董事长兼 CEO 苏姿丰在 AI 开发者日活动中表示，AI 正在经历巨大加速，预计未来五年将有 50 亿人每天使用 AI。她强调，实现这一目标的关键在于多样化应用和模型，而非单一方案。她指出，AI 近期发展显著，不仅大语言模型进步，推理型 AI 也日益普及，企业正积极探索应用。开发者需具备推理、学习与数据处理能力。苏姿丰认为，未来 GPU 将无处不在，AMD 将重点提供完整的端到端计算能力。

智能体大佬观点推理现象/趋势

16:00

HuggingFace Daily Papers（社区热门论文）

65

监控内部独白：探测轨迹揭示推理动态

本研究针对大型推理模型（LRM）思维链监控不可靠的难题，提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器，捕捉模型隐藏表征的演变轨迹。研究发现，结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征，模型状态区分度得到显著提升。同时，基于模板的训练数据可替代昂贵的动态生成数据，且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明，该轨迹特征能编码任务动态，为监控LRM行为提供了有效补充框架。

安全/对齐推理论文/研究

15:51

IT之家（RSS）

48

比利时 Imec 公布 3D CCD 内存架构，结合 DRAM 速度与 NAND 密度提升 AI 推理性能

比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片，旨在结合DRAM的高速度与NAND闪存的高存储密度，以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料，在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段，主要面临散热和层数扩展等挑战，离实际量产应用尚有距离。

推理论文/研究

11:51

HuggingFace Daily Papers（社区热门论文）

精选71

训练后 MoE 可通过自蒸馏跳过一半专家

本文提出零专家自蒸馏适应框架，将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家，并利用原始模型作为冻结教师进行两阶段自蒸馏适应，以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明，该方法能消除超过50%的专家计算量，同时仅带来极小的准确率损失，并显著提升端到端推理速度。

推理论文/研究部署/工程

推荐理由：把训练好的MoE直接改成动态的，推理时跳过一半专家，速度提升20%而精度几乎没掉，做模型部署的值得认真看一下这个一行代码不改的蒸馏方案。

11:45

IT之家（RSS）

57

消息称 Tenstorrent 吸引英特尔、高通收购意向，估值或超 50 亿美元

推理行业动态

10:51

HuggingFace Daily Papers（社区热门论文）

61

SNLP：通过结构化牛顿校正的层并行推理

研究人员提出结构化牛顿层级并行（SNLP）框架，解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程，采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化，使模型通过少量迭代近似顺序前向传播，提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时，SNLP结合层融合与分块分解，在0.5B Nanochat模型上实现2.3倍加速，困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。

推理论文/研究部署/工程

10:45

IT之家（RSS）

60

马斯克推广 Cursor Composer 2.5 AI 模型，基于 Kimi K2.5 构建

5月19日，马斯克发推邀请用户测试Cursor最新发布的Composer 2.5 AI模型。该模型基于月之暗面的Kimi K2.5，并利用部分Colossus 2集群训练，官方称其为“最强”模型，重点提升了长任务稳定性和复杂指令遵循能力。技术上，它采用了基于文本反馈的定向强化学习，并将合成任务规模扩大至前代的25倍以优化编码能力。标准版定价为输入每百万token 0.50美元、输出2.50美元；另有速度更快的fast版本，输入3.00美元、输出15.00美元。

产品更新推理编码

09:45

IT之家（RSS）

65

英伟达宣布向 Anthropic、OpenAI、SpaceXAI、甲骨文交付首批 Vera CPU

英伟达向Anthropic、OpenAI、SpaceXAI和甲骨文交付首批Vera CPU，标志其专为Agentic AI设计的处理器正式量产。Vera是英伟达首款定制CPU，采用88个自研核心，内存带宽达1.2TB/s，单核性能较前代Grace提升50%，并搭载1.5TB内存。甲骨文计划2026年起部署数十万颗，该芯片将用于独立服务器及Vera Rubin平台，支持高吞吐推理与智能体工作负载。

xAI 产品更新推理部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

46

重新思考记忆方式：超越终身LLM智能体记忆中的原子事实

现有大语言模型智能体的记忆系统多采用提取事实的范式，将对话压缩为原子事实。这会丢失原始细节，限制深度推理，且静态提示词难以适应多变的对话风格。为此，本文提出了TriMem系统，它同时维护三种表示粒度：用于保真存储的原始对话片段、用于高效检索的提取原子事实，以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术，通过响应质量反馈迭代优化提示，无需参数更新即可实现持续进化。实验表明，其效果优于强记忆基线。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

从感知到推理：解耦感知与推理以改进视觉-语言模型的后训练

本研究发现，视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足，而非推理能力。为此，研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段，并使用专门数据进行分阶段训练。实验证明，视觉感知需要针对性优化，应优先通过分阶段训练加以巩固，且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升，使模型推理准确率提高了1.5%，推理过程缩短了20.8%。在开放权重的视觉-语言模型中，该方法在WeMath和RealWorldQA等基准上取得了领先成绩，相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

61

TIDE：基于输入输出感知专家卸载的高效无损混合专家扩散大语言模型推理

针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战，TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性，设计了基于间隔的专家刷新策略，以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题，TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明，在单GPU-CPU系统中，TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升，为现有基线方法带来显著加速。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

LLMEval-Logic：一个经求解器验证的中文逻辑推理LLM评估基准

LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准，其数据来源于真实场景，并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集：246项的Base子集（配有1400条评分标准）与190项的Hard子集（含938个多步骤子问题）。对14个前沿LLM的评估表明，当前模型在逻辑推理能力上仍有显著不足：最佳模型在Hard项目上的准确率仅为37.5%，即使结合参考符号，形式化得分最高也仅达60.16%。该基准已开源，旨在为模型逻辑推理能力的评估与提升提供可靠工具。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

针对代理型大语言模型推理中的计算瓶颈，研究团队提出Mix-Quant，一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节，但存在显著量化冗余，而解码阶段对量化更敏感。为此，Mix-Quant采用混合精度策略：对预填充阶段应用高吞吐的NVFP4量化以加速，对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中，能有效保持任务性能，同时将预填充阶段速度提升最高3倍。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

64

MOCHA：多目标切比雪夫退火用于智能体技能优化

该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿（包括非凸区域），并结合指数退火策略平衡搜索过程。实验表明，在六项任务中，现有优化器有四项无法提升基线技能，而MOCHA均实现了突破，平均正确率较最强基线提升7.5%，并发现了两倍多的帕累托最优变体。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

大型视觉语言模型胸部X光推理视觉归因的再思考

本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战，指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此，团队开发了因果评估框架，筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估，发现现有方法普遍存在识别失效问题。为解决此问题，提出了基于概念的归因方法MedFocus，该方法利用非平衡最优传输定位临床相关区域，并通过定向干预量化其因果效应。实验证明，MedFocus在空间、概念及词元层面均显著优于现有方法，推动了更可靠的医疗视觉归因发展。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

OScaR：面向LLM及其多模态扩展的极致KV缓存压缩框架

针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈，本文提出了OScaR压缩框架。研究发现，传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术，有效缓解了该不平衡带来的量化误差，无需复杂流程。在多种大模型上的实验表明，OScaR在INT2量化下可实现近乎无损的性能，相比基准解码速度提升最高达3.0倍，内存占用减少5.3倍，吞吐量增加4.1倍，为极致KV缓存压缩提供了高效通用方案。

GitHub 开源生态推理论文/研究

06:06

Chubby♨️@kimmonismus

71

没想到这次发布这么重磅。评测结果看起来非常扎实，相比Composer 2有显著提升！但重点是：它的效率是竞争对手的10倍。看起来真的很令人兴奋。需要试用一下。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

03:55

karminski-牙医@karminski3

54

Qwen3.7内测跑分出炉，空间理解与指令遵循大幅提升

Qwen3.7-Max-Preview在ArenaAI内测中排名第13，为当前版本国产模型最佳。其数学能力（第7）与编程能力（第10）提升显著。实测显示，在前端代码生成任务中，Qwen3.7在空间理解和指令遵循上较前代（Qwen3.6）有巨大进步，能更准确地维持元素轴向与标记。文章同时指出，ArenaAI评分仅供参考，其为Meta新模型Muse Spark给出的高排名（第5）与社区现状不符。

多模态推理评测/基准

03:34

Hacker News 热门（buzzing.cc 中文翻译）

精选78

Qwen 3.7 预览版

多模态推理模型发布

推荐理由：阿里 Qwen 3.7 预览版来了，国产模型在推理和多模态上的推进速度令人侧目，虽然还是预览，但已经是一个值得开发者提前盯紧的信号。

1…30 313233 34…50