4月21日

22:49

François Chollet@fchollet

当前 AI 最令人震惊的一点是其缺乏内省能力和元认知。它不知道自己不知道什么，也不知道自己是如何知道的，或者如何能查明。这是一个单向系统。

Google 大佬观点推理

12:34

HuggingFace Daily Papers（社区热门论文）

MathNet：全球多模态数学推理与检索基准

本文提出MathNet，一个大规模多语言奥林匹克数学基准，收录47国17种语言的30,676道专家命题，跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示，即使最先进的推理模型（Gemini-3.1-Pro 78.4%、GPT-5 69.3%）仍面临挑战，而嵌入模型在数学等价检索上表现不佳。研究表明，DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升，创下基准最高分。

DeepSeek OpenAI 检索增强推理

12:34

HuggingFace Daily Papers（社区热门论文）

弱监督下大语言模型何时能学会推理？

本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中，训练奖励饱和动态决定泛化能力：延长预饱和阶段促进泛化，快速饱和导致记忆。推理忠实度（中间步骤对答案的逻辑支持程度）是预测模型表现的关键属性。研究表明，显式推理轨迹上的监督微调对弱监督泛化至关重要，结合领域数据持续预训练，可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。

Meta 推理数据/训练论文/研究

11:34

HuggingFace Daily Papers（社区热门论文）

多模态大语言模型的乘法运算：基于文本、图像和音频输入的计算

研究人员发布受控多模态乘法基准，系统评估大模型在文本、图像和音频输入下的算术极限。研究定义算术负载指标C（总位数与非零位数乘积），发现当C>100时准确率急剧下降至接近零，且该指标跨模态预测性能R²常超0.5。实验表明模型失败主要源于计算缺陷而非感知能力——匹配感知测试中各模态准确率均超99%。此外，模型倾向于采用分配式分解策略而非传统列式乘法进行计算。

多模态推理论文/研究

11:34

HuggingFace Daily Papers（社区热门论文）

OneVL：基于视觉语言解释的单步隐式推理与规划

针对自动驾驶中Chain-of-Thought推理的高延迟问题，本文提出OneVL框架，统一VLA与世界模型。该方法通过双辅助解码器（语言解码器重建文本推理链，视觉世界模型解码器预测未来帧）监督紧凑隐式token，使模型内化道路几何与动态环境的因果规律。三阶段训练逐步对齐轨迹、语言与视觉目标，推理时丢弃解码器实现单步并行计算。在四项基准测试中，OneVL成为首个超越显式CoT的隐式推理方法，以answer-only延迟达到SOTA精度。

具身智能推理论文/研究

10:34

HuggingFace Daily Papers（社区热门论文）

几何金丝雀：基于表征稳定性预测可控性与检测漂移

几何稳定性为语言模型部署提供双重诊断。监督式Shesha通过测量任务对齐的表征稳定性，在35-69个模型中以0.89-0.97相关系数精准预测线性可控性；无监督稳定性虽在可控性预测上失效（ρ≈0.10），却在漂移检测中表现优异：较CKA捕捉近2倍（Llama中5.23倍）几何变化，于73%模型中提前预警，假阳性率较Procrustes低6倍。两者分别适用于部署前可控性评估与部署后监控。

推理数据/训练论文/研究

10:34

HuggingFace Daily Papers（社区热门论文）

Stratagem：通过轨迹调制的游戏自博弈学习可迁移推理

STRATAGEM 框架通过轨迹调制的游戏自博弈提升语言模型的可迁移推理能力。针对现有方法仅依赖游戏终端结果、难以区分通用推理与特定启发式的问题，该框架引入推理可迁移性系数和推理进化奖励，选择性强化展现抽象领域无关推理的轨迹，并激励自适应推理发展。实验显示，该方法在数学推理、通用推理和代码生成基准测试中取得显著改进，尤其在竞赛级数学任务上表现突出。

arXiv 推理论文/研究

09:10

IT之家（RSS）

消息称谷歌本周发布 TPUv8 系列 AI 芯片：博通版专注高性能训练、联发科版主打高性价比推理

谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片，采用双芯片策略全面取代TPUv7。其中TPUv8t（代号Sunfish）由博通设计，专注高性能训练；TPUv8i（代号Zebrafish）由联发科操刀，主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是，此前传闻参与的Marvell未出现在设计名单中，显示谷歌调整了合作伙伴策略。

Google 推理行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

Sessa：选择性状态空间注意力

现代序列建模主要依赖Transformer和结构化状态空间模型，但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构，将注意力机制置于循环反馈路径内，从而构建多条基于注意力的历史信息传递路径。理论分析表明，在匹配条件下，Sessa可实现幂律记忆衰减O(ℓ^{-β})（0<β<1），其衰减速度慢于对应的Transformer与Mamba基线，并能实现灵活的选择性信息检索，包括影响力不随距离衰减的模式。实验证明，Sessa在长上下文基准测试中取得最强性能，同时在短上下文语言建模任务上保持竞争力。

推理论文/研究部署/工程

推荐理由：这篇论文在理论上证明了Sessa架构的长上下文记忆衰减比Transformer和Mamba更慢，并在实验中兑现了这一优势。对于关注下一代序列模型架构的研究者和开发者，这是个值得深挖的扎实信号。

05:48

BAIR：Berkeley AI Research Blog

面向长程世界模型的梯度规划方法

GRASP是一种面向世界模型长程规划的梯度优化新方法。通过将轨迹映射至虚拟状态实现跨时间并行优化，引入状态迭代的随机噪声增强探索能力，并重塑梯度以避免高维视觉模型中的病态信号传播。该技术解决了长程规划中的优化病态、局部最优和高维潜在空间失效等问题，使基于学习动力学的复杂任务规划更加稳定高效。

智能体推理论文/研究

4月20日

17:31

蚂蚁 inclusionAI：GitHub 新仓库

精选69

DR-Venus：基于开放数据的边缘级深度研究智能体

DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体，基于Qwen3-4B-Thinking-2507架构，支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练，在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型，而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。

智能体开源/仓库推理模型发布

推荐理由：4B 参数、仅用 1 万条公开数据就能在多个 deep research benchmark 上碾压 8B 对手，蚂蚁 inclusionAI 这次证明了小模型做 Agent 的关键不在参数量而在数据管线，做端侧 Agent 的团队值得拆一下它的 SFT+RL 流程。

15:40

公众号：通义实验室（千问）

通义千问发布 Qwen3.6-Max-Preview

通义千问发布 Qwen3.6-Max-Preview 预览版，相比 Qwen3.6-Plus 在多项基准上显著提升：智能体编程（SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8）、世界知识（SuperGPQA +2.3、QwenChineseBench +5.3）、指令遵循（ToolcallFormatIFBench +2.8）。新版本支持 preserve_thinking，可在消息中保留前序轮次思维内容，避免多步任务上下文丢失，官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话，或通过阿里云百炼（即将上线）调用 API。

智能体推理模型发布编码

11:05

Ethan Mollick@emollick

LLM 时代第二重要的发布（仅次于 GPT-3.5），包含了可能是史上最重要的一张图表。 OpenAI 将自 LLM 以来 AI 技术的最大进展公之于众，而非暂时保密，这仍然让我感到惊讶。

Adam.GPT: https://openai.com/index/introducing-openai-o1-preview/ I think that big bet on reasoning and test-time compute is going...

OpenAI 大佬观点推理

08:38

François Chollet@fchollet

人类的生理局限，比如我们有限的工作记忆和浅层的计算深度，实际上是一种特性。它们迫使我们抽象、压缩、凭直觉思考。如果我们拥有无限的资源，就永远不需要智能。

DeepMind 大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

通过阶段性自奖励缓解多模态幻觉

研究团队提出PSRD（分阶段自奖励解码）框架，在推理阶段动态缓解大型视觉语言模型（LVLMs）的视觉幻觉问题，无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值，据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型，实现解码过程中的实时干预。实验显示，该方法使LLaVA-1.5-7B的幻觉率降低50.0%，并在五个幻觉评估基准上持续优于现有事后方法，同时实现了性能与推理效率的可控平衡。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

真实场景中的对比归因：针对现实基准测试的 LLM 失败可解释性分析

研究团队提出了一种基于对比归因与 LRP 的 LLM 故障诊断框架，通过量化错误输出与正确候选间的 logit 差异，并将其归因至输入 token 及内部模型状态，同时支持长文本的跨层归因图构建。该研究在多个真实基准测试上开展系统实证，覆盖不同数据集、模型规模及训练阶段，结果显示 token 级对比归因虽能为部分失败案例提供有效诊断信号，但其适用性存在明显局限，尚无法通用于所有场景。

推理论文/研究

05:44

Chubby♨️@kimmonismus

相比 4.7 还是更喜欢 Opus 4.6 Anthropic 史上最差发布。

Anthropic 大佬观点推理

4月19日

17:44

Rohan Paul@rohanpaul_ai

Prefill-as-a-Service：下一代模型KV Cache可跨数据中心

新一代混合注意力模型通过压缩KV Cache，使Prefill-as-a-Service架构成为可能。该方案将重计算的Prefill阶段卸载至远程集群，仅回传轻量KV Cache至本地解码，短请求则本地处理。配合智能路由与带宽感知调度，可在普通以太网高效传输。实测1T参数模型显示，50%请求远程处理时跨集群流量仅13Gbps，吞吐量提升54%，打破长上下文AI局限于单一数据中心的瓶颈。

arXiv 推理论文/研究部署/工程

17:44

Chubby♨️@kimmonismus

有人说 GPT-5.5 已经在向他们推出，正在进行秘密测试。他们的初步测试显示它比 Opus4.7 表现更好（但不知道是在哪些任务上）。希望它不要在周一发布，因为我要坐 13 小时的飞机去中国，会错过发布。

OpenAI 推理模型发布

15:48

TestingCatalog News 🗞@testingcatalog

Grok 4.3（测试版）现已向 SuperGrok 和 X Premium+ 用户推出！测试时间 👀

xAI 推理模型发布

15:44

Rohan Paul@rohanpaul_ai

LLM破解网络匿名：公开文本可精准关联真实身份

LLM可通过分析公开写作实现大规模去匿名化。研究让模型执行提取身份线索、搜索匹配池、比较验证候选者三项任务，在Hacker News与LinkedIn、Reddit跨社区及跨时间段等场景测试中，达到90%精确度与68%召回率，远胜旧方法。关键突破在于推理步骤能处理大规模候选池，证明零散公开文本已足以关联账户并识别个人，传统匿名保护机制失效。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLaTiSA：迈向从视觉感知到语义的难度分层时间序列推理

研究团队提出四层认知复杂度分类法定义时间序列推理（TSR）任务，发布包含83k样本的HiTSR数据集，涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型（VLM）的时间感知，经多阶段课程微调策略训练，在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体探索却忽视：LLM缺乏环境好奇心

研究发现当前LLM智能体缺乏"环境好奇心"，即识别并利用环境中意外相关信息的能力。研究者在Terminal-Bench等三个基准测试中注入完整解决方案：Terminal-Bench中智能体79-81%发现方案但仅37-50%利用；AppWorld中超90%看到标注"返回完整解决方案"的文档却不足7%利用。工具配置、测试时计算和训练数据分布是三大影响因素。即便优化配置，智能体仍在多数试验中忽视已发现方案，仅将环境用于获取预期信息而非调整策略。

智能体推理论文/研究

03:04

Nathan Lambert@natolambert

这里的一个大问题是，我们并没有清晰界定 mythos capabilities 到底是什么。发布博客中的每个基准测试都有模型能达标，当然。但要说有模型能直接替换到相同用例中且性能毫无下降？我对此表示怀疑。

rohit: Dario seems to think China and open source will hit Mythos capabilities in 6-12 months

Anthropic 大佬观点开源生态推理

4月18日

19:44

Chubby♨️@kimmonismus

Opus 4.7 确实似乎有所改进，其自适应思考现在使用了更多 tokens。然而，与 Opus 4.6 相比，它的表现仍然明显更差。

Anthropic 推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

面向EEG基础模型的测试时自适应：真实分布偏移下的系统研究

研究团队发布NeuroAdapt-Bench基准，系统评估测试时自适应（TTA）在EEG基础模型上的实际表现。实验覆盖多种预训练模型、下游任务及异构数据集（含Ear-EEG等极端模态偏移）。结果显示，标准TTA方法性能提升不稳定且常导致模型退化，梯度方法退化尤为严重；而无优化方法表现出更强稳定性和可靠性。该研究揭示了现有TTA技术在脑电信号处理中的局限性，强调需开发领域特定的自适应策略。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Abstain-R1：通过可验证强化学习实现校准拒答与拒答后澄清

Abstain-R1 基于 3B 参数模型，采用澄清感知的可验证强化学习奖励机制训练，在保持可回答问题性能的同时，对无法回答的查询执行显式拒绝并说明关键缺失信息。在 Abstain-Test、Abstain-QA 和 SelfAware 基准测试中，该模型相比基础模型显著提升，拒答与澄清行为达到 DeepSeek-R1 等更大系统的水平，表明校准拒答能力可通过可验证奖励有效习得。

DeepSeek 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

认知代价：面向去中心化共识的边缘原生SLM推理消融研究

研究团队提出Sentinel-Bench框架，基于Qwen-3.5-9B执行840次实验，对比System 1与System 2在Optimism DAO对抗性数据集上的表现。结果显示System 1基线达成100%对抗鲁棒性与司法一致性，状态最终性仅需13秒；而System 2引发26.7%认知崩溃率，导致共识稳定性降至72.6%并带来17倍延迟。研究还发现1.5%的"推理诱导谄媚"现象。实验证明，在拜占庭容错约束下，边缘原生SLM采用System 1参数化直觉优于System 2迭代审议。

推理端侧论文/研究

05:44

Rohan Paul@rohanpaul_ai

AGI新定义：不仅是人类水平AI，更是人工科学家

一篇论文提出，智能的本质是在计算、内存和能源限制下的适应性。据此，AGI被定义为至少能像人类科学家一样普遍适应的系统，需具备规划实验、学习因果关系、平衡探索与行动及自主操作的能力。论文将这种AGI称为 artificial scientist，强调其评判标准在于跨任务发现与适应能力，而非通过类人测试。作者指出，AGI并非简单的"人类水平AI"，而是能够广泛、高效且科学地进行适应的完整系统。

arXiv 推理论文/研究

03:44

Epoch AI@EpochAIResearch

AI 能力是否加速了？在我们调查的 4 项 AI 能力指标中，有 3 项发现了强有力的加速证据，大约在推理模型出现时。

推理数据/训练论文/研究

01:44

Chubby♨️@kimmonismus

Anthropic自适应思考功能背后的战略考量

Anthropic推出adaptive thinking功能，允许Claude根据请求动态分配推理token。与OpenAI通过GPT-5在不同模型间路由不同，Anthropic选择让单一模型自行调节。此举背后是企业市场利润压力与严重算力短缺——OpenAI CRO在泄露备忘录中指出Anthropic误判了计算资源采购需求。该功能虽提升效率却导致质量不稳，显示Anthropic正优先服务企业客户而牺牲消费者体验，这一点在Opus 4.7发布中已显露无遗。

智能体 Anthropic 大佬观点推理

4月17日

22:50

Ethan Mollick@emollick

我要称赞 Anthropic 行动迅速。Opus 4.7 Adaptive Thinking 现在更频繁地触发思考，包括昨天失败的任务。这也意味着它进行了更多网页搜索。到目前为止，非编码任务的输出质量大幅提升。

Anthropic 大佬观点推理

21:44

Chubby♨️@kimmonismus

我的整个 fy 页面都是人们在吐槽 opus 4.7 anthropic 这次搞砸了

Anthropic 推理现象/趋势

19:30

The Decoder：AI News（RSS）

OpenAI 发布面向生命科学研究的推理模型 GPT-Rosalind

OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind，旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统，GPT-Rosalind 试图缩短科研周期，帮助科学家更快验证理论假设。

智能体 OpenAI 推理模型发布

17:44

Chubby♨️@kimmonismus

Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中，它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当，它可能会盖过 Opus 的风头，让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

Chubby♨️: The mood regarding the Opus 4.7 update has shifted. If I had to guess, I'd say 60% are disappointed with the latest upda...

Anthropic OpenAI 推理评测/基准

11:50

Nathan Lambert@natolambert

最终自适应思考会起作用，人们会忘记这件事。但现在确实很糟。【引用 @emollick】：我认为 Claude Opus 4.7 中的自适应思考要求很糟糕，就像所有 AI effort 路由器一样糟糕，但由于没有像 ChatGPT 那样的手动覆盖选项，问题被放大了。它经常判定非数学/代码类内容是"低 effort"，然后生成更差的结果。

Ethan Mollick: I think the adaptive thinking requirement in Claude Opus 4.7 is bad in the ways that all AI effort routers are bad, but ...

Anthropic 大佬观点推理

10:50

Ethan Mollick@emollick

Anthropic 告诉我他们正在寻找修复这个问题的方法，这很好（你也可以在该线程中看到一位 Claude 产品经理的回复）。我认为 Claude Opus 4.7 的自适应思考要求在所有 AI 工作量路由机制糟糕的方面都很糟糕，但由于没有像 ChatGPT 那样的手动覆盖选项，问题被放大了。它经常将非数学/代码类内容判定为"低工作量"并产生更差的结果。

Ethan Mollick: I think the adaptive thinking requirement in Claude Opus 4.7 is bad in the ways that all AI effort routers are bad, but ...

Anthropic 大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

Mind's Eye：多模态 LLM 视觉抽象、转换与组合基准测试

研究团队发布"Mind's Eye"基准测试，涵盖8项视觉认知任务，依据"抽象-关系-转换"（A-R-T）分类体系评估多模态大语言模型的流体推理能力。结果显示，人类参与者准确率达80%，而顶尖模型不足50%。错误分析揭示，现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷，表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重访棘手难题：语言模型语义推理基准测试

研究团队发布 SemanticQA 评测套件，用于评估语言模型处理语义短语的能力。该基准整合现有多词表达资源，构建统一测试平台，涵盖词汇搭配、习语表达、名词复合词及动词结构四大类别。通过对不同架构和规模模型的测试发现，各模型在提取、分类、解释及序列组合任务中表现差异显著，尤其在需要深层语义推理的任务上差距明显，暴露出复杂语义短语理解的能力瓶颈。评测数据与工具已开源。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

后训练中输出多样性在何处崩溃？

研究团队通过Olmo 3的三个后训练谱系（Think、Instruct、RL-Zero）追踪输出多样性变化。发现多样性崩溃与数据组成密切相关：Think在监督微调阶段损失大部分语义多样性，DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性，证明崩溃由训练数据嵌入权重导致。在可验证任务中，Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定，无法仅靠推理时间解决。

arXiv 推理数据/训练论文/研究