4月27日

23:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

我还记得那个年代，那时所有人都觉得AI解决一道新颖数学题会成为全球头条新闻如今这种事发生得如此频繁，甚至都不值得发推一提我们就是温水里的青蛙

Chubby♨️: A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...

推理现象/趋势

22:27

SemiAnalysis@SemiAnalysis_

PALISADES TAHOE，2026年4月26日 - InferenceX 已为 @sgl_project 的 B300 添加了 DeepSeekv4 MTP 支持及聊天模板！感谢 @radixark @liin1211 的工程贡献！交互性大幅提升，在同等交互性下吞吐量提高7倍！

产品更新推理部署/工程

21:20

IT之家（RSS）

超过人类状元，ChatGPT 以最高分通过日本顶尖大学入学考试

日本创业公司LifePrompt使用ChatGPT 5.2思考模型参加了东京大学和京都大学的入学考试，其成绩超越了人类状元。在东大竞争激烈的医学专业考试中，它比真人最高分高出50分，数学满分；人文和理科类成绩也均高于录取最高分。在京大，其法学院和医学院考试成绩同样领先。2024年GPT-4模型未达录取线，而2025年的o1模型首次跨过合格线，标志着AI在考试能力上的显著突破。专家指出，AI擅长数据归纳，但人类在创造新价值上仍有优势。

OpenAI 推理行业动态

20:53

Chubby♨️@kimmonismus

Google打破十年传统，推出训练与推理专用TPU芯片

Google在Cloud Next 2026上首次将定制芯片拆分为专用架构，推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片，峰值算力达121 FP4 ExaFlops，较前代提升约3倍；TPU 8i的性价比提升80%，片上内存增至三倍，并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力，其中OpenAI首次采用Google芯片，动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计，TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额，但实质性的竞争时代已拉开序幕。

Google 产品更新推理部署/工程

17:55

公众号：通义实验室（千问）

搜对≠答对：EAPO用"证据奖励"让大模型不再靠猜

检索增强推理教程/实践

17:22

Chubby♨️@kimmonismus

一名23岁的青年利用ChatGPT 5.4 Pro，成功解决了一个悬置超过60年的Erdős问题。整个过程一气呵成，AI仅用1小时20分钟便完成求解。值得注意的是，AI运用了一个众所周知的公式，但此前无人将其应用于此特定问题。这一突破展示了先进AI在解决复杂数学问题上的潜力，并引发对其未来版本（如ChatGPT 5.5 Pro）能力的想象。

sengpt: 23 yaşında bi genç 60 yıldır çözülemeyen Erdös problemlerinden birini chatgpt 5.4 pro ile çözmüş. hem de tek atışta. cha...

OpenAI 推理现象/趋势

14:48

Berryxia.AI@berryxia

这个人话真的也是"人味十足"！【引用 @berryxia】：这是你们说的：Claude 开始会说人话了吗？🤔

Berryxia.AI: 这是你们说的:Claude 开始会说人话了吗?🤔

Anthropic 大佬观点推理

09:19

Berryxia.AI@berryxia

本周AI论文大爆炸！精选Top 10硬核研究

本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数，性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法，实现线性推理加速。此外，Skill-RAG等研究也展示了领域的快速进展。

DAIR.AI: http://x.com/i/article/2048081731584933888

DeepSeek 大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型通过潜在蒸馏进行探索

本文提出“探索性采样”解码方法，以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”，通过预测模型深层隐藏状态来建模其表示转换过程，并将预测误差作为新颖性信号，以此重新加权候选token，引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线，最坏情况下开销低于5%。实验表明，该方法显著提升了推理模型的Pass@k效率，在数学、科学和代码生成基准测试中表现出稳健的泛化能力，并在创意写作中打破了多样性与连贯性之间的权衡。

推理数据/训练论文/研究

07:25

François Chollet@fchollet

不，如果不考虑行动效率，最高分将是100%，用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。【引用 @scaling01】：62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准

07:25

François Chollet@fchollet

（我们测试过，得分低于1%）【引用 @scaling01】：有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准

04:59

elvis@omarsar0

阿里发布智能体训练新方法：双强化学习飞轮催生高效工具使用模型

阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法，并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿，但每次推理仅激活30亿参数，在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分，性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮：推理循环将模型自身错误转化为更难训练问题；智能体循环则将简单工具使用轨迹扩展为多分支行为树，并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本，且飞轮配方可复用，能从智能体自身失败中生成困难样本。

智能体推理论文/研究部署/工程

4月26日

23:20

向阳乔木@vista8

精选85

OpenAI发布GPT-5.5，重点提升AI自主执行复杂任务能力

OpenAI发布GPT-5.5，核心目标是增强模型自主规划与执行多步骤复杂任务的能力，减少人工干预。在多项基准测试中表现突出：在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品；在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高，科研能力显著提升，甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强，其响应速度与GPT-5.4持平。

OpenAI 推理模型发布编码

推荐理由：GPT-5.5 的核心叙事不是跑分，而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token，这两个信号叠加在一起，做 Agent 和科研工具的人该认真评估了。

11:52

Hacker News 热门（buzzing.cc 中文翻译）

一名借助ChatGPT的业余爱好者解决了埃尔德什问题

一名业余数学爱好者借助ChatGPT成功解决了一个存在60年的埃尔德什难题，这一突破在Hacker News上获得108点热议。该问题长期悬而未决，此次解决展示了人工智能工具在辅助数学研究中的潜力，突显了AI如何赋能非专业研究者推动科学进展。

OpenAI 推理现象/趋势

05:21

Emad@EMostaque

我打赌纳维-斯托克斯方程也会这样，最终解决它的方法甚至可能与偏微分方程无关。【引用 @Ananyo】：23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is that the problem was maybe easier than expected， and it was like there was some kind of mental block."-Terence Tao https://www.scientificamerican.com/article/amateur-armed-with-chatgpt-vibe-maths-a-60-year-old-problem/

Ananyo Bhattacharya: 23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is...

大佬观点推理

03:51

Hacker News 热门（buzzing.cc 中文翻译）

人工智能的λ演算基准测试

研究人员发布了人工智能的λ演算基准测试，旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题，用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示，当前主流大语言模型在该基准上的表现差异显著，部分模型得分不足50分，凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。

推理论文/研究评测/基准

4月25日

22:17

meng shao@shao__meng

腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后，推出首个MoE架构模型Hy3 preview，总参295B，支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则，推动模型向实用转型。评估显示，Hy3在复杂推理与长上下文任务上进入第一梯队，代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束，并转化为结构化输出，体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码

21:36

歸藏(guizang.ai)@op7418

精选79

DeepSeek推出V4模型限时2.5折优惠，其Pro版百万Token输出成本仅6元。模型分为Pro版（总参数1.6T）和Flash版（总参数284B），预训练数据均为32T。在应用中，专家模式对应Pro版，快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平，Agent能力与世界知识显著增强，并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek 推理模型发布

推荐理由：DeepSeek V4-Pro 百万 token 输出只要 6 块，这个定价直接把 Opus 4.6 级别的能力拉到了白菜价，做 Agent 和长上下文应用的产品人该重新算账了。

03:12

Greg Brockman@gdb

精选72

gpt-5.5 在性能上实现大幅提升，试试看吧：

Satya Nadella: Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...

OpenAI 推理模型发布编码

推荐理由：GPT-5.5 本身是代际级更新，但这条推文只是转发 Nadella 的官宣，没有新数据或新角度。真正值得关注的是它已经铺进 Copilot 全线，做编码和办公场景的人今天就能摸到。

02:08

AK@_akhaliq

精选74

DeepSeek-V4 论文已在 Hugging Face 发布 paper： https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek 推理模型发布

关联讨论 1 条

推荐理由：DeepSeek-V4 论文终于落地，这是今年开源阵营最被期待的模型之一，做推理和开源部署的同行值得花时间啃一遍技术细节。

4月24日