4月30日

02:06

Google AI@GoogleAI

在Google Cloud Next '26大会上，谷歌正式推出专为智能体时代设计的第八代TPU芯片，分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练，其性能约为前代的3倍，并通过加速数据移动和优化硬件容错，将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务，内存扩大三倍以支持多步推理，每美元性能提升80%，延迟降低5倍，助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力，推动AI应用创新。

Google 产品更新推理部署/工程

01:42

Ant Ling@AntLingAGI

Ling-2.6-1T正式开源，来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数，专为实际生产设计，具有token高效性，便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模，实现了从快速推理到更强推理的跨越。主推文强调，结合@opencode等工具展示了酷炫演示，体现了模型与现有工具的兼容性和实用性，并对@novita_labs的合作发布表示感谢。

Novita AI: Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token，才能使整个行业可持续发展。🤗🤗

Adina Yakup: Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

精选72

SGLang团队（隶属于LMSYS Org）揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法，在保持质量的同时，成本可比同类模型降低约4倍，并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计，具备万亿参数能力与即时模型延迟。团队正持续进行优化，以进一步提升性能。

LMSYS Org: 👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...

智能体推理模型发布编码

推荐理由：万亿参数做到即时延迟和4倍成本优势，还有SWE-bench SOTA，这份承诺如果兑现，会改变大规模Agent部署的性价比计算。值得去cookbook跑一下验证。

01:34

Dwarkesh Patel：Podcast & Blog（RSS）

精选55

Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型（如GPT、Claude、LLaMA）训练与服务的核心数学框架。通过剖析关键方程，可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律，也量化了训练成本与推理效率之间的权衡，为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由：Reiner Pope 把训模型背后的数学摊开讲，听完能反推出大厂在做什么，做训练的人不可多得的一课。

00:36

Tomer Tunguz 博客（VC 分析）

精选57

AI推理市场的专业化分化

AI推理市场正快速分化，各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后，NVIDIA数据中心收入三年内增长17倍，凸显市场爆发。分化根本原因在于工作负载差异：图像视频生成需高计算力，长上下文消耗更多内存，边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层；按模态分为文本、图像视频音频；按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型，整个AI推理市场规模预计约1000亿美元，这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由：Tomer 把推理市场跟数据库市场做类比，碎片化的逻辑讲得很透，做 AI 基础设施的朋友能直接用来梳理自己的赛道，普通人知道这么回事就行。

4月29日

23:42

The Decoder：AI News（RSS）

OpenAI 研究人员解释为何数学是通往 AGI 之路

OpenAI 研究人员在播客中指出，数学能力已成为衡量人工智能向通用人工智能（AGI）发展进程的关键测试。AI 模型在短短两年内，已从掌握小学算术进步到能应对奥林匹克竞赛乃至研究级别的数学问题。这种在复杂数学推理上的快速突破，被视为模型泛化能力和抽象思维提升的重要标志，是迈向 AGI 的核心路径之一。

OpenAI 大佬观点推理

23:42

Ant Ling@AntLingAGI

精选71

Ling-2.6-1T万亿参数模型开源，主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构，核心设计理念是“令牌高效”，旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化，具备可靠的多步骤执行能力，在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化，部署便捷，兼容广泛的智能体框架，适用于从代码生成到错误修复等多种任务。

Ant Ling: 🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数模型开源了，但强调的不是大，而是省 token，这对成本敏感的生产环境是真正的性价比之选，做 agent 的可以上手测测。

23:42

Hacker News 热门（buzzing.cc 中文翻译）

借助 Opus，我们降低了大型语言模型（LLM）的成本

团队通过采用前沿模型Opus，成功降低了大型语言模型（LLM）的运营成本。这一升级不仅提升了模型性能，还实现了成本的反向下降，具体成本降幅未在摘要中明确，但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。

Anthropic 推理教程/实践

23:40

TestingCatalog News 🗞@testingcatalog

MISTRAL 🚨： Mistral AI 发布了 Mistral Medium 3.5，这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

Mistral Vibe: Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...

开源生态推理模型发布

22:34

IT之家（RSS）

华为鸿蒙"龙虾"小艺 Claw 迎重磅更新：上线"自进化"能力、接入 DeepSeek V4

华为鸿蒙“龙虾”小艺 Claw 迎来11.6.3.300版本更新。核心升级包括上线“自进化”能力，可学习用户长期偏好以减少重复沟通；并正式接入DeepSeek V4模型，获得百万级上下文处理能力，在信息搜集、文档处理等任务中具备更强推理能力。此外，更新引入了社区与生态伙伴的精选技能，覆盖金融、办公等多领域。该智能体已获得信通院首个终端厂商权威安全认证。目前，支持该功能的小艺App已开启尝鲜升级。

智能体产品更新推理

21:49

Xiaomi MiMo@XiaomiMiMo

精选60

小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena（Expert）榜单中，它位列全球第六，同时是开源模型与中文模型的双料第一，其所属实验室全球排名第三。该模型在Text Arena（Overall）总榜中排名开源全球第二，在Code Arena（WebDev）前端开发榜单中位列开源全球第三。此外，它在Text Arena的四个关键子类别（Hard Prompts、英文Hard Prompts、指令遵循与长查询）中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估，体现了模型在复杂任务上的强大综合能力。

开源生态推理模型发布

推荐理由：小米MiMo-V2.5-Pro冲到Arena开源第一，虽然排名更新晚了几天，但这是国产模型在硬核评测里最好的成绩，做选型的现在该认真看看小米。

20:33

Qwen@Alibaba_Qwen

精选60

闪存QLA：基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang构建的高性能线性注意力内核，专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核，通过提升流处理器利用率，在前向传播上实现2-3倍加速，反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著，虽然在大批次处理时内存I/O开销略高，但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

开源/仓库推理端侧

推荐理由：2 倍加速的背后是 Warp 特化流水线和自动 Copy 策略，像给手机 GPU 开了条专用跑道，做端侧 Agent 的可以直接拉代码试试。

20:33

Qwen@Alibaba_Qwen

精选66

闪速QLA：基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核，专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构，以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率，在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时，其将GDN流程拆分为两个内核的策略会带来额外内存开销，但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线，实现了超过2倍的内核级加速。

GitHub 开源/仓库推理端侧

推荐理由：Qwen 把线性注意力的推理效率压到了新台阶，2-3 倍加速对想做本地 Agent 的开发者是实打实的，不是论文灌水，是能跑在设备上的代码。

19:07

公众号：通义实验室（千问）

FlashQLA：让 Qwen 的注意力层跑得更快

开源/仓库推理部署/工程

17:08

Chubby♨️@kimmonismus

GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是，GPT-5.5（非 pro 版）超越了 GPT-5.4 pro。【引用 @EpochAIResearch】：GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分！ECI 是我们的统计工具，它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI 推理模型发布评测/基准

16:38

Rohan Paul@rohanpaul_ai

AMD提出长上下文混合LLM架构HyLo，实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构，可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选，保留关键注意力层以保证质量，同时用固定内存的廉价层替换多数层以追踪长序列，从而将可用上下文扩展至200万token，并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型，HyLo在保持短上下文性能接近基准的同时，在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究

16:33

IT之家（RSS）

腾讯多款 Agent 智能体亮相 2026 数字中国建设峰会，混元 Hy3 preview 语言模型同步迎来展会首秀

在2026数字中国建设峰会上，腾讯展示了其Agent智能体生态。其中，WorkBuddy桌面智能体工作台可根据一句话描述自动完成任务；专为中国用户优化的AI技能社区“SkillHub”已集成腾讯核心产品能力，并收录超3.5万个技能。最新发布的混元Hy3 preview语言模型首次亮相，该模型为混合专家模型，总参数295B，支持256K上下文，在复杂推理、代码等能力上大幅提升，旨在助力中小企业低成本快速搭建AI应用，并已在腾讯云、元宝等多款产品中上线。

智能体推理模型发布

15:38

HuggingFace Daily Papers（社区热门论文）

Step-Audio-R1.5 技术报告

当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理，但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性，牺牲了声学细微差别和对话自然度，导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明，它在保持强大分析推理能力的同时，显著提升了交互体验，特别是在长轮对话中改善了韵律自然性与情感连续性，重新定义了深度沉浸式语音对话的边界。

推理模型发布语音

15:35

阿绎 AYi@AYi_AInotes

蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出，处理复杂任务速度可比竞品快6倍，并具备主动思辨能力。其核心优势在于极高的token效率，能将成本降至可比模型的四分之一，同时综合智能接近GPT-5.4非推理水平，实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先，擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据，通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准

15:33

IT之家（RSS）

科大讯飞星火 X2-Flash 模型发布：基于华为昇腾 910B 集群训练，最大 256K 上下文

科大讯飞正式发布星火 X2-Flash 模型并开放API。该模型采用MoE架构，总参数300亿，支持256K上下文，基于华为昇腾910B集群训练。其在智能体、代码等能力上大幅提升，在深度研究报告、Skill管理等多项任务上效果接近业界万亿参数模型，而整体token消耗不到主流大尺寸模型的三分之一。通过结合DSA与MTP技术，模型在国产芯片上的训练效率从同规模A800集群的20%提升至90%，并解决了长交互场景采样效率低的问题，为大规模强化学习训练扫清障碍。AstronClaw、Loomy等已率先接入。

MCP/工具推理模型发布

13:33

IT之家（RSS）

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB，同比增长 42.86%

国家数据局数据显示，2025年我国用于人工智能训练和推理的数据总量达199.48EB，同比增长42.86%。其中，推理数据量首次超过训练数据量，达到101.34EB。同年，由系统软件和人工智能产生的数据量达26.92ZB，首次超越传统占主体的物联感知数据量。测算显示，未来推理算力需求与训练算力需求之比可能达到3:1或更高。此外，全国日均词元调用量在2025年末已增至100万亿，全年累计调用量约21100万亿。

推理数据/训练行业动态

12:08

Chubby♨️@kimmonismus

初创公司Engramme构建了一种名为"大记忆模型"的全新AI架构，旨在专门模拟人类记忆的工作方式，而非依赖RAG或向量搜索等现有技术范式。其创始团队拥有超过160篇Nature和ICLR的出版物，并为此关闭了哈佛实验室。该公司认为，持久性记忆是当前AI的关键弱点，其LMM技术旨在为各类应用赋予持久记忆能力，宣称其解决了AI中的核心记忆难题，正如Google与OpenAI分别解决了搜索和语言问题一样。目前产品已开放测试注册。

Engramme: Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...

智能体产品更新推理

09:35

阿绎 AYi@AYi_AInotes

精选76

蚂蚁发布Ling-2.6系列模型，以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型，通过MoE架构与Fast-Thinking机制，将推理激活率降至7%，在实现接近GPT-5.4非推理水平综合智能的同时，大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先，旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源，推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务，在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由：把 token 成本砍到对手四分之一而智能分不降，Agent 规模化终于有了真正的成本解决方案，做 Agent 的必看。