4月30日

02:06

Google AI@GoogleAI

在Google Cloud Next '26大会上，谷歌正式推出专为智能体时代设计的第八代TPU芯片，分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练，其性能约为前代的3倍，并通过加速数据移动和优化硬件容错，将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务，内存扩大三倍以支持多步推理，每美元性能提升80%，延迟降低5倍，助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力，推动AI应用创新。

Google 产品更新推理部署/工程

01:42

Ant Ling@AntLingAGI

Ling-2.6-1T正式开源，来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数，专为实际生产设计，具有token高效性，便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模，实现了从快速推理到更强推理的跨越。主推文强调，结合@opencode等工具展示了酷炫演示，体现了模型与现有工具的兼容性和实用性，并对@novita_labs的合作发布表示感谢。

Novita AI: Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token，才能使整个行业可持续发展。🤗🤗

Adina Yakup: Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

精选72

SGLang团队（隶属于LMSYS Org）揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法，在保持质量的同时，成本可比同类模型降低约4倍，并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计，具备万亿参数能力与即时模型延迟。团队正持续进行优化，以进一步提升性能。

LMSYS Org: 👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...

智能体推理模型发布编码

推荐理由：万亿参数做到即时延迟和4倍成本优势，还有SWE-bench SOTA，这份承诺如果兑现，会改变大规模Agent部署的性价比计算。值得去cookbook跑一下验证。

4月29日

23:42

Ant Ling@AntLingAGI

精选71

Ling-2.6-1T万亿参数模型开源，主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构，核心设计理念是“令牌高效”，旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化，具备可靠的多步骤执行能力，在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化，部署便捷，兼容广泛的智能体框架，适用于从代码生成到错误修复等多种任务。

Ant Ling: 🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数模型开源了，但强调的不是大，而是省 token，这对成本敏感的生产环境是真正的性价比之选，做 agent 的可以上手测测。

23:40

TestingCatalog News 🗞@testingcatalog

MISTRAL 🚨： Mistral AI 发布了 Mistral Medium 3.5，这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

Mistral Vibe: Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...

开源生态推理模型发布

21:49

Xiaomi MiMo@XiaomiMiMo

精选60

小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena（Expert）榜单中，它位列全球第六，同时是开源模型与中文模型的双料第一，其所属实验室全球排名第三。该模型在Text Arena（Overall）总榜中排名开源全球第二，在Code Arena（WebDev）前端开发榜单中位列开源全球第三。此外，它在Text Arena的四个关键子类别（Hard Prompts、英文Hard Prompts、指令遵循与长查询）中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估，体现了模型在复杂任务上的强大综合能力。

开源生态推理模型发布

推荐理由：小米MiMo-V2.5-Pro冲到Arena开源第一，虽然排名更新晚了几天，但这是国产模型在硬核评测里最好的成绩，做选型的现在该认真看看小米。

20:33

Qwen@Alibaba_Qwen

精选60

闪存QLA：基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang构建的高性能线性注意力内核，专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核，通过提升流处理器利用率，在前向传播上实现2-3倍加速，反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著，虽然在大批次处理时内存I/O开销略高，但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

开源/仓库推理端侧

推荐理由：2 倍加速的背后是 Warp 特化流水线和自动 Copy 策略，像给手机 GPU 开了条专用跑道，做端侧 Agent 的可以直接拉代码试试。

20:33

Qwen@Alibaba_Qwen

精选66

闪速QLA：基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核，专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构，以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率，在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时，其将GDN流程拆分为两个内核的策略会带来额外内存开销，但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线，实现了超过2倍的内核级加速。

GitHub 开源/仓库推理端侧

推荐理由：Qwen 把线性注意力的推理效率压到了新台阶，2-3 倍加速对想做本地 Agent 的开发者是实打实的，不是论文灌水，是能跑在设备上的代码。

17:08

Chubby♨️@kimmonismus

GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是，GPT-5.5（非 pro 版）超越了 GPT-5.4 pro。【引用 @EpochAIResearch】：GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分！ECI 是我们的统计工具，它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI 推理模型发布评测/基准

16:38

Rohan Paul@rohanpaul_ai

AMD提出长上下文混合LLM架构HyLo，实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构，可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选，保留关键注意力层以保证质量，同时用固定内存的廉价层替换多数层以追踪长序列，从而将可用上下文扩展至200万token，并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型，HyLo在保持短上下文性能接近基准的同时，在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究

15:35

阿绎 AYi@AYi_AInotes

蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出，处理复杂任务速度可比竞品快6倍，并具备主动思辨能力。其核心优势在于极高的token效率，能将成本降至可比模型的四分之一，同时综合智能接近GPT-5.4非推理水平，实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先，擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据，通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准

12:08

Chubby♨️@kimmonismus

初创公司Engramme构建了一种名为"大记忆模型"的全新AI架构，旨在专门模拟人类记忆的工作方式，而非依赖RAG或向量搜索等现有技术范式。其创始团队拥有超过160篇Nature和ICLR的出版物，并为此关闭了哈佛实验室。该公司认为，持久性记忆是当前AI的关键弱点，其LMM技术旨在为各类应用赋予持久记忆能力，宣称其解决了AI中的核心记忆难题，正如Google与OpenAI分别解决了搜索和语言问题一样。目前产品已开放测试注册。

Engramme: Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...

智能体产品更新推理

09:35

阿绎 AYi@AYi_AInotes

精选76

蚂蚁发布Ling-2.6系列模型，以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型，通过MoE架构与Fast-Thinking机制，将推理激活率降至7%，在实现接近GPT-5.4非推理水平综合智能的同时，大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先，旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源，推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务，在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由：把 token 成本砍到对手四分之一而智能分不降，Agent 规模化终于有了真正的成本解决方案，做 Agent 的必看。