5月14日

23:45

Ant Ling@AntLingAGI

Ring-2.6-1T 正式开源，这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”，转向任务执行，能够理解上下文、规划步骤、调用工具，并在长任务链中保持稳定。模型重点支持高级智能体工作流，提供不同级别的推理努力配置：常规任务采用高级别，复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习，从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

22:45

Hugging Face：Blog（RSS）

精选59

解锁连续批处理中的异步性

在连续批处理中，同步方式导致CPU与GPU交替工作，造成闲置浪费。测试显示，使用8B模型生成8K令牌时，GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载，让CPU准备下一批次（N+1）的同时，GPU计算当前批次（N），从而消除闲置间隙。这可通过CUDA流实现操作并发，无需更改内核或模型，仅需协调硬件执行顺序。理论上，该方法可将总生成时间从300.6秒减少至228秒，实现24%的免费加速。相关技术已集成到transformers库的连续批处理中，显著提升推理性能。

Hugging Face 推理教程/实践部署/工程

推荐理由：文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待，把推理吞吐提升22%，搞推理优化的工程师值得细读。

21:45

The Decoder：AI News（RSS）

阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍，并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0，其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练，并配备专用模块，可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成，远少于通常的40步。在用户盲测平台LMArena上，该模型目前排名第9位。

图像生成推理模型发布

20:01

Chubby♨️@kimmonismus

传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平，同时推理成本降低了15至20倍。其延迟表现也极为出色，多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术，成功将前沿模型压缩为"Flash"变体，而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google 推理模型发布编码

19:58

公众号：龙猫LongCat（美团）

美团 LongCat 开源 General 365：树立推理评测新标尺

开源/仓库推理评测/基准

18:46

HuggingFace Daily Papers（社区热门论文）

RealICU：超越行为模仿，评估LLM智能体对长上下文ICU数据的理解能力

RealICU是一个基于后见之明标注的基准，用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签，并发布了RealICU-Gold（930个标注）和RealICU-Scale（11,862个标注）两个数据集。测试发现，现有LLM（包括记忆增强模型）表现不佳，暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理，但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。

arXiv 推理论文/研究

18:08

🚨 AI News | TestingCatalog@testingcatalog

据路透社报道，微软正在探索收购Inception的交易，该AI实验室近期发布了全球首个推理扩散大语言模型Mercury 2。想象一下扩散版Copilot 👀

🚨 AI News | TestingCatalog: BREAKING 🚨: Inception has launched Mercury 2, the first reasoning diffusion LLM with 5x the performance of top-speed-op...

Microsoft 推理行业动态

13:58

Xiaomi MiMo@XiaomiMiMo

MiMo V2.5 Pro （Thinking）模型在Design Arena的开放权重模型总排行榜中位列第三，相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢，并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准

13:35

Rohan Paul@rohanpaul_ai

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理

近期，Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式，并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上，该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明，性能提升并非以牺牲输出质量为代价，而是通过避免重复的全成本解码工作来达成。同时，利用llama.cpp进行高效调用，进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界，使得在本地设备上流畅运行大型模型成为可能，提升了用户体验。

atomic.chat: Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp! +40% performance! 90% acceptance rate. Running locally on a MacBook ...

GitHub 推理教程/实践端侧

13:04

Ethan Mollick@emollick

大家都看过@waitbutwhy的漫画--在指数级增长真正开始前有个"你在此处"的标记，而METR与英国AISA的独立评估似乎都表明，我们现在已越过那个临界点了（直到增长放缓为止？）

大佬观点推理

11:45

HuggingFace Daily Papers（社区热门论文）

长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现，增加思维链示例数量主要惠及推理导向模型，而对非推理模型效果不稳定；基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效；示例顺序影响显著，性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习，并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法，在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv 推理数据/训练论文/研究

10:51

Berryxia.AI@berryxia

精选79

UnslothAI发布Qwen3.6 MTP GGUF模型，实现推理速度大幅提升

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型，显著提升了推理速度。其中，27B模型在单GPU上达到每秒140个token，35B-A3B版本更是高达每秒220个token，相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2，这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率，推动了本地AI的性能边界。

Daniel Han: We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 2...

推理教程/实践部署/工程

推荐理由：这波MTP投机解码把消费级显卡的推理速度榨出新高度，27B模型单GPU跑140 tokens/s，精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。