inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型，致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛，促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数，体现了其在处理复杂任务方面的潜力，同时强调开放协作对加速AI创新与社会普惠的关键作用。

开源/仓库推理模型发布

2月28日

08:00

蚂蚁百灵：Developer Blog（网页）

精选80

拒绝"AI 味"：我们用 6 个文学维度，重新审视了模型的创意写作边界

本文通过叙事工艺、语言艺术等六个文学维度，评估百灵模型Ling-2.5-1T的创意写作能力。测试显示，该模型能驾驭莎士比亚十四行诗、七言绝句等多种体裁，并通过感官描写实现“展现而非告知”的文学技法，在微观叙事和语言质感上接近人类水平。然而，模型仍存在依赖高频文学意象、处理否定指令时语义代偿等局限。该框架为创作者提供了激发AI写作潜力的具体方法。

推理评测/基准

关联讨论 1 条

推荐理由：提供实用文学维度框架和 Prompt 技巧，助你驾驭 AI 创意写作。

2月27日

21:02

公众号：月之暗面（Kimi）

Kimi API：用90%缓存命中率，把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本，在 90% 缓存命中率下，实际价格为 1.03 元/M tokens，仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动，核心支撑是与清华大学合作研发的 Mooncake 推理架构，该架构获存储顶会 FAST 2025 最佳论文，并已开源。

开源/仓库推理教程/实践部署/工程

2月26日

22:00

公众号：蚂蚁百灵（Ling）

蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵（Ling）公布 Ling 2.5 模型架构改造实践，将 Lightning Attention 与 MLA（Multi-head Latent Attention）两种线性注意力机制融合，形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力，为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践

08:00

蚂蚁百灵：Developer Blog（网页）

精选86

Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率，Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐，并通过MLA极致压缩KV Cache。为确保改造后性能无损，团队设计了精细的平滑迁移训练策略，包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例，最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程

关联讨论 1 条

推荐理由：为大模型长上下文优化提供可落地的工程实践参考。

2月23日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 二月发布亮点：模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据，推出了新的免费模型路由功能，并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程

2月20日

00:06

Google DeepMind：Blog（RSS）

精选

Gemini 3.1 Pro：专为最复杂任务打造的更智能模型

Gemini 3.1 Pro 发布，专为无法通过简单回答解决的复杂任务设计，提供更智能的深度推理与处理能力。

Google 推理模型发布

关联讨论 1 条

推荐理由：Google 发布 Gemini 3.1 Pro，强化复杂任务推理能力