1月8日

04:00

VentureBeat：AI（RSS）

Nous Research发布开源编程模型NousCoder-14B，直面Claude Code竞争

开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B，在LiveCodeBench v6评测中准确率达67.87%，较基础模型提升7.08个百分点。其最大特点是完全开源，不仅公开模型权重，还发布了完整的强化学习环境、基准测试套件和训练框架，使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练，性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际，凸显了AI编程助手领域的激烈竞争。

开源/仓库模型发布编码

04:00

Qwen：Blog Retrieval（API）

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker，平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布

1月7日

12:07

公众号：蚂蚁百灵（Ling）

蚂蚁·安诊儿开源：基于百灵的医疗大模型

蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed（蚂蚁·安诊儿）。模型总参数 100B，仅 1/32 激活（6.1B）即可媲美约 40B 稠密模型性能，实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程：持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源，可在 HuggingFace 和 ModelScope 获取。

开源生态模型发布

1月6日

06:56

Hugging Face：Blog（RSS）

精选80

NVIDIA发布Cosmos Reason 2模型，增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型，旨在提升物理AI系统的推理能力。该模型通过改进的推理架构，使AI能更准确地理解和预测物理世界的动态与交互，核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展，使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由：物理AI推理能力升级，机器人和具身智能落地的关键拼图

1月5日

17:16

Hugging Face：Blog（RSS）

精选73

Introducing Falcon-H1-Arabic：以混合架构突破阿拉伯语AI的边界

阿联酋技术创新研究院在Hugging Face发布了Falcon-H1-Arabic模型。该模型采用创新的混合架构，融合了自回归与自编码技术，专门针对阿拉伯语进行优化。其目标是通过提升对阿拉伯语复杂语法和丰富形态的理解与生成能力，显著推进阿拉伯语人工智能的发展。这一发布标志着阿拉伯语大语言模型在技术架构上取得了重要进展。

开源生态模型发布

推荐理由：阿拉伯语AI新模型发布，推动多语言AI应用发展

12月31日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2512：细节更精细，真实感更强

Qwen-Image-2512 发布，图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。

图像生成模型发布

12月24日

00:00

字节 Seed：Research Feed（网页内嵌数据）

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5，采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证，并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练，该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分（金牌线），9 小时内解决 Putnam 2025 的 11/12 题，在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率，刷新多项 SOTA。

智能体推理模型发布

12月23日

00:00

MiniMax：Blog（网页）

MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型，是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能，并达到行业领先水平。同时，模型显著增强了原生 Android 与 iOS 开发能力，以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景，响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上，取得了平均 88.6 分的成绩。

开源/仓库模型发布编码

12月22日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7：更强的 Coding

GLM-4.7 发布，编程能力显著提升。SWE-bench 达 73.8%（+5.8%），Terminal Bench 2.0 达 41%（+16.5%），支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能，可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力，可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由：智谱发布GLM-4.7，编程Agent能力大幅提升，支持Claude Code等主流框架和Vibe Coding。

12月18日

16:11

公众号：豆包（字节）

豆包大模型1.8发布，Seedance模型同步升级

字节跳动发布豆包大模型1.8版本，同步升级Seedance模型。

多模态模型发布

12月17日

19:58

Google DeepMind：Blog（RSS）

精选

Gemini 3 Flash：专为速度打造的前沿智能

Gemini 3 Flash 正式发布，在大幅降低使用成本的同时提供前沿级智能，主打极速推理性能，为需要快速响应的 AI 应用提供高性价比选择。

Google 模型发布端侧部署/工程

推荐理由：Google发布Gemini 3 Flash轻量模型，兼顾前沿性能与推理速度