全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 726 条

全部一手资讯 X 论文

标签「模型发布」清除

12月24日周三

00:00字节 Seed：Research Feed（网页内嵌数据）Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

12月23日周二

00:00MiniMax：Blog（网页）53MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

12月22日周一

00:00智谱：研究（网页内嵌数据）精选GLM-4.7：更强的 Coding

12月18日周四

16:11公众号：豆包（字节）53豆包大模型1.8发布，Seedance模型同步升级

12月17日周三

19:58Google DeepMind：Blog（RSS）精选Gemini 3 Flash：专为速度打造的前沿智能

08:01公众号：小米 MiMo52小米 MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

00:00Mistral AI：News（网页）55Mistral OCR 3 发布

12月16日周二

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 首日支持 MiMo-V2-Flash 模型

12月15日周一

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型，NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

12月13日周六

17:03美团 LongCat：HuggingFace 新模型meituan-longcat/LongCat-Video-Avatar 视频化身项目

12月11日周四

23:36蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/LLaDA2.X

00:00智谱：研究（网页内嵌数据）精选GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

12月10日周三

00:00智谱：研究（网页内嵌数据）精选GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

12月9日周二

00:00Mistral AI：News（网页）60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

12月8日周一

00:00智谱：研究（网页内嵌数据）精选GLM-4.6V：支持原生工具调用的开源多模态模型

12月5日周五

15:34美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Edit 图像编辑项目

12月4日周四

21:02美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Dev 开源图像项目

20:38美团 LongCat：HuggingFace 新模型美团-longcat/LongCat-Image

12月2日周二

00:00Mistral AI：News（网页）68Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

12月1日周一

18:52公众号：DeepSeek（深度求索）66同事件精选DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理同一事件，精选展示《DeepSeek-V3 正式发布》

11月25日周二

08:00Hugging Face：Blog（RSS）80精选Diffusers 集成 FLUX-2 模型

11月20日周四

23:05Google DeepMind：Blog（RSS）精选Google DeepMind 发布 Nano Banana Pro 图像生成模型

11月19日周三

13:19Hugging Face：Blog（RSS）78精选Apriel-H1：蒸馏高效推理模型的关键要素

08:00xAI：News（网页）精选xAI发布Grok 4.1 Fast与Agent Tools API

11月17日周一

23:09Google DeepMind：Blog（RSS）WeatherNext 2：我们最先进的天气预报模型

10月30日周四

00:00MiniMax：Blog（网页）精选MiniMax发布新一代语音模型Speech 2.6

10月28日周二

00:00MiniMax：Blog（网页）精选MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

10月27日周一

00:00MiniMax：Blog（网页）62同事件精选MiniMax M2与AI智能体：简中见巧同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

10月26日周日

02:14Google DeepMind：Blog（RSS）T5Gemma：全新的编码器-解码器 Gemma 模型系列

02:02Google DeepMind：Blog（RSS）精选MedGemma：健康 AI 开发领域最强的开源多模态模型

01:34Google DeepMind：Blog（RSS）精选Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

10月25日周六

03:06Google DeepMind：Blog（RSS）AlphaEarth Foundations 以前所未有的细节绘制地球地图

00:04美团 LongCat：HuggingFace 新模型美团 LongCat-Video 项目

10月24日周五

11:12Google DeepMind：Blog（RSS）精选带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

10:58Google DeepMind：Blog（RSS）Aeneas 改变历史学家连接过去的方式

08:48美团 LongCat：HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni

02:50Google DeepMind：Blog（RSS）精选Gemma 3 270M 发布：专为超高效 AI 打造的轻量模型

02:42Google DeepMind：Blog（RSS）VaultGemma：全球能力最强的差分隐私 LLM

02:40Google DeepMind：Blog（RSS）精选Gemini 2.5 Computer Use 模型发布

02:22Google DeepMind：Blog（RSS）Gemma 模型助力发现潜在癌症治疗新途径

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

12月24日

00:00

字节 Seed：Research Feed（网页内嵌数据）

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5，采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证，并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练，该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分（金牌线），9 小时内解决 Putnam 2025 的 11/12 题，在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率，刷新多项 SOTA。

智能体推理模型发布

12月23日

00:00

MiniMax：Blog（网页）

53

MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型，是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能，并达到行业领先水平。同时，模型显著增强了原生 Android 与 iOS 开发能力，以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景，响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上，取得了平均 88.6 分的成绩。

开源/仓库模型发布编码

12月22日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7：更强的 Coding

GLM-4.7 发布，编程能力显著提升。SWE-bench 达 73.8%（+5.8%），Terminal Bench 2.0 达 41%（+16.5%），支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能，可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力，可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由：智谱发布GLM-4.7，编程Agent能力大幅提升，支持Claude Code等主流框架和Vibe Coding。

12月18日

16:11

公众号：豆包（字节）

53

豆包大模型1.8发布，Seedance模型同步升级

字节跳动发布豆包大模型1.8版本，同步升级Seedance模型。

多模态模型发布

12月17日

19:58

Google DeepMind：Blog（RSS）

精选

Gemini 3 Flash：专为速度打造的前沿智能

Gemini 3 Flash 正式发布，在大幅降低使用成本的同时提供前沿级智能，主打极速推理性能，为需要快速响应的 AI 应用提供高性价比选择。

Google 模型发布端侧部署/工程

推荐理由：Google发布Gemini 3 Flash轻量模型，兼顾前沿性能与推理速度

08:01

公众号：小米 MiMo

52

小米 MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

小米开源了 MiMo-V2-Flash 模型，定位为高效推理、代码与 Agent 基座模型，其 Agent 综合能力在全球开源模型中排名第二。

智能体开源生态模型发布

00:00

Mistral AI：News（网页）

55

Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3，这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中，该模型的整体胜率达到 74%，超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型，其定价为行业领先的每 1,000 页 2 美元（通过 Batch API 可享 50% 折扣，即 1 美元）。开发者可通过 API（模型标识符 mistral-ocr-2512）进行集成，其输出为包含 HTML 表格标签的 markdown 格式，便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布

12月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型，SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数，采用滑动窗口注意力（SWA）和 3 层多级 MTP 设计，将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存，在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度，隐藏 CPU 开销并减少 GPU 气泡，最大化硬件利用率。

推理模型发布部署/工程

12月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型，NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构，总参数 30B 但仅激活 3.6B，支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时，在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式，并支持"思考预算"功能以减少过度推理，适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程

12月13日

17:03

美团 LongCat：HuggingFace 新模型

meituan-longcat/LongCat-Video-Avatar 视频化身项目

meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒，将先进的 AI 能力开放给更广泛的开发者社区，推动前沿技术的平民化应用与生态发展。

Hugging Face 模型发布视频

12月11日

23:36

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架，融合字符错误率、相似度、情感及笑声奖励，实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA，情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色，通过 Phoneme-in 混合输入精准控制多音字发音，配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由：智谱开源GLM-TTS，3秒克隆任意音色并支持喜怒哀乐情感表达

12月10日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月9日

00:00

Mistral AI：News（网页）

60

Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2，包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证，在 SWE-bench Verified 上达到 72.2%，成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证，可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI，用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码

12月8日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.6V：支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型，含106B-A12B基础版与9B轻量版Flash，支持128k tokens上下文。首次原生集成Function Call能力，支持图像、截图直接作为工具参数，并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力，适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体 MCP/工具多模态模型发布

推荐理由：智谱开源 GLM-4.6V，原生支持工具调用的多模态 Agent 底座

12月5日

15:34

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，通过开放协作促进全球开发者共同参与技术创新，推动先进图像编辑能力的广泛可及。

Hugging Face 图像生成模型发布

12月4日

21:02

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目，致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本，旨在降低 AI 技术门槛，促进全球开发者协作创新，体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face 图像生成模型发布

20:38

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目，致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛，打破技术壁垒，让先进的 AI 能力更加普惠可及，体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face 图像生成模型发布

12月2日

00:00

Mistral AI：News（网页）

68

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

12月1日

18:52

公众号：DeepSeek（深度求索）

同事件精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体 DeepSeek 推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

11月25日

08:00

Hugging Face：Blog（RSS）

精选80

Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数，采用多模态扩散 Transformer 架构，在图像质量、提示遵循和分辨率方面表现优异，支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face 图像生成模型发布

推荐理由：FLUX-2 图像生成模型正式进入 Diffusers 生态，本地部署和微调更便捷

11月20日

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMind Google 图像生成多模态

关联讨论 2 条Google DeepMind：Blog（RSS）Ethan Mollick：One Useful Thing（RSS）

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face 推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

08:00

xAI：News（网页）

精选

xAI发布Grok 4.1 Fast与Agent Tools API

xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文，在τ²-bench Telecom基准测试中获100%得分且成本仅105美元，函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品，成本更低且幻觉率较上代降低一半。

智能体 MCP/工具 xAI 模型发布

关联讨论 1 条xAI：News（网页）

推荐理由：xAI 发布 Grok 4.1 Fast 及 Agent Tools API，支持 2M 上下文与原生工具调用，剑指企业级 Agent 应用。

11月17日

23:09

Google DeepMind：Blog（RSS）

WeatherNext 2：我们最先进的天气预报模型

WeatherNext 2 新一代 AI 天气预测模型正式发布，作为目前最先进版本，在预测效率、准确性和分辨率上均有显著提升，支持全球范围的高精度天气预报。

DeepMind Google 模型发布

10月30日

00:00

MiniMax：Blog（网页）

精选

MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由：MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

10月28日

00:00

MiniMax：Blog（网页）

精选

MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型，在物理动作流畅度、艺术风格化（支持动漫、水墨、游戏 CG）及角色微表情方面显著提升，维持 Hailuo 02 原价，Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent，支持多模态一键视频生成与分步自定义创作，已全平台上线并开放免费试用。

智能体模型发布视频

关联讨论 1 条MiniMax：Blog（网页）

推荐理由：MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent，支持多模态一键生成

10月27日

00:00

MiniMax：Blog（网页）

同事件精选62

MiniMax M2与AI智能体：简中见巧

MiniMax正式开源并发布了专为AI智能体（Agent）和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力，仅为Claude Sonnet价格的约8%，且推理速度更快。在关键的智能体能力方面，其工具调用和深度搜索表现接近顶尖模型，编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”，为构建更普及的AI智能体应用提供基础，体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码

同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

推荐理由：MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%，速度还翻倍，开源权重直接可用，做 Agent 的开发者值得上手试试。

10月26日

02:14

Google DeepMind：Blog（RSS）

T5Gemma：全新的编码器-解码器 Gemma 模型系列

T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列，采用双向编码器与自回归解码器架构，适用于翻译、摘要等序列到序列任务。

DeepMind Google 模型发布

02:02

Google DeepMind：Blog（RSS）

精选

MedGemma：健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型，专为健康 AI 开发设计。作为该系列迄今最强的开源版本，新模型具备更强大的医疗场景理解能力，为开发者提供先进的医疗人工智能技术支持，助力构建更精准的健康医疗解决方案。

DeepMind 多模态开源生态模型发布

推荐理由：DeepMind发布最强开放医疗多模态模型，支持开发者微调构建健康AI应用

01:34

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览，达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出，支持 100 万 token 超长上下文和多模态能力。

Google 多模态模型发布端侧

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google轻量模型Gemini 2.5 Flash-Lite正式版发布，百万上下文多模态兼顾成本效益

10月25日

03:06

Google DeepMind：Blog（RSS）

AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据，生成统一数据表示，以前所未有的精度革新全球测绘与监测。

DeepMind 多模态数据/训练模型发布

00:04

美团 LongCat：HuggingFace 新模型

美团 LongCat-Video 项目

美团 LongCat-Video 项目秉持开源与开放科学理念，致力于推进并普及人工智能技术。该项目通过开放源代码的方式，旨在降低 AI 技术应用门槛，打破技术壁垒，促进视频领域人工智能技术的广泛传播与创新发展，体现了推动 AI 技术民主化与开源生态建设的长期愿景。

Hugging Face 模型发布视频

10月24日

11:12

Google DeepMind：Blog（RSS）

精选

带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克（IMO）中达到金牌水平。IMO 自1959年起每年举办，是全球最顶尖的青年数学家竞赛，各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMind Google 推理模型发布

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Gemini Deep Think在IMO数学竞赛达到金牌标准，推理能力获重大突破

10:58

Google DeepMind：Blog（RSS）

Aeneas 改变历史学家连接过去的方式

首个古代铭文语境化模型 Aeneas 发布，帮助历史学家解读、归属和修复残缺文本，革新历史文献研究方式。

DeepMind Google 模型发布

08:48

美团 LongCat：HuggingFace 新模型

精选

美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni，采用5600亿参数MoE架构（激活270亿），支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家，配备轻量级编解码器及分块特征交错机制，通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro，在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face 多模态模型发布语音

关联讨论 1 条美团 LongCat：HuggingFace 新模型

推荐理由：美团开源 560B 参数多模态模型，27B 激活即可实现实时音视频交互

02:50

Google DeepMind：Blog（RSS）

精选

Gemma 3 270M 发布：专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型，仅 2.7 亿参数，定位紧凑型超高效 AI 专业工具。

DeepMind 开源生态模型发布端侧

推荐理由：Google 发布 270M 超小参数开源模型，端侧部署新选择

02:42

Google DeepMind：Blog（RSS）

VaultGemma：全球能力最强的差分隐私 LLM

VaultGemma 基于差分隐私技术从头训练，是目前能力最强的隐私保护大语言模型，在严格隐私约束下实现了顶尖性能。

DeepMind 安全/对齐数据/训练模型发布

02:40

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建，专门用于驱动能与用户界面交互的 agent，现已通过 API 以预览版形式提供。

智能体 DeepMind Google 多模态

推荐理由：Google 发布 Gemini 2.5 Computer Use 模型，支持 Agent 自主操作图形界面

02:22

Google DeepMind：Blog（RSS）

Gemma 模型助力发现潜在癌症治疗新途径

发布基于 Gemma 的 270 亿参数单细胞分析基础模型，该模型此前已协助发现潜在癌症治疗新通路。

DeepMind Google 开源生态模型发布

1…14 151617 18 19