AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
1月8日周四
04:00VentureBeat:AI(RSS)46Nous Research发布开源编程模型NousCoder-14B,直面Claude Code竞争
04:00Qwen:Blog Retrieval(API)Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索
1月7日周三
12:07公众号:蚂蚁百灵(Ling)58蚂蚁·安诊儿开源:基于百灵的医疗大模型
1月6日周二
06:56Hugging Face:Blog(RSS)80精选NVIDIA发布Cosmos Reason 2模型,增强物理AI推理能力
1月5日周一
17:16Hugging Face:Blog(RSS)73精选Introducing Falcon-H1-Arabic: 以混合架构突破阿拉伯语AI的边界
12月31日周三
13:08Qwen:Blog Retrieval(API)Qwen-Image-2512:细节更精细,真实感更强
12月24日周三
00:00字节 Seed:Research Feed(网页内嵌数据)Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现
12月23日周二
00:00MiniMax:Blog(网页)53MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造
12月22日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.7:更强的 Coding
12月18日周四
16:11公众号:豆包(字节)53豆包大模型1.8发布,Seedance模型同步升级
12月17日周三
19:58Google DeepMind:Blog(RSS)精选Gemini 3 Flash:专为速度打造的前沿智能
08:01公众号:小米 MiMo52小米 MiMo-V2-Flash 开源:高效推理、代码与 Agent 基座模型
00:00Mistral AI:News(网页)55Mistral OCR 3 发布
12月16日周二
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持 MiMo-V2-Flash 模型
12月15日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量
12月13日周六
17:03美团 LongCat:HuggingFace 新模型meituan-longcat/LongCat-Video-Avatar 视频化身项目
12月11日周四
23:36蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/LLaDA2.X
00:00智谱:研究(网页内嵌数据)精选GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成
12月10日周三
00:00智谱:研究(网页内嵌数据)精选GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别
12月9日周二
00:00Mistral AI:News(网页)60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI
12月8日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.6V:支持原生工具调用的开源多模态模型
12月5日周五
15:34美团 LongCat:HuggingFace 新模型美团 LongCat-Image-Edit 图像编辑项目
12月4日周四
21:02美团 LongCat:HuggingFace 新模型美团 LongCat-Image-Dev 开源图像项目
20:38美团 LongCat:HuggingFace 新模型美团-longcat/LongCat-Image
12月2日周二
00:00Mistral AI:News(网页)68Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)
12月1日周一
18:52公众号:DeepSeek(深度求索)66同事件精选DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理同一事件,精选展示《DeepSeek-V3 正式发布》
11月25日周二
08:00Hugging Face:Blog(RSS)80精选Diffusers 集成 FLUX-2 模型
11月20日周四
23:05Google DeepMind:Blog(RSS)精选Google DeepMind 发布 Nano Banana Pro 图像生成模型
11月19日周三
13:19Hugging Face:Blog(RSS)78精选Apriel-H1:蒸馏高效推理模型的关键要素
08:00xAI:News(网页)精选xAI发布Grok 4.1 Fast与Agent Tools API
11月17日周一
23:09Google DeepMind:Blog(RSS)WeatherNext 2:我们最先进的天气预报模型
10月30日周四
00:00MiniMax:Blog(网页)精选MiniMax发布新一代语音模型Speech 2.6
10月28日周二
00:00MiniMax:Blog(网页)精选MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型
10月27日周一
00:00MiniMax:Blog(网页)62同事件精选MiniMax M2与AI智能体:简中见巧同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
10月26日周日
02:14Google DeepMind:Blog(RSS)T5Gemma:全新的编码器-解码器 Gemma 模型系列
02:02Google DeepMind:Blog(RSS)精选MedGemma:健康 AI 开发领域最强的开源多模态模型
01:34Google DeepMind:Blog(RSS)精选Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产
10月25日周六
03:06Google DeepMind:Blog(RSS)AlphaEarth Foundations 以前所未有的细节绘制地球地图
00:04美团 LongCat:HuggingFace 新模型美团 LongCat-Video 项目
10月24日周五
11:12Google DeepMind:Blog(RSS)精选带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
1月8日
04:00
VentureBeat:AI(RSS)
46
Nous Research发布开源编程模型NousCoder-14B,直面Claude Code竞争

开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B,在LiveCodeBench v6评测中准确率达67.87%,较基础模型提升7.08个百分点。其最大特点是完全开源,不仅公开模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架,使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练,性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际,凸显了AI编程助手领域的激烈竞争。

开源/仓库模型发布编码
04:00
Qwen:Blog Retrieval(API)
Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布
1月7日
12:07
公众号:蚂蚁百灵(Ling)
58
蚂蚁·安诊儿开源:基于百灵的医疗大模型

蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed(蚂蚁·安诊儿)。模型总参数 100B,仅 1/32 激活(6.1B)即可媲美约 40B 稠密模型性能,实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程:持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源,可在 HuggingFace 和 ModelScope 获取。

开源生态模型发布
1月6日
06:56
Hugging Face:Blog(RSS)
精选80
NVIDIA发布Cosmos Reason 2模型,增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由:物理AI推理能力升级,机器人和具身智能落地的关键拼图
1月5日
17:16
Hugging Face:Blog(RSS)
精选73
Introducing Falcon-H1-Arabic: 以混合架构突破阿拉伯语AI的边界

阿联酋技术创新研究院在Hugging Face发布了Falcon-H1-Arabic模型。该模型采用创新的混合架构,融合了自回归与自编码技术,专门针对阿拉伯语进行优化。其目标是通过提升对阿拉伯语复杂语法和丰富形态的理解与生成能力,显著推进阿拉伯语人工智能的发展。这一发布标志着阿拉伯语大语言模型在技术架构上取得了重要进展。

开源生态模型发布

推荐理由:阿拉伯语AI新模型发布,推动多语言AI应用发展
12月31日
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-2512:细节更精细,真实感更强

Qwen-Image-2512 发布,图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。

图像生成模型发布
12月24日
00:00
字节 Seed:Research Feed(网页内嵌数据)
Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5,采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证,并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练,该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分(金牌线),9 小时内解决 Putnam 2025 的 11/12 题,在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率,刷新多项 SOTA。

智能体推理模型发布
12月23日
00:00
MiniMax:Blog(网页)
53
MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。

开源/仓库模型发布编码
12月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7:更强的 Coding

GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由:智谱发布GLM-4.7,编程Agent能力大幅提升,支持Claude Code等主流框架和Vibe Coding。
12月18日
16:11
公众号:豆包(字节)
53
豆包大模型1.8发布,Seedance模型同步升级

字节跳动发布豆包大模型1.8版本,同步升级Seedance模型。

多模态模型发布
12月17日
19:58
Google DeepMind:Blog(RSS)
精选
Gemini 3 Flash:专为速度打造的前沿智能

Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由:Google发布Gemini 3 Flash轻量模型,兼顾前沿性能与推理速度
08:01
公众号:小米 MiMo
52
小米 MiMo-V2-Flash 开源:高效推理、代码与 Agent 基座模型

小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。

智能体开源生态模型发布
00:00
Mistral AI:News(网页)
55
Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 mistral-ocr-2512)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布
12月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。

推理模型发布部署/工程
12月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程
12月13日
17:03
美团 LongCat:HuggingFace 新模型
meituan-longcat/LongCat-Video-Avatar 视频化身项目

meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒,将先进的 AI 能力开放给更广泛的开发者社区,推动前沿技术的平民化应用与生态发展。

Hugging Face模型发布视频
12月11日
23:36
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由:智谱开源GLM-TTS,3秒克隆任意音色并支持喜怒哀乐情感表达
12月10日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由:智谱开源1.5B语音识别模型,端侧可用且针对真实场景优化,适合集成到输入法等产品
12月9日
00:00
Mistral AI:News(网页)
60
Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码
12月8日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.6V:支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体MCP/工具多模态模型发布

推荐理由:智谱开源 GLM-4.6V,原生支持工具调用的多模态 Agent 底座
12月5日
15:34
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,通过开放协作促进全球开发者共同参与技术创新,推动先进图像编辑能力的广泛可及。

Hugging Face图像生成模型发布
12月4日
21:02
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face图像生成模型发布
20:38
美团 LongCat:HuggingFace 新模型
美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face图像生成模型发布
12月2日
00:00
Mistral AI:News(网页)
68
Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布
12月1日
18:52
公众号:DeepSeek(深度求索)
同事件精选66
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
智能体DeepSeek推理模型发布
同一事件,精选展示《DeepSeek-V3 正式发布》
推荐理由:半年前的这版更新,把 Agent 和思考推理揉进了开源模型,回头看算是 DeepSeek 在智能体能力上的关键一刀,做 Agent 开发的至今绕不开它。
11月25日
08:00
Hugging Face:Blog(RSS)
精选80
Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face图像生成模型发布

推荐理由:FLUX-2 图像生成模型正式进入 Diffusers 生态,本地部署和微调更便捷
11月20日
23:05
Google DeepMind:Blog(RSS)
精选
Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMindGoogle图像生成多模态
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)
推荐理由:Google 发布 Nano Banana Pro 图像生成模型,支持多语言文本渲染与 4K 输出
11月19日
13:19
Hugging Face:Blog(RSS)
精选78
Apriel-H1:蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face推理数据/训练模型发布

推荐理由:新蒸馏方法可能大幅降低推理模型部署成本,开发者可借鉴实践。
08:00
xAI:News(网页)
精选
xAI发布Grok 4.1 Fast与Agent Tools API

xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。

智能体MCP/工具xAI模型发布
关联讨论 1 条xAI:News(网页)
推荐理由:xAI 发布 Grok 4.1 Fast 及 Agent Tools API,支持 2M 上下文与原生工具调用,剑指企业级 Agent 应用。
11月17日
23:09
Google DeepMind:Blog(RSS)
WeatherNext 2:我们最先进的天气预报模型

WeatherNext 2 新一代 AI 天气预测模型正式发布,作为目前最先进版本,在预测效率、准确性和分辨率上均有显著提升,支持全球范围的高精度天气预报。

DeepMindGoogle模型发布
10月30日
00:00
MiniMax:Blog(网页)
精选
MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由:MiniMax发布Speech 2.6语音模型,支持Voice Agent场景,实现超低延迟与Fluent LoRA语音克隆优化。
10月28日
00:00
MiniMax:Blog(网页)
精选
MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。

智能体模型发布视频
关联讨论 1 条MiniMax:Blog(网页)
推荐理由:MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent,支持多模态一键生成
10月27日
00:00
MiniMax:Blog(网页)
同事件精选62
MiniMax M2与AI智能体:简中见巧

MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%,速度还翻倍,开源权重直接可用,做 Agent 的开发者值得上手试试。
10月26日
02:14
Google DeepMind:Blog(RSS)
T5Gemma:全新的编码器-解码器 Gemma 模型系列

T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。

DeepMindGoogle模型发布
02:02
Google DeepMind:Blog(RSS)
精选
MedGemma:健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。

DeepMind多模态开源生态模型发布

推荐理由:DeepMind发布最强开放医疗多模态模型,支持开发者微调构建健康AI应用
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
10月25日
03:06
Google DeepMind:Blog(RSS)
AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。

DeepMind多模态数据/训练模型发布
00:04
美团 LongCat:HuggingFace 新模型
美团 LongCat-Video 项目

美团 LongCat-Video 项目秉持开源与开放科学理念,致力于推进并普及人工智能技术。该项目通过开放源代码的方式,旨在降低 AI 技术应用门槛,打破技术壁垒,促进视频领域人工智能技术的广泛传播与创新发展,体现了推动 AI 技术民主化与开源生态建设的长期愿景。

Hugging Face模型发布视频
10月24日
11:12
Google DeepMind:Blog(RSS)
精选
带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMindGoogle推理模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Gemini Deep Think在IMO数学竞赛达到金牌标准,推理能力获重大突破
‹ 上一页
1…383940414243
下一页 ›