AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
3月31日周二
23:10Hugging Face:Blog(RSS)70精选Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能
16:37Artificial Analysis精选KwaiKAT发布KAT-Coder-Pro V2:非推理代码模型性能比肩Claude Sonnet 4.6
00:00Meta Engineering Blog(RSS)71精选AI助力美国产水泥与混凝土
3月30日周一
21:08公众号:通义实验室(千问)59215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布
11:25美团 LongCat:HuggingFace 新模型精选LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型
08:47karminski-牙医GLM-5.1登顶全球SOTA,向量数据库测试刷新纪录
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI
3月27日周五
21:12公众号:昆仑万维(天工)54昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布
19:21公众号:智谱(GLM)52GLM-5.1已面向所有Coding Plan用户开放
02:53Demis Hassabis精选Gemini 3.1 Flash Live 是迄今最高质量的音频与语音模型,也是构建下一代语音优先智能体的重要飞跃:更低延迟、更高精度、更自然的交互……现可在 Gemini App 通过 Gemini Live 体验,或在 Google AI Studio 中开发
3月26日周四
23:31Google DeepMind精选Gemini 3.1 Flash Live 发布
23:28Sundar Pichai精选Gemini 3.1 Flash Live 是迄今最高质量的音频和语音模型
23:21Google Blog:AI(RSS)精选Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
13:46Artificial Analysis精选OpenAI发布GPT-5.4 mini与nano轻量模型
00:00Google Blog:AI(RSS)精选基于 Lyria 3 构建:全新音乐生成模型开放预览
3月25日周三
21:18美团 LongCat:HuggingFace 新模型美团 LongCat-Next
13:15公众号:昆仑万维(天工)46Mureka V8登顶Artificial Analysis双榜单第一
3月24日周二
15:34公众号:通义实验室(千问)51PrismAudio:声画同频,音效随行
3月23日周一
00:00Mistral AI:News(网页)Voxtral 发布 40 亿参数文本转语音模型
3月20日周五
19:48Artificial Analysis精选Mistral发布开源模型Small 4,支持混合推理与图像理解
12:04美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Prover
01:25Satya Nadella精选Superintelligence 团队新图像模型 MAI-Image-2 登陆 Copilot,即将上架 Foundry 企业版
3月19日周四
08:00Cursor Blog精选Composer 2 正式发布
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Max-Preview 现已上线 Arena
00:48公众号:小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
00:45公众号:小米 MiMo37Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
00:25公众号:小米 MiMo49Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
00:23公众号:小米 MiMo46Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
3月18日周三
13:39公众号:MiniMax(稀宇科技)50MiniMax M2.7: 开启模型的自我进化
05:19Hao AI Lab精选(1/N) 我们正在推出 Dreamverse。大多数 AI 视频模型需要数分钟才能生成一段 5 秒 1080p 的片段。而在 4.5 秒内,我们就能在单张 GPU 上生成 30 秒 1080p 的片段。
05:08Midjourney:Updates(RSS)V8 Alpha
04:26Greg Brockman精选推出 GPT-5.4 mini:
01:08OpenAI精选GPT-5.4 mini 今日上线 ChatGPT、Codex 及 API
00:00MiniMax:Blog(网页)61精选MiniMax M2.7:自我进化的早期回声
3月17日周二
20:33Hugging Face:Blog(RSS)83精选Holotron-12B - 高吞吐计算机使用智能体
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推出 GPT-5.4 mini 和 nano
02:04Greg Brockman精选GPT-5.4 在 API 中的增速超越以往所有模型:上线一周内日处理 5T tokens…
3月16日周一
10:30公众号:智谱(GLM)35GLM-5-Turbo:龙虾增强的基座模型
00:00Mistral AI:News(网页)93研究 ## 推出 Mistral Small 4 模型
00:00智谱:研究(网页内嵌数据)精选GLM-5-Turbo:龙虾增强的基座模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月31日
23:10
Hugging Face:Blog(RSS)
精选70
Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由:IBM 推出轻量级多模态模型,企业文档场景可直接落地部署
16:37
Artificial Analysis@ArtificialAnlys
精选
KwaiKAT发布KAT-Coder-Pro V2:非推理代码模型性能比肩Claude Sonnet 4.6

KwaiKAT发布非推理代码模型KAT-Coder-Pro V2,在Artificial Analysis Intelligence Index获44分,较V1提升8分,与Claude Sonnet 4.6持平。该模型token效率显著,运行仅需约9M输出token,远低于Claude系列及DeepSeek等推理模型。Agent能力大幅提升,Terminal-Bench Hard得分49%(提升40个百分点),匹配Claude Opus 4.6。成本降至73美元,响应速度达109 token/秒。但在长上下文推理和知识回忆方面较V1有所退步。

智能体模型发布编码

推荐理由:快手发布 KAT-Coder-Pro V2,非推理架构实现 44 分智能指数,Agent 能力跃升 40 个百分点,成本仅为 Claude Sonnet 的 5%。
00:00
Meta Engineering Blog(RSS)
精选71
AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta模型发布部署/工程

推荐理由:Meta 将 AI 应用于传统建筑行业,展示垂直领域落地案例,启发其他行业探索 AI 应用。
3月30日
21:08
公众号:通义实验室(千问)
59
215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布

Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。

多模态模型发布
11:25
美团 LongCat:HuggingFace 新模型
精选
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
08:47
karminski-牙医@karminski3
GLM-5.1登顶全球SOTA,向量数据库测试刷新纪录

GLM-5.1在vector-db-bench向量数据库基准测试中登顶第一,实现从国产SOTA到全球SOTA的关键跨越。测试数据显示其性能已超越国际主流模型,展现强劲竞争力。相比之下,GPT-5.4-Pro(xhigh)单次测试成本高达150美元,价格劣势显著。作者将发布详细评测视频进一步解析GLM-5.1的技术表现与性价比优势。

检索增强模型发布
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI

Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。

智能体多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
推荐理由:阿里发布Qwen3.5-Omni多模态模型,迈向原生全模态AGI
3月27日
21:12
公众号:昆仑万维(天工)
54
昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶,其中包括三款达到世界第一梯队的模型。

多模态模型发布
19:21
公众号:智谱(GLM)
52
GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码
02:53
Demis Hassabis@demishassabis
精选
Google 发布 Gemini 3.1 Flash Live,称其迄今最高质量音频模型,具备更低延迟、更高精度和更自然的对话体验,改进了函数调用能力。现已在 Gemini App 和 Google AI Studio 上线。

Google DeepMind: Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved functio...

智能体Google模型发布语音

推荐理由:Google发布Gemini 3.1 Flash Live,支持低延迟语音交互与Agent构建
3月26日
23:31
Google DeepMind@GoogleDeepMind
精选
Gemini 3.1 Flash Live 音频模型发布,支持更自然的实时对话,函数调用能力改进,使 AI 助手更实用、信息获取更充分。
GoogleMCP/工具模型发布语音

推荐理由:Google发布Gemini 3.1 Flash Live音频模型,支持更自然对话与函数调用
23:28
Sundar Pichai@sundarpichai
精选
Gemini 3.1 Flash Live 发布,为 Google 迄今最高质量音频语音模型,精度和推理能力显著提升,交互更自然直观。现已在 Google AI Studio 通过 Gemini Live API 预览版上线。
Google模型发布语音

推荐理由:Google 发布 Gemini 3.1 Flash Live 语音模型,实时 API 已开放试用
23:21
Google Blog:AI(RSS)
精选
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。

Google模型发布语音
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google发布Gemini 3.1 Flash Live,提升音频AI自然度与可靠性
13:46
Artificial Analysis@ArtificialAnlys
精选
OpenAI发布GPT-5.4 mini与nano轻量模型

OpenAI发布GPT-5.4 mini与nano轻量模型,保留多档推理能力与400K上下文窗口,价格降至$0.20/$1.25每百万token。基准测试显示,GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview,但幻觉率较高且token消耗量大。得益于极低单价,nano在Intelligence Index测试中的有效成本反而低于竞品,展现出优秀的性价比优势。

智能体OpenAI推理模型发布

推荐理由:OpenAI 发布 GPT-5.4 mini/nano,性价比突出且评测数据详实,nano 性能超越同级竞品。
00:00
Google Blog:AI(RSS)
精选
基于 Lyria 3 构建:全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览,开发者可通过 Gemini API 调用,或在 Google AI Studio 免费测试。

Google多模态模型发布

推荐理由:Google 发布音乐生成模型 Lyria 3,现可通过 Gemini API 和 AI Studio 体验
3月25日
21:18
美团 LongCat:HuggingFace 新模型
美团 LongCat-Next

美团开源项目 LongCat-Next 正式发布,宣称将通过开源与开放科学推进人工智能技术的普及与民主化。该项目目前仅公开使命宣言,强调降低AI技术门槛的愿景,尚未披露具体模型架构、训练数据或性能基准等技术指标,也未说明应用场景或发布时间表。

Hugging Face开源生态模型发布
13:15
公众号:昆仑万维(天工)
46
Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布
3月24日
15:34
公众号:通义实验室(千问)
51
PrismAudio:声画同频,音效随行

PrismAudio 由通义实验室(千问)开源发布,定位为“更会思考的AI音效师”,能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频
3月23日
00:00
Mistral AI:News(网页)
Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。

智能体模型发布语音
3月20日
19:48
Artificial Analysis@ArtificialAnlys
精选
Mistral发布开源模型Small 4,支持混合推理与图像理解

Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。

多模态开源生态推理模型发布

推荐理由:Mistral 开源 Small 4,支持混合推理与多模态,Agent 任务表现大幅提升
12:04
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Prover

美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。

Hugging Face推理模型发布
01:25
Satya Nadella@satyanadella
精选
MAI-Image-2 图像生成模型已在 MAI Playground 上线,竞技场排名第 3,支持从写实风格到详细信息图等多种生成需求。即将集成至 Copilot、Bing Image Creator 及 Microsoft Foundry,面向企业客户开放。

Mustafa Suleyman: Our new image generator MAI-Image-2 is out! Available now on MAI Playground for everything from lifelike realism to deta...

Microsoft图像生成模型发布

推荐理由:微软 CEO 宣布 Superintelligence 团队新图像模型 MAI-Image-2 发布,竞技场排名第三
3月19日
08:00
Cursor Blog
精选
Composer 2 正式发布

Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。

智能体模型发布编码

推荐理由:Cursor发布Composer 2编程Agent,性能大幅提升且定价极具竞争力
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
00:48
公众号:小米 MiMo
53
Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
多模态模型发布语音
00:45
公众号:小米 MiMo
37
Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
多模态模型发布语音
00:25
公众号:小米 MiMo
49
Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
智能体多模态模型发布
00:23
公众号:小米 MiMo
46
Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
智能体模型发布
3月18日
13:39
公众号:MiniMax(稀宇科技)
50
MiniMax M2.7: 开启模型的自我进化

MiniMax 发布 M2.7 模型,主打模型的自我进化能力。该版本在架构或训练方式上实现了关键突破,使模型能够在不依赖人工标注或外部反馈的条件下持续改进自身性能。具体技术细节和评测数据尚未公开。

模型发布
05:19
Hao AI Lab@haoailab
精选
(1/N) 我们正在推出 Dreamverse。大多数 AI 视频模型需要数分钟才能生成一段 5 秒 1080p 的片段。而在 4.5 秒内,我们就能在单张 GPU 上生成 30 秒 1080p 的片段。
模型发布视频部署/工程

推荐理由:AI视频生成速度突破实时阈值,单GPU秒级出片可直接上手体验
05:08
Midjourney:Updates(RSS)
V8 Alpha

Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布
04:26
Greg Brockman@gdb
精选
OpenAI 发布 GPT-5.4 mini,已在 ChatGPT、Codex 及 API 上线。针对编程、计算机使用、多模态理解与 subagents 优化,速度较 GPT-5 mini 提升 2 倍。

OpenAI: GPT-5.4 mini is available today in ChatGPT, Codex, and the API. Optimized for coding, computer use, multimodal understan...

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini,针对编码和 Agent 优化且速度翻倍
01:08
OpenAI@OpenAI
精选
GPT-5.4 mini 今日在 ChatGPT、Codex 和 API 中可用。针对编程、计算机使用、多模态理解和子代理场景优化,推理速度比 GPT-5 mini 快 2 倍。
智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini,支持子代理且速度翻倍
00:00
MiniMax:Blog(网页)
精选61
MiniMax M2.7:自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。

智能体模型发布编码
关联讨论 2 条MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)
推荐理由:MiniMax M2.7 让模型参与自身进化,在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平,Agent Teams 设计也值得看,但整体仍是追赶者姿态。
3月17日
20:33
Hugging Face:Blog(RSS)
精选83
Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由:高效推理的计算机使用代理模型,适合生产部署,开发者可直接试用。
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini/nano,针对编码与 Agent 场景优化
02:04
Greg Brockman@gdb
精选
GPT-5.4 上线一周内日处理 token 量达 5T,超过去年同期整个 API 的总量,年化新增净收入达 10 亿美元,增速创历史纪录。模型质量出色,值得试用。
OpenAI模型发布部署/工程

推荐理由:OpenAI史上增长最快模型,API周处理量超去年全年,开发者正大规模迁移
3月16日
10:30
公众号:智谱(GLM)
35
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,该模型采用了龙虾增强技术,被描述为“龙虾增强的基座模型”,是一款基于龙虾增强的基座模型。

模型发布
00:00
Mistral AI:News(网页)
93
研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。

多模态推理模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

推荐理由:智谱GLM-5-Turbo发布,强化Agent工具调用与长任务执行能力
‹ 上一页
1…3536373839…43
下一页 ›