AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 398 条
全部一手资讯X论文
标签「模型发布」清除
4月2日周四
04:00Qwen:Blog Retrieval(API)Qwen3.6-Plus:迈向真实世界 Agent
00:00智谱:研究(网页内嵌数据)精选GLM-5V-Turbo发布:多模态Coding基座模型
4月1日周三
15:13Hugging Face:Blog(RSS)70精选Falcon Perception
14:57公众号:通义实验室(千问)59Wan2.7-Image:人更真,字更稳,色更准
00:00Google Blog:AI(RSS)使用 Veo 3.1 Lite 构建:我们成本效益最高的视频生成模型
3月31日周二
23:10Hugging Face:Blog(RSS)70精选Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能
00:00Meta Engineering Blog(RSS)71精选AI助力美国产水泥与混凝土
3月30日周一
21:08公众号:通义实验室(千问)59215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布
11:25美团 LongCat:HuggingFace 新模型精选LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI
3月27日周五
21:12公众号:昆仑万维(天工)54昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布
19:21公众号:智谱(GLM)52GLM-5.1已面向所有Coding Plan用户开放
3月26日周四
23:21Google Blog:AI(RSS)精选Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
00:00Google Blog:AI(RSS)精选基于 Lyria 3 构建:全新音乐生成模型开放预览
3月25日周三
21:18美团 LongCat:HuggingFace 新模型美团 LongCat-Next
13:15公众号:昆仑万维(天工)46Mureka V8登顶Artificial Analysis双榜单第一
3月24日周二
15:34公众号:通义实验室(千问)51PrismAudio:声画同频,音效随行
3月23日周一
00:00Mistral AI:News(网页)Voxtral 发布 40 亿参数文本转语音模型
3月20日周五
12:04美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Prover
3月19日周四
08:00Cursor Blog精选Composer 2 正式发布
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Max-Preview 现已上线 Arena
00:48公众号:小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
00:45公众号:小米 MiMo37Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
00:25公众号:小米 MiMo49Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
00:23公众号:小米 MiMo46Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
3月18日周三
13:39公众号:MiniMax(稀宇科技)50MiniMax M2.7: 开启模型的自我进化
05:08Midjourney:Updates(RSS)V8 Alpha
00:00MiniMax:Blog(网页)61精选MiniMax M2.7:自我进化的早期回声
3月17日周二
20:33Hugging Face:Blog(RSS)83精选Holotron-12B - 高吞吐计算机使用智能体
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推出 GPT-5.4 mini 和 nano
3月16日周一
10:30公众号:智谱(GLM)35GLM-5-Turbo:龙虾增强的基座模型
00:00Mistral AI:News(网页)93研究 ## 推出 Mistral Small 4 模型
00:00智谱:研究(网页内嵌数据)精选GLM-5-Turbo:龙虾增强的基座模型
3月11日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统
3月10日周二
11:54公众号:腾讯混元59混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
3月9日周一
18:00公众号:小红书技术(dots.llm)52REDSearcher:30B参数深度搜索Agent超越GPT-5,低成本可扩展
3月8日周日
20:41公众号:小红书技术(dots.llm)47小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升
3月7日周六
00:14蚂蚁 inclusionAI:HuggingFace 新模型46inclusionAI/AReaL-tau2-merge-sft-235B 发布
3月5日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选GPT-5.4 发布
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选GPT-5.4 Thinking 系统卡
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月2日
04:00
Qwen:Blog Retrieval(API)
Qwen3.6-Plus:迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。

智能体多模态模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5V-Turbo发布:多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由:智谱发布多模态Coding基座GLM-5V-Turbo,深度适配Claude Code等Agent
4月1日
15:13
Hugging Face:Blog(RSS)
精选70
Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章,介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案,专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新,包括多模态数据融合机制的优化,以及实时处理效率的显著提升。关键性能指标显示,其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face开源生态模型发布

推荐理由:Falcon 系列新成员,开源多模态模型阵营再添一员,开发者可关注选型
14:57
公众号:通义实验室(千问)
59
Wan2.7-Image:人更真,字更稳,色更准
图像生成模型发布
00:00
Google Blog:AI(RSS)
使用 Veo 3.1 Lite 构建:我们成本效益最高的视频生成模型

Veo 3.1 Lite 现已开放付费预览,作为 Google 成本效益最高的视频生成模型,支持通过 Gemini API 调用及 Google AI Studio 测试。

Google模型发布视频
3月31日
23:10
Hugging Face:Blog(RSS)
精选70
Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由:IBM 推出轻量级多模态模型,企业文档场景可直接落地部署
00:00
Meta Engineering Blog(RSS)
精选71
AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta模型发布部署/工程

推荐理由:Meta 将 AI 应用于传统建筑行业,展示垂直领域落地案例,启发其他行业探索 AI 应用。
3月30日
21:08
公众号:通义实验室(千问)
59
215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布

Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。

多模态模型发布
11:25
美团 LongCat:HuggingFace 新模型
精选
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI

Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。

智能体多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
推荐理由:阿里发布Qwen3.5-Omni多模态模型,迈向原生全模态AGI
3月27日
21:12
公众号:昆仑万维(天工)
54
昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶,其中包括三款达到世界第一梯队的模型。

多模态模型发布
19:21
公众号:智谱(GLM)
52
GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码
3月26日
23:21
Google Blog:AI(RSS)
精选
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。

Google模型发布语音
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google发布Gemini 3.1 Flash Live,提升音频AI自然度与可靠性
00:00
Google Blog:AI(RSS)
精选
基于 Lyria 3 构建:全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览,开发者可通过 Gemini API 调用,或在 Google AI Studio 免费测试。

Google多模态模型发布

推荐理由:Google 发布音乐生成模型 Lyria 3,现可通过 Gemini API 和 AI Studio 体验
3月25日
21:18
美团 LongCat:HuggingFace 新模型
美团 LongCat-Next

美团开源项目 LongCat-Next 正式发布,宣称将通过开源与开放科学推进人工智能技术的普及与民主化。该项目目前仅公开使命宣言,强调降低AI技术门槛的愿景,尚未披露具体模型架构、训练数据或性能基准等技术指标,也未说明应用场景或发布时间表。

Hugging Face开源生态模型发布
13:15
公众号:昆仑万维(天工)
46
Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布
3月24日
15:34
公众号:通义实验室(千问)
51
PrismAudio:声画同频,音效随行

PrismAudio 由通义实验室(千问)开源发布,定位为“更会思考的AI音效师”,能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频
3月23日
00:00
Mistral AI:News(网页)
Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。

智能体模型发布语音
3月20日
12:04
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Prover

美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。

Hugging Face推理模型发布
3月19日
08:00
Cursor Blog
精选
Composer 2 正式发布

Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。

智能体模型发布编码

推荐理由:Cursor发布Composer 2编程Agent,性能大幅提升且定价极具竞争力
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
00:48
公众号:小米 MiMo
53
Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
多模态模型发布语音
00:45
公众号:小米 MiMo
37
Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
多模态模型发布语音
00:25
公众号:小米 MiMo
49
Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
智能体多模态模型发布
00:23
公众号:小米 MiMo
46
Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
智能体模型发布
3月18日
13:39
公众号:MiniMax(稀宇科技)
50
MiniMax M2.7: 开启模型的自我进化

MiniMax 发布 M2.7 模型,主打模型的自我进化能力。该版本在架构或训练方式上实现了关键突破,使模型能够在不依赖人工标注或外部反馈的条件下持续改进自身性能。具体技术细节和评测数据尚未公开。

模型发布
05:08
Midjourney:Updates(RSS)
V8 Alpha

Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布
00:00
MiniMax:Blog(网页)
精选61
MiniMax M2.7:自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。

智能体模型发布编码
关联讨论 2 条MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)
推荐理由:MiniMax M2.7 让模型参与自身进化,在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平,Agent Teams 设计也值得看,但整体仍是追赶者姿态。
3月17日
20:33
Hugging Face:Blog(RSS)
精选83
Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由:高效推理的计算机使用代理模型,适合生产部署,开发者可直接试用。
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini/nano,针对编码与 Agent 场景优化
3月16日
10:30
公众号:智谱(GLM)
35
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,该模型采用了龙虾增强技术,被描述为“龙虾增强的基座模型”,是一款基于龙虾增强的基座模型。

模型发布
00:00
Mistral AI:News(网页)
93
研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。

多模态推理模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

推荐理由:智谱GLM-5-Turbo发布,强化Agent工具调用与长任务执行能力
3月11日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统

SGLang 首日支持 NVIDIA Nemotron 3 Super 开源模型。该模型采用 120B 总参数、12B 激活参数的混合 MoE 架构,支持 1M token 超长上下文,专为多智能体协作设计。相比前代,吞吐量提升 5 倍,在 Artificial Analysis 智能指数上准确率提高 2 倍。集成 Transformer-Mamba 架构与多 Token 预测技术,兼容 B200、H100 等 GPU,提供完全开放的权重与数据集,适用于代码生成、工具调用等复杂推理场景。

智能体模型发布部署/工程
3月10日
11:54
公众号:腾讯混元
59
混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
多模态开源生态模型发布
3月9日
18:00
公众号:小红书技术(dots.llm)
52
REDSearcher:30B参数深度搜索Agent超越GPT-5,低成本可扩展

REDSearcher是一个30B参数的深度搜索Agent,性能超越GPT-5,同时实现低成本与可扩展性。

智能体搜索模型发布
3月8日
20:41
公众号:小红书技术(dots.llm)
47
小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升

小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。

图像生成多模态模型发布
3月7日
00:14
蚂蚁 inclusionAI:HuggingFace 新模型
46
inclusionAI/AReaL-tau2-merge-sft-235B 发布

inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿,采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化,致力于让先进AI技术更广泛可及。

开源/仓库推理模型发布
3月5日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
GPT-5.4 发布

OpenAI 推出 GPT-5.4,面向专业工作的最强高效前沿模型,支持 100 万 token 长上下文,具备顶尖编程、计算机使用与工具搜索能力。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4,支持 1M 上下文与增强 Agent 能力
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
GPT-5.4 Thinking 系统卡

OpenAI 发布 GPT-5.4 Thinking 系统卡,披露新一代推理模型的架构细节、安全评估框架及能力边界。文档详述思维链优化机制、长上下文推理性能指标,明确数学推导与代码生成准确率数据,分析幻觉风险与偏见控制措施,并列出越狱攻击防护策略及企业级部署的安全限制建议。

OpenAI推理模型发布

推荐理由:OpenAI 发布 GPT-5.4 Thinking 系统卡,详述模型安全与能力评估
‹ 上一页
1…34567…10
下一页 ›