AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
4月12日周日
18:13Rohan PaulMeta发布Muse Spark:企业AI将走向定制化运营层
4月10日周五
22:58TestingCatalog News 🗞Meta 计划近期通过 API 发布 Muse Spark
21:30公众号:MiniMax(稀宇科技)30MiniMax Music 2.6:我们想讲四个人的故事
17:14公众号:智谱(GLM)59GLM-5.1获LMArena代码榜开源第一、全球第三
14:57karminski-牙医Qwen3.5-Omni-Plus实测:全模态交互、OCR精度与端侧控制
4月9日周四
18:30Haider.啥情况
17:01公众号:腾讯混元51腾讯Robotics X实验室联合混元推出2B具身模型:22项评测16项最佳
11:37Ethan MollickAmazon Nova 到底什么情况?Nova 2 自去年12月发布,其顶级模型…
08:05Jeff DeanGemma 4 模型反响热烈,能力表现获认可
06:57Sundar PichaiGoogle Gemma 4周下载破千万,总下载量超5亿
06:36karminski-牙医Meta发布Muse Spark:高效多模态但非旗舰
00:19Yuchen JinMeta 发布 Avocado,内部代号 Muse Spark
4月8日周三
14:06蚂蚁 inclusionAI:HuggingFace 新模型34inclusionAI/TC-AE
13:14Artificial Analysis韩国Upstage发布Solar Pro 3:韩实验室第二强模型
10:41公众号:智谱(GLM)62精选GLM-5.1开源:一个独立工作8小时的模型
02:14Dario AmodeiAnthropic 宣布 Project Glasswing 获众多全球领先企业支持,共同应对先进 AI 网络威胁
4月7日周二
19:32公众号:蚂蚁百灵(Ling)52Ming-flash-omni:从看图到发文,打通全模态创作闭环
4月4日周六
01:07François Chollet来自 Sachin 的会议首个更新:Gemma 4 现已在 KerasHub 上线!目前推理和智能体工作流的最佳开源模型。
00:57Nathan Lambert:Interconnects(RSS)精选Gemma 4 与开放模型成功之道
4月3日周五
22:01Demis Hassabis精选Gemma 4 性能超越体量 10 倍以上的模型!(注意 x 轴为对数坐标!)
17:18karminski-牙医Qwen3.6-Plus实测:多模态编程与设计还原能力评测
11:57Artificial Analysis印度发布首批从头预训练开源大模型Sarvam 105B与30B
08:29Artificial Analysis56微软发布MAI-Transcribe-1语音转录模型,准确率达3.0%
01:09Artificial Analysis精选Google发布Gemma 4多模态开源模型系列
00:13Sundar Pichai精选Gemma 4 正式发布,单位参数量智能密度极高 👇
00:08Demis Hassabis精选Gemma 4 发布:各尺寸最强的开源模型
00:03Google DeepMind精选Gemma 4 发布:可在本地硬件运行的全新开源模型系列
4月2日周四
22:29Satya Nadella精选MAI 模型家族全面登陆 Foundry,面向所有开发者开放
19:58公众号:龙猫LongCat(美团)37LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要"算得对",更要"证得严"
19:58公众号:龙猫LongCat(美团)53美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
13:46公众号:阶跃星辰(Step)42阶跃 Step 3.5 Flash 系列上新,Step Plan 用户现可体验
13:03karminski-牙医智谱GLM-5V-Turbo实测:多模态补强但代码生成偏弱
12:32公众号:通义实验室(千问)54Qwen3.6-Plus:编码智能体能力全面跃升!
08:05公众号:智谱(GLM)45智谱发布GLM-5V-Turbo多模态Coding基座模型
08:00Google Developers Blog(RSS)81精选通过 Gemma 4 将先进的智能体能力引入边缘
08:00Hugging Face:Blog(RSS)88精选Welcome Gemma 4: 设备端的 Frontier 多模态智能
04:00Qwen:Blog Retrieval(API)Qwen3.6-Plus:迈向真实世界 Agent
00:00智谱:研究(网页内嵌数据)精选GLM-5V-Turbo发布:多模态Coding基座模型
4月1日周三
18:17karminski-牙医阿里 WAN-2.7-Image 发布:图像生成与修图能力升级
15:13Hugging Face:Blog(RSS)70精选Falcon Perception
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月12日
18:13
Rohan Paul@rohanpaul_ai
Meta发布Muse Spark:企业AI将走向定制化运营层

Mark Zuckerberg指出,未来企业不会拥有前沿AI基础模型,而是基于共享模型构建定制化运营层,反映其业务流程与客户历史,用于客户互动和支持。与此同时,Meta发布原生多模态推理模型Muse Spark,采用多智能体编排架构,多个副本可并行推理并比较结果,用比Llama 4 Maverick少10倍以上的训练计算达到类似能力,标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。

Rohan Paul: Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...

智能体Meta推理模型发布
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:slow_developer (@slow_developer)X:Testing Catalog (@testingcatalog)
4月10日
22:58
TestingCatalog News 🗞@testingcatalog
Meta 即将通过 API 发布 Muse Spark,作者同时期待能体验 Meta 的 9B 模型(如果最终发布)。

AI at Meta: 🔜

Meta图像生成模型发布
21:30
公众号:MiniMax(稀宇科技)
30
MiniMax Music 2.6:我们想讲四个人的故事

MiniMax Music 2.6 版本发布,以“四个人的故事”为主题。

多模态模型发布
17:14
公众号:智谱(GLM)
59
GLM-5.1获LMArena代码榜开源第一、全球第三

GLM-5.1在LMArena Code Arena登顶开源第一、全球第三。它继承上一代的SOTA编码能力,并在长程任务突破:8小时构建Linux桌面、655次迭代优化向量数据库、1000轮工具调用优化机器学习模型。METR榜下,它是唯一达8小时级持续工作的开源模型(除Claude Opus 4.6外)。

开源生态模型发布编码
14:57
karminski-牙医@karminski3
Qwen3.5-Omni-Plus实测:全模态交互、OCR精度与端侧控制

Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。

智能体多模态模型发布
4月9日
18:30
Haider.@haider1
OpenAI 计划向少数公司限量开放具备高级网络安全能力的新模型,暂不公开发布,与 Anthropic 限制发布 Mythos 类似。作者质疑这是 PR 噱头,原本期待的是 GPT-5.5 或 GPT-5o 的正式亮相。

Wall St Engine: Axios: OpenAI is planning a staggered rollout for a new model with advanced cybersecurity capabilities, limiting access ...

AnthropicOpenAI安全/对齐模型发布
17:01
公众号:腾讯混元
51
腾讯Robotics X实验室联合混元推出2B具身模型:22项评测16项最佳

腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型,在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。

具身智能模型发布
11:37
Ethan Mollick@emollick
Amazon Nova 2 自去年12月发布至今,其顶级模型性能仍落后于 Sonnet 4.5,且始终未能脱离预览阶段,进展缓慢。
大佬观点模型发布评测/基准
08:05
Jeff Dean@JeffDean
Gemma 4 发布一周内下载量突破 1000 万次,Gemma 系列模型累计下载量已超 5 亿次。Sundar Pichai 公布数据并期待看到开发者基于该模型的创作。

Sundar Pichai: Lots of love for Gemma 4! Team just told me it's already had 10M+ downloads since last week's launch. Gemma models have ...

Google开源生态模型发布
06:57
Sundar Pichai@sundarpichai
Google开源模型Gemma 4发布仅一周下载量已突破1000万次,Gemma系列模型历史累计下载量更超过5亿次。这一数据反映出开发者社区对最新开源模型的热烈反响。官方对此表示欣喜,并期待看到用户基于Gemma 4开发的各类创新应用和创作成果。
Google开源生态模型发布
06:36
karminski-牙医@karminski3
Meta发布Muse Spark:高效多模态但非旗舰

Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。

智能体Meta多模态模型发布
00:19
Yuchen Jin@Yuchenj_UW
Meta TBD 实验室发布 Avocado(内部代号 Muse Spark),未开源。团队仅用 9 个月重建预训练技术栈,以不到 Llama 4 Maverick 十分之一的算力达到相近能力。作者认为,基础设施才是 AI 实验室的真正护城河,决定模型训练速度和实验迭代效率。
Meta数据/训练模型发布
4月8日
14:06
蚂蚁 inclusionAI:HuggingFace 新模型
34
inclusionAI/TC-AE

inclusionAI团队发布了TC-AE项目,旨在通过开源与开放科学推动人工智能技术的进步与民主化。该项目致力于降低AI技术的使用门槛,促进更广泛的社区参与和创新。核心变化在于构建了一个可访问的AI开发框架,强调协作与知识共享。此举预期将加速AI工具在多元领域的应用,并推动技术发展的透明性与包容性。

开源/仓库模型发布
13:14
Artificial Analysis@ArtificialAnlys
韩国Upstage发布Solar Pro 3:韩实验室第二强模型

韩国AI实验室Upstage发布Solar Pro 3,AI Index得分26,为韩国实验室第二强模型。采用MoE架构(102B总参数/12B激活参数),支持128k上下文。核心优势在于agentic工具调用与指令遵循,IFBench得分71%与GLM-5、Kimi K2.5相当,τ²-Bench Telecom达86%。但token消耗较高(约100M),可靠性不足(AA-Omniscience得分-54),准确性18%优于其他韩国模型。可通过Upstage API访问。

智能体推理模型发布
10:41
公众号:智谱(GLM)
精选62
GLM-5.1开源:一个独立工作8小时的模型

智谱推出开源模型GLM-5.1,支持独立工作长达8小时。模型可直接部署使用,无需人工频繁干预,适用于长周期自动化任务场景。

智能体开源生态模型发布
关联讨论 2 条公众号:智谱(GLM)IT之家(RSS)
推荐理由:智谱把 GLM-5.1 开源,并且主打 8 小时独立工作,这个定位切中了 agent 场景下长任务执行的痛点,想做自动化流程的可以跑起来试试。
02:14
Dario Amodei@DarioAmodei
Anthropic 发起 Project Glasswing 安全倡议,联合多家全球领先企业应对日益先进的 AI 系统带来的网络威胁。该计划基于最新前沿模型 Claude Mythos Preview,其发现软件漏洞的能力仅次于最顶尖的人类专家,旨在保护全球关键软件安全。

Anthropic: Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by o...

Anthropic安全/对齐模型发布
4月7日
19:32
公众号:蚂蚁百灵(Ling)
52
Ming-flash-omni:从看图到发文,打通全模态创作闭环

Ming-flash-omni 模型具备全模态创作能力,能够同时完成照片中路人干扰的识别、自动修图、修图效果自评,并最终生成一段社交媒体推文,实现从视觉理解到内容发布的完整闭环。

多模态模型发布
4月4日
01:07
François Chollet@fchollet
来自 Sachin 的会议首个更新:Gemma 4 现已在 KerasHub 上线!目前推理和智能体工作流的最佳开源模型。

François Chollet: The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...

智能体Google推理模型发布
00:57
Nathan Lambert:Interconnects(RSS)
精选
Gemma 4 与开放模型成功之道

Gemma 4 的发布揭示了开放模型成功的真正标准。文章指出,决定模型成败的关键并非基准测试分数(benchmark scores),而是其他因素。当前 AI 领域过度关注 leaderboard 排名,但高分数不等于实际应用价值与社区采用率。真正的成功取决于模型解决真实场景需求的能力、开发者友好度以及生态建设,而非单纯的技术指标领先。这一观点挑战了以 benchmark 为导向的行业评估范式。

Google大佬观点开源生态模型发布
关联讨论 1 条X:Francois Chollet (@fchollet)
推荐理由:开源模型成败不只看榜单分数,Hugging Face 大佬揭秘真实胜负手
4月3日
22:01
Demis Hassabis@demishassabis
精选
Gemma 4 在基准测试中性能超越体量 10 倍以上的大模型,图表 x 轴为对数坐标,凸显其极高的参数效率。
DeepMindGoogle开源生态模型发布

推荐理由:Google 开源小模型 Gemma 4 发布,性能超越 10 倍体量级大模型
17:18
karminski-牙医@karminski3
Qwen3.6-Plus实测:多模态编程与设计还原能力评测

Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码,测试中通过 three.js 成功还原手表与分体键盘的3D建模,并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平,展现了从设计图到代码的直接转换能力。

多模态模型发布编码
11:57
Artificial Analysis@ArtificialAnlys
印度发布首批从头预训练开源大模型Sarvam 105B与30B

Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B,采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12,支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型,但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源,上下文窗口128K/65K tokens,目前通过API免费提供服务。

开源生态推理模型发布
08:29
Artificial Analysis@ArtificialAnlys
56
微软发布MAI-Transcribe-1语音转录模型,准确率达3.0%

微软AI超级智能团队发布了MAI-Transcribe-1语音转录模型。该模型在Artificial Analysis语音转文本排行榜的AA-WER指标上达到3.0%的词错误率,位列第四,仅次于Mistral Voxtral Small、Google Gemini 3.1 Pro High和ElevenLabs Scribe v2。其处理速度约为实时音频的69倍,属于高速高精度模型。模型支持包括英语、法语、阿拉伯语、日语和中文在内的25种语言,其API目前已在Microsoft Foundry的Azure Speech服务上提供公开预览。

Microsoft模型发布语音
01:09
Artificial Analysis@ArtificialAnlys
精选
Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。

DeepMindGoogle多模态开源生态
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)
推荐理由:Google发布多模态开源模型Gemma 4,单卡H100可跑且科学推理能力突出
00:13
Sundar Pichai@sundarpichai
精选
Gemma 4 开源模型发布,提供 31B dense、26B MoE 及有效 2B/4B 四种尺寸,分别针对性能、低延迟和边缘设备优化。Google DeepMind 称其为同尺寸最佳开源模型,强调单位参数量智能密度极高。

Demis Hassabis: Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...

Google开源生态模型发布端侧

推荐理由:Google发布Gemma 4开源模型,4种尺寸覆盖从云端到端侧全场景
00:08
Demis Hassabis@demishassabis
精选
Gemma 4 开源模型发布,提供 4 种尺寸:31B dense 版追求极致性能,26B MoE 版实现低延迟,2B 与 4B 版适配边缘设备,均可针对特定任务微调。
DeepMindGoogle开源生态模型发布

推荐理由:Google 发布 Gemma 4 开源模型,覆盖 2B 至 31B 多尺寸,支持端侧与 MoE 架构
00:03
Google DeepMind@GoogleDeepMind
精选
Google 发布 Gemma 4 开源模型系列,采用 Apache 2.0 许可证,支持在本地硬件运行,专为高级推理和 agentic 工作流设计。
智能体DeepMindGoogle推理

推荐理由:Google 开源 Gemma 4 模型,支持本地硬件运行并强化 Agent 与推理能力
4月2日
22:29
Satya Nadella@satyanadella
精选
MAI 模型家族正式登陆 Foundry 平台,推出三款新模型:MAI-Transcribe-1(支持25种语言的最准确转录模型)、MAI-Voice-1(自然语音生成)和 MAI-Image-2(最强图像生成模型)。开发者现可通过该平台直接调用。
Microsoft多模态模型发布语音

推荐理由:Microsoft CEO 亲自发布 MAI 系列三大新模型,覆盖语音转录、合成与图像生成
19:58
公众号:龙猫LongCat(美团)
37
LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要"算得对",更要"证得严"
推理模型发布
19:58
公众号:龙猫LongCat(美团)
53
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next,将视觉与语音作为模型的固有输入输出模态,而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统,强调多模态能力在底层架构中的原生融合,而非后期拼接。

多模态模型发布
13:46
公众号:阶跃星辰(Step)
42
阶跃 Step 3.5 Flash 系列上新,Step Plan 用户现可体验

阶跃星辰发布 Step 3.5 Flash 系列,主打更快、更好用、更加 Agent-native,面向所有 Step Plan 用户开放体验。

智能体模型发布
13:03
karminski-牙医@karminski3
智谱GLM-5V-Turbo实测:多模态补强但代码生成偏弱

智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。

多模态模型发布编码
12:32
公众号:通义实验室(千问)
54
Qwen3.6-Plus:编码智能体能力全面跃升!
智能体模型发布编码
08:05
公众号:智谱(GLM)
45
智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo,这是一款多模态Coding基座模型,专注于编程场景下的多模态任务处理。

多模态模型发布
08:00
Google Developers Blog(RSS)
精选81
通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体Google模型发布端侧

推荐理由:开源 agentic 模型支持端侧运行,开发者可快速构建本地智能应用。
08:00
Hugging Face:Blog(RSS)
精选88
Welcome Gemma 4: 设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google多模态模型发布端侧

推荐理由:前沿多模态模型开源,设备端可运行,降低AI部署门槛。
04:00
Qwen:Blog Retrieval(API)
Qwen3.6-Plus:迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。

智能体多模态模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5V-Turbo发布:多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由:智谱发布多模态Coding基座GLM-5V-Turbo,深度适配Claude Code等Agent
4月1日
18:17
karminski-牙医@karminski3
阿里 WAN-2.7-Image 发布:图像生成与修图能力升级

阿里发布 WAN-2.7-Image 图像生成与修图大模型,重点优化了人物生成美观度与文本渲染精准度。该模型支持文生图及图像编辑功能,博主对其文本到图像生成能力进行了初步测试。作为阿里万相系列最新版本,WAN-2.7-Image 在视觉质量和语义理解方面展现出改进,为创作者提供更精准的图像生成工具。

图像生成模型发布
15:13
Hugging Face:Blog(RSS)
精选70
Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章,介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案,专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新,包括多模态数据融合机制的优化,以及实时处理效率的显著提升。关键性能指标显示,其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face开源生态模型发布

推荐理由:Falcon 系列新成员,开源多模态模型阵营再添一员,开发者可关注选型
‹ 上一页
1…3435363738…43
下一页 ›