AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
6月4日周四
04:17The Decoder:AI News(RSS)72Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行
03:40Sundar Pichai73同事件精选Gemma 4 12B发布:笔记本本地运行的多步推理模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
03:31fofr69Ideogram v4开源权重,图像清晰出色
03:22Ars Technica:AI(RSS)60Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行
03:20Chubby♨️71Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行
02:58DogeDesigner78Grok Imagine 1.5 预览版发布
02:48MarkTechPost(RSS)68Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行
02:47The Decoder:AI News(RSS)66Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染
02:36Demis Hassabis74同事件精选Gemma 4 12B 发布:150M+ 下载量里程碑,16GB VRAM 本地运行同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
02:16AYi70Ideogram 4.0 开源图像模型仅次于前两名
01:51Artificial Analysis71Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能
01:49Krea74精选Ideogram v4.0 发布:2K 分辨率和 JSON 提示支持
01:48elvis76Miso One 8B开源情感TTS模型发布
01:38Hacker News 热门(buzzing.cc 中文翻译)78同事件精选Gemma 4 12B:一种统一的、无需编码器的多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
00:55🚨 AI News | TestingCatalog74Ideogram 4.0 发布,开源图像生成新 SOTA
00:50Chubby♨️75精选Miso One 开源语音模型:8B 参数、110ms 延迟、一次语音克隆
00:25🚨 AI News | TestingCatalog65Gemma 4 12B 开源:无编码器多模态,支持文本/音频/图像/视频
00:19Google AI Developers77Google推出Gemma 4 12B无编码器多模态模型
00:07Google Developers Blog(RSS)78同事件精选Gemma 4 12B:开发者指南同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
6月3日周三
22:39SenseTime73同事件精选商汤开源SenseNova U1:视觉理解推理生成一体模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
19:16The Decoder:AI News(RSS)71Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶
16:47MarkTechPost(RSS)69NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型
13:08Alibaba Cloud71Qwen3.7发布,推理与智能体能力全面升级
10:32Satya Nadella82微软MAI模型与前沿调优能力发布
09:48Berryxia.AI74微软在Build大会发布七款MAI新模型
09:48Berryxia.AI64微软MAI-Image-2.5在图像编辑评测中位列第二
09:13meng shao72微软Build大会发布七款MAI模型
06:55MiniMax (official)74MiniMax M3模型发布细节公开
06:25MiniMax (official)80同事件精选MiniMax-M3 多模态模型发布,开源权重新SOTA同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
05:35Hacker News 热门(buzzing.cc 中文翻译)66微软推出 MAI-Thinking-1 模型
05:16Rohan Paul81微软发布 MAI-Thinking-1 模型
04:05Hacker News 热门(buzzing.cc 中文翻译)49微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩
03:09IT之家(RSS)69微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充
02:47Chubby♨️63微软首款推理模型 Mai-1 发布
02:47Artificial Analysis64Microsoft发布MAI-Transcribe-1.5语音转录模型
02:45The Verge:AI(RSS)78精选微软首款高级推理AI模型MAI-Thinking-1发布
02:23🚨 AI News | TestingCatalog70微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型
01:17Artificial Analysis62Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注
6月2日周二
22:40Hugging Face:Blog(RSS)73精选Holo3.1:快速本地计算机使用智能体
21:06StepFun73阶跃星辰 Step 3.7 Flash 发布:开放权重模型进军智能体编程
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
04:17
The Decoder:AI News(RSS)
72
Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。

Google多模态开源生态模型发布
关联讨论 4 条X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)X:Jeff Dean (@JeffDean)Google DeepMind:Blog(RSS)
03:40
Sundar Pichai@sundarpichai
同事件精选73
Gemma 4 系列累计下载量突破1.5亿次,Google随之推出新成员Gemma 4 12B。该模型仅12B参数,可在16GB VRAM笔记本上本地运行,兼顾尺寸与性能,支持多步推理和智能体工作流。采用Apache 2.0开源许可,供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google开源生态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸,Apache 2.0 开源,对想做本地 agent 的开发者是实实在在的新弹药,小模型的可用性正在逼近临界点。
03:31
fofr@fofrAI
69
Ideogram v4 真的很好,而且开源权重。图像清新锐利,令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布
03:22
Ars Technica:AI(RSS)
60
Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google多模态模型发布端侧
03:20
Chubby♨️@kimmonismus
71
Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行

Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google多模态开源生态模型发布
02:58
DogeDesigner@cb_doge
78
Grok Imagine 1.5 预览版已发布,即日起可在 API 中体验。SpaceXAI 正在发力。

Grok: Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine

xAI图像生成模型发布
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
02:47
The Decoder:AI News(RSS)
66
Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布
02:36
Demis Hassabis@demishassabis
同事件精选74
Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿,并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型,兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B,但性能强劲,且足够小巧,可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证,方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google开源生态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本,16GB 显存就能跑,端侧智能的性价比又一次被 Google 拉高,做本地推理的可以马上试试。
02:16
AYi@AYi_AInotes
70
世界最好的开源图像模型, 仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布
01:51
Artificial Analysis@ArtificialAnlys
71
Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能

Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表,介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。

推理模型发布评测/基准
01:49
Krea@krea_ai
精选74
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
图像生成模型发布
关联讨论 1 条IT之家(RSS)
推荐理由:图像生成模型的军备竞赛又添一员,Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流,做设计生成的同学可以直接上手试试。
01:48
elvis@omarsar0
76
Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选78
Gemma 4 12B:一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:我觉得Gemma 4 12B最大的变化不是参数大小,而是第一次在开源模型里把多模态直接交给LLM主干处理,没有单独的视觉编码器,这意味着本地多模态应用的延迟和内存占用都会大幅下降,对于在笔记本上做Agent的开发者,这是一个必试的版本。
00:55
🚨 AI News | TestingCatalog@testingcatalog
74
Ideogram 4.0 开源图像生成模型发布,在 LM Arena 文生图类别排名第 8,Design Arena 第 5,评分 1204,成为该领域排名最高的开放模型,性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布
00:50
Chubby♨️@kimmonismus
精选75
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由:Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
00:25
🚨 AI News | TestingCatalog@testingcatalog
65
Google 最新的 Gemma 4 12B 模型已上线 Hugging Face,采用 Apache 2.0 许可证。该模型与 Gemma 4 E2B/E4B 共享相同多模态能力,支持文本、音频、图像和视频输入,无需单独编码器即可实现原生音频和视觉理解。这种无编码器统一设计方案使其部署体积更小,非常适合消费级设备和本地执行环境。官方称其旨在弥合边缘效率与高级推理之间的差距。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
00:19
Google AI Developers@googleaidevs
77
Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。

Google多模态开源生态模型发布
关联讨论 4 条X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)X:Jeff Dean (@JeffDean)Google DeepMind:Blog(RSS)
00:07
Google Developers Blog(RSS)
同事件精选78
Gemma 4 12B:开发者指南

Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Google 把多模态模型直接塞进消费级设备,靠的不再是缩水而是架构层面的创新。12B 放在本地跑,这次玩法变了。
6月3日
22:39
SenseTime@SenseTime_AI
同事件精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
19:16
The Decoder:AI News(RSS)
71
Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布
16:47
MarkTechPost(RSS)
69
NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。

具身智能多模态开源生态模型发布
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
10:32
Satya Nadella@satyanadella
82
凭借我们今天宣布的全新MAI模型和前沿调优能力,我们致力于帮助每家公司从仅仅使用前沿模型,转变为全面参与前沿领域。
Microsoft数据/训练模型发布
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
09:48
Berryxia.AI@berryxia
64
微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft图像生成模型发布
09:13
meng shao@shao__meng
72
微软Build大会一口气发布了7个模型! 微软,最后再信你一次 (1)(1)(1)(1)(1)(1)(1) 😄

Satya Nadella: 5/With our 7 new MAI models + Frontier Tuning, we are helping every company move from just consuming frontier models to ...

Microsoft模型发布
06:55
MiniMax (official)@MiniMax_AI
74
MiniMax M3模型发布细节公开

MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。

Together AI: MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...

多模态推理模型发布编码
06:25
MiniMax (official)@MiniMax_AI
同事件精选80
MiniMax-M3 在 @ValsAI 排名中位列第六 新的开源权重 SOTA 🚀

Vals AI: MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...

多模态开源生态模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 闷声干大事,第一个多模态模型就拿下 open-weight SOTA 和总榜第 6,做多模态应用的可以蹲一下权重。
05:35
Hacker News 热门(buzzing.cc 中文翻译)
66
微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。

Microsoft推理模型发布编码
05:16
Rohan Paul@rohanpaul_ai
81
微软发布 MAI-Thinking-1 模型

微软发布了 MAI-Thinking-1,这是一款采用 MoE 架构的模型,拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练,且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中,该模型于 AIME 2025 获得 97.0%,在 LiveCodeBench v6 获得 87.7%,在 SWE-Bench Pro 获得 52.8% 的成绩。

Microsoft推理模型发布
04:05
Hacker News 热门(buzzing.cc 中文翻译)
49
微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型,仅使用 50 亿个活动参数(5B Active Params),在 SWE-Bench Pro 基准测试中获得了 51% 的成绩,展示了高参数效率。

Microsoft模型发布编码
03:09
IT之家(RSS)
69
微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。

Microsoft推理模型发布编码
02:47
Chubby♨️@kimmonismus
63
Mai-1 thinking:中型模型,45b 活跃参数,MoE,与 Sonnet 4.6 并列 0 知识蒸馏 "微软的首个推理模型"

Chubby♨️: Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitud...

Microsoft推理模型发布
02:47
Artificial Analysis@ArtificialAnlys
64
Microsoft发布MAI-Transcribe-1.5语音转录模型

微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

Microsoft模型发布语音
02:45
The Verge:AI(RSS)
精选78
微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”,能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。

Microsoft推理模型发布

推荐理由:微软自己从头训练的推理模型,不用任何第三方蒸馏数据,这可能是微软系 Agent 和 Copilot 底座更换的信号,值得盯着看。
02:23
🚨 AI News | TestingCatalog@testingcatalog
70
微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型

微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

Microsoft多模态推理模型发布
01:17
Artificial Analysis@ArtificialAnlys
62
Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注

Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。

图像生成模型发布评测/基准
6月2日
22:40
Hugging Face:Blog(RSS)
精选73
Holo3.1:快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由:Holo3.1 把计算机使用代理从桌面扩展到了移动端,还首次放出了量化版,让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。
21:06
StepFun@StepFun_ai
73
阶跃星辰发布 Step 3.7 Flash 模型,强调其为快速智能体编程设计,具备可靠的工具调用与多模态理解能力。该模型采用开放权重。同期,MiniMax 也开源了 M3 模型。两者已均在 Kilo 中上线。此次发布凸显了开放权重模型正从模型卡片走向实际编程工作流的趋势。

Kilo: The open-weight labs did not come to play this week. StepFun dropped Step 3.7 Flash. MiniMax dropped M3. Both with open ...

MCP/工具开源/仓库模型发布编码
‹ 上一页
1…1516171819…43
下一页 ›