6月4日

04:17

The Decoder：AI News（RSS）

Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型，原生支持处理文本、图像和音频，仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型，采用 Apache 2.0 许可证，可用于商业用途。

Google 多模态开源生态模型发布

关联讨论 4 条

03:40

Sundar Pichai@sundarpichai

同事件精选73

Gemma 4 系列累计下载量突破1.5亿次，Google随之推出新成员Gemma 4 12B。该模型仅12B参数，可在16GB VRAM笔记本上本地运行，兼顾尺寸与性能，支持多步推理和智能体工作流。采用Apache 2.0开源许可，供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google 开源生态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸，Apache 2.0 开源，对想做本地 agent 的开发者是实实在在的新弹药，小模型的可用性正在逼近临界点。

03:31

fofr@fofrAI

Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布

03:22

Ars Technica：AI（RSS）

Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测，实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google 多模态模型发布端侧

03:20

Chubby♨️@kimmonismus

Google 开源 Gemma 4 12B：无编码器架构，本地 16GB VRAM 运行

Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google 多模态开源生态模型发布

02:58

DogeDesigner@cb_doge

Grok Imagine 1.5 预览版已发布，即日起可在 API 中体验。SpaceXAI 正在发力。

Grok: Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine

xAI 图像生成模型发布

关联讨论 3 条

02:48

MarkTechPost（RSS）

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

02:47

The Decoder：AI News（RSS）

Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型，采用开放权重，支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，该模型位列所有开放模型之首；仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布

02:36

Demis Hassabis@demishassabis

同事件精选74

Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿，并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型，兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B，但性能强劲，且足够小巧，可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证，方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 开源生态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本，16GB 显存就能跑，端侧智能的性价比又一次被 Google 拉高，做本地推理的可以马上试试。

02:16

AYi@AYi_AInotes

世界最好的开源图像模型，仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布

01:51

Artificial Analysis@ArtificialAnlys

Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能

Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表，介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。

推理模型发布评测/基准

01:49

Krea@krea_ai

精选74

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

图像生成模型发布

关联讨论 1 条

推荐理由：图像生成模型的军备竞赛又添一员，Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流，做设计生成的同学可以直接上手试试。

01:48

elvis@omarsar0

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选78

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

00:55

🚨 AI News | TestingCatalog@testingcatalog

Ideogram 4.0 开源图像生成模型发布，在 LM Arena 文生图类别排名第 8，Design Arena 第 5，评分 1204，成为该领域排名最高的开放模型，性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

00:25

🚨 AI News | TestingCatalog@testingcatalog

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态模型发布端侧

00:19

Google AI Developers@googleaidevs

Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

Google 多模态开源生态模型发布

关联讨论 4 条

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

22:39

SenseTime@SenseTime_AI

同事件精选73

商汤开源SenseNova U1：视觉理解推理生成一体模型

商汤（SenseTime）开源SenseNova U1模型，宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHub Hugging Face 图像生成多模态

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤把理解、推理、创作塞进一个模型，而且直接开源，做视觉营销的可以不用再拼凑工具链了。