6月4日

02:48

MarkTechPost（RSS）

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

02:16

AYi@AYi_AInotes

Google 发布 Gemma 4 12B：无独立视觉编码器的统一多模态架构

Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态大佬观点端侧

01:56

OpenCode@opencode

Qwen3.7 Plus 现已在 Go 中可用，支持文本和图像，1M 上下文，比 3.6 更便宜。

产品更新多模态编码

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选78

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

01:00

郭明錤｜Ming-Chi Kuo@mingchikuo

苹果砍掉Vision Pro，智能眼镜路线图延迟至2027/2029

苹果分析师郭明錤更新预测：此前规划的XR头戴装置路线图已作废，目前仅两款智能眼镜设备有能见度。路线图大改由下一任CEO John Ternus拍板，Vision Pro系列被移除，资源转向智能眼镜。最新供应链调查显示，具有显示功能的AR/XR智能眼镜（光波导）推迟至2029年，无显示功能的AI眼镜（类似Ray-Ban Meta）仍预计2027年推出。郭明錤认为智能眼镜将带动下一波消费电子趋势。

郭明錤|Ming-Chi Kuo: Apple Vision系列與智慧眼鏡產品規劃預測 (2025-2028):智慧眼鏡可望帶動下一個消費電子趨勢全文連結:https://mingchikuo.craft.me/FgF89wv0af9Bpw

多模态端侧行业动态

00:25

🚨 AI News | TestingCatalog@testingcatalog

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态模型发布端侧

00:19

Google AI Developers@googleaidevs

Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

Google 多模态开源生态模型发布

关联讨论 6 条

00:17

elvis@omarsar0

微软SkillOpt论文：AI智能体技能实现自我进化

DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后，所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时，质量评分从0.73提升至0.93（+20点），提取结果显著改善。Saravia认为这是自我改进AI的早期范例，该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。

智能体 Microsoft 多模态大佬观点

00:07

Google Developers Blog（RSS）

在笔记本电脑上运行 Gemma 4 12B：借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行，支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化，通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外，LiteRT-LM CLI 新增 serve 命令，可创建行业兼容的本地端点，驱动完全本地的 AI 工具和智能体。

智能体 Google 产品更新多模态

关联讨论 6 条

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

23:31

fofr@fofrAI

Omni 魔术戏法

OpenAI 多模态教程/实践

23:10

IT之家（RSS）

京东开源 JoyAI-Echo 长音视频生成框架，支持对话式编辑与 5 分钟角色一致

京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程，结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation（DMD）技术，DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent，支持自然语言需求自动拆分为剧本、角色、场景和镜头，实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。

多模态开源/仓库

22:39

SenseTime@SenseTime_AI

同事件精选73

商汤开源SenseNova U1：视觉理解推理生成一体模型

商汤（SenseTime）开源SenseNova U1模型，宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHub Hugging Face 图像生成多模态

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤把理解、推理、创作塞进一个模型，而且直接开源，做视觉营销的可以不用再拼凑工具链了。