6月5日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:23

Chubby♨️@kimmonismus

NVIDIA Nemotron 3 Ultra 发布：完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra，550B 总参数（55B 活跃）的完全开源 MoE 模型，权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构，专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上，吞吐量约为可比开源模型的 6 倍（推理速度提升 5 倍），复杂智能体任务成本降低最多 30%。该模型在 4-bit（NVFP4）精度下预训练 20T tokens，后训练使用 MOPD 技术，由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布

关联讨论 9 条

23:15

Nathan Lambert@natolambert

狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度，开放紧随其后。

Lisan al Gaib: I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...

Anthropic 安全/对齐开源生态

22:46

SenseTime@SenseTime_AI

同事件精选69

SenseNova U1 开源统一模型：原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型，实现原生理解与生成文本和图像，可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源，提供 SenseNova Studio 在线试用，并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这回把图文统一模型开源了，SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局，做内容的朋友可以上手试试。

22:22

elvis@omarsar0

NVIDIA 今日发布 Nemotron 3 Ultra，一个 550B MoE 前沿智能开源模型，专为长时间运行智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态模型发布

22:15

Hacker News 热门（buzzing.cc 中文翻译）

VoidZero 将加入 Cloudflare

Cloudflare 官方博客发布消息，宣布 VoidZero 将加入公司。该博客文章标题为“VoidZero

开源生态行业动态

21:54

Artificial Analysis@ArtificialAnlys

NVIDIA 发布 Nemotron 3 Ultra，成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra，为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7，领先 Gemma 4 31B（39.2）、Nemotron 3 Super（36.0）和 gpt-oss-120b（33.3），但低于中国开源模型 Kimi K2.6（53.9）。模型总参数约 550B，激活 55B，推理速度超 400 tokens/s，较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7，BF16 得分 48.2，精度差异极小。

开源生态推理模型发布评测/基准

20:52

LMSYS：Blog（Chatbot Arena 团队）

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 9 条

16:21

MarkTechPost（RSS）

Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

Miso Labs 推出 MisoTTS，一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化（RVQ）在不增加参数量的情况下扩展声音范围，并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音

16:11

IT之家（RSS）

转战闭源遇挑战：消息称 Meta 一再推迟上线 AI 模型 Muse Spark

Meta 公司 AI 模型 Muse Spark 多次推迟向开发者发布 API 调用计划。该模型是 Meta 超级智能实验室（Meta Superintelligence Labs）的首款产品，由汪滔（Alexandr Wang）掌管。内部评测称 Muse Spark 可与 OpenAI、Anthropic 竞争，并在多数测试中领先 xAI 的 Grok。原计划 4 月发布 API，后推迟至 5 月，又推迟至 6 月，原因包括测试漏洞和基础设施扩建。目前仅少数第三方评测机构能验证其能力。

Meta 开源生态模型发布行业动态

14:51

MarkTechPost（RSS）

精选71

Meet OpenJarvis：一个本地优先的设备端个人AI智能体框架，支持工具、记忆与学习

Stanford 研究人员发布 OpenJarvis，一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语：Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内，边际 API 成本降低约 800 倍。

智能体产品更新开源生态端侧

推荐理由：斯坦福这个框架把云端模型能力拉到本地，成本降了800倍，所有想做离线个人助理的开发者该试试看，开源实现比PPT有说服力。

14:28

🚨 AI News | TestingCatalog@testingcatalog

HeyGen 宣布了新的 FRAME.md 格式，可将品牌指南文件 DESIGN.md 转换为专为视频和动态设计的规范。原有 DESIGN.md 适用于静态屏幕，但应用到视频时，AI 智能体会误将其解读为网页和幻灯片。FRAME.md 教会智能体如何生成真正的品牌视频。该项目已以开源仓库发布，任何品牌均可使用，通过 FRAME.md 文件来引导视频生成智能体。

HeyGen: Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...

智能体产品更新开源生态视频

14:11

IT之家（RSS）

Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0，核心规模 9.3B 参数，采用单流架构，文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制，能准确呈现较长文本；通过对象和文本边界框训练，配合结构化 JSON 字幕数据，支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布

关联讨论 1 条

11:52

Artificial Analysis@ArtificialAnlys

StepFun 开源 Step 3.7 Flash 模型，性能与速度并进

StepFun 开源 Step 3.7 Flash（Apache 2.0），总参数 198B、激活 11B（MoE），上下文 256K。在 Artificial Analysis 智能指数上得分 42.6，较 Step 3.5 Flash 提升 4 分，输出速度超 400 tokens/s，通过 Multi-Token Prediction（3 个 token）加速。新增 1.8B 视觉编码器支持原生多模态，MMMU-Pro 得分 75.3%。代理能力提升：GDPval-AA Elo 从 1070 升至 1298，TerminalBench Hard 达 35.6%，AA-LCR 63.7%。知识/幻觉仍弱：AA-Omniscience 准确率 25.4%，幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布

10:23

Jeff Dean@JeffDean

来看看我们的 Gemma 4 12B 模型：它是一个功能非常强大的开源权重模型，可以直接在你的笔记本电脑上运行。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态开源生态模型发布

关联讨论 4 条

09:58

MiniMax (official)@MiniMax_AI

MiniMax M3 即将推出，现在即可在 OpenCode 免费试用。M3 已回到免费层，快来体验！

OpenCode: MiniMax M3 will be launching soon You can try it right now in OpenCode For free

开源生态模型发布

09:40

小互@xiaohu

Ideogram 4.0 开源：边界框控制+多语言文字渲染

Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0，主推文字渲染与版面控制。模型引入 bounding box（边界框）控制，允许用坐标精确指定元素位置；支持结构化 JSON 提示词格式，不再仅限纯文本；英文 OCR 准确率达 0.97（X-Omni 基准），支持跨语言密集文字渲染，涵盖中日韩等非拉丁文字。

图像生成开源生态模型发布

08:40

小互@xiaohu

Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型，采用无编码器 Unified 架构，可直接处理文本、图像、音频、视频，无需独立编码器。16GB 显存可运行，4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言，内置 Thinking 模式和 Function Calling。

Google 多模态开源生态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

BloomBench：基于认知的英-阿双语多模态基准

研究团队提出 BloomBench（Almieyar 基准系列的一部分），首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架，系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议，确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示：语义理解能力强，但事实回忆和创造性合成严重不足；阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。

GitHub 多模态开源生态论文/研究

04:31

fofr@fofrAI

Ideogram v4 表现出色，开放权重。图像清晰，感觉焕然一新。

fofr: Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

图像生成开源生态模型发布

04:17

The Decoder：AI News（RSS）

Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型，原生支持处理文本、图像和音频，仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型，采用 Apache 2.0 许可证，可用于商业用途。

Google 多模态开源生态模型发布

关联讨论 4 条

03:58

MiniMax (official)@MiniMax_AI

我们已加入 @nvidia 和 @Microsoft 在 #GTC Taipei 的本地 LLM 阵容。🔥 PC 正围绕本地、智能体、开放权重模型重新定义。 MiniMax-M3 正是为此未来而打造：开放权重。 1M 上下文。强编码能力。原生多模态。对接下来的一切充满期待！

Microsoft 开源生态端侧行业动态

03:40

Sundar Pichai@sundarpichai

同事件精选73

Gemma 4 系列累计下载量突破1.5亿次，Google随之推出新成员Gemma 4 12B。该模型仅12B参数，可在16GB VRAM笔记本上本地运行，兼顾尺寸与性能，支持多步推理和智能体工作流。采用Apache 2.0开源许可，供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google 开源生态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸，Apache 2.0 开源，对想做本地 agent 的开发者是实实在在的新弹药，小模型的可用性正在逼近临界点。

03:20

Chubby♨️@kimmonismus

Google 开源 Gemma 4 12B：无编码器架构，本地 16GB VRAM 运行

Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google 多模态开源生态模型发布

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:47

The Decoder：AI News（RSS）

Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型，采用开放权重，支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，该模型位列所有开放模型之首；仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布

02:36

Demis Hassabis@demishassabis

同事件精选74

Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿，并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型，兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B，但性能强劲，且足够小巧，可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证，方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 开源生态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本，16GB 显存就能跑，端侧智能的性价比又一次被 Google 拉高，做本地推理的可以马上试试。

02:16

AYi@AYi_AInotes

世界最好的开源图像模型，仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布

01:48

elvis@omarsar0

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

00:55

🚨 AI News | TestingCatalog@testingcatalog

Ideogram 4.0 开源图像生成模型发布，在 LM Arena 文生图类别排名第 8，Design Arena 第 5，评分 1204，成为该领域排名最高的开放模型，性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

00:42

HuggingFace Daily Papers（社区热门论文）

精选76

Ultralytics YOLO26：统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理，彻底移除 DFL，获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类，提供 5 种尺度（n/s/m/l/x）及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP，T4 TensorRT 延迟 1.7–11.8 ms；YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由：这次YOLO26把NMS和DFL都拿掉了，还把大模型训练的Muon优化器改成MuSGD，在COCO上的速度精度平衡比上一代强不少，做实时检测的应该拿来跑一跑。

00:19

Google AI Developers@googleaidevs

Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

Google 多模态开源生态模型发布

关联讨论 4 条

6月3日

22:37

Nathan Lambert@natolambert

过去一年构建开放模型的一个关键教训，当美国明显落后这一点已变得如此清晰时，就是空谈是廉价的。许多人说他们在帮助/想要帮助，但实际上什么都没做。找到那些真正推动开放进步的人是至关重要的。

大佬观点开源生态