6月5日

03:55

Chubby♨️@kimmonismus

那太酷了！我爱这些家伙的创意。一个仅2.4B参数的开放模型，用于实时音乐生成。如果你在长途飞行中无聊，现在可以开始创作神曲了。

Omar Sanseviero: Introducing Magenta RealTime 2 🎺 - Open model for live music generation - Just 2.4B parameters, perfect for on-device -...

Google 开源生态模型发布端侧

03:54

Rohan Paul@rohanpaul_ai

Hyper 3D Rodin Gen-2.5 图像转 3D：4 秒生成百万多边形

Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5，最大改进是控制力。提供五种生成模式，最快 4 秒生成百万多边形模型，支持最高 1000 万多边形输出。原生 3D PBR 材质，模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑，无需重新生成整个模型，覆盖 3D 创作全流程。

图像生成多模态模型发布

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

02:54

Google AI Developers@googleaidevs

精选70

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 （MRT2）。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行，延迟低于 200ms，提供开放权重、开源推理引擎以及配套应用和插件套件。

Google Magenta Project: Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...

Google 多模态开源生态模型发布

关联讨论 1 条

推荐理由：Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」，开放权重且延迟低于 200ms，音乐创作者值得立刻上手试试。

6月4日

23:23

Chubby♨️@kimmonismus

NVIDIA Nemotron 3 Ultra 发布：完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra，550B 总参数（55B 活跃）的完全开源 MoE 模型，权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构，专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上，吞吐量约为可比开源模型的 6 倍（推理速度提升 5 倍），复杂智能体任务成本降低最多 30%。该模型在 4-bit（NVFP4）精度下预训练 20T tokens，后训练使用 MOPD 技术，由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布

关联讨论 9 条

23:16

SenseTime@SenseTime_AI

商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1，一个原生理解和生成文本与图像的统一模型。该模型已开源，用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face 图像生成多模态模型发布

关联讨论 1 条

23:15

SiliconFlow@SiliconFlowAI

精选72

Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型，性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

多模态推理模型发布编码

推荐理由：后训练模型能直追 GPT-5.5 和 Claude 4.7，免费两周，对做 agent 和 deep search 的人来说是难得的低成本试错机会。

22:46

SenseTime@SenseTime_AI

同事件精选69

SenseNova U1 开源统一模型：原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型，实现原生理解与生成文本和图像，可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源，提供 SenseNova Studio 在线试用，并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这回把图文统一模型开源了，SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局，做内容的朋友可以上手试试。

22:22

elvis@omarsar0

NVIDIA 今日发布 Nemotron 3 Ultra，一个 550B MoE 前沿智能开源模型，专为长时间运行智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态模型发布

21:54

Artificial Analysis@ArtificialAnlys

NVIDIA 发布 Nemotron 3 Ultra，成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra，为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7，领先 Gemma 4 31B（39.2）、Nemotron 3 Super（36.0）和 gpt-oss-120b（33.3），但低于中国开源模型 Kimi K2.6（53.9）。模型总参数约 550B，激活 55B，推理速度超 400 tokens/s，较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7，BF16 得分 48.2，精度差异极小。

开源生态推理模型发布评测/基准

21:18

StepFun@StepFun_ai

同事件精选77

阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型（VLM），含 196B 语言骨干和 1.8B 视觉编码器，从设计之初优化推理效率，采用硬件友好架构与 MTP 辅助解码，速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力，面向真实智能体工作负载，采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：198B稀疏MoE加MTP解码把速度推到400 tok/s，还开源Apache 2.0，这规格做agent的大脑正合适，做实时应用的可以试试手。