6月11日

08:00

HuggingFace Daily Papers（社区热门论文）

Avatar V 是一个生产级框架，通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算，同时重现静态身份和动态行为（如说话节奏、微表情）。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段，经 flow matching 预训练、个性微调、两阶段蒸馏（>10 倍加速）和 RLHF 对齐等五阶段训练，部署于数千 GPU。可生成无限时长 1080p 视频，在跨场景基准上保持最优的身份保留、唇同步和生成质量，全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究

06:41

Orange AI@oran_ge

Google 推出 Gemini 3.5 Live Translate，支持 70 多种语言边听边译，保留说话人语调、节奏和音高，延迟仅几秒，自动降噪。Google Translate App 新增听筒模式，开发者可通过 API 调用，支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google 产品更新多模态语音

04:23

Simon Willison 博客

DiffusionGemma 发布：Google 开源 26B 参数扩散模型，NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型，模型名为 google/diffusiongemma-26B-A4B-it，采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒，速度至少达到 500 token/s。

Google 多模态开源生态模型发布

03:22

The Decoder：AI News（RSS）

Google 新开源模型 DiffusionGemma：从噪声生成文本，而非逐字逐词

Google 发布 260 亿参数的 DiffusionGemma 模型，文本生成方式不再逐 token 预测，而是通过扩散过程从噪声直接生成，类似图像 AI 将噪声转化为图片。Nvidia 测试显示，该模型在单块 H100 GPU 上可达约每秒 1,000 tokens，速度约为可比自回归模型的四倍。代价是输出质量较低，因此 Google 目前将其定位为面向开发者的实验性工具。模型已开源。

Google 多模态开源生态模型发布

01:14

Chubby♨️@kimmonismus

The Elder Scrolls 5 Fablewind （v2）。工作库存+物品，工作任务，等级系统，法力/耐力/生命值工作，买卖和一点更新的图形。让我们看看这个有多好

Chubby♨️: More realistic example of a one shotted game. Asked Fable 5 to recreate a game in the style of The Elder Scrolls 5 Morro...

多模态教程/实践

00:34

AYi@AYi_AInotes

天哪，AGI到来之后，品味和审美一定是一个人最核心的竞争力和最强的护城河， Claude Fable 5遇到审美和品味高的，输出质量高到爆炸，这效果真的绝了😭

ハヤシモン|AI × 個人開発: Claude Fable 5でどこまで表現できるのか、あえて難しいお題を投げてみた。インクが流体みたいに溶け合う演出。これは厳しいかなと思って限界を見にいったんだけど、普通に形になってしまった。デザイン表現力もかなりすごい。実際にこ...

Anthropic 图像生成多模态大佬观点

00:23

AK@_akhaliq

ABot-Earth 0.5 生成式3D地球模型

多模态模型发布

00:00

Suno：Blog（网页）

精选68

Suno 重构音轨分离功能，推出三种拆分方式

Suno 对音轨分离功能进行重构，推出三种拆分方式：Auto Split 将歌曲自动拆分为最多 12 个音轨（鼓、贝斯、吉他等）；Split from Mix 可隔离或移除特定乐器/人声并生成伴奏轨道；Advanced Split（仅 Premier 订阅）支持从近 100 种乐器中精确提取目标音轨。与常规切割算法不同，Suno 使用最新模型从零重新生成每个音轨，而非从混音中切割，以消除串音和音质损失。该功能适用于 Pro 和 Premier 订阅用户，可用于 Suno 创作或上传的音乐。

产品更新多模态

推荐理由：Suno 重写了 stem separation，不再是旧路子切音频，而是用模型重新生成干净的干声，鼓点有劲、人声没杂音，还能拆上百种乐器，做混音的人可以试试。

6月10日

23:47

SiliconFlow@SiliconFlowAI

Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线，定价输入 $0.1/1M tokens，输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构，视觉和音频输入直接注入 LLM 主干，降低处理延迟。12B 参数但配备 26B “大脑”，性能接近 Google 26B 级别，擅长多步推理与智能体工作流。

智能体产品更新多模态