4月29日

07:38

Berryxia.AI@berryxia

NVIDIA 重磅发布！🚀 Nemotron 3 Nano Omni 多模态开源模型来了！ 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型（语言+视觉+语音+视频+音频一体化） 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源（权重 + 数据 + 配方），领跑多项榜单可通过 NVIDIA NIM API 免费试用！完美驱动多代理工作流。

NVIDIA AI: Meet Nemotron 3 Nano Omni 👋 Our latest addition to the Nemotron family is the highest efficiency, open multimodal model...

智能体多模态开源生态模型发布

07:38

Berryxia.AI@berryxia

SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破，新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法，从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割，简化了后续纹理贴图流程。此外，SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格，提供了更高的灵活性和应用潜力。

多模态论文/研究

07:38

ginobefun@hongming731

老代码、AI工具与组织治理的融合趋势

当前，遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目；Thoughtworks推动提示词成为可版本化、可审查的一等交付物；NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力，工程挑战的核心正从“生成”转向“治理”，关键在于让AI持续理解项目上下文、使其输出可复用，并推动多模态技术落地生产环境。

Anthropic MCP/工具多模态现象/趋势

07:33

IT之家（RSS）

加速你的创意落地：Claude AI 接入 Adobe、Blender 等创意软件生态

Anthropic于4月29日宣布升级Claude AI，新增专属连接器，全面接入Adobe、Blender等八大主流创意软件生态。此次更新将AI能力深度整合至专业工作流，用户可直接在Adobe系列软件中调用50多项工具，在Autodesk Fusion中通过对话创建修改3D工业模型，在Blender中生成脚本与调试场景。此外，音频软件Ableton和Splice用户也能快速查询文档与检索采样库。Claude旨在充当智能助手，自动化处理重复任务，让创作者更专注于核心创意。

Anthropic MCP/工具产品更新多模态

07:11

小互@xiaohu

Adobe 把8款创意工具的打包接进 Claude

Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具，执行调色、抠图、扩图等图像处理，套用模板设计、剪辑视频、获取 Stock 授权素材，以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

Anthropic MCP/工具产品更新多模态

07:07

Rohan Paul@rohanpaul_ai

圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。无需再转头查看单独的显示器。

多模态端侧行业动态

05:39

AK@_akhaliq

Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

多模态开源/仓库端侧

02:18

Suno@suno

精选70

如何在60秒内制作伴奏音轨。

多模态教程/实践

推荐理由：虽然只是 Suno 的官方教程，但这 60 秒的视频把生成伴奏这件事儿讲得明明白白，对于想快速出 demo 的音乐创作者来说，是个能立刻用上的实用技巧。

01:38

AK@_akhaliq

Meta 推出 Tuna-2 像素嵌入优于视觉编码器，用于多模态理解与生成 paper： https://huggingface.co/papers/2604.24763

Meta 多模态论文/研究

01:08

AK@_akhaliq

Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型论文：https://huggingface.co/papers/2512.02014

Meta 多模态论文/研究

01:00

OpenRouter@OpenRouter

精选66

NVIDIA NemotronTM 3 Nano Omni 已在 OpenRouter 上线。这是一个用于智能体工作流的开源 30B-A3B 多模态模型：文本、图像、视频和音频输入 → 文本输出，拥有 256k 上下文窗口和高效的 MoE 架构，适用于计算机使用、文档和音视频推理。

智能体产品更新多模态

推荐理由：Nemotron 3 Nano Omni 是 NVIDIA 在开源多模态模型上的新动作，30B 参数 MoE 架构、256k 上下文、四模态输入，做 Agent 工作流的开发者值得试一下，尤其文档和音视频推理场景。

00:37

Hugging Face：Blog（RSS）

精选70

介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型，这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据，旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中，提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

推荐理由：NVIDIA 把多模态长上下文塞进 Nano 级别模型，文档、音频、视频 Agent 通吃，做端侧多模态应用的团队值得认真看看这个架构思路。

00:07

Sundar Pichai@sundarpichai

谷歌翻译二十周年：从简单短语到实时对话的演进

谷歌翻译迎来二十周年，已从最初的简单模式匹配发展为每月服务超10亿用户的全球工具。其技术历经三个阶段：2006年依靠统计机器学习分析词簇，2016年转向神经网络实现超越字面的翻译，如今借助Gemini模型进一步提升能力。当前发展重点正从文本翻译转向流畅的实时对话，最新模型甚至能通过耳机充当口译器，并保留用户原有的语调和节奏。尽管AI翻译已支持近250种语言，人们却逐渐将其视为常态。谷歌对此表达感谢，并展望未来二十年的技术突破。

Google 多模态大佬观点

00:06

Google Blog：AI（RSS）

庆祝 Google Translate 20 周年：趣闻、技巧与可尝试的新功能

Google Translate 迎来 20 周年，从 2006 年的一项 AI 实验起步，现已支持近 250 种语言。官方分享了 20 条相关趣闻，并介绍了用户可尝试使用的实用技巧与新功能，以展示其多年来的技术演进与服务扩展。

Google 产品更新多模态

4月28日

20:46

公众号：可灵AI（快手·视频）

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元斩获大奖

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元并斩获大奖。

多模态行业动态视频

20:36

Chubby♨️@kimmonismus

Microsoft 推出 "TRELLIS.2"：一个开源的、40亿参数的图像转3D模型，可生成高达15363的PBR纹理资产。基于原生3D VAES，具有16倍空间压缩能力，提供高效、可扩展、高保真的资产生成。说实话，相当酷！

Microsoft 多模态开源生态模型发布

20:25

SenseTime@SenseTime_AI

SenseNova U1 Lite系列开源，统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构，原生统一了多模态理解与生成能力。其核心优势包括：在开源模型中具备领先的效率，紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益；支持原生的图像-文本交织生成，单一模型即可在单次流程中生成连贯交织的图文内容，适用于制作指南等实用场景；并拥有高密度信息渲染能力，擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布