5月1日

00:13

Artificial Analysis@ArtificialAnlys

阿里巴巴开源了Qwen3.6系列两款模型：27B密集模型和35B A3B混合专家模型。其中，Qwen3.6 27B在Artificial Analysis智能指数上得分46，成为150B参数以下最智能的开源模型，领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍，成本高出约21倍。两款模型均采用Apache 2.0许可，支持262K上下文，具备多模态能力。值得注意的是，其幻觉率较前代大幅下降，但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准

4月30日

23:14

Google DeepMind@GoogleDeepMind

AI协同临床医生是我们新的研究计划，旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

智能体 DeepMind Google 多模态

23:13

SenseTime@SenseTime_AI

SenseNova U1 Lite系列：小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型，在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成，具备强语义完整性和像素级精度；高布局一致性，实现准确可靠的文本渲染；以及行业首创的连续图像-文本生成，支持统一推理和一致视觉风格。该模型现已完全开源，相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布

22:13

向阳乔木@vista8

DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

DeepSeek 多模态开源生态现象/趋势

22:13

向阳乔木@vista8

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

22:13

SenseTime@SenseTime_AI

我们也相信，原生统一多模态智能是迈向通用人工智能（#AGI）的基础性一步 🙌

Hugging Models: Most multimodal stacks still work like this: Image encoder → LLM → generator → formatter Every handoff adds latency, com...

多模态现象/趋势

20:11

歸藏(guizang.ai)@op7418

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek 多模态论文/研究

14:52

Alibaba Cloud@alibaba_cloud

精选68

阿里云发布HappyHorse，实现秒级AI视频生成

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能：可生成影院级1080p高清画质；原生实现精准的音画同步，确保口型与声音对齐；在复杂场景和镜头切换中保持多镜头角色一致性；支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

多模态模型发布视频

推荐理由：阿里云终于放出视频生成模型，1080p+音频同步+秒级生成，功能直指 Sora 的短板。如果 demo 没修图，国产视频工具又多一个靠谱选择。

14:22

Alibaba Cloud@alibaba_cloud

每一次精彩的潜水都始于纵身一跃。我们正与@WorldAquatics携手，为您带来#潜入你的世界--一项由AI超级智能体MuleRun驱动的全球创意挑战。使用MuleRun创作惊艳的海报、视频、数据报告或网站。通过#潜入你的世界分享您的作品，赢取独家联名奖品。 4月30日至5月30日。您的世界正待探索。 → https://diveintoyourworld.mule.page/ #AlibabaCloud #CloudComputing #AI #AInnovation #LLM #WorldAquatics

多模态行业动态

13:37

阿绎 AYi@AYi_AInotes

作者对当前同质化的SaaS开发感到倦怠，质疑为何"独立开发"总被默认为做软件。他列举了销售Notion模板、壁纸等非软件产品获得可观收入的例子。受此启发，他将自身营销经验应用于音乐赛道，启动实验项目"Milo Ever"。仅用一周时间，他便创作并发布了全新AI音乐专辑《The Small World to Remember》。该专辑包含12首关于童年记忆的歌曲，旨在探索独立开发的更多可能性，并已通过此前发行的AI音乐专辑获得了超过6400美元的收入。

Luo说不啰嗦: 从上海 Let's Vision 2026 回来之后, 我整整一个月几乎没写代码了。不是因为忙, 是突然就觉得这件事没那么有意思了。这几年我反复经历一个循环: 做产品 → burn out → 怀疑 → 再继续做产品随着 vibe c...

多模态现象/趋势

07:39

Berryxia.AI@berryxia

Moonlake推出3D Agent：AI自动化生成可编辑3D资产

Moonlake发布3D Agent，这是一个AI驱动的工具，能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景（包含数百物体）。它支持从零建模，自动处理独立部件和关节绑定，无需预设规则，并能重建完整可编辑的室内或室外场景。通过原生集成Blender，该工具实现了真实工作流的自动化，简化3D创作过程。

智能体产品更新多模态

06:21

Luma@LumaLabsAI

优质内容值得拥有全球观众。上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容，触达所有需要的地方。走向全球 → http://lumalabs.ai/app

智能体产品更新多模态视频

06:09

Greg Brockman@gdb

我对GPT Image 2在应用构建中的实用性感到非常惊喜：【引用 @romainhuet】：GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps！ @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中，因此Codex可以为您处理从设计到应用的循环。👌

Romain Huet: GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...

OpenAI 图像生成多模态大佬观点

04:39

Rohan Paul@rohanpaul_ai

Abacus 刚刚推出了 Abacus AI Studio。将 100 多种 AI 模型，以及图像、视频和语音功能，整合进一个仪表板。

Abacus.AI: 🚨 Excited To Launch Abacus AI Studio Use 100+ Top AI Video And Image Models on Abacus AI Studio Use an agentic loop alo...

产品更新多模态

04:13

Google AI Developers@googleaidevs

观看 @thorwebdev 的这个演示，看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用（调用 Gemini API），通过 Lyria 3️⃣ 生成定制的 30 秒片段。在 @GoogleAIStudio 中开启你自己的工作室会话：http://goo.gle/3PbcCXJ

Google 多模态教程/实践

02:08

Google Gemini@GeminiApp

这场活动即将开始！在此处加入Gemini Discord：http://discord.gg/gemini 【引用 @GeminiApp】：准备好用Gemini Canvas释放你的创造力了吗？🪄 不要错过我们下一次的Discord活动，届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程，帮助你提升自己的创意提示技巧。 🗓️ 4月29日，星期三 ⏰ 太平洋时间上午11：30 📍 http://discord.gg/gemini

Google Gemini: Ready to unlock your creativity with Gemini Canvas? 🪄 Don't miss our next Discord event to see Gemini Creative Technolo...

Google 多模态教程/实践

4月29日

23:40

TestingCatalog News 🗞@testingcatalog

DeepSeek 发布了 DeepSeek Vision 测试版，这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

testtm: Deepseek Vision 👀

DeepSeek 产品更新多模态

22:40

TestingCatalog News 🗞@testingcatalog

ElevenLabs 推出 ElevenMusic 平台 🔥 ElevenMusic 基于 ElevenLabs 音乐生成模型构建，现已在网页端和移动端上线。

ElevenLabs: Today we are launching ElevenMusic, a new platform to discover, remix, create, and earn from music, built on the ElevenL...

产品更新多模态

22:37

歸藏(guizang.ai)@op7418

Deepseek 的多模态模型全量了。目前可以在网页版的识图模式尝试，看起来是一个单独的多模态模型

DeepSeek 多模态模型发布

22:15

向阳乔木@vista8

DeepSeek 的识图模式速度好快啊！这是新出的吗？上传图片，让反推提示词，秒出~

DeepSeek 产品更新多模态

22:15

向阳乔木@vista8

用户已体验新版AI识图功能，对其处理速度表示震惊。但质疑网页端为何将"识图模式"设为独立标签页，认为这种交互设计不自然，希望未来能整合到所有模式中。同时，用户关注API何时能支持识图功能，强调这对开发者至关重要。引用推文"Now， we see you. 👀"暗示了模型已具备视觉感知能力，是此次功能升级的核心背景。

Xiaokang Chen: Now, we see you. 👀

多模态大佬观点

22:15

向阳乔木@vista8

DeepSeek 的识图模式速度实在是太快了。网页复刻还原度相当不错，这下前端开发就更好用了。 DeepSeek牛逼！

DeepSeek 多模态大佬观点

22:13

meng shao@shao__meng

商汤 SenseNova-U1 架构创新：统一语言视觉表征

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式，视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构，直接移除翻译层，使语言和视觉在同一表征空间中运行。因此，模型能在单次推理中同步完成图像理解、推理和生成等任务，而非分步处理，提升了多模态交互的效率和连贯性。

多模态大佬观点开源生态

22:10

TestingCatalog News 🗞@testingcatalog

SenseTime开源了基于NEO-Unify架构的多模态图像生成模型SenseNova-U1。该架构完全摒弃了传统视觉编码器和VAE，原生地将理解、推理和生成统一为一个系统。该系列模型（8B和A3B参数）在开源模型中效率领先，以紧凑尺寸提供商业级性能与出色成本效益。其特色功能包括原生生成图文交织内容，适用于制作指南等实用场景；并擅长高密度信息渲染，能生成知识插图、海报、PPT和漫画等丰富结构的布局。模型已在Hugging Face和GitHub等平台开源。

SenseTime: SenseNova U1 Lite Series is now open source! Built on the NEO-unify architecture, it natively unifies multimodal underst...

图像生成多模态开源生态模型发布

17:16

SenseTime@SenseTime_AI

感谢 @liuziwei7 与我们共同创造 #多模态智能的未来！

Ziwei Liu: 🔥Native Unified Multimodal Model Open Sourced🔥 🚀SenseNova U1🚀 is the first native multimodal model that unifies mult...

Hugging Face 多模态开源生态模型发布

17:11

小互@xiaohu

Deepseek 内测多模态能力现在可以识别图像对于Agent执行能力提升有很大帮助… 【引用 @PKUCXK】：Now， we see you. 👀

Xiaokang Chen: Now, we see you. 👀

智能体 DeepSeek 多模态模型发布

16:46

SenseTime@SenseTime_AI

精选65

是的，SenseNova U1 现已在 Hugging Face 和 GitHub 上发布！探索它如何以语义精确性和像素级保真度实现复杂的 #信息图创作。 Hugging Face： https://huggingface.co/collections/sensenova/sensenova-u1 GitHub： https://github.com/OpenSenseNova/SenseNova-U1 Discord： https://discord.gg/cxkwXWjp

AK: SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1

Hugging Face 图像生成多模态模型发布

推荐理由：SenseNova U1 开源了，能生成像素级精准的信息图，对于做电商和可视化的人是个直接可用的工具，值得跑一下看看实际表现。

14:49

Alibaba Cloud@alibaba_cloud

精选64

HappyHorse 1.0 现已在 @fal 上线。去构建吧。【引用 @fal】：Happy Horse 1.0 is live on fal， day 0 🐎 🎬 一流的运动质量 🎧 原生1080p，音频同步一步完成 🔗 音视频联合生成，非拼接 🔓 限制更少，商业用途更广 ⚡ 为生产规模而构建

fal: Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...

多模态模型发布视频

推荐理由：阿里云不声不响丢了个跟 Sora 对标的视频生成模型，音画同步一镜出片，直播带货团队可以立刻试试。

14:35

-Zho-@ZHO_ZHO_ZHO

这才是 AI 的正确用法哈哈哈哈哈哈哈哈哈

其他多模态

13:10

宝玉@dotey

分享"Neon Sketch"混合媒介AI绘画提示词模板

一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格：背景采用带有柔光虚化效果的真实感摄影（如植物园小径），前景主体则由发光的白色霓虹线条勾勒（如手持粉色气球的兔子），并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触，从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例，并鼓励用户尝试创作和分享成果。

Amira Zairi: Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...

图像生成多模态教程/实践

12:38

ginobefun@hongming731

理想个人AI助手七大标准，尚无产品能全满足

一款出色的个人AI助手应具备七大核心能力：跨平台无缝执行邮件、日历及各类API/MCP服务；能主动可靠地处理定时任务与自动跟进；拥有优秀的长期记忆以更懂用户；提供无需复杂指令的开箱即用多端体验；支持在文字、语音、视频和实时通话间自由切换；可通过任何第三方通讯软件触达；并具备有趣的个性。然而，目前包括OpenClaw、Claude Code和Codex在内的产品，均未能完全满足所有这些标准。

Peter Yang: A great personal agent should: 1. Get work done across email, calendar, Google Workspace, or any API/MCP it's hooked up ...

智能体 MCP/工具多模态大佬观点

11:35

阿绎 AYi@AYi_AInotes

Adobe与Claude合作被指战略投降，创意工具霸主或降级为AI插件

作者认为Adobe与Claude的合作并非强强联合，而是其在AI时代的公开战略投降，承认自身AI能力不足，转而将三十年积累的创意工具库打包成Claude的后端工具箱。官方演示聚焦于低复杂度任务，未能激发创意专业人士兴趣，行业反馈普遍失望。核心担忧在于Adobe可能将功能再次塞入体验不佳的Firefly框架，导致用户未来或仅需通过Claude对话即可完成设计，无需打开专业软件。这标志着Adobe正从创意工具霸主降级为AI工作流中的一个普通调度插件。

Adobe: Adobe for creativity + Claude 🤝 Now, Claude users can power their content with more than 50 Creative Cloud tools. Simpl...

Anthropic 多模态大佬观点

09:38

ginobefun@hongming731

NVIDIA发布多模态模型Nemotron 3 Nano Omni

NVIDIA发布了多模态模型Nemotron 3 Nano Omni，专为处理长上下文设计，能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中，Nemotron 3 Nano Omni均展现出领先的准确性和效率。

多模态模型发布端侧

08:38

Berryxia.AI@berryxia

OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型，实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流，无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash，并专为边缘AI设计，支持完全离线运行，提供Windows/macOS一键安装（仅需12G显存），保障100%数据隐私，同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub 多模态开源生态模型发布

07:38

Berryxia.AI@berryxia

Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台，完成了全球首例由该设备辅助的白内障手术，并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能，标志着空间计算技术正式进入手术室。主推文同时指出，国内沈阳和北大医院此前已有使用AVP进行手术的案例，因此此次并非严格意义上的“全球首例”。

MacRumors.com: Apple Vision Pro Used in World-First Cataract Surgery https://www.macrumors.com/2026/04/28/apple-vision-pro-cataract-sur...

多模态现象/趋势端侧

07:38

Berryxia.AI@berryxia

NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布！🚀 Nemotron 3 Nano Omni 多模态开源模型来了！ 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型（语言+视觉+语音+视频+音频一体化） 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源（权重 + 数据 + 配方），领跑多项榜单可通过 NVIDIA NIM API 免费试用！完美驱动多代理工作流。

NVIDIA AI: Meet Nemotron 3 Nano Omni 👋 Our latest addition to the Nemotron family is the highest efficiency, open multimodal model...

智能体多模态开源生态模型发布

07:38

Berryxia.AI@berryxia

SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破，新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法，从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割，简化了后续纹理贴图流程。此外，SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格，提供了更高的灵活性和应用潜力。

多模态论文/研究

07:38

ginobefun@hongming731

老代码、AI工具与组织治理的融合趋势

当前，遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目；Thoughtworks推动提示词成为可版本化、可审查的一等交付物；NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力，工程挑战的核心正从“生成”转向“治理”，关键在于让AI持续理解项目上下文、使其输出可复用，并推动多模态技术落地生产环境。

Anthropic MCP/工具多模态现象/趋势

07:11

小互@xiaohu

Adobe 把8款创意工具的打包接进 Claude

Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具，执行调色、抠图、扩图等图像处理，套用模板设计、剪辑视频、获取 Stock 授权素材，以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

Anthropic MCP/工具产品更新多模态

07:07

Rohan Paul@rohanpaul_ai

圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。无需再转头查看单独的显示器。

多模态端侧行业动态