全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月6日周三

22:16IT之家（RSS）71精选豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

20:38TestingCatalog News 🗞53谷歌测试屏幕录制与自定义智能体功能

20:36向阳乔木63豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

19:54公众号：火山引擎49豆包基础模型 Doubao-Seed-2.0-lite 升级，支持全模态理解

18:58Alibaba Cloud67平价实现专业影音同步

17:28Alibaba Cloud22报名延期！用AI重现历史，赢取精彩奖品

15:16IT之家（RSS）51前沃尔玛电商业务 CEO 马克 · 劳尔：将来任何人都能用 AI"开餐厅"

10:20HuggingFace Daily Papers（社区热门论文）64交互式世界模型基准测试与统一动作生成框架

08:17Berryxia.AI67今天这个tts有点东西啊！

08:01Hacker News 热门（buzzing.cc 中文翻译）68GLM-5V-Turbo：迈向多模态智能体的原生基础模型

08:00HuggingFace Daily Papers（社区热门论文）55RemoteZero：无需人工标注的地理空间推理

07:15IT之家（RSS）70精选苹果 iOS 27 将允许用户选择第三方 AI 模型，支持谷歌与 Anthropic 等

06:28Rohan Paul76OpenAI将GPT-5.5 Instant设为ChatGPT默认模型，减少错误、缩短回答并增强个性化

04:01Luma35室内设计工作室。时尚工具。珠宝配置器。故事板生成器。所有这些都正在使用Uni-1.1 API构建。无论你在构建什么，智能层已就位。→ http://lumalabs.ai/api

02:58OpenAI Developers56OpenAI四月开发者更新概览

02:56Google AI Developers68精选Gemini API 文件搜索工具推出三项新更新，助力多模态 RAG 系统开发

02:27Rohan Paul73Luma发布Uni-1.1 API，主打意图优先图像生成

02:00Sam Altman69精选ChatGPT今日迎来5.5即时版重大升级

01:27AK61视觉记忆持久化提升LVLM深度生成感知

01:27Fei-Fei Li61Astrocade获5600万美元融资，用AI赋能游戏创作

01:26Chubby♨️83精选OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型，实现显著升级

5月5日周二

22:14阿绎 AYi59大学生用四份Markdown文件打造AI虚拟角色，月入4.3万美元

20:18Chubby♨️57Gemini 3.2版本现身主要更新或留待I/O大会

17:57SenseTime34商汤推出Publishing 3.0+，以多模态AI赋能出版业

16:16Alibaba Cloud49Happy Horse 1.0发布，解决AI视频一致性与效率痛点

12:17HuggingFace Daily Papers（社区热门论文）68感知流网络：面向视觉推理的感知与推理解耦方法

12:17HuggingFace Daily Papers（社区热门论文）75精选MolmoAct2：面向真实世界部署的动作推理模型

09:57向阳乔木55孩子明天开学要做单元测试。把课文用任意AI工具拍照，出一套复习题，粘贴到备忘录打印即可。

08:00HuggingFace Daily Papers（社区热门论文）59Audio-Visual Intelligence in Large Foundation Models

08:00HuggingFace Daily Papers（社区热门论文）56参数高效的多视角技能熟练度估计：从判别式分类到生成式反馈

08:00HuggingFace Daily Papers（社区热门论文）56APEX：面向AI生成音乐的大规模多任务美学感知流行度预测框架

08:00HuggingFace Daily Papers（社区热门论文）73精选RLDX-1技术报告

08:00HuggingFace Daily Papers（社区热门论文）59Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

08:00HuggingFace Daily Papers（社区热门论文）66唤醒统一多模态理解与生成中的空间智能

05:49AK68UniVidX：基于扩散先验的统一多模态视频生成框架

04:25Luma66Luma Agents助你打造制胜提案板

03:25Replit ⠕70精选Replit无需幻灯片快速生成演示文稿

03:14阿绎 AYi5621岁大学生用AI虚拟伴侣月入数万美元，揭示"孤独经济"与伦理灰色地带

02:58Google Gemini67精选创意速成：Nano Banana 2助力产品原型实现

01:58Runway69精选实时视频对话代理诞生

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月6日

22:16

IT之家（RSS）

精选71

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

智能体多模态推理模型发布

推荐理由：豆包Seed 2.0 lite把视频、音频、图片、文字原生塞进一个模型，还顺手强化了Agent和GUI操作，对需要全模态处理的企业来说，这可能是目前性价比最高的选择。

20:38

TestingCatalog News 🗞@testingcatalog

53

Google 正在为 Antigravity 开发屏幕录制支持和自定义智能体。如果屏幕录制功能由 Gemini Live 驱动，该特性可能会模仿 AI Studio 的功能，使 Gemini 能够实时查看您屏幕上的动态。我们是否也能获得实时语音助手呢？👀

智能体 Google 产品更新多模态

20:36

向阳乔木@vista8

63

豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

多模态模型发布

19:54

公众号：火山引擎

49

豆包基础模型 Doubao-Seed-2.0-lite 升级，支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级，新增全模态理解能力。升级后的模型支持全模态理解，可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布

18:58

Alibaba Cloud@alibaba_cloud

67

高端电影级动态无需高昂价格。 HappyHorse以极低成本实现原生音视频同步。现已在阿里云Model Studio平台构建。🐴✨ https://int.alibabacloud.com/m/1000412167/

产品更新多模态

17:28

Alibaba Cloud@alibaba_cloud

22

报名延期！用AI重现历史，赢取精彩奖品

阿里云新加坡推出“被发掘的故事：WAN AI视频挑战赛”，邀请参与者使用其WAN模型创作AI视频，重新构想新加坡文化遗产。活动注册期已延长，参与者需选择主题、讲述故事并制作视频，优胜者有机会赢取奖品。为激发创意，可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合，涉及技术包括人工智能、大语言模型和通义千问等。立即报名，用科技重现历史。

多模态行业动态视频

15:16

IT之家（RSS）

51

前沃尔玛电商业务 CEO 马克 · 劳尔：将来任何人都能用 AI"开餐厅"

前沃尔玛电商业务CEO马克·劳尔在其餐饮平台Wonder中推出AI工具“Wonder Create”，用户可在不到一分钟内生成完整的虚拟餐厅品牌，包括名称、描述、图片及菜谱。Wonder平台采用“可编程烹饪平台”模式，配备机器人厨房与700种食材库，能灵活切换25种菜系。该创新旨在大幅降低餐饮创业门槛，让用户快速测试新菜品与品牌概念。

产品更新图像生成多模态

10:20

HuggingFace Daily Papers（社区热门论文）

64

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv 具身智能多模态论文/研究

08:17

Berryxia.AI@berryxia

67

今天这个tts有点东西啊！

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

多模态模型发布语音

08:01

Hacker News 热门（buzzing.cc 中文翻译）

68

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv 多模态推理数据/训练

07:15

IT之家（RSS）

精选70

苹果 iOS 27 将允许用户选择第三方 AI 模型，支持谷歌与 Anthropic 等

据报道，苹果计划在秋季发布的iOS 27等系统中，推出名为“Extensions”的新功能，允许用户自行选择已通过App Store集成的第三方AI模型（如谷歌、Anthropic的模型），来驱动设备上的文本生成、图像编辑等AI功能。此举将打破此前ChatGPT作为唯一第三方选项的独占地位。同时，Siri将支持更换不同音色以区分内外模型，并迎来独立App及更深度的系统整合。苹果将在App Store设立专区展示兼容应用，并对第三方模型生成的内容免责。

Anthropic Google 产品更新多模态

推荐理由：苹果放开 AI 模型底层的选择权，让谷歌和 Anthropic 进入原先 OpenAI 独占的地盘，这比发一个新模型更有生态意义——手机 OS 正在变成 AI 的分发渠道。

06:28

Rohan Paul@rohanpaul_ai

76

OpenAI将GPT-5.5 Instant设为ChatGPT默认模型，减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 多模态推理模型发布

04:01

Luma@LumaLabsAI

35

室内设计工作室。时尚工具。珠宝配置器。故事板生成器。所有这些都正在使用Uni-1.1 API构建。无论你在构建什么，智能层已就位。→ http://lumalabs.ai/api

产品更新多模态视频

02:58

OpenAI Developers@OpenAIDevs

56

OpenAI四月开发者更新概览

OpenAI在四月份为开发者推出多项重要更新。核心是GPT-5.5的发布和广泛应用，社区已积极采用。Codex获得增强，支持更多插件集成、Chronicle上下文记忆功能以及团队协作。Agents SDK增加了对长时间运行智能体的控制，并新增TypeScript支持。API方面，Responses API引入WebSockets支持，Symphony功能可将问题队列转化为智能体工作流。图像创建与编辑功能已集成至Codex和API，同时支持构建交互式语音应用，推动开发者工具生态发展。

智能体 OpenAI 产品更新多模态

02:56

Google AI Developers@googleaidevs

精选68

Gemini API 文件搜索工具推出三项新更新，助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新，旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括：多模态支持，通过Gemini Embedding 2模型实现对图像和文本的同步推理；自定义元数据过滤，允许为文件添加键值标签以结构化非结构化数据，从而提升搜索速度；精确引用功能，能够捕获并返回每条索引信息的精确来源，如页码。开发者可通过Google AI Studio的示例应用体验这些功能，与图像和文档库交互，提问并追溯答案来源。

Google MCP/工具检索增强产品更新

推荐理由：如果你在用 Gemini 搭 RAG 系统，这三项更新能直接改善搜索精度和可解释性，多模态搜索终于把图片和文档打通了，值得马上试试。

02:27

Rohan Paul@rohanpaul_ai

73

Luma发布Uni-1.1 API，主打意图优先图像生成

Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型，其核心特点是“意图优先”的图像生成。模型在生成前会进行思考，能补全场景缺失部分，理解空间上下文而非仅像素，并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能，专为生产环境打造。据称，其成本和延迟仅为同类模型的一半以下，且在图像生成与编辑的综合评测中位列前三。

Luma: The Uni-1.1 API is live today. Built-in prompt enhancement, research, and reference gathering at the API level. Trained ...

产品更新图像生成多模态

02:00

Sam Altman@sama

精选69

5.5 instant 今日登陆 ChatGPT！在我看来这是一个相当大的升级，我真的很喜欢使用它。【引用 @ericmitchellai】：Excited that we're updating the default model in ChatGPT today！ 5.5 instant 在智能、图像感知和事实准确性方面都有显著提升。它还更新了写作风格，使其更平实、更直接。你的愿望清单上有什么？

Eric: Excited that we're updating the default model in ChatGPT today! 5.5 instant is a substantial improvement in intelligence...

OpenAI 多模态模型发布

关联讨论 1 条X：Satya Nadella (@satyanadella)

推荐理由：ChatGPT 默认模型悄悄换上了 5.5 instant，图像感知和事实性提升明显，写作风格也更直接，每天用它的人今天会感觉到差异，不是小修小补。

01:27

AK@_akhaliq

61

持久视觉记忆为LVLMs中的深度生成维持感知论文： https://huggingface.co/papers/2605.00814

Hugging Face 多模态论文/研究

01:27

Fei-Fei Li@drfeifei

61

游戏创作平台Astrocade宣布完成5600万美元融资，B轮由红杉资本领投，A轮由Sea领投。该平台旨在利用AI技术降低游戏创作门槛，让用户能够轻松创建游戏、与朋友游玩并向数百万人分享作品。其核心理念并非取代创造力，而是为更多人提供工具，使其能将个人品味、幽默感、故事和技艺融入游戏创作中，推动互动娱乐进入新纪元。

Astrocade: We raised $56M to help build the next era of interactive entertainment. Series B led by @sequoia, Series A led by Sea. A...

多模态行业动态

01:26

Chubby♨️@kimmonismus

精选83

OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型，实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 多模态推理模型发布

推荐理由：ChatGPT默认模型直接换到GPT-5.5 Instant，个性化能力是代际跃迁，明天打开就能感受到不同。

5月5日

22:14

阿绎 AYi@AYi_AInotes

59

大学生用四份Markdown文件打造AI虚拟角色，月入4.3万美元

一名大学生仅用四份Markdown文件（记录角色设定与回复规则）和低成本AI技术栈（Claude、Flux、ElevenLabs），在OnlyFans上运营完全虚拟的角色“Maya”，30天获利4.3万美元。用户为情感陪伴付费，甚至有已婚者深陷其中。该案例月成本仅400美元，揭示了“孤独经济”被AI放大至极端：AI能完美模拟人类情感互动，且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构，行业边界尚未明确。

阿绎 AYi: Damn,这条14秒的视频,撕碎了所有男人的幻想,撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩, 金发,大长腿,对着你比心,wink,说甜言蜜语, 记得你两周前说过的每一句话,永远秒回。右边是一个戴...

多模态安全/对齐现象/趋势

20:18

Chubby♨️@kimmonismus

57

Gemini 中发现了 Gemini 3.2！如果我们现在就能收到 Gemini 3.2 Flash，那么主要版本可能会留到 I/O 大会发布。感谢 @Waguri_Kaoruko8 的发现。

Google 多模态行业动态

17:57

SenseTime@SenseTime_AI

34

商汤推出Publishing 3.0+，以多模态AI赋能出版业

商汤通过Publishing 3.0+计划，将其多模态模型应用于香港及内地出版业，协助将内容转化为多语种电子书和有声书，以开拓国际市场并挖掘IP商业化新机遇。商汤香港及澳门总经理冯建华指出，过去一年已利用AI技术优化出版流程并提升翻译质量。他强调，该计划有助于香港连接文化、科技与全球市场，巩固其作为IP贸易和文化交流国际枢纽的地位。商汤总部及研发中心位于香港，致力于利用其国际化优势赋能产业发展。

多模态行业动态

16:16

Alibaba Cloud@alibaba_cloud

49

Happy Horse 1.0发布，解决AI视频一致性与效率痛点

针对当前AI生成视频普遍存在的画面闪烁、角色不一致、细节丢失及渲染耗时等问题，Happy Horse 1.0定位为“制作优先”的引擎，旨在为创作者提供解决方案。其核心特性包括确保角色与资产从始至终保持稳定的“像素级一致性”，以及兼顾质量、速度与成本的“企业级效率”。官方将于2026年5月15日在香港举办大师班，演示如何将AI视频工作流从“实验性”提升至“专业级”。

产品更新多模态行业动态

12:17

HuggingFace Daily Papers（社区热门论文）

68

感知流网络：面向视觉推理的感知与推理解耦方法

大型视觉语言模型因优化目标无法约束视觉轨迹，易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督，但偏向几何精度且推理效用有限。为此，本研究提出感知流网络，通过解耦感知与推理建立自条件生成过程，并借助变分强化学习整合多维奖励与邻近几何塑造，从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证，在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数，创造了新的性能记录。

arXiv 多模态推理论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

精选75

MolmoAct2：面向真实世界部署的动作推理模型

MolmoAct2 是一个为实际部署设计的全开放动作推理模型，在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER，基于 330 万样本语料库训练。团队发布了三个新数据集，包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM（720 小时遥操作轨迹），并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构，嫁接连续动作专家，还引入自适应深度推理变体 MolmoThink，以极低延迟保持几何基础。在广泛实证研究中，MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线，MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。

智能体具身智能多模态开源/仓库

推荐理由：开源具身动作推理模型首次全面超越 GPT-5 和 Gemini Robotics，还附赠最大的双手操作数据集和全套训练代码，做机器人的同学本周必读。

09:57

向阳乔木@vista8

55

孩子明天开学要做单元测试。把课文用任意AI工具拍照，出一套复习题，粘贴到备忘录打印即可。

多模态教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

59

Audio-Visual Intelligence in Large Foundation Models

音频-视觉智能已成为人工智能的核心前沿领域，旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代，音频与视觉的联合建模愈发关键，不仅用于理解，更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而，该领域研究仍较为分散，任务多样、分类不一致、评估方法各异，阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能，建立了统一的任务分类体系，涵盖理解、生成与交互三大方向，并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时，研究梳理了代表性数据集、基准与评估指标，指出同步性、空间推理、可控性与安全性等开放挑战。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

参数高效的多视角技能熟练度估计：从判别式分类到生成式反馈

评估人的动作完成质量（熟练度）对教学、康复等领域至关重要，但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法：SkillFormer采用参数高效的判别式架构实现选择性多视角融合；PATS通过保留基础动作的局部密集片段来改进时序采样；ProfVLM则将任务重构为条件语言生成，通过门控跨视角投影器和紧凑语言模型，同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期，即达到最优准确率，推动了该任务从封闭集分类向可解释反馈生成的范式转变。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

APEX：面向AI生成音乐的大规模多任务美学感知流行度预测框架

APEX是首个面向AI生成音乐的大规模多任务学习框架，旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲（约1万小时音频）训练，利用自监督音乐理解模型MERT提取音频嵌入，同时预测基于参与度的流行度指标（播放量与点赞数）以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现，加入美学特征能持续提升人类偏好预测准确性，表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

RLDX-1技术报告

为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖，研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构，整合运动感知、记忆决策与物理传感等异构模态，并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中，RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6，尤其在ALLEX人形机器人任务上取得86.8%的成功率，显著高于对照模型的约40%，标志着其在接触密集型动态灵巧操作领域取得关键进展。

智能体具身智能多模态论文/研究

推荐理由：在 ALLEX 人形任务上把成功率从 40% 拉到 86.8%，RLDX-1 证明了多模态流架构对灵巧操作的价值，做机器人的同学可以重点关注一下。

08:00

HuggingFace Daily Papers（社区热门论文）

59

Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出，限制了质量提升。Stream-R1框架提出统一的奖励引导机制，从两个层面自适应重加权蒸馏目标：在序列间，依据预训练奖励分数对损失进行重缩放，让高可靠性序列主导优化；在序列内，利用同一奖励模型的反向传播生成像素级时空权重，将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中，于视觉质量、运动质量和文本对齐方面均持续优于基线，且无需改变架构或增加推理开销。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

唤醒统一多模态理解与生成中的空间智能

JoyAI-Image是一个统一的多模态基础模型，集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构，实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号，增强了模型的几何感知推理与可控视觉合成能力。实验表明，该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环，推动模型向更强的空间智能演进，为下游应用提供了新路径。

图像生成多模态推理论文/研究

05:49

AK@_akhaliq

68

UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper： https://huggingface.co/papers/2605.00658

Hugging Face 多模态视频论文/研究

04:25

Luma@LumaLabsAI

66

创意很强大。现在请确保提案同样出色。设定简报。定义美学。Luma Agents 构建制胜的客户提案板，让您专注于创意。赢得提案 → http://lumalabs.ai/app

产品更新多模态

03:25

Replit ⠕@Replit

精选70

你可以在 Replit 中构建完整的商业计划书演示文稿，无需触碰任何幻灯片。只需描述你想要的内容，在聊天中迭代修改，可视化编辑，然后导出为 PPTX、Google Slides 或 PDF（或发布实时链接）。以下是具体操作方式👇

产品更新多模态编码

推荐理由：Replit把做pitch deck变成聊天式操作，输描述、实时改、一键导出，比传统PPT工具快不少，但真正的故事还是得你自己想清楚。

03:14

阿绎 AYi@AYi_AInotes

56

21岁大学生用AI虚拟伴侣月入数万美元，揭示"孤独经济"与伦理灰色地带

一名21岁大学生仅用四个Markdown文件和低成本AI技术栈（Claude、Flux、ElevenLabs），在宿舍创建了名为Maya的AI虚拟伴侣，一个月内获得1247名付费订阅，净赚约32700美元。其核心是利用AI提供极致的情感陪伴，满足用户幻想，成本低廉且模式已被复制并实现更高收入。这凸显了AI如何将依赖人格与情感的“孤独经济”转化为代码游戏，同时暴露出平台审核滞后、法律道德边界模糊等问题，例如用真人身份绕过OnlyFans验证。最引人深思的是用户对仅12KB数据产生的真实情感依赖。

Raytar: http://x.com/i/article/2050140624171507712

Anthropic 图像生成多模态现象/趋势

02:58

Google Gemini@GeminiApp

精选67

从构想到原型，借助Gemini中的Nano Banana 2，将您独特的产品愿景变为现实。🪀

Google 产品更新多模态

推荐理由：Google Gemini塞进一个Nano Banana 2创意工具，把想法转原型只需几句话，产品经理脑暴草案利器，算不上重磅但够实用。

01:58

Runway@runwayml

精选69

实时视频智能体已到来。今天，我们将分享如何构建Runway Characters，让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体，以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。了解更多信息请见下文。

产品更新多模态视频

推荐理由：Runway 把 AI 视频从生成拉入实时对话时代，1.75 秒的延迟让视频代理第一次有了「对话感」，做交互设计的同学可以认真看一眼。

1…39 404142 43…50