AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月28日周四
02:12OpenCode66OpenCode与MiMo V2.5限时免费开放
01:42Luma51Luma Labs AI 创作工具发布
00:20HuggingFace Daily Papers(社区热门论文)70精选QUACK:多模态社交推理智能体通信知识的质询、理解与审计
5月27日周三
23:51Google Gemini75Gemini Omni支持多模态输入生成十秒视频
23:10Kling AI58Kling AI戛纳电影节探讨AI影视制作应用
22:40🚨 AI News | TestingCatalog61Claude语音模式将支持18种新语言
22:37TechCrunch:AI(RSS)46ElevenLabs 的新音乐生成模型能中途切换音乐风格
22:14IT之家(RSS)54【IT之家实拍】雷鸟 GT Max 智能眼镜图赏:突破光学痛点,把 267 吋巨幕戴在头上
22:09Runway:News(网页)73精选Runway 推出 Model Context Protocol 服务器
21:27Berryxia.AI61腾讯HY实验室发布Chronicles-OCR基准测试
21:14IT之家(RSS)52雷鸟V4 AI拍摄眼镜发布:首发方形传感器,售价2199元起
21:14IT之家(RSS)40【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常:雷鸟 GT Max / V4 智能眼镜评测
18:20HuggingFace Daily Papers(社区热门论文)72精选Gemini Embedding 2:来自Gemini的原生多模态嵌入模型
16:14IT之家(RSS)62联想推出"AI 童伴机"智能硬件:可翻折 5MP 摄像头、2 英寸面板 + 实体 SOS 按键,599 元
16:14IT之家(RSS)50索尼 PlayStation 新专利曝光:AI 赋能 NPC 实现拟人化交互
15:31向阳乔木13Suno生成风格痞气歌曲引热议
14:14IT之家(RSS)63微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三:更强文字生成
11:19HuggingFace Daily Papers(社区热门论文)70精选MRT:用于大规模分层图像生成与编辑的掩码区域Transformer
10:31Saining Xie69Cambrian-P:用相机位姿增强视频多模态模型
10:19HuggingFace Daily Papers(社区热门论文)68空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?
10:19HuggingFace Daily Papers(社区热门论文)64LocateAnything:基于并行框解码的快速高精度视觉语言定位
08:27Berryxia.AI25最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。
08:00HuggingFace Daily Papers(社区热门论文)48哪种预训练范式更能服务于空间智能?对视觉语言模型和视频生成模型的实证比较
08:00HuggingFace Daily Papers(社区热门论文)43BiDPO:基于区域感知双模态直接偏好优化的组合式文本到图像生成
08:00HuggingFace Daily Papers(社区热门论文)55DEMON:实时可演奏的扩散音乐引擎
08:00HuggingFace Daily Papers(社区热门论文)54SmartDirector:基于关键帧条件与叙事节奏控制的电影级视频生成
06:37MarkTechPost(RSS)61Stability AI 发布 Stable Audio 3:用于音频生成与编辑的快速潜在扩散模型家族
03:20swyx31美国正加速追赶中国AI发展
01:29小互21Strudel与Gemini生成电子音乐演示
5月26日周二
23:29SenseTime77同事件精选开源多模态模型SenseNova-U1完整训练代码库同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:58SenseTime70SenseNova-U1全训练代码开源,支持多模态多任务训练
22:58Elon Musk63Grok Build 支持直接粘贴截图进行开发
22:34Runway:News(网页)68精选Project Luxo:跨越AI媒体的恐怖谷
22:30Baidu Inc.30古楔形文字遇上ERNIE AI开发者挑战赛
15:36MarkTechPost(RSS)62设计完整的多模态 RLVR 流程,涵盖 Open-MM-RL、视觉-语言提示、奖励评分与 GRPO 导出
15:00Rohan Paul59灵巧机械手的强度与速度平衡挑战
14:28向阳乔木70网易有道子曰4全模态模型开源,27B参数,TTS支持3秒声音克隆
14:21公众号:火山引擎50网龙×火山引擎:豆包大模型让优质AI课程实现"量产"
14:18HuggingFace Daily Papers(社区热门论文)65InstructSAM:基于任意指令的多实例分割框架
12:18HuggingFace Daily Papers(社区热门论文)61Helix4D:复杂动态网格生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
02:12
OpenCode@opencode
66
OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像
产品更新多模态推理编码
01:42
Luma@LumaLabsAI
51
前线的狐狸。掌舵的海象。治愈病患的水獭。每个人都有自己的使命,有时你只需开始寻找。 开始创作 → http://lumalabs.ai/app
产品更新多模态视频
00:20
HuggingFace Daily Papers(社区热门论文)
精选70
QUACK:多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体GitHub多模态安全/对齐

推荐理由:多模态社交 agent 的幻觉问题被严重低估了,QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上,做 agent 安全的必须跟进。
5月27日
23:51
Google Gemini@GeminiApp
75
添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇
Google产品更新多模态视频
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:10
Kling AI@Kling_ai
58
Kling AI戛纳电影节探讨AI影视制作应用

快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。

多模态现象/趋势视频
22:40
🚨 AI News | TestingCatalog@testingcatalog
61
ANTHROPIC 🔥: Claude移动应用的语音模式即将升级,新增支持18种语言! > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动,但仍是TTS 很快?👀
Anthropic产品更新多模态语音
22:37
TechCrunch:AI(RSS)
46
ElevenLabs 的新音乐生成模型能中途切换音乐风格

ElevenLabs 发布的新模型支持用户对歌曲的任意片段进行重新生成,且修改过程不会影响该曲目的其他部分。

产品更新多模态
22:14
IT之家(RSS)
54
【IT之家实拍】雷鸟 GT Max 智能眼镜图赏:突破光学痛点,把 267 吋巨幕戴在头上

雷鸟推出两款AR眼镜:主打观影的GT Max采用孔雀光引擎3.0 Max与PWG光学结构,搭载视涯5.5代Micro-OLED双层面板,提供267英寸巨幕体验与1200nits峰值亮度,售价2599元(国补后2209元)。另一款AI拍摄眼镜V4仅重38g,具备IP67防水,首发OG09B方形传感器,支持2.5K画质与11.5小时续航,售价2199元(国补后1869元)。

产品更新多模态端侧
22:09
Runway:News(网页)
精选73
Runway 推出 Model Context Protocol 服务器

Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。

MCP/工具产品更新多模态
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP,以后做产品图、营销视频不用切窗口,这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。
21:27
Berryxia.AI@berryxia
61
腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准
21:14
IT之家(RSS)
52
雷鸟V4 AI拍摄眼镜发布:首发方形传感器,售价2199元起

雷鸟创新发布雷鸟V4 AI拍摄眼镜,标准版售价2199元,国补后1869元起,5月30日交付。该机型聚焦AI响应速度优化,采用高通骁龙AR1与恒玄BES2800BP双芯架构,引入通义千问模型,AI最快响应0.2秒,较上一代提升超138%。电池容量提升57%,连续视频录制可达约47分钟。影像方面,首次搭载1/2.9英寸、1:1方形传感器OG09B,单像素尺寸2.09微米。防护等级提升至IP67,整机重量约38克。

产品更新多模态端侧
21:14
IT之家(RSS)
40
【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常:雷鸟 GT Max / V4 智能眼镜评测
多模态端侧评测/基准
18:20
HuggingFace Daily Papers(社区热门论文)
精选72
Gemini Embedding 2:来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google检索增强多模态论文/研究

推荐理由:Google 把多模态嵌入统一到一个模型里了,文本、代码、跨模态检索全面刷榜,做 RAG 和搜索的该认真看看了。
16:14
IT之家(RSS)
62
联想推出"AI 童伴机"智能硬件:可翻折 5MP 摄像头、2 英寸面板 + 实体 SOS 按键,599 元
产品更新多模态端侧
16:14
IT之家(RSS)
50
索尼 PlayStation 新专利曝光:AI 赋能 NPC 实现拟人化交互

索尼 PlayStation 提交了一项新专利,旨在通过人工智能赋予游戏中的非玩家角色(NPC)拟人化的交互能力。该专利描述了通过麦克风和摄像头捕捉玩家情绪与神态,进而让 NPC 模仿玩家行为与情绪反应的技术方案。此外,专利还提出可利用游戏主播等数据训练 NPC,以复刻特定人物性格。此举是索尼打造高度拟人化 NPC、提升玩家沉浸感的一次尝试,目前英伟达等公司也在进行类似技术研发。

多模态行业动态
15:31
向阳乔木@vista8
13
Suno生成了一首很痞的歌曲,很像gala 哈哈哈
其他多模态
14:14
IT之家(RSS)
63
微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三:更强文字生成
Microsoft图像生成多模态模型发布
11:19
HuggingFace Daily Papers(社区热门论文)
精选70
MRT:用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由:首次把分层图像生成统一到 20B 遮罩扩散框架,溢出画布层的设计挺巧,让图层可以超出边界编辑,蒸馏后能实时跑,做设计工具的团队该仔细读读。
10:31
Saining Xie@sainingxie
69
推文介绍了Cambrian-P,这是一个原生集成相机位姿的多模态大语言模型。其核心观点是,相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿,模型能将图像序列转化为全局结构化的表示。引用推文指出,当前多模态大语言模型在识别视频活动方面表现优异,但对视频中的空间结构及自主体/物体动态的理解仍然不足,而相机位姿信息是弥补这一差距的关键缺失环节。

Jihan Yang: Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...

多模态论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
68
空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?

空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv具身智能多模态数据/训练
10:19
HuggingFace Daily Papers(社区热门论文)
64
LocateAnything:基于并行框解码的快速高精度视觉语言定位

LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。

多模态数据/训练论文/研究
08:27
Berryxia.AI@berryxia
25
最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。
多模态教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
48
哪种预训练范式更能服务于空间智能?对视觉语言模型和视频生成模型的实证比较

本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法,在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性:视觉语言模型在语义与实例任务上更强,而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现,简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示,为构建更强的空间智能骨干模型指明了有前景的方向。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
BiDPO:基于区域感知双模态直接偏好优化的组合式文本到图像生成

BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
DEMON:实时可演奏的扩散音乐引擎

DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
SmartDirector:基于关键帧条件与叙事节奏控制的电影级视频生成

现有视频生成方法多依赖文本或首尾帧等稀疏条件,难以精确控制叙事结构与节奏。为此,本文提出SmartDirector框架,通过引入多个关键帧来增强视频生成的叙事能力,支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段:Director-Gen根据关键帧生成低分辨率视频;Director-SR利用高分辨率关键帧作为语义锚点进行超分优化,以恢复细节。为支持训练,构建了从电影中策划单、多镜头序列的数据管道。实验表明,该方法显著优于现有先进方案。

arXiv多模态视频论文/研究
06:37
MarkTechPost(RSS)
61
Stability AI 发布 Stable Audio 3:用于音频生成与编辑的快速潜在扩散模型家族

Stability AI 发布了 Stable Audio 3,这是一个用于器乐和音效生成的潜在扩散模型家族。此次发布包含 Small 和 Medium 两个开放权重变体。Small 变体可在 MacBook Pro M4 CPU 上运行,Medium 变体适配 8GB 显存的消费级显卡。两者均采用流匹配、蒸馏预热和对抗后训练的三阶段流水线,以生成 44.1 kHz 的立体声音频。在 BBC Sound Effects 基准测试(5秒片段)中,SA3 Medium 的 FAD 得分为 0.369,优于论文中评估的所有开放权重基线。

多模态模型发布语音
03:20
swyx@swyx
31
每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

Latent.Space: [AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...

Google多模态大佬观点开源生态
01:29
小互@xiaohu
21
Strudel+Gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号
Google其他多模态
5月26日
23:29
SenseTime@SenseTime_AI
同事件精选77
开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
22:58
Elon Musk@elonmusk
63
xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

X Freeze: Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...

xAI多模态教程/实践
22:34
Runway:News(网页)
精选68
Project Luxo:跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。

多模态现象/趋势视频
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷,观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑,但一次推广式的成功不等于行业已稳定跨过。
22:30
Baidu Inc.@Baidu_Inc
30
@BoatbomberRBLX 将世界上最古老的文字系统之一--古代楔形文字泥板--带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇
多模态教程/实践
15:36
MarkTechPost(RSS)
62
设计完整的多模态 RLVR 流程,涵盖 Open-MM-RL、视觉-语言提示、奖励评分与 GRPO 导出

该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。

MCP/工具多模态教程/实践
15:00
Rohan Paul@rohanpaul_ai
59
灵巧机械手的一个工程挑战在于平衡强度与速度。 这里 SharpaWave 正以超过每秒 4 次的频率进行快速手部循环。动态触觉阵列采用视觉-触觉传感:指尖集成了摄像头和 1000 多个触觉像素。
具身智能多模态论文/研究
14:28
向阳乔木@vista8
70
网易有道子曰4全模态模型开源,27B参数,TTS支持3秒声音克隆

网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

多模态开源生态模型发布语音
14:21
公众号:火山引擎
50
网龙×火山引擎:豆包大模型让优质AI课程实现"量产"

网龙与火山引擎达成合作,将底层架构全面上云并率先接入Seedance 2.0 API,依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系,已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一,视频生成模型保障声画同步与角色声线一致,并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程,培训超1万名骨干教师,借助火山引擎全球化部署覆盖190多个国家和地区。

多模态行业动态视频
14:18
HuggingFace Daily Papers(社区热门论文)
65
InstructSAM:基于任意指令的多实例分割框架

本文提出InstructSAM,一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务,通过在视觉语言模型中注入可学习实例查询,并设计混合注意力机制与SAM3交互,实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明,仅2B规模的InstructSAM在相关基准上取得了优异性能,优于此前的端到端方法和SAM3的智能体流程。

多模态论文/研究
12:18
HuggingFace Daily Papers(社区热门论文)
61
Helix4D:复杂动态网格生成

Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究
‹ 上一页
1…2324252627…50
下一页 ›