AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月4日周四
02:48MarkTechPost(RSS)68Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行
02:16AYi65Google 发布 Gemma 4 12B:无独立视觉编码器的统一多模态架构
01:56OpenCode59Qwen3.7 Plus 登陆 Go,图文1M上下文
01:38Hacker News 热门(buzzing.cc 中文翻译)78同事件精选Gemma 4 12B:一种统一的、无需编码器的多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
01:00郭明錤|Ming-Chi Kuo65苹果砍掉Vision Pro,智能眼镜路线图延迟至2027/2029
00:25🚨 AI News | TestingCatalog65Gemma 4 12B 开源:无编码器多模态,支持文本/音频/图像/视频
00:19Google AI Developers77Google推出Gemma 4 12B无编码器多模态模型
00:17elvis66微软SkillOpt论文:AI智能体技能实现自我进化
00:07Google Developers Blog(RSS)75在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流
00:07Google Developers Blog(RSS)78同事件精选Gemma 4 12B:开发者指南同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
6月3日周三
23:31fofr51fofr 展示 Omni 魔术戏法
23:10IT之家(RSS)67京东开源 JoyAI-Echo 长音视频生成框架,支持对话式编辑与 5 分钟角色一致
22:39SenseTime73同事件精选商汤开源SenseNova U1:视觉理解推理生成一体模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
21:34Google Blog:AI(RSS)50Google Search 提升二手和复古购物体验的5种方式
18:39公众号:卡尔的AI沃茨67MiniMax M3发布,全链路Agent能力补全
17:08向阳乔木52不管怎么说,小红书上线了AI对话功能,还是很实用的。 毕竟小红书还是国内真人语料最多的平台之一。 且图文并茂,很适合做旅游、美食搜索攻略。
16:47MarkTechPost(RSS)69NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型
16:38向阳乔木65xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型
16:38向阳乔木54Laten Space 访谈 Ethan He:AI模型开发的实战洞察
16:09IT之家(RSS)32荣耀确认 Robot Phone 初代抗跌落达旗舰水平,将持续迭代优化三防
14:42HuggingFace Daily Papers(社区热门论文)64PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿
14:09IT之家(RSS)41消息称全球首款机器人手机荣耀 Robot Phone 支持 C-Log、LUTs 等进阶影音创作功能,第三季度发布
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
12:06Hacker News 热门(buzzing.cc 中文翻译)51我们如何为RAG建立图像索引
11:45Saining Xie67VSTAT:多模态大模型视频视觉状态跟踪基准测试
10:41HuggingFace Daily Papers(社区热门论文)68视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力
09:56MiniMax (official)71MiniMax M3 模型在 SiliconFlow 上线,首周五折优惠
08:36SenseTime34商汤发布SenseNova U1模型及Neo-Unify架构
08:00HuggingFace Daily Papers(社区热门论文)55Imaginative Perception Tokens 增强多模态语言模型的空间推理
08:00HuggingFace Daily Papers(社区热门论文)58BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架
08:00HuggingFace Daily Papers(社区热门论文)62个人相机胶卷视觉问答AI智能体(Camroll-Agent)
08:00HuggingFace Daily Papers(社区热门论文)55VideoKR:面向知识与推理密集型视频理解
08:00HuggingFace Daily Papers(社区热门论文)68Video2LoRA:面向视觉语言模型的参数化视频内化方法
06:55MiniMax (official)74MiniMax M3模型发布细节公开
06:25MiniMax (official)80同事件精选MiniMax-M3 多模态模型发布,开源权重新SOTA同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
06:23🚨 AI News | TestingCatalog44NotebookLM 视频概述将新增规划模式
06:00Microsoft Research72精选微软研究:Aurora天气预报速度超传统超算数千倍
03:59OpenRouter68精选OpenRouter上线微软三款新模型
03:59fofr57Gemini Omni 提示词分享
03:41HuggingFace Daily Papers(社区热门论文)64语义运动锚点:弥合协同语音手势中的运动与意义
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
02:16
AYi@AYi_AInotes
65
Google 发布 Gemma 4 12B:无独立视觉编码器的统一多模态架构

Google 推出 Gemma 4 12B(Apache 2.0),采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器,将图像切为 48×48 块、音频(16kHz 原始波形)切为 40ms 帧,直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒,官方称 16GB 内存可用,但社区指出高分辨率多图会压线。该设计暗示:当基座模型足够大,专用子模块不再是必需,未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态大佬观点端侧
01:56
OpenCode@opencode
59
Qwen3.7 Plus 现已在 Go 中可用,支持文本和图像,1M 上下文,比 3.6 更便宜。
产品更新多模态编码
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选78
Gemma 4 12B:一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:我觉得Gemma 4 12B最大的变化不是参数大小,而是第一次在开源模型里把多模态直接交给LLM主干处理,没有单独的视觉编码器,这意味着本地多模态应用的延迟和内存占用都会大幅下降,对于在笔记本上做Agent的开发者,这是一个必试的版本。
01:00
郭明錤|Ming-Chi Kuo@mingchikuo
65
苹果砍掉Vision Pro,智能眼镜路线图延迟至2027/2029

苹果分析师郭明錤更新预测:此前规划的XR头戴装置路线图已作废,目前仅两款智能眼镜设备有能见度。路线图大改由下一任CEO John Ternus拍板,Vision Pro系列被移除,资源转向智能眼镜。最新供应链调查显示,具有显示功能的AR/XR智能眼镜(光波导)推迟至2029年,无显示功能的AI眼镜(类似Ray-Ban Meta)仍预计2027年推出。郭明錤认为智能眼镜将带动下一波消费电子趋势。

郭明錤|Ming-Chi Kuo: Apple Vision系列與智慧眼鏡產品規劃預測 (2025-2028):智慧眼鏡可望帶動下一個消費電子趨勢 全文連結:https://mingchikuo.craft.me/FgF89wv0af9Bpw

多模态端侧行业动态
00:25
🚨 AI News | TestingCatalog@testingcatalog
65
Google 最新的 Gemma 4 12B 模型已上线 Hugging Face,采用 Apache 2.0 许可证。该模型与 Gemma 4 E2B/E4B 共享相同多模态能力,支持文本、音频、图像和视频输入,无需单独编码器即可实现原生音频和视觉理解。这种无编码器统一设计方案使其部署体积更小,非常适合消费级设备和本地执行环境。官方称其旨在弥合边缘效率与高级推理之间的差距。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
00:19
Google AI Developers@googleaidevs
77
Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。

Google多模态开源生态模型发布
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)
00:17
elvis@omarsar0
66
微软SkillOpt论文:AI智能体技能实现自我进化

DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后,所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时,质量评分从0.73提升至0.93(+20点),提取结果显著改善。Saravia认为这是自我改进AI的早期范例,该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。

智能体Microsoft多模态大佬观点
00:07
Google Developers Blog(RSS)
75
在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。

智能体Google产品更新多模态
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)
00:07
Google Developers Blog(RSS)
同事件精选78
Gemma 4 12B:开发者指南

Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Google 把多模态模型直接塞进消费级设备,靠的不再是缩水而是架构层面的创新。12B 放在本地跑,这次玩法变了。
6月3日
23:31
fofr@fofrAI
51
Omni 魔术戏法
OpenAI多模态教程/实践
23:10
IT之家(RSS)
67
京东开源 JoyAI-Echo 长音视频生成框架,支持对话式编辑与 5 分钟角色一致

京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程,结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation(DMD)技术,DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent,支持自然语言需求自动拆分为剧本、角色、场景和镜头,实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。

多模态开源/仓库
22:39
SenseTime@SenseTime_AI
同事件精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
21:34
Google Blog:AI(RSS)
50
Google Search 提升二手和复古购物体验的5种方式

Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。

Google多模态搜索教程/实践
18:39
公众号:卡尔的AI沃茨
67
MiniMax M3发布,全链路Agent能力补全

MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。

智能体多模态评测/基准
17:08
向阳乔木@vista8
52
不管怎么说,小红书上线了AI对话功能,还是很实用的。 毕竟小红书还是国内真人语料最多的平台之一。 且图文并茂,很适合做旅游、美食搜索攻略。
产品更新多模态搜索
16:47
MarkTechPost(RSS)
69
NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。

具身智能多模态开源生态模型发布
16:38
向阳乔木@vista8
65
xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

xAI多模态大佬观点视频
16:38
向阳乔木@vista8
54
Laten Space 访谈 Ethan He:AI模型开发的实战洞察

本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验:模型进步取决于团队迭代速度;质量提升常源于修复数据与训练流程的BUG而非新算法;视频模型需要极详尽的文本标注。他还指出,图像生成耗时主要在“思考”重写提示词,且语言模型描述音乐细节非常困难。在脑机接口普及前,最自然的人机交互将是用户说话,AI用生成式画面回应。

向阳乔木: http://x.com/i/article/2062080260586283008

多模态大佬观点
16:09
IT之家(RSS)
32
荣耀确认 Robot Phone 初代抗跌落达旗舰水平,将持续迭代优化三防

荣耀发布视频前瞻其新形态手机 Robot Phone,定位为视频影像设备,其核心特征为可翻转的电动三轴云台相机。该相机配备2亿像素传感器,支持 AI 物体追踪与视频剪辑。官方确认,初代产品的抗跌落性能已达旗舰水平,但防水仍有提升空间,将持续迭代优化三防特性。研发过程中,该机前后改了5版,历时一年才打磨出雏形,并计划在2026年第三季度上市。

产品更新多模态
14:42
HuggingFace Daily Papers(社区热门论文)
64
PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。

arXiv多模态数据/训练论文/研究
14:09
IT之家(RSS)
41
消息称全球首款机器人手机荣耀 Robot Phone 支持 C-Log、LUTs 等进阶影音创作功能,第三季度发布

消息称荣耀 Robot Phone 将于今年第三季度上市,定位为“全球首款机器人手机”,主打影音创作。其核心功能包括利用 AI 实现自动追踪主体与全自动运镜,提供大量预设模板。同时支持 C-Log、LUTs 等专业格式,并具备锁焦、锁白平衡、锁 AE 及锁运镜数据等能力。该机此前已宣布与电影摄影机厂商 ARRI 阿莱达成战略合作,其抗跌落性能已达旗舰水平,但防水能力仍有提升空间。

产品更新多模态端侧
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
12:06
Hacker News 热门(buzzing.cc 中文翻译)
51
我们如何为RAG建立图像索引

为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程
11:45
Saining Xie@sainingxie
67
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准
10:41
HuggingFace Daily Papers(社区热门论文)
68
视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究
09:56
MiniMax (official)@MiniMax_AI
71
MiniMax 官方宣布,其开源权重模型 M3 已在 SiliconFlow 平台上线,并提供为期 7 天的 50% 限时折扣。该模型号称是首个结合编程与智能体能力(在 SWE-Bench Pro 上超越 GPT-5.5 和 Gemini 3.1 Pro)、通过 MiniMax Sparse Attention 支持 100 万 token 上下文窗口、并原生支持多模态(涵盖图像、视频与计算机使用)的三大前沿能力的开源模型。SiliconFlow 当前优惠价为:缓存 $0.06、输入 $0.30、输出 $1.20 每百万 token(原价 $0.12/$0.60/$2.40)。

SiliconFlow: Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 �...

产品更新多模态编码
08:36
SenseTime@SenseTime_AI
34
商汤发布SenseNova U1模型及Neo-Unify架构

商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。

多模态大佬观点推理端侧
08:00
HuggingFace Daily Papers(社区热门论文)
55
Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)

研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Video2LoRA:面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程
06:55
MiniMax (official)@MiniMax_AI
74
MiniMax M3模型发布细节公开

MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。

Together AI: MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...

多模态推理模型发布编码
06:25
MiniMax (official)@MiniMax_AI
同事件精选80
MiniMax-M3 在 @ValsAI 排名中位列第六 新的开源权重 SOTA 🚀

Vals AI: MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...

多模态开源生态模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 闷声干大事,第一个多模态模型就拿下 open-weight SOTA 和总榜第 6,做多模态应用的可以蹲一下权重。
06:23
🚨 AI News | TestingCatalog@testingcatalog
44
GOOGLE 🔥: NotebookLM 将为视频概述新增一个"规划模式"。 这也可能意味着 Google 正在升级视频概述功能,使其依赖于近期发布的 Gemini Omni!
Google产品更新多模态
06:00
Microsoft Research@MSFTResearch
精选72
天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多:https://msft.it/6018vjGUA
Microsoft多模态论文/研究

推荐理由:微软把天气预报推到了推理速度比超算快数千倍,这在气象AI里算是代际提升,虽然离普通人远,但对气候建模和极端天气预警是实实在在的突破。
03:59
OpenRouter@OpenRouter
精选68
三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵
Microsoft产品更新图像生成多模态

推荐理由:微软三个多模态模型一口气上架 OpenRouter,图像、转录、语音全齐了,开发者直接调 API 就能用,做产品的可以试试效果。
03:59
fofr@fofrAI
57
这是🔥 【引用 @DavidMaliglowka】:Gemini Omni 🏕️ 提示词在 🧵

David Maliglowka: Gemini Omni 🏕️ prompt in 🧵

Google多模态教程/实践
03:41
HuggingFace Daily Papers(社区热门论文)
64
语义运动锚点:弥合协同语音手势中的运动与意义

研究提出“语义运动锚点”方法,用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语,并转化为结构化的自然语言描述,作为辅助监督信号锚定于语音文本。在BEAT2数据集上,该方法将文本到手势检索的R@1指标提升了8.2%,并优于现有方法。检索增强的手势生成用户研究显示,该方法检索到的手势在传达交流意图方面明显优于基线。

多模态论文/研究
‹ 上一页
1…1617181920…50
下一页 ›