AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月5日周五
23:33AI at Meta64Meta SAM 3D 获 CVPR26 最佳论文荣誉提名
23:15IT之家(RSS)47加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元
23:11Google Blog:AI(RSS)34谷歌2026年5月AI最新动态
22:15IT之家(RSS)76同事件精选Meta 智能眼镜 App 暗藏人脸识别代码,NameTag 功能已推送至超 5000 万设备同一事件,精选展示《Meta 在智能眼镜上搭载人脸识别功能》
21:47HuggingFace Daily Papers(社区热门论文)52审计基于LLM的在线讨论立场模拟:反事实语境修正框架
21:36OpenBMB66精选社区基于MiniCPM-V 4.6打造财务分析工具AccountingLLM
21:15IT之家(RSS)67发布两年:快手可灵 AI 全球用户突破 1 亿,企业客户近 5 万
20:59Chubby♨️56LTX Studio+LTX-2.3:AI视频从演示到实用
19:15IT之家(RSS)63高通宣布车端人工智能 Claw 生态计划,将智能体 AI 引入智能座舱
16:53Alibaba Cloud21阿里云Qwen与Wan用AI重绘越南传统
16:47HuggingFace Daily Papers(社区热门论文)53OMTG(一对多时间定位)系统性方案发布
16:36MiniMax (official)67MiniMax M3上线DGrid,限时五折
16:15IT之家(RSS)60MiniMax 就 M3 切换 Token 计费致歉,公布订阅权益保护与档位迁移方案
15:15IT之家(RSS)65抖音副总裁李亮回应"豆包误判蘑菇导致用户中毒":AI 的回答仅供参考
14:14IT之家(RSS)71谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15
13:56meng shao55Airbnb创始人筹建AI Lab专注UI设计模型
13:27公众号:京东JoyAI72精选京东开源JoyAI-Echo长音视频生成框架
13:22TechCrunch:AI(RSS)64Mira Murati 谨慎重返聚光灯下
12:47HuggingFace Daily Papers(社区热门论文)61迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究
10:52Alibaba Cloud22阿里云VivaTech展示Qwen与Wan商业影响
10:46HuggingFace Daily Papers(社区热门论文)69Future-L1:用于视频事件预测的交错潜在视觉推理
10:46HuggingFace Daily Papers(社区热门论文)67WLA:统一世界建模、语言推理与动作生成的世界-语言-动作模型
10:46HuggingFace Daily Papers(社区热门论文)64LoomVideo:高效统一视频生成与编辑架构
08:00HuggingFace Daily Papers(社区热门论文)57ReVision:通过时序视觉冗余缩减扩展计算机使用智能体规模
08:00HuggingFace Daily Papers(社区热门论文)54MemDreamer:通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解
08:00HuggingFace Daily Papers(社区热门论文)55Struct-Searcher:结构化智能体工作流推动多模态深度信息搜索
08:00HuggingFace Daily Papers(社区热门论文)66TBD-VLA:时间块扩散视觉-语言-动作模型
08:00HuggingFace Daily Papers(社区热门论文)56MMAE:大规模多任务音频编辑基准
08:00HuggingFace Daily Papers(社区热门论文)64AnchorWorld:基于视图演化定制的具身自我中心世界模拟
08:00HuggingFace Daily Papers(社区热门论文)50StreamForce:流式力控制驱动的实时视频生成框架
08:00HuggingFace Daily Papers(社区热门论文)64Stream3D-VLM:支持增量几何先验的在线3D空间理解模型
08:00HuggingFace Daily Papers(社区热门论文)63基于MLLM的人类视角视频理解:观看、记忆、推理
08:00HuggingFace Daily Papers(社区热门论文)54UniSHARP: 通用单目视图合成方法
08:00HuggingFace Daily Papers(社区热门论文)73精选dots.tts 技术报告
07:08Josh Woodward72Gemini macOS 新增双 Command 键附加窗口
06:54Rohan Paul55针对AI工具碎片化,OverchatAI发布多模型AI应用整合聊天、图像与视频生成
06:36fofr67Gemini Omni Flash 图片首帧视频生成
03:54Rohan Paul57Hyper 3D Rodin Gen-2.5 图像转 3D:4 秒生成百万多边形
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
02:54Google AI Developers70精选Google Magenta RealTime 2 (MRT2) 实时音乐模型发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
23:33
AI at Meta@AIatMeta
64
热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624
Meta多模态论文/研究
23:15
IT之家(RSS)
47
加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元

加南科技今日发布 Kannan K2 智能眼镜,售价 2350 元。眼镜重 25.8 克,采用超轻尼龙材料,耳挂最薄 5.5 毫米。搭载 32MP 摄像头,支持 4K 30FPS 视频录制,具备 EIS+AI 双重防抖和 Live Photo。运行 Kiro OS,支持 0.3s 唤醒、0.8s 指令执行、0.3s 抓拍。续航:录像 60 分钟,待机 7 天,典型日用 1.5 天。

产品更新多模态端侧
23:11
Google Blog:AI(RSS)
34
谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展,涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体Google产品更新多模态
22:15
IT之家(RSS)
同事件精选76
Meta 智能眼镜 App 暗藏人脸识别代码,NameTag 功能已推送至超 5000 万设备

据《连线》今日报道,Meta 通过多次应用更新将人脸识别代码推送到智能眼镜配套 App 中,代号“NameTag”。该功能利用已部署的三个 AI 模型将人脸转换为“人脸特征模板”,与手机本地数据库匹配,识别成功后向佩戴者发送通知。App 下载量超 5000 万次。Meta 回应称代码仅为探索,尚未决定推出,且不会建立中央人脸数据库。此前 Meta 曾因人脸识别问题在伊利诺伊州和得克萨斯州分别达成 6.5 亿美元和 14 亿美元和解。

Meta多模态端侧行业动态
同一事件,精选展示《Meta 在智能眼镜上搭载人脸识别功能》
推荐理由:Meta一边付近百亿美元和解金,一边把完整人脸识别代码塞进 5000 万用户的眼镜里,「探索」这个解释太轻巧——代码都推送了,离功能上线只差一个开关。
21:47
HuggingFace Daily Papers(社区热门论文)
52
审计基于LLM的在线讨论立场模拟:反事实语境修正框架

本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。

arXiv多模态论文/研究
21:36
OpenBMB@OpenBMB
精选66
社区基于MiniCPM-V 4.6打造财务分析工具AccountingLLM

社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。

产品更新多模态行业动态

推荐理由:这不是又一个AI读财报的demo,而是直接上线接客的商业产品。做财务、审计的可以试试它从招股书里自动扒表格和勾稽检查的实用性。
21:15
IT之家(RSS)
67
发布两年:快手可灵 AI 全球用户突破 1 亿,企业客户近 5 万

6月5日,快手旗下可灵AI宣布全球用户突破1亿,企业客户近5万。过去一年,可灵完成26次迭代,深入影视、广告、音乐MV、游戏、电商、智能硬件等场景,并发布由可灵AI全片生成的两周年短片。据IT之家此前报道,快手正评估拟议重组可灵AI相关资产及业务,或引入外部融资;目前可灵AI正在进行Pre-IPO轮融资,投前估值180亿美元,内部按2027年初递交港股上市申报材料推进。

多模态行业动态视频
20:59
Chubby♨️@kimmonismus
56
1/ 大多数AI视频工具仍像是演示。 你输入提示词 → 你就得到一个片段。 但真正的瓶颈从来不是生成。 而是将一个创意转化为可用的东西。 有了LTX Studio + LTX-2.3,这个差距基本上在消失。 我刚制作的片段感觉……与众不同。 一条线程:🧵
多模态大佬观点视频
19:15
IT之家(RSS)
63
高通宣布车端人工智能 Claw 生态计划,将智能体 AI 引入智能座舱

在2026高通汽车技术与合作峰会上,高通联合诚迈科技等生态企业发布车端人工智能Claw生态计划。该计划结合骁龙数字底盘与高通智能体AI运行环境,将AI智能体和多模态大模型直接部署到车端,旨在消除下一代汽车智能开发碎片化。核心能力涵盖:全天候多模态感知(融合车内外摄像头、音频等)、百亿参数混合专家模型(MoE)在终端侧实时运行、六层车规级安全架构(覆盖车辆控制分级、用户授权、隐私保护等),以及持续演进的AI生态系统。推动汽车从移动工具进化为智能伙伴。

智能体多模态端侧行业动态
16:53
Alibaba Cloud@alibaba_cloud
21
越南 | 传统在流动中,由AI重新构想 从河内的摩托车流到湄公河的水上市场,这段由Qwen和Wan创作的视频,用AI颂扬越南的活态文化。 亲自尝试,探索Model Studio,立即开始用AI创作。 👉 https://int.alibabacloud.com/m/1000414086/
多模态行业动态视频
16:47
HuggingFace Daily Papers(社区热门论文)
53
OMTG(一对多时间定位)系统性方案发布

一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

多模态视频论文/研究
16:36
MiniMax (official)@MiniMax_AI
67
MiniMax M3现已在去中心化AI网关DGrid上线,提供1M token上下文窗口、原生多模态能力和前沿编码性能,面向下一代AI应用与自主智能体。开发者可通过dgrid.ai使用,并在6月7日前享50%折扣。DGrid表示将借助其基础设施让M3更易被开发者和智能体调用,推动MiniMax模型在生态中的广泛采用。

DGrid AI: DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...

产品更新多模态编码
16:15
IT之家(RSS)
60
MiniMax 就 M3 切换 Token 计费致歉,公布订阅权益保护与档位迁移方案

MiniMax 就 M3 模型上线后切换 Token Plan 计费未提前充分沟通致歉。M3 为更大尺寸、多模态、1M 上下文模型,改用行业统一的 Token-Based 计量。老用户权益:3.22 前购买的无周限额用户 M2.7 和 M3 仍保持无周限额;3.22 至本周五前购买的用户 M3 周限额永久加赠 50%;M3 上线前 7 天内所有订阅用户 5 小时/周额度翻倍。档位迁移:Plus/Max 价格不变,M2.7 次数增加 10%,新增 M3 与多模态权益;Starter 29 元与 Plus-极速 98 元仅对老用户保留;停售的 Max-极速 199 元与 Ultra-极速 899 元可迁至更低月费新档,每月补发差价积分;新增 Ultra 469 元档。补偿积分有效期从一个月改为一年。

产品更新多模态
15:15
IT之家(RSS)
65
抖音副总裁李亮回应"豆包误判蘑菇导致用户中毒":AI 的回答仅供参考

抖音集团副总裁李亮就“豆包误判蘑菇导致用户中毒”一事回应称,豆包联系上当事用户。该用户用豆包拍照识别小区采摘的蘑菇,豆包识别为“鸡腿菇”,同时明确提示其“极容易和剧毒的大青褶伞混淆”,并“强烈建议不要食用”。李亮表示,AI还在发展阶段,豆包在提升识别准确性,但涉及人身安全的问题,AI回答仅供参考,用户务必多方咨询求证。

多模态安全/对齐
14:14
IT之家(RSS)
71
谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。

Google多模态模型发布
13:56
meng shao@shao__meng
55
Airbnb创始人筹建AI Lab专注UI设计模型

Airbnb 创始人 @bchesky 正在筹备创建一个新的 AI lab,构建专门用于 UI 和 设计的模型。 如果 Airbnb 做 UI 和设计模型,我举双手赞成,真的太喜欢 Airbnb 的设计品味。

TBPN: BREAKING: @bchesky is launching a new AI lab to build models, focused on UI and design

多模态行业动态
13:27
公众号:京东JoyAI
精选72
京东开源JoyAI-Echo长音视频生成框架

6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由:长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
13:22
TechCrunch:AI(RSS)
64
Mira Murati 谨慎重返聚光灯下

Mira Murati 再次公开露面,她表示在当前环境下,保持低调的回报正在递减,必须适时制造声量以提醒市场自己的存在。

OpenAI多模态大佬观点
12:47
HuggingFace Daily Papers(社区热门论文)
61
迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究

代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音
10:52
Alibaba Cloud@alibaba_cloud
22
加入阿里云在VivaTech的AInnovation峰会!与Qwen和Wan一起探索商业影响,聆听客户故事,并在下午茶中交流。 📅 6月17日,15:00-17:00 CEST 📍 Paris Expo Porte de Versailles | Hall 7.3 Workshop A 👉注册:https://int.alibabacloud.com/m/1000414065/
多模态行业动态
10:46
HuggingFace Daily Papers(社区热门论文)
69
Future-L1:用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。

arXiv多模态视频论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
67
WLA:统一世界建模、语言推理与动作生成的世界-语言-动作模型

WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。

arXiv具身智能多模态论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
64
LoomVideo:高效统一视频生成与编辑架构

LoomVideo是一个5B参数的高效统一架构,支持视频生成与编辑。它用多模态大语言模型(MLLM)替换标准文本编码器,通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法,直接缩放和加性处理源视频潜变量,避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA,尤其在电商和时尚生成场景表现突出,推理速度相比同类模型提升至少5.41倍。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
ReVision:通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemDreamer:通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Struct-Searcher:结构化智能体工作流推动多模态深度信息搜索

现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。

智能体多模态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
TBD-VLA:时间块扩散视觉-语言-动作模型

TBD-VLA是一种基于离散token的视觉-语言-动作(VLA)框架,通过引入块扩散(block diffusion)实现时序动作生成。该方法将动作序列划分为时间块,在块内进行掩码离散扩散,块间保持自回归生成,统一了时序自回归与并行动作解码,兼顾时序连贯性与推理速度。此外,显式时序建模支持通过时间修复实现动作块的异步执行(如实时分块)。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MMAE:大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
AnchorWorld:基于视图演化定制的具身自我中心世界模拟

AnchorWorld 提出一种具身自我中心世界模拟框架,通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态,引入与第一人称传感器解耦的外部视角辅助监督,使模型能观察全身相对环境的定位,从而稳健建模人-世界交互。此外,在世界坐标系内定义锚定视图并配合描述局部场景演变的文本,实现简单有效的世界自我演进定制。实验结果显示,AnchorWorld 显著优于现有基线,消融研究验证了关键设计的有效性,定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
StreamForce:流式力控制驱动的实时视频生成框架

StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Stream3D-VLM:支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于MLLM的人类视角视频理解:观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv多模态推理视频
08:00
HuggingFace Daily Papers(社区热门论文)
54
UniSHARP: 通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
dots.tts 技术报告

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。

多模态开源生态论文/研究

推荐理由:dots.tts 在中文 TTS 上把 WER 压到 0.94%,开源且 Apache 2.0 许可,想做语音产品的团队该立刻拉代码试试,单看延迟数据就值了。
07:08
Josh Woodward@joshwoodward
72
Josh Woodward 喜欢 macOS 版 Gemini 应用的这个功能。 同时按下两个 Command ⌘ 键,即可将当前活动窗口无缝附加到聊天中,无需手动截图或切换标签页。

Google Gemini: Get tailored help for what's on your screen using the Gemini app for macOS. 💻 Simply press both Command ⌘ keys at the s...

Google产品更新多模态
06:54
Rohan Paul@rohanpaul_ai
55
OverchatAI发布多模型AI应用,将聊天、图像、视频生成整合在单一界面。实测让GPT-5.5和Gemini 3.1 Pro进行10局UNO对战,Gemini每张牌消耗6倍推理token(133.5K vs 22.5K),最终以8-2获胜,且模型间会在出牌间隙互相调侃。

Overchat AI: I made @OpenAI GPT-5.5 and @GoogleDeepMind Gemini 3.1 Pro play REAL UNO - 10 games, full rules. Gemini overthought every...

产品更新多模态
06:36
fofr@fofrAI
67
让图片动起来。上传图片作为首帧,添加提示词,用Gemini Omni Flash生成专属视频。主推文表示Omni现已支持首帧功能。

Google Flow: Bring your images to life ⚡️ Upload your picture as a first frame and add a prompt to generate your own unique video wit...

Google产品更新多模态视频
03:54
Rohan Paul@rohanpaul_ai
57
Hyper 3D Rodin Gen-2.5 图像转 3D:4 秒生成百万多边形

Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。

图像生成多模态模型发布
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
02:54
Google AI Developers@googleaidevs
精选70
Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。

Google Magenta Project: Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...

Google多模态开源生态模型发布

推荐理由:Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」,开放权重且延迟低于 200ms,音乐创作者值得立刻上手试试。
‹ 上一页
1…1415161718…50
下一页 ›