AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1238 条
全部一手资讯X论文
标签「多模态」清除
6月8日周一
19:12公众号:火山引擎28火山方舟Coding Plan与Agent Plan升级,限时2.5折
18:00公众号:通义实验室(千问)68同事件精选Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
17:53公众号:通义实验室(千问)67精选Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理
14:20IT之家(RSS)73精选全球首个:高德发布3D原生城市世界模型ABot-Earth0.5
08:00HuggingFace Daily Papers(社区热门论文)50AlloSpatial:基础模型中的异中心空间推理智能体框架
08:00HuggingFace Daily Papers(社区热门论文)48MBench:面向视频世界模型记忆能力的综合基准测试
08:00HuggingFace Daily Papers(社区热门论文)55利用形态学进行历史手稿计量分析
08:00HuggingFace Daily Papers(社区热门论文)55Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)60DPVR-LF:晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和
6月7日周日
20:04The Verge:AI(RSS)64AI"内容创作者"越来越难被识别
09:19IT之家(RSS)20smart 精灵 5 号 OTA 升级 2.3.1 CN 版本:电子后视镜、华为 HiCar 等上线
08:00HuggingFace Daily Papers(社区热门论文)61OmniCap-IF:全能视频描述的指令遵循基准与模型改进
08:00HuggingFace Daily Papers(社区热门论文)59CoVEBench:视频编辑模型能否处理复杂指令?
6月6日周六
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
17:52公众号:MiniMax(稀宇科技)56海螺AI×上影节活动日历:开放日6.14-6.15
14:58The Decoder:AI News(RSS)66Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体
10:16IT之家(RSS)50苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用
10:16IT之家(RSS)46初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能
08:00HuggingFace Daily Papers(社区热门论文)50Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解
08:00HuggingFace Daily Papers(社区热门论文)54DyCo-RL: 动态跨模态协调用于视觉推理
03:33Anthropic:Research(发表成果 · 网页)65精选Anthropic:让Claude成为化学家
03:27MarkTechPost(RSS)50Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存
01:17Cursor Blog74精选在 Design Mode 中通过视觉提示直接指挥智能体
00:47HuggingFace Daily Papers(社区热门论文)65GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能
00:33HuggingFace Daily Papers(社区热门论文)56Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)56AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型
23:15IT之家(RSS)47加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元
23:11Google Blog:AI(RSS)34谷歌2026年5月AI最新动态
22:15IT之家(RSS)76同事件精选Meta 智能眼镜 App 暗藏人脸识别代码,NameTag 功能已推送至超 5000 万设备同一事件,精选展示《Meta 在智能眼镜上搭载人脸识别功能》
21:47HuggingFace Daily Papers(社区热门论文)52审计基于LLM的在线讨论立场模拟:反事实语境修正框架
21:15IT之家(RSS)67发布两年:快手可灵 AI 全球用户突破 1 亿,企业客户近 5 万
19:15IT之家(RSS)63高通宣布车端人工智能 Claw 生态计划,将智能体 AI 引入智能座舱
16:47HuggingFace Daily Papers(社区热门论文)53OMTG(一对多时间定位)系统性方案发布
16:15IT之家(RSS)60MiniMax 就 M3 切换 Token 计费致歉,公布订阅权益保护与档位迁移方案
15:15IT之家(RSS)65抖音副总裁李亮回应"豆包误判蘑菇导致用户中毒":AI 的回答仅供参考
14:14IT之家(RSS)71谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15
13:27公众号:京东JoyAI72精选京东开源JoyAI-Echo长音视频生成框架
13:22TechCrunch:AI(RSS)64Mira Murati 谨慎重返聚光灯下
12:47HuggingFace Daily Papers(社区热门论文)61迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究
10:46HuggingFace Daily Papers(社区热门论文)69Future-L1:用于视频事件预测的交错潜在视觉推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
19:12
公众号:火山引擎
28
火山方舟Coding Plan与Agent Plan升级,限时2.5折

火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态
18:00
公众号:通义实验室(千问)
同事件精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
17:53
公众号:通义实验室(千问)
精选67
Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

推荐理由:这是一篇手把手教程,用 Agent 简化 Qwen3-VL Android 部署,对想试端侧 VL 的开发者实用,但绑定阿里生态,通用性有限。
14:20
IT之家(RSS)
精选73
全球首个:高德发布3D原生城市世界模型ABot-Earth0.5

阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述,10分钟即可在消费级GPU上生成公里级3D城市,输出可编辑3DGS格式,可直接导入Unity等引擎。制图成本为传统百分之一,效率提升约千倍,可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测,可前往abot-earth.amap.com提交申请。

具身智能多模态模型发布

推荐理由:第一个把分钟级 3D 城市重建拉进消费级 GPU 的世界模型,成本打到了传统方案的百分之一,对具身智能和低空经济是底层能力补全,值得内测试试。
08:00
HuggingFace Daily Papers(社区热门论文)
50
AlloSpatial:基础模型中的异中心空间推理智能体框架

多模态基础模型因无法将自我中心观察转化为全局异中心空间表征,导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒,将观察转换为异中心空间树(ASTs)和路线图,支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁,并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上,无需训练提升专有模型5%-18%;仅ASTs即使无视觉输入也支撑强推理;训练后智能体超越更大通用模型与竞争基线。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
MBench:面向视频世界模型记忆能力的综合基准测试

现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
利用形态学进行历史手稿计量分析

本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
DPVR-LF:晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和

通过逐层分析LLaVA-1.5发现,视觉token在中间层饱和:文本-图像注意力从层0的0.68降至层4的0.07,层18后稳定在0.04附近,而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF,在饱和点将视觉token路由至单层侧分支,文本token独立经过13层深层,仅在最后层融合。仅增加约3%可训练参数,即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明,视觉token无需遍历所有深层语言模型层,单个晚期融合层足以维持感知能力。

多模态论文/研究
6月7日
20:04
The Verge:AI(RSS)
64
AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。

图像生成多模态现象/趋势视频
09:19
IT之家(RSS)
20
smart 精灵 5 号 OTA 升级 2.3.1 CN 版本:电子后视镜、华为 HiCar 等上线

Smart 精灵 5 号 OTA 升级至 2.3.1 CN 版本,整合豆包 AI 大模型,新增电子后视镜、AR HUD 高度自动调节、高德导航升级、Carlink、苹果钱包钥匙、华为 HiCar 与记忆泊车闸机通行。NSP 领航辅助新增左转待转区与环岛通行能力。新增文生图、闲聊视频 AI 新闻、全民 K 歌 App,用 QQ 音乐替代爱趣听,并优化趣味喇叭及解锁车辆音效自定义。

产品更新多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
61
OmniCap-IF:全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv多模态数据/训练视频
08:00
HuggingFace Daily Papers(社区热门论文)
59
CoVEBench:视频编辑模型能否处理复杂指令?

CoVEBench 是一个组合视频编辑基准,包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项,覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度,并结合自动指标评估视频质量。实验表明,当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影,组合编辑是重大挑战。

多模态视频论文/研究
6月6日
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
17:52
公众号:MiniMax(稀宇科技)
56
海螺AI×上影节活动日历:开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。

图像生成多模态行业动态视频
14:58
The Decoder:AI News(RSS)
66
Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。

智能体多模态模型发布编码
10:16
IT之家(RSS)
50
苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用

iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。

智能体产品更新多模态
10:16
IT之家(RSS)
46
初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能

彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。

产品更新图像生成多模态
08:00
HuggingFace Daily Papers(社区热门论文)
50
Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DyCo-RL: 动态跨模态协调用于视觉推理

强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究
03:33
Anthropic:Research(发表成果 · 网页)
精选65
Anthropic:让Claude成为化学家

Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。

Anthropic多模态论文/研究评测/基准
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)
推荐理由:化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。
03:27
MarkTechPost(RSS)
50
Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存

Google DeepMind 推出 Gemma 4 量化感知训练(QAT)检查点,包含 Q4_0 格式和一种新的移动端格式,旨在降低设备端内存占用。对比 BF16、Q4_0 QAT 和移动版 QAT 三种边缘端格式,官方公布了各格式的内存数据与设计权衡。

DeepMindGoogle多模态模型发布
01:17
Cursor Blog
精选74
在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由:Cursor这次的Design Mode把「指哪改哪」做成了标准流程,不再靠一句prompt猜你的意图,而是直接给agent看元素、画圈圈,前端开发的反馈循环被压缩到秒级,赶紧试试。
00:47
HuggingFace Daily Papers(社区热门论文)
65
GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能

多模态大语言模型(MLLM)擅长2D语义理解,但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列,通过从预训练3D基础模型蒸馏几何知识,重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束:帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上,GeoVR达到当前最佳性能(SOTA),为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究
00:33
HuggingFace Daily Papers(社区热门论文)
56
Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化,解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹,将同类场景的成功轨迹聚合蒸馏成可复用技能,失败轨迹作为教训附于技能。当类似场景再现时,注入对应技能指导智能体,新轨迹反向优化技能,形成记忆与技能库自演进循环。实验表明,该方法在VSI-Bench上将工具利用率从39%提升至78%;在MMSI-Bench上使Gemini-3-Flash提升67%;对Qwen3-VL-8B进行技能轨迹后训练后,在VSI-Bench上提升43%。

智能体多模态论文/研究
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
56
AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究
23:15
IT之家(RSS)
47
加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元

加南科技今日发布 Kannan K2 智能眼镜,售价 2350 元。眼镜重 25.8 克,采用超轻尼龙材料,耳挂最薄 5.5 毫米。搭载 32MP 摄像头,支持 4K 30FPS 视频录制,具备 EIS+AI 双重防抖和 Live Photo。运行 Kiro OS,支持 0.3s 唤醒、0.8s 指令执行、0.3s 抓拍。续航:录像 60 分钟,待机 7 天,典型日用 1.5 天。

产品更新多模态端侧
23:11
Google Blog:AI(RSS)
34
谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展,涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体Google产品更新多模态
22:15
IT之家(RSS)
同事件精选76
Meta 智能眼镜 App 暗藏人脸识别代码,NameTag 功能已推送至超 5000 万设备

据《连线》今日报道,Meta 通过多次应用更新将人脸识别代码推送到智能眼镜配套 App 中,代号“NameTag”。该功能利用已部署的三个 AI 模型将人脸转换为“人脸特征模板”,与手机本地数据库匹配,识别成功后向佩戴者发送通知。App 下载量超 5000 万次。Meta 回应称代码仅为探索,尚未决定推出,且不会建立中央人脸数据库。此前 Meta 曾因人脸识别问题在伊利诺伊州和得克萨斯州分别达成 6.5 亿美元和 14 亿美元和解。

Meta多模态端侧行业动态
同一事件,精选展示《Meta 在智能眼镜上搭载人脸识别功能》
推荐理由:Meta一边付近百亿美元和解金,一边把完整人脸识别代码塞进 5000 万用户的眼镜里,「探索」这个解释太轻巧——代码都推送了,离功能上线只差一个开关。
21:47
HuggingFace Daily Papers(社区热门论文)
52
审计基于LLM的在线讨论立场模拟:反事实语境修正框架

本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。

arXiv多模态论文/研究
21:15
IT之家(RSS)
67
发布两年:快手可灵 AI 全球用户突破 1 亿,企业客户近 5 万

6月5日,快手旗下可灵AI宣布全球用户突破1亿,企业客户近5万。过去一年,可灵完成26次迭代,深入影视、广告、音乐MV、游戏、电商、智能硬件等场景,并发布由可灵AI全片生成的两周年短片。据IT之家此前报道,快手正评估拟议重组可灵AI相关资产及业务,或引入外部融资;目前可灵AI正在进行Pre-IPO轮融资,投前估值180亿美元,内部按2027年初递交港股上市申报材料推进。

多模态行业动态视频
19:15
IT之家(RSS)
63
高通宣布车端人工智能 Claw 生态计划,将智能体 AI 引入智能座舱

在2026高通汽车技术与合作峰会上,高通联合诚迈科技等生态企业发布车端人工智能Claw生态计划。该计划结合骁龙数字底盘与高通智能体AI运行环境,将AI智能体和多模态大模型直接部署到车端,旨在消除下一代汽车智能开发碎片化。核心能力涵盖:全天候多模态感知(融合车内外摄像头、音频等)、百亿参数混合专家模型(MoE)在终端侧实时运行、六层车规级安全架构(覆盖车辆控制分级、用户授权、隐私保护等),以及持续演进的AI生态系统。推动汽车从移动工具进化为智能伙伴。

智能体多模态端侧行业动态
16:47
HuggingFace Daily Papers(社区热门论文)
53
OMTG(一对多时间定位)系统性方案发布

一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

多模态视频论文/研究
16:15
IT之家(RSS)
60
MiniMax 就 M3 切换 Token 计费致歉,公布订阅权益保护与档位迁移方案

MiniMax 就 M3 模型上线后切换 Token Plan 计费未提前充分沟通致歉。M3 为更大尺寸、多模态、1M 上下文模型,改用行业统一的 Token-Based 计量。老用户权益:3.22 前购买的无周限额用户 M2.7 和 M3 仍保持无周限额;3.22 至本周五前购买的用户 M3 周限额永久加赠 50%;M3 上线前 7 天内所有订阅用户 5 小时/周额度翻倍。档位迁移:Plus/Max 价格不变,M2.7 次数增加 10%,新增 M3 与多模态权益;Starter 29 元与 Plus-极速 98 元仅对老用户保留;停售的 Max-极速 199 元与 Ultra-极速 899 元可迁至更低月费新档,每月补发差价积分;新增 Ultra 469 元档。补偿积分有效期从一个月改为一年。

产品更新多模态
15:15
IT之家(RSS)
65
抖音副总裁李亮回应"豆包误判蘑菇导致用户中毒":AI 的回答仅供参考

抖音集团副总裁李亮就“豆包误判蘑菇导致用户中毒”一事回应称,豆包联系上当事用户。该用户用豆包拍照识别小区采摘的蘑菇,豆包识别为“鸡腿菇”,同时明确提示其“极容易和剧毒的大青褶伞混淆”,并“强烈建议不要食用”。李亮表示,AI还在发展阶段,豆包在提升识别准确性,但涉及人身安全的问题,AI回答仅供参考,用户务必多方咨询求证。

多模态安全/对齐
14:14
IT之家(RSS)
71
谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。

Google多模态模型发布
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
13:27
公众号:京东JoyAI
精选72
京东开源JoyAI-Echo长音视频生成框架

6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由:长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
13:22
TechCrunch:AI(RSS)
64
Mira Murati 谨慎重返聚光灯下

Mira Murati 再次公开露面,她表示在当前环境下,保持低调的回报正在递减,必须适时制造声量以提醒市场自己的存在。

OpenAI多模态大佬观点
12:47
HuggingFace Daily Papers(社区热门论文)
61
迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究

代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音
10:46
HuggingFace Daily Papers(社区热门论文)
69
Future-L1:用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。

arXiv多模态视频论文/研究
‹ 上一页
1…7891011…31
下一页 ›