AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月8日周一
18:10Alibaba Cloud77同事件精选Qwen3.7-Plus 发布限时八折优惠同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
18:00公众号:通义实验室(千问)68同事件精选Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
17:53公众号:通义实验室(千问)67精选Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理
14:20IT之家(RSS)73精选全球首个:高德发布3D原生城市世界模型ABot-Earth0.5
14:14Tencent Hy69精选腾讯混元联合多家机构发布首个音频编辑基准MMAE
08:00HuggingFace Daily Papers(社区热门论文)50AlloSpatial:基础模型中的异中心空间推理智能体框架
08:00HuggingFace Daily Papers(社区热门论文)48MBench:面向视频世界模型记忆能力的综合基准测试
08:00HuggingFace Daily Papers(社区热门论文)55利用形态学进行历史手稿计量分析
08:00HuggingFace Daily Papers(社区热门论文)55Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)60DPVR-LF:晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和
05:33SenseTime26商汤 Phil Wong 谈中国 AI 优势与差异化实践
6月7日周日
22:07Chubby♨️64WWDC 2026:苹果将基于 Google Gemini 重建 Siri
20:04The Verge:AI(RSS)64AI"内容创作者"越来越难被识别
14:26AYi49《丧尸清道夫》爆火与AI视频三阶段演进
10:26Nathan Lambert67ChatGPT被诱导"无图修复",模型幻觉生成恐怖图片
09:19IT之家(RSS)20smart 精灵 5 号 OTA 升级 2.3.1 CN 版本:电子后视镜、华为 HiCar 等上线
08:00HuggingFace Daily Papers(社区热门论文)61OmniCap-IF:全能视频描述的指令遵循基准与模型改进
08:00HuggingFace Daily Papers(社区热门论文)59CoVEBench:视频编辑模型能否处理复杂指令?
6月6日周六
23:24AYi60Qwen3-VL系列实测:性价比超Gemini 3.5 Flash 22倍
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
17:52公众号:MiniMax(稀宇科技)56海螺AI×上影节活动日历:开放日6.14-6.15
17:08🚨 AI News | TestingCatalog48NotebookLM 将支持多格式输出,或与 Gemini 3.5 Flash 同步升级
14:58The Decoder:AI News(RSS)66Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体
10:16IT之家(RSS)50苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用
10:16IT之家(RSS)46初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能
08:00HuggingFace Daily Papers(社区热门论文)50Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解
08:00HuggingFace Daily Papers(社区热门论文)54DyCo-RL: 动态跨模态协调用于视觉推理
07:59Rohan Paul48AI 简报:Anthropic、Google、阿里等最新动态
03:33Anthropic:Research(发表成果 · 网页)65精选Anthropic:让Claude成为化学家
03:27MarkTechPost(RSS)50Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存
02:22宝玉65Cursor 支持浏览器端标记 UI 更方便
01:50Michael Truell80精选智能体协作应如同事般对话和手势
01:20Google AI78精选Google AI 本周产品更新:Nano Banana 2、Co-Scientist、dreambeans、Gemma 4 等
01:17Cursor Blog74精选在 Design Mode 中通过视觉提示直接指挥智能体
00:47HuggingFace Daily Papers(社区热门论文)65GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能
00:41Google Gemini81精选Gemini Live 支持实时创建编辑图像
00:33HuggingFace Daily Papers(社区热门论文)56Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)56AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型
23:33AI at Meta64Meta SAM 3D 获 CVPR26 最佳论文荣誉提名
23:15IT之家(RSS)47加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
18:10
Alibaba Cloud@alibaba_cloud
同事件精选77
🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI
智能体多模态模型发布编码
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把多模态交互和视觉代理整合得挺顺,对做 AI 工程化落地的团队来说是个务实选项,新发布折扣让试错成本更低,值得用起来看看。
18:00
公众号:通义实验室(千问)
同事件精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
17:53
公众号:通义实验室(千问)
精选67
Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

推荐理由:这是一篇手把手教程,用 Agent 简化 Qwen3-VL Android 部署,对想试端侧 VL 的开发者实用,但绑定阿里生态,通用性有限。
14:20
IT之家(RSS)
精选73
全球首个:高德发布3D原生城市世界模型ABot-Earth0.5

阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述,10分钟即可在消费级GPU上生成公里级3D城市,输出可编辑3DGS格式,可直接导入Unity等引擎。制图成本为传统百分之一,效率提升约千倍,可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测,可前往abot-earth.amap.com提交申请。

具身智能多模态模型发布

推荐理由:第一个把分钟级 3D 城市重建拉进消费级 GPU 的世界模型,成本打到了传统方案的百分之一,对具身智能和低空经济是底层能力补全,值得内测试试。
14:14
Tencent Hy@TencentHunyuan
精选69
腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由:过去一年语音和音乐生成很热,但音频编辑还没人正经测过,腾讯这个基准把现状血淋淋地摆出来了,不到5%的准确率意味着整个方向都还在起步期。
08:00
HuggingFace Daily Papers(社区热门论文)
50
AlloSpatial:基础模型中的异中心空间推理智能体框架

多模态基础模型因无法将自我中心观察转化为全局异中心空间表征,导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒,将观察转换为异中心空间树(ASTs)和路线图,支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁,并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上,无需训练提升专有模型5%-18%;仅ASTs即使无视觉输入也支撑强推理;训练后智能体超越更大通用模型与竞争基线。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
MBench:面向视频世界模型记忆能力的综合基准测试

现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
利用形态学进行历史手稿计量分析

本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
DPVR-LF:晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和

通过逐层分析LLaVA-1.5发现,视觉token在中间层饱和:文本-图像注意力从层0的0.68降至层4的0.07,层18后稳定在0.04附近,而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF,在饱和点将视觉token路由至单层侧分支,文本token独立经过13层深层,仅在最后层融合。仅增加约3%可训练参数,即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明,视觉token无需遍历所有深层语言模型层,单个晚期融合层足以维持感知能力。

多模态论文/研究
05:33
SenseTime@SenseTime_AI
26
商汤 Phil Wong 谈中国 AI 优势与差异化实践

商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。

多模态大佬观点
6月7日
22:07
Chubby♨️@kimmonismus
64
WWDC 2026 预计将成为苹果 AI 关键节点。Siri 将围绕定制版 Google Gemini 模型(约 1.2 万亿参数)重建,自有设备端模型仅约 3B 参数。新 Siri 采用混合架构--本地小模型 + 云端大模型,由苹果控制 UI、应用权限和隐私层。预期功能包括更自然对话、跨应用个人上下文、屏幕感知、应用内操作、独立 Siri 应用(支持语音、文件上传和多模态交互)、Dynamic Island 深度集成,并可选择接入 ChatGPT、Claude 或 Gemini 等第三方服务。苹果意将 Siri 打造成操作系统的隐私 AI 层,成为跨 iPhone、Mac、iPad 的系统智能体。

Chubby♨️: Tomorrow could be Apple's most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri rel...

Google多模态大佬观点语音
20:04
The Verge:AI(RSS)
64
AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。

图像生成多模态现象/趋势视频
14:26
AYi@AYi_AInotes
49
《丧尸清道夫》爆火与AI视频三阶段演进

素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。

AYi: 全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...

多模态教程/实践视频
10:26
Nathan Lambert@natolambert
67
AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其"修复一张附件照片",但并未上传任何图片。模型在无真实输入的情况下自行"幻觉"出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

Penguin: I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...

OpenAI多模态安全/对齐
09:19
IT之家(RSS)
20
smart 精灵 5 号 OTA 升级 2.3.1 CN 版本:电子后视镜、华为 HiCar 等上线

Smart 精灵 5 号 OTA 升级至 2.3.1 CN 版本,整合豆包 AI 大模型,新增电子后视镜、AR HUD 高度自动调节、高德导航升级、Carlink、苹果钱包钥匙、华为 HiCar 与记忆泊车闸机通行。NSP 领航辅助新增左转待转区与环岛通行能力。新增文生图、闲聊视频 AI 新闻、全民 K 歌 App,用 QQ 音乐替代爱趣听,并优化趣味喇叭及解锁车辆音效自定义。

产品更新多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
61
OmniCap-IF:全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv多模态数据/训练视频
08:00
HuggingFace Daily Papers(社区热门论文)
59
CoVEBench:视频编辑模型能否处理复杂指令?

CoVEBench 是一个组合视频编辑基准,包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项,覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度,并结合自动指标评估视频质量。实验表明,当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影,组合编辑是重大挑战。

多模态视频论文/研究
6月6日
23:24
AYi@AYi_AInotes
60
Qwen3-VL系列实测:性价比超Gemini 3.5 Flash 22倍

用户实测推荐,目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列,其输出价格比Gemini 3.5 Flash便宜22倍,读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash,价格为$0.1/$0.4,支持多模态图片+视频,上下文窗口达1M。

AYi: http://x.com/i/article/2060717603987791878

Google多模态评测/基准
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
17:52
公众号:MiniMax(稀宇科技)
56
海螺AI×上影节活动日历:开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。

图像生成多模态行业动态视频
17:08
🚨 AI News | TestingCatalog@testingcatalog
48
NotebookLM 将支持多格式输出,或与 Gemini 3.5 Flash 同步升级

Google 的 NotebookLM 即将支持从用户资料生成多种格式的文件,包括 pdf、txt、md、docx、csv、pptx、epub 以及大量音视频与图片格式(如 mp3、mp4、wav、jpg、png、heic 等)。此次更新很可能与 Gemini 3.5 Flash 模型升级一同发布。

Google产品更新多模态
14:58
The Decoder:AI News(RSS)
66
Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。

智能体多模态模型发布编码
10:16
IT之家(RSS)
50
苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用

iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。

智能体产品更新多模态
10:16
IT之家(RSS)
46
初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能

彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。

产品更新图像生成多模态
08:00
HuggingFace Daily Papers(社区热门论文)
50
Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DyCo-RL: 动态跨模态协调用于视觉推理

强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究
07:59
Rohan Paul@rohanpaul_ai
48
AI 简报:Anthropic、Google、阿里等最新动态

Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。

AnthropicGoogle多模态开源生态
03:33
Anthropic:Research(发表成果 · 网页)
精选65
Anthropic:让Claude成为化学家

Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。

Anthropic多模态论文/研究评测/基准
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)
推荐理由:化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。
03:27
MarkTechPost(RSS)
50
Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存

Google DeepMind 推出 Gemma 4 量化感知训练(QAT)检查点,包含 Q4_0 格式和一种新的移动端格式,旨在降低设备端内存占用。对比 BF16、Q4_0 QAT 和移动版 QAT 三种边缘端格式,官方公布了各格式的内存数据与设计权衡。

DeepMindGoogle多模态模型发布
02:22
宝玉@dotey
65
Cursor 也支持在浏览器端标记 UI 了,这样修改 UI 起来就方便多了

Cursor: With Design Mode, you can now point, draw, or talk to update your UI.

产品更新多模态编码
01:50
Michael Truell@mntruell
精选80
与 AI 智能体协作应感觉像与同事协作一样。你应能"与它们交谈"--不仅通过文本聊天,还能一起对着屏幕做手势、实时对话等。

Cursor: With Design Mode, you can now point, draw, or talk to update your UI.

智能体产品更新多模态编码

推荐理由:Cursor 新加的 Design Mode 让改 UI 像跟同事比划屏幕一样自然,手势、画框、说话都能驱动 agent,AI 编程工具第一次有了‘面对面’的感觉。
01:20
Google AI@GoogleAI
精选78
Google AI 本周产品更新:Nano Banana 2、Co-Scientist、dreambeans、Gemma 4 等

Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。

智能体Google产品更新多模态

推荐理由:周报里藏了个大号:Gemma 4 12B开源多模态且完全离线,开发者今天就能在自己笔记本上跑起来,Co-Scientist的多agent科学推理也有看头。
01:17
Cursor Blog
精选74
在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由:Cursor这次的Design Mode把「指哪改哪」做成了标准流程,不再靠一句prompt猜你的意图,而是直接给agent看元素、画圈圈,前端开发的反馈循环被压缩到秒级,赶紧试试。
00:47
HuggingFace Daily Papers(社区热门论文)
65
GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能

多模态大语言模型(MLLM)擅长2D语义理解,但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列,通过从预训练3D基础模型蒸馏几何知识,重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束:帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上,GeoVR达到当前最佳性能(SOTA),为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究
00:41
Google Gemini@GeminiApp
精选81
你现可直接在 Gemini Live 中创建和编辑图像。 无论是测试房间装饰、解决数学问题,还是制作可分享的梗图,所有操作都实时完成。 只需打开 Gemini 应用,点击 Live 按钮,共享摄像头,告诉 Gemini 你想看到的。
Google产品更新图像生成多模态

推荐理由:Gemini Live 终于能用嘴改图了,实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」,产品人和普通用户都该试试这个新交互。
00:33
HuggingFace Daily Papers(社区热门论文)
56
Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化,解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹,将同类场景的成功轨迹聚合蒸馏成可复用技能,失败轨迹作为教训附于技能。当类似场景再现时,注入对应技能指导智能体,新轨迹反向优化技能,形成记忆与技能库自演进循环。实验表明,该方法在VSI-Bench上将工具利用率从39%提升至78%;在MMSI-Bench上使Gemini-3-Flash提升67%;对Qwen3-VL-8B进行技能轨迹后训练后,在VSI-Bench上提升43%。

智能体多模态论文/研究
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
56
AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究
23:33
AI at Meta@AIatMeta
64
热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624
Meta多模态论文/研究
23:15
IT之家(RSS)
47
加南 Kannan K2 智能眼镜发布:25.8g 重、32MP 摄像头,2350 元

加南科技今日发布 Kannan K2 智能眼镜,售价 2350 元。眼镜重 25.8 克,采用超轻尼龙材料,耳挂最薄 5.5 毫米。搭载 32MP 摄像头,支持 4K 30FPS 视频录制,具备 EIS+AI 双重防抖和 Live Photo。运行 Kiro OS,支持 0.3s 唤醒、0.8s 指令执行、0.3s 抓拍。续航:录像 60 分钟,待机 7 天,典型日用 1.5 天。

产品更新多模态端侧
‹ 上一页
1…1314151617…50
下一页 ›