AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月13日周三
13:39IT之家(RSS)6088.45% 登顶 CyberGym:微软纳德拉官宣 MDASH 框架,协调 100+ 模型 AI 抓虫 Win11
12:50歸藏(guizang.ai)36用交互式PPT讲述天津五大道历史故事
12:50Berryxia.AI76精选oMLX更新强化苹果端侧AI,本地能力直逼云端
12:44HuggingFace Daily Papers(社区热门论文)62AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力
12:44HuggingFace Daily Papers(社区热门论文)56Lite3R:一种用于高效前馈式3D重建的模型无关框架
12:27Deedy58世界模型:AI下一范式与重要解读
11:50歸藏(guizang.ai)62谷歌发布Gemini Intelligence,深度整合AI于安卓系统
11:45公众号:面壁智能(MiniCPM)54新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
11:44HuggingFace Daily Papers(社区热门论文)61VidSplat: 利用几何引导视频扩散先验进行高斯泼溅重建
10:44HuggingFace Daily Papers(社区热门论文)50MoCam: 通过结构化去噪动态实现统一的新视角合成
10:44HuggingFace Daily Papers(社区热门论文)66CausalCine:用于多镜头视频叙事的实时自回归生成框架
10:44HuggingFace Daily Papers(社区热门论文)64图像即语句:用于统一视觉生成的交错指令扩展模型
10:44HuggingFace Daily Papers(社区热门论文)66超越最后一层:用于视觉分词的多层表征融合
10:44HuggingFace Daily Papers(社区热门论文)68从网络到像素:将智能搜索引入视觉感知
10:44HuggingFace Daily Papers(社区热门论文)67SenseNova-U1:基于NEO-unify架构统一多模态理解与生成
10:39IT之家(RSS)55全球合作中头部车企 20+:联发科天玑汽车平台产品出货量突破 3500 万,过去 5 年成长超 385%
09:49ginobefun76OpenAI Codex新增Computer Use能力,AI助手操作桌面软件
09:39IT之家(RSS)35微软推送 Win11 26H1 五月累积更新,增强辅助功能和系统交互
08:49Berryxia.AI69Google DeepMind推出AI化鼠标指针,实现手势语音操控Gemini
08:49Berryxia.AI65Jina发布首个统一多模态Embedding模型v5-omni
08:49Berryxia.AI56Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜
08:41meng shao65Gemini Intelligence 登陆 Android,系统升级为主动型AI平台
08:22小互59Google将Gemini升级为Android系统级AI大脑
08:00HuggingFace Daily Papers(社区热门论文)49当视觉代言听觉
08:00HuggingFace Daily Papers(社区热门论文)57Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案
08:00HuggingFace Daily Papers(社区热门论文)60CiteVQA:面向可信文档智能的证据归因评测基准
08:00HuggingFace Daily Papers(社区热门论文)68提升全模态语言模型:基于视觉去偏评估的分阶段后训练
08:00HuggingFace Daily Papers(社区热门论文)62CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集
08:00HuggingFace Daily Papers(社区热门论文)65PanoWorld:迈向360度全景世界的空间超感知
07:57Chubby♨️55Thinking Machines实现OpenAI一年半前承诺的先进语音模式
07:52小互60Google发布AI笔记本平台Googlebook,Gemini驱动智能操作
07:26Hacker News 热门(buzzing.cc 中文翻译)50为人工智能时代重新构想鼠标指针
06:38Demis Hassabis81精选谷歌AI重塑智能鼠标指针交互
05:44HuggingFace Daily Papers(社区热门论文)66GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测
05:05🚨 AI News | TestingCatalog63Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能
03:54StepFun72Step Image Edit 2图像模型发布,性能领先且高效
01:35🚨 AI News | TestingCatalog70谷歌发布全新安卓智能助理
01:27Chubby♨️64Google DeepMind用AI重塑鼠标指针,开启人机交互新范式
01:11Google DeepMind52AI重塑鼠标指针 动语操控Gemini
00:33OpenRouter69精选Perceptron Mk1视觉语言模型上线OpenRouter
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
13:39
IT之家(RSS)
60
88.45% 登顶 CyberGym:微软纳德拉官宣 MDASH 框架,协调 100+ 模型 AI 抓虫 Win11

微软CEO纳德拉宣布,其AI安全框架MDASH在5月补丁星期二中,协助发现了Windows 11系统120个已修复漏洞中的16个。MDASH是一个协调超过100个专用智能体的多模型扫描框架,采用对抗式流程以减少误报。该系统在私有驱动测试中实现零误报;在历史漏洞回溯中对特定组件召回率高达96%和100%;并在CyberGym公共基准测试中以88.45%的成绩领先。发现的漏洞涵盖多个关键组件,其中10个为内核态漏洞,包括严重的远程未授权释放后使用等问题。

智能体多模态安全/对齐
12:50
歸藏(guizang.ai)@op7418
36
用交互式PPT讲述天津五大道历史故事

作者在游览天津五大道时,尝试利用AI查询该区域复杂的历史背景,发现众多近代名人事件与此地相关。为此,他创新了PPT制作方式,将历史人物的故事卡片与可交互的嵌入式地图相结合进行展示。这种新排版旨在让演示内容更丰富、信息更详实,并计划在未来进行更多类似尝试,以提升PPT的信息承载与呈现能力。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

多模态教程/实践
12:50
Berryxia.AI@berryxia
精选76
oMLX更新强化苹果端侧AI,本地能力直逼云端

oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

GitHubMCP/工具多模态开源/仓库

推荐理由:oMLX 这个更新把 Gemma 4 的视觉能力塞进本地,加一键接入 Claude 的工具链,端侧 AI 从差点意思到真可用,值得每个 Mac 开发者立刻试一下。
12:44
HuggingFace Daily Papers(社区热门论文)
62
AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
56
Lite3R:一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。

arXivGitHub多模态论文/研究
12:27
Deedy@deedydas
58
世界模型:AI下一范式与重要解读

世界模型被视为AI继大语言模型后的关键新范式,过去18个月已获百亿美元投资,其核心承诺是通过规模化数据推动机器人基础模型发展。然而,该术语目前被广泛滥用,含义模糊。本文系统阐述了世界模型的五大特质,对比了不同技术路径,探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品,以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。

GoogleMeta具身智能多模态
11:50
歸藏(guizang.ai)@op7418
62
谷歌发布Gemini Intelligence,深度整合AI于安卓系统

谷歌在I/O大会上发布Gemini Intelligence,将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机,并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务(如在备忘录与购物应用间同步清单),以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本,并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件,如定制食谱或特定天气数据组件。此外,全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果,提升视觉体验。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体Google产品更新多模态
11:45
公众号:面壁智能(MiniCPM)
54
新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
多模态开源/仓库模型发布端侧
11:44
HuggingFace Daily Papers(社区热门论文)
61
VidSplat: 利用几何引导视频扩散先验进行高斯泼溅重建

VidSplat是一个免训练的生成式重建框架,旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验,迭代合成能够补偿缺失覆盖范围的新视角,从而从稀疏输入中恢复完整的3D场景。其核心创新包括:提出一种免训练的分阶段去噪策略,利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构;开发了一种迭代机制,通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性,在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。

多模态数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
50
MoCam: 通过结构化去噪动态实现统一的新视角合成

MoCam 提出了一种基于结构化去噪动态的新视角合成方法,旨在解决几何先验与外观先验在生成过程中的根本矛盾。该方法在扩散过程的早期阶段利用几何先验锚定粗略结构并容忍其不完整性,随后在后期阶段切换至外观先验以主动修正几何错误并细化细节。这种时序解耦设计自然统一了静态与动态视角合成。实验表明,MoCam 在点云存在严重孔洞或畸变时显著优于现有方法,实现了稳健的几何-外观解纠缠。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
66
CausalCine:用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine,一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示,并复用历史上下文。其核心是内容感知记忆路由(CAMR)机制,该机制依据注意力相关性动态检索历史关键信息,而非依赖时间邻近性,从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换,再将其蒸馏为少步生成器以实现实时交互。实验表明,CausalCine显著优于自回归基线,并接近双向模型能力,同时解锁了流式交互性。

arXiv多模态视频论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
64
图像即语句:用于统一视觉生成的交错指令扩展模型

针对现有方法在处理复杂交错指令时性能下降的问题,研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令,通过将视觉特征直接定位在对应语义位置,利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎,从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明,INSET在多图像一致性和文本对齐上显著优于现有方法,且优势随输入复杂性增加而扩大。此外,该模型能自然扩展到多模态图像编辑领域,实现高度表达性的视觉操控。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
66
超越最后一层:用于视觉分词的多层表征融合

现有视觉分词方法仅利用预训练编码器最后一层特征,丢弃了中间层的丰富信息。本研究提出DRoRAE,通过一个轻量级融合模块,采用能量约束路由与增量校正自适应聚合所有编码器层,生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上,该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律,从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
68
从网络到像素:将智能搜索引入视觉感知

本文研究开放世界视觉感知,提出“感知深度研究”挑战,即需先借助外部事实、事件或长尾知识解析可见对象身份,再进行像素级定位。为此,作者发布了WebEye基准,包含120张图像、473个对象实例及三个任务视图,并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明,Pixel-Searcher在开源模型中性能最优,主要失败源于证据获取、身份解析和视觉实例绑定环节。

多模态搜索论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
67
SenseNova-U1:基于NEO-unify架构统一多模态理解与生成

SenseNova-U1基于NEO-unify架构,首次将多模态理解与生成统一为单一原生范式,解决了传统视觉语言模型中两者割裂的问题。模型发布了8B参数稠密基线版本与30B激活参数混合专家基线版本。它们在文本理解、视觉语言感知、知识推理等任务上媲美顶尖纯理解模型,同时在图像合成、图文生成等任务中表现出优秀的语义一致性与视觉保真度。初步证据表明,该架构可进一步扩展至视觉语言动作与世界模型场景,为实现原生跨模态思考与行动提供了技术路径。

多模态论文/研究
10:39
IT之家(RSS)
55
全球合作中头部车企 20+:联发科天玑汽车平台产品出货量突破 3500 万,过去 5 年成长超 385%

联发科技在2026天玑开发者大会上宣布,天玑汽车平台出货量已突破3500万,过去五年增长超过385%。该平台与全球超过20家头部车企合作,进行中的定点项目超190个。AI定义汽车时代已来临,天玑AIDV智能体座舱支持全模态交互、主动式服务、并发任务执行和端云协同,赋能智能汽车体验创新。

多模态端侧行业动态
09:49
ginobefun@hongming731
76
OpenAI Codex新增Computer Use能力,AI助手操作桌面软件

OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。

智能体MCP/工具OpenAI产品更新
09:39
IT之家(RSS)
35
微软推送 Win11 26H1 五月累积更新,增强辅助功能和系统交互

微软于5月12日向Windows 11 26H1系统推送了KB5089548累积更新,版本号升至Build 28000.2113。本次更新重点增强了辅助功能和系统交互:讲述人功能现可联动Copilot,通过快捷键描述图片或屏幕内容;智能应用控制的开关可直接在安全中心调整。设置应用界面获得更新,包括重新设计的账户对话框、支持深色主题以及更清晰的设备规格展示。此外,更新还修复和改进了多项细节,如支持高刷新率显示器、优化USB4显示器功耗、提升HDR稳定性、改进远程桌面显示及部分游戏兼容性。

Microsoft产品更新多模态
08:49
Berryxia.AI@berryxia
69
Google DeepMind推出AI化鼠标指针,实现手势语音操控Gemini

Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。

智能体Google产品更新多模态
08:49
Berryxia.AI@berryxia
65
Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态
08:49
Berryxia.AI@berryxia
56
Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜

Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。

Meta产品更新多模态语音
08:41
meng shao@shao__meng
65
Gemini Intelligence 登陆 Android,系统升级为主动型AI平台

Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。

Sundar Pichai: Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...

智能体Google产品更新多模态
08:22
小互@xiaohu
59
Google将Gemini升级为Android系统级AI大脑

Google将Gemini从聊天机器人升级为Android的“系统级大脑”,重新定义了下一代Android的架构。新架构从过去的“App + 系统”转变为“AI理解层 + 系统 + App”。Gemini作为主动式AI,能主动理解用户当前行为、潜在意图、可协同的App,并自动执行下一步任务。其核心目标是改变“人操作App”的传统手机逻辑,让AI直接理解用户意图并实现跨App的自动执行。

Google产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
49
当视觉代言听觉

研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。

arXivGoogleOpenAI多模态
08:00
HuggingFace Daily Papers(社区热门论文)
57
Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
60
CiteVQA:面向可信文档智能的证据归因评测基准

当前多模态大语言模型的文档问答评估仅核对答案,忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案,却引用了错误的文段,在法律等高风险领域构成重大风险。为此,研究团队推出了CiteVQA基准测试,要求模型为每个答案提供元素级的边界框引用,并对两者进行联合评估。该基准包含711份PDF文档、1897个问题,其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题,最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
68
提升全模态语言模型:基于视觉去偏评估的分阶段后训练

研究发现,现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题,可能夸大模型性能。为此,我们通过视觉探测清洗九个基准,构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型,提出了三阶段后训练方案OmniBoost:混合双模态监督微调、混合模态RLVR训练,以及在自蒸馏数据上的微调。实验表明,平衡的双模态微调提升有限,RLVR首次带来广泛改进,而自蒸馏则重塑了模型的基准表现。最终,该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展,且小模型可通过分阶段后训练与自蒸馏监督显著提升。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准,包含756张互不相交的Jordan曲线图像,涵盖五种配置。每张图像标注了编码区域包含关系的根树,任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单,但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%,在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调,其在简易集上的准确率从2.8%提升至33.3%,超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明,精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
PanoWorld:迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足,研究提出PanoWorld模型。现有方法通常将全景图分解为透视图,忽略了其连续的球面几何结构。为此,本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据,并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上,PanoWorld显著超越了现有开源与专有基线。结果表明,稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv具身智能多模态论文/研究
07:57
Chubby♨️@kimmonismus
55
Thinking Machines创造了OpenAI一年半前承诺我们的先进语音模式。 就这样,我说出来了。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
07:52
小互@xiaohu
60
Google发布AI笔记本平台Googlebook,Gemini驱动智能操作

Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。

智能体Google产品更新多模态
07:26
Hacker News 热门(buzzing.cc 中文翻译)
50
为人工智能时代重新构想鼠标指针

DeepMind重新构想人工智能时代的鼠标指针,将其从简单的图形符号转变为动态的、情境感知的AI交互界面。新指针能根据用户当前任务和屏幕内容智能变化形态与功能,例如在文本编辑时变为书写工具,在分析数据时可视化显示相关信息。这一设计旨在减少传统图形界面中的频繁窗口切换,通过指针直接提供上下文辅助,提升人机协作效率,标志着输入设备从被动工具向主动协作伙伴的演进。

DeepMind多模态现象/趋势
06:38
Demis Hassabis@demishassabis
精选81
团队正在用AI重新构想鼠标指针,成果非常酷!在@GoogleAIStudio尝试原型版本,体验相当神奇。 【引用 @GoogleDeepMind】:我们正用AI重新构想这个存在50年的界面--鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写,在屏幕上直观操控Gemini完成任务🧵

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

Google产品更新多模态语音

推荐理由:用了50年的鼠标指针第一次被AI改造,这个原型让你在屏幕上随手画圈、说话、打缩写就能控制Gemini,产品经理和设计师都该去玩一下。
05:44
HuggingFace Daily Papers(社区热门论文)
66
GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式,以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上,通过轻量级行列表探测,利用冻结视觉语言模型在答案空间中评估证据,并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算,实现测试时计算量自适应调整。实验表明,在Video-MME-v2基准上,计算量降低3.36倍,平均准确率损失控制在1.6个百分点内;在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合,无需重新训练即可提升性能。

多模态推理论文/研究
05:05
🚨 AI News | TestingCatalog@testingcatalog
63
Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能

Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

Meta Newsroom: Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...

Meta产品更新图像生成多模态
03:54
StepFun@StepFun_ai
72
Step Image Edit 2图像模型发布,性能领先且高效

Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。

图像生成多模态模型发布
01:35
🚨 AI News | TestingCatalog@testingcatalog
70
GOOGLE 🔥: 在Android Show 2026上推出了全新的Android Intelligence! - 全新的时尚设计! - 跨安卓应用的自动化多步骤任务 - Chrome中的Gemini获得浏览器使用功能 - 自动表单填写 - "Rambler"可将语音笔记转为文本 - 自定义Gen UI小组件 我现在就需要一台Pixel 👀
智能体Google产品更新多模态
01:27
Chubby♨️@kimmonismus
64
Google DeepMind用AI重塑鼠标指针,开启人机交互新范式

Google DeepMind基于Gemini模型,对沿用五十余年的鼠标指针进行了AI化革新。新的智能指针能实时识别屏幕内容、理解上下文,并响应语音指令,用户通过指向和自然语言即可直接操作,无需复制粘贴或与聊天窗口交互。该技术已推出实验性演示,集成于Chrome和Google AI Studio,旨在提供更直观的交互方式,可能推动传统聊天机器人界面的变革。

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

产品更新多模态
01:11
Google DeepMind@GoogleDeepMind
52
我们正用AI重新构想一个存在50年的界面--鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写 直观地指挥屏幕上的Gemini完成任务 🧵
Google产品更新多模态
00:33
OpenRouter@OpenRouter
精选69
Perceptron Mk1已在OpenRouter上线,由@perceptroninc开发。 前沿视频与具身推理的视觉语言模型。以动态帧率(最高2 FPS)分析视频,具备32k多模态上下文,采用混合推理和结构化空间基元(点、框、多边形、片段)作为首要输出。
多模态推理模型发布

推荐理由:将视频理解提升到结构化空间输出,动态帧率分析让模型能真正「看懂」动作,做具身智能的开发者可以关注。
‹ 上一页
1…3435363738…50
下一页 ›