AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
4月27日周一
15:19IT之家(RSS)35WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版开售:支持华为小艺大模型,499 元
15:19IT之家(RSS)40何小鹏:部分复杂路况下 VLA 已胜过特斯拉 FSD,8 月力争全面反超
13:48Berryxia.AI55基于AI多模态的macOS右键智能批量重命名工具
13:21小互62蚂蚁灵光App上线手机端世界模型体验功能
12:00向阳乔木48全模态测试遇阻,开发者改造开源UI适配多模型
11:18IT之家(RSS)48世界模型首次搬进手机:蚂蚁灵光 App 今日上线「体验世界模型 」功能
08:00HuggingFace Daily Papers(社区热门论文)49扩散模型作为通用分割学习器
08:00HuggingFace Daily Papers(社区热门论文)47X2SAM:面向图像与视频的统一分割多模态大语言模型
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Nano Omni:高效开放的多模态智能模型
08:00HuggingFace Daily Papers(社区热门论文)53AutoGUI-v2:一个综合性的多模态GUI功能理解基准
08:00HuggingFace Daily Papers(社区热门论文)53Meta-CoT:增强图像编辑中的细粒度与泛化能力
02:53Chubby♨️36WWDC三大亮点:新CEO与AI深度集成
4月26日周日
23:20向阳乔木21TwelveLabs公司命名引发热议
23:19Berryxia.AI60微软开源TRELLIS.2:单图3秒生成高质量3D模型
08:00HuggingFace Daily Papers(社区热门论文)44Talker-T2AV:基于自回归扩散建模的联合语音-视频生成
06:51Greg Brockman22恍然大悟,《信条》剧情终获解读
4月25日周六
21:14IT之家(RSS)38"华为眼镜"App 鸿蒙版 1.0.1.356 更新推送,新增小艺看世界、自动开机等,支持 4:3 比例录制视频
20:49TestingCatalog News 🗞33谷歌Gemini新增使用限制与图像标签
19:13Berryxia.AI56开源OCR模型性能突破,支持90余种语言与完整布局解析
08:00HuggingFace Daily Papers(社区热门论文)44OceanPile:面向基础模型的大规模多模态海洋语料库
00:20AK39Omni模型实现上下文展开技术
4月24日周五
19:17HuggingFace Daily Papers(社区热门论文)57基于结构化运动描述的无编码器人体运动理解
14:00公众号:火山引擎49新一代汽车AI解决方案发布, 豆包大模型搭载超700万辆车
11:19AK44视频时序流学习新研究
11:17HuggingFace Daily Papers(社区热门论文)56快慢之间:学习视频中的时间流
11:17HuggingFace Daily Papers(社区热门论文)61Omni模型中的上下文展开机制
11:17HuggingFace Daily Papers(社区热门论文)48StyleID:一个用于风格无关人脸身份识别的感知感知数据集与评估指标
10:54Ethan Mollick62AI生成港口城镇六千年演变模拟
08:00Apple Machine Learning Research(RSS)48Learning Long-Term Motion Embeddings for Efficient Kinematics Generation
08:00HuggingFace Daily Papers(社区热门论文)52FlowAnchor:稳定免反演视频编辑中的编辑信号
00:07Saining Xie72Vision🍌发布:计算机视觉迎来静默变革
4月23日周四
10:00公众号:阶跃星辰(Step)49官宣!阶跃和千里科技,达成全面战略合作!
08:00HuggingFace Daily Papers(社区热门论文)47探究图像编辑模型中的视觉规划能力
08:00HuggingFace Daily Papers(社区热门论文)59Seeing Isn't Believing: 揭示评估型视觉-语言模型的盲点
08:00HuggingFace Daily Papers(社区热门论文)63Sapiens2
08:00HuggingFace Daily Papers(社区热门论文)57SketchVLM:视觉语言模型可通过标注图像解释思路并引导用户
00:16Gary Marcus:The Road to AI We Can Trust(RSS)ChatGPT 连胡须与肘部都分不清
00:05公众号:小米 MiMo54Xiaomi MiMo-V2.5 系列大模型开启公测
4月22日周三
22:16Chubby♨️AI/ML API 联合 MiniMax 推出限时模型优惠活动
21:14Rohan Paul好吧,我曾经向 Runable 提过一次我的品牌。 而且它似乎处处都记得。幻灯片、图片、轮播图全都呈现出相同的外观(色调、布局、层级、间距、图片风格)。 而且桌面到手机的切换感觉异常流畅。简直不可思议。 一致性是让 AI 输出可用于生产环境的关键。
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月27日
15:19
IT之家(RSS)
35
WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版开售:支持华为小艺大模型,499 元

WIKO发布情感陪伴AI电子宠物“智能憨憨”蜂窝版,售价499元。新品支持Wi-Fi和4G蜂窝网络,可携带至户外使用。其核心搭载华为小艺大模型,具备多模态互动能力,能响应摸头、摇晃、语音等指令,并支持碰一碰加好友功能。该设备兼容鸿蒙、安卓、iOS系统,提供MBTI性格养成和专属日记记忆系统。相比2025年11月上市的普通版(定价399元),蜂窝版新增了移动网络连接能力。

产品更新多模态
15:19
IT之家(RSS)
40
何小鹏:部分复杂路况下 VLA 已胜过特斯拉 FSD,8 月力争全面反超

小鹏汽车CEO何小鹏在北京车展宣布,其VLA智驾系统已在城市支路、乡村道路及复杂穿行路段等特定场景下超越特斯拉FSD,通行效率和纵向控制如跟车、应对加塞表现更优。他设定明确目标,计划在2026年8月于中国市场实现VLA综合能力全面反超FSD。何小鹏指出,VLA在横向路径规划和极端掉头场景仍有优化空间,但中国高密度道路环境是权威验证场域,若成功超越将标志技术领先。

智能体多模态大佬观点
13:48
Berryxia.AI@berryxia
55
基于AI多模态的macOS右键智能批量重命名工具

一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。

小耳👂Jane|Xiaoer: 我是一个 AI Builder & Learn in Publish 👇 🔥一键让AI帮你改文件名🔥 你是不是有这种情况: 📁 截图全叫 Screenshot 2026-04-23 at 14.32.48 📁 下载图清一色 IMG...

Google产品更新多模态
13:21
小互@xiaohu
62
蚂蚁灵光App上线手机端世界模型体验功能

蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。

产品更新具身智能多模态
12:00
向阳乔木@vista8
48
全模态测试遇阻,开发者改造开源UI适配多模型

开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。

多模态开源/仓库部署/工程
11:18
IT之家(RSS)
48
世界模型首次搬进手机:蚂蚁灵光 App 今日上线「体验世界模型 」功能

蚂蚁集团全模态AI助手灵光App今日正式上线“体验世界模型”功能,首次将世界模型应用于手机端。用户上传一张图片,即可在几秒钟内生成对应的3D世界,并能通过摇杆控制以第一人称视角自由漫步探索,体验类似游戏。该功能基于蚂蚁灵波LingBot-World-Fast世界模型,该模型已对外开源。

产品更新图像生成多模态
08:00
HuggingFace Daily Papers(社区热门论文)
49
扩散模型作为通用分割学习器

研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
X2SAM:面向图像与视频的统一分割多模态大语言模型

X2SAM是一个统一的分割多模态大语言模型,它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块,能依据对话指令和视觉提示生成时间一致的视频掩码,并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD,用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练,X2SAM在视频分割上表现优异,在图像分割基准上保持竞争力,同时保留了通用的图像与视频对话能力。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Nano Omni:高效开放的多模态智能模型

Nemotron 3 Nano Omni是该系列最新模型,首次原生支持音频、文本、图像和视频输入。通过架构、训练数据及方法的改进,其在所有模态上的准确性均超越前代Nemotron Nano V2 VL,尤其在真实文档理解、长音视频理解和智能体计算机使用方面表现领先。该模型基于高效的Nemotron 3 Nano 30B-A3B骨干网络,并融入创新的多模态令牌缩减技术,实现了比同类规模模型更低的推理延迟和更高的吞吐量。为促进后续研发,团队发布了BF16、FP8和FP4格式的模型检查点,以及部分训练数据和代码库。

多模态开源生态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
53
AutoGUI-v2:一个综合性的多模态GUI功能理解基准

为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。

智能体多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
Meta-CoT:增强图像编辑中的细粒度与泛化能力

Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。

图像生成多模态论文/研究
02:53
Chubby♨️@kimmonismus
36
今年的WWDC将是最令人兴奋的一届。 - 新任苹果首席执行官 - 首次将实用的AI模型深度集成到iOS中(Gemini) - 期待全新的macOS功能。 真希望我能亲临现场
Google多模态大佬观点
4月26日
23:20
向阳乔木@vista8
21
真会起名,TwelveLabs…
多模态行业动态
23:19
Berryxia.AI@berryxia
60
微软开源TRELLIS.2:单图3秒生成高质量3D模型

微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。

Microsoft多模态开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
44
Talker-T2AV:基于自回归扩散建模的联合语音-视频生成

Talker-T2AV提出了一种自回归扩散框架,用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦:一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端,更符合语音驱动面部合成任务的特点。在语音肖像基准测试中,该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线,实现了比级联方法更强的跨模态一致性。

多模态视频论文/研究
06:51
Greg Brockman@gdb
22
哦,原来《信条》讲的是这个 【引用 @umesh_ai】:ChatGPT Images 2.0 explains "Tenet" in a simple way!

Umesh: ChatGPT Images 2.0 explains "Tenet" in a simple way!

OpenAI其他多模态
4月25日
21:14
IT之家(RSS)
38
"华为眼镜"App 鸿蒙版 1.0.1.356 更新推送,新增小艺看世界、自动开机等,支持 4:3 比例录制视频

“华为眼镜”App鸿蒙版推送1.0.1.356更新,新增多项功能。主要更新包括:在应用首页新增“小艺看世界”功能入口;应用设置中增加定制开关机功能,支持眼镜清晨自动唤醒;相机设置新增4:3视频比例选项,以扩大纵向录像视野;新增手表协同功能,可通过手表遥控眼镜拍照。该App配套的华为AI眼镜已于近日发布,起售价为2499元。

产品更新多模态端侧
20:49
TestingCatalog News 🗞@testingcatalog
33
Google正在为Gemini开发"使用限制"板块和新的"图像"标签。 > 目前尚不清楚我们是否能在Google I/O期间迎来新的图像模型,或者是否会看到带有图像编辑等额外功能的新图像板块。 > 使用限制标签符合Gemini更广泛的发展方向,我们预计其桌面应用将扩展包含更多智能体功能。AI Studio已与Gemini共享使用限制。 超级Gemini应用 👀
Google产品更新多模态
19:13
Berryxia.AI@berryxia
56
开源OCR模型性能突破,支持90余种语言与完整布局解析

一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

多模态开源/仓库模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
44
OceanPile:面向基础模型的大规模多模态海洋语料库

为突破海洋人工智能面临的数据瓶颈,研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据,构建了统一集合OceanCorpus;通过分层海洋知识图谱引导,生成了高质量指令数据集OceanInstruction;并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明,基于该数据训练的模型性能显著提升。全部数据集已开源,旨在推动海洋专用多模态大模型的发展。

多模态数据/训练论文/研究
00:20
AK@_akhaliq
39
Omni模型中的上下文展开 paper: https://huggingface.co/papers/2604.21921
Hugging Face多模态论文/研究
4月24日
19:17
HuggingFace Daily Papers(社区热门论文)
57
基于结构化运动描述的无编码器人体运动理解

本文提出结构化运动描述(SMD)方法,通过基于规则的确定性转换,将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型(LLM)能直接运用其预训练知识进行运动推理,无需学习专用的运动编码器或对齐模块。SMD在运动问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和运动描述(HumanML3D上R@1为0.584)任务上均超越现有最佳方法。其实用优势包括:同一文本输入经轻量级LoRA适配即可跨多种LLM使用,且其人类可读的表示支持可解释的注意力分析。

多模态数据/训练论文/研究
14:00
公众号:火山引擎
49
新一代汽车AI解决方案发布, 豆包大模型搭载超700万辆车
多模态端侧行业动态
11:19
AK@_akhaliq
44
看见快与慢 学习视频中的时间流 论文: https://huggingface.co/papers/2604.21931
多模态视频论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
56
快慢之间:学习视频中的时间流

本研究将时间作为可学习的视觉概念,开发了用于推理与操控视频时序的模型。通过自监督学习,模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此,我们从真实世界视频中构建了最大的慢动作数据集。利用该数据,我们进一步开发了具备时序控制能力的模型,包括按指定速度生成运动的“速度条件视频生成”,以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度,为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。

多模态视频论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
61
Omni模型中的上下文展开机制

研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。

多模态推理论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
48
StyleID:一个用于风格无关人脸身份识别的感知感知数据集与评估指标

研究针对创意人脸风格化中身份保持的评估难题,提出了StyleID数据集与评估框架。该框架包含两个部分:StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断;StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调,使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明,校准后的模型与人类判断的相关性显著提升,并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。

图像生成多模态论文/研究
10:54
Ethan Mollick@emollick
62
我让一系列模型通过一个指令"为我创建一个程序生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变过程"。 你可以在这里体验完整画廊:https://hg-20f7d1a3ce.netlify.app 或者在此阅读我关于GPT-5.5的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true
OpenAI多模态大佬观点
08:00
Apple Machine Learning Research(RSS)
48
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
FlowAnchor:稳定免反演视频编辑中的编辑信号

研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。

多模态视频论文/研究
00:07
Saining Xie@sainingxie
72
vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感--某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
图像生成多模态论文/研究
4月23日
10:00
公众号:阶跃星辰(Step)
49
官宣!阶跃和千里科技,达成全面战略合作!
多模态端侧行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
47
探究图像编辑模型中的视觉规划能力

研究提出“编辑即推理”(EAR)新范式,将视觉规划重构为单步图像转换任务,以提升计算效率。为分离推理与识别能力,团队创建了抽象谜题数据集AMAZE,包含迷宫和皇后两类任务,支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现,主流编辑模型在零样本设置下表现不佳,但经基础尺度微调后,能良好泛化至更大尺度及域外几何形状。然而,最佳模型在零样本效率上仍不及人类,揭示了神经视觉推理领域的持续差距。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
Seeing Isn't Believing: 揭示评估型视觉-语言模型的盲点

研究系统评估了用于评估其他模型输出的视觉-语言模型(VLMs)的可靠性。通过引入超过40个扰动维度、涵盖4000多个扰动实例的基准测试,对4个主流VLMs在图像到文本和文本到图像任务中的表现进行了检验。结果显示,当前评估型VLMs存在显著盲点:它们时常无法检测出质量已下降的输出,在某些情况下漏检率超过50%;尤其难以识别细粒度的组合性与空间错误;对于与输入图像相矛盾的幻觉内容也常不敏感。尽管成对比较范式相对更可靠,但失误率依然存在。这些发现凸显了当前评估型VLMs的不可靠性,警示在将其用于基准测试和开发决策时需保持谨慎。相关代码与数据已公开。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
Sapiens2

Sapiens2是一个专注于以人为中心的视觉任务的高分辨率Transformer模型家族,旨在实现泛化性、多功能性和高保真输出。模型参数量从4亿到50亿不等,原生支持1K分辨率,其分层变体可支持4K。相比前代,Sapiens2在预训练和后训练阶段均有显著改进:结合了掩码图像重建与自蒸馏对比目标以学习兼顾低级细节和高级语义的特征;在10亿张高质量人体图像数据集上进行预训练,并提升了任务标注的质量与数量;架构上吸收了前沿模型的进展,支持更长的稳定训练。其4K模型采用窗口注意力机制处理更长空间上下文,并以2K输出分辨率进行预训练。该模型在姿态估计、身体部位分割、法线估计等任务上刷新了最佳性能,并扩展了点云图和反照率估计等新任务。

Meta多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
SketchVLM:视觉语言模型可通过标注图像解释思路并引导用户

SketchVLM 是一个无需训练、模型无关的框架,能让 Gemini-3-Pro、GPT-5 等视觉语言模型在输入图像上生成非破坏性、可编辑的 SVG 标注层,以视觉化方式解释其答案。该框架在涵盖视觉推理与绘图的七项基准测试中,将视觉推理任务准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,且生成的标注更忠实于模型给出的答案。单轮生成已能实现较高的准确率与标注质量,多轮生成为人机协作提供了更多可能。

智能体多模态论文/研究
00:16
Gary Marcus:The Road to AI We Can Trust(RSS)
ChatGPT 连胡须与肘部都分不清

(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)

OpenAI多模态大佬观点
00:05
公众号:小米 MiMo
54
Xiaomi MiMo-V2.5 系列大模型开启公测
智能体多模态模型发布
4月22日
22:16
Chubby♨️@kimmonismus
AI/ML API 联合 MiniMax 推出限时模型优惠活动

AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。

AI/ML API: Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...

产品更新多模态视频
21:14
Rohan Paul@rohanpaul_ai
好吧,我曾经向 Runable 提过一次我的品牌。 而且它似乎处处都记得。幻灯片、图片、轮播图全都呈现出相同的外观(色调、布局、层级、间距、图片风格)。 而且桌面到手机的切换感觉异常流畅。简直不可思议。 一致性是让 AI 输出可用于生产环境的关键。

Umesh Kumar: The power to create anything is now in your pocket. Runable is now live on the App Store. Try it, tell us what sucks.

产品更新图像生成多模态
‹ 上一页
1…4445464748…50
下一页 ›