AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
4月30日周四
08:00OpenRouter:Announcements(RSS)54April Release Spotlight
07:39Berryxia.AI52Moonlake推出3D Agent:AI自动化生成可编辑3D资产
07:34IT之家(RSS)45苹果 AI 眼镜曝光:内置 2 颗摄像头、支持 Siri 智能交互、可手势控制
07:34IT之家(RSS)21IT早报 0430:微信朋友圈灰度改版;追觅回应造车质疑;小米自研芯片玄戒 O3 曝光;DeepSeek 灰度"识图模式"
06:21Luma58无需重拍实现视频全球化
06:09Greg Brockman40GPT Image 2助力应用开发效果惊艳
04:39Rohan Paul57Abacus AI Studio上线整合百余AI模型
04:13Google AI Developers55Gemini 3.1 Flash 实时DJ功能演示
02:08Google Gemini38Gemini Discord创意演示活动即将开始
00:36Tomer Tunguz 博客(VC 分析)57精选AI推理市场的专业化分化
4月29日周三
23:40TestingCatalog News 🗞55DeepSeek发布图像理解测试版功能
22:40TestingCatalog News 🗞65ElevenLabs推出ElevenMusic音乐平台
22:37歸藏(guizang.ai)54Deepseek 的多模态模型全量了。 目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型
22:15向阳乔木38DeepSeek 的识图模式速度好快啊!这是新出的吗? 上传图片,让反推提示词,秒出~
22:15向阳乔木29新版AI识图功能上线,速度惊人但交互设计引质疑
22:15向阳乔木47DeepSeek识图速度与网页复刻表现突出
22:13meng shao56商汤 SenseNova-U1 架构创新:统一语言视觉表征
22:10TestingCatalog News 🗞54SenseTime开源多模态图像生成模型SenseNova-U1,基于NEO-Unify架构
17:41The Decoder:AI News(RSS)55通过 Nemotron 3 Nano Omni,Nvidia 揭示了现代多模态模型的真实构成
17:33IT之家(RSS)52DeepSeek 终于能"看图"了!灰度"识图模式",图片理解功能内测
17:16SenseTime56SenseNova U1原生多模态模型开源
17:11小互44Deepseek内测多模态 图像识别助力Agent
16:46SenseTime65精选SenseNova U1上线Hugging Face与GitHub
14:49Alibaba Cloud64精选HappyHorse 1.0 在 fal 平台上线
14:40Hacker News 热门(buzzing.cc 中文翻译)59克劳德:创意作品
14:35-Zho-16这才是 AI 的正确用法哈哈哈哈哈哈哈哈哈
13:33IT之家(RSS)50Adobe Photoshop 引入 AI 3D 旋转对象功能,光影可自动匹配
13:10宝玉64分享"Neon Sketch"混合媒介AI绘画提示词模板
12:38ginobefun38理想个人AI助手七大标准,尚无产品能全满足
11:35阿绎 AYi49Adobe与Claude合作被指战略投降,创意工具霸主或降级为AI插件
10:38HuggingFace Daily Papers(社区热门论文)47IAM: 身份感知的人体运动与形状联合生成
10:38HuggingFace Daily Papers(社区热门论文)48通过再生实现精修:扩大修改空间提升统一多模态模型的图像精修能力
10:38HuggingFace Daily Papers(社区热门论文)56互促学习:面向快速自回归音视频角色生成的双模式自演进框架
09:38ginobefun49NVIDIA发布多模态模型Nemotron 3 Nano Omni
08:38Berryxia.AI65🚀 OpenBMB 重磅发布!MiniCPM-o 4.5 技术报告来了!
08:33IT之家(RSS)65英伟达推出 Nemotron 3 Nano Omni 模型:采用 30B-A3B 混合 MoE 架构,吞吐量最高提升 9.2 倍
08:00HuggingFace Daily Papers(社区热门论文)54ComboStoc:扩散生成模型中的组合随机性
08:00Apple Machine Learning Research(RSS)45DSO: 用于缓解偏见的直接引导优化
08:00HuggingFace Daily Papers(社区热门论文)56协同进化策略蒸馏(CoPD)
07:38Berryxia.AI45Apple Vision Pro辅助完成全球首例白内障手术
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
08:00
OpenRouter:Announcements(RSS)
54
April Release Spotlight

本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。

智能体产品更新多模态模型发布
07:39
Berryxia.AI@berryxia
52
Moonlake推出3D Agent:AI自动化生成可编辑3D资产

Moonlake发布3D Agent,这是一个AI驱动的工具,能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景(包含数百物体)。它支持从零建模,自动处理独立部件和关节绑定,无需预设规则,并能重建完整可编辑的室内或室外场景。通过原生集成Blender,该工具实现了真实工作流的自动化,简化3D创作过程。

智能体产品更新多模态
07:34
IT之家(RSS)
45
苹果 AI 眼镜曝光:内置 2 颗摄像头、支持 Siri 智能交互、可手势控制

据报道,苹果正加速研发其首款智能眼镜,预计与Meta Ray-Bans等产品竞争。该产品定位并非完整AR设备,核心聚焦于拍摄、语音助手和手势控制。硬件上配备两颗摄像头:高分辨率主摄用于拍照录像,低分辨率广角镜头则用于手势识别并为Siri提供环境视觉。为保障续航与轻薄,眼镜不内置显示屏及LiDAR等模块,并采用醋酸纤维材料提升佩戴舒适度。系统将搭载更智能的Siri,支持拍照、通话及环境交互。产品可能于2026年晚些时候预览,2027年正式上市。

多模态端侧行业动态
07:34
IT之家(RSS)
21
IT早报 0430:微信朋友圈灰度改版;追觅回应造车质疑;小米自研芯片玄戒 O3 曝光;DeepSeek 灰度"识图模式"

微信朋友圈正进行灰度改版,将文字描述移至配图上方,并新增“时间轴相册”入口。追觅正式回应造车质疑,宣布其高端新能源品牌“星空计划”首款概念车零百加速0.9秒,采用“华为模式”合作造车,量产车计划于2027年上市。小米下一代自研芯片“玄戒O3”信息曝光,主频突破4GHz。DeepSeek大模型正灰度测试具备多模态识别能力的“识图模式”。此外,比亚迪方程豹钛7 EV闪充版上市,福特改装版Mustang创下全美400米加速最快电车纪录。

多模态开源生态行业动态
06:21
Luma@LumaLabsAI
58
优质内容值得拥有全球观众。 上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容,触达所有需要的地方。 走向全球 → http://lumalabs.ai/app
智能体产品更新多模态视频
06:09
Greg Brockman@gdb
40
我对GPT Image 2在应用构建中的实用性感到非常惊喜: 【引用 @romainhuet】:GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中,因此Codex可以为您处理从设计到应用的循环。👌

Romain Huet: GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...

OpenAI图像生成多模态大佬观点
04:39
Rohan Paul@rohanpaul_ai
57
Abacus 刚刚推出了 Abacus AI Studio。 将 100 多种 AI 模型,以及图像、视频和语音功能,整合进一个仪表板。

Abacus.AI: 🚨 Excited To Launch Abacus AI Studio Use 100+ Top AI Video And Image Models on Abacus AI Studio Use an agentic loop alo...

产品更新多模态
04:13
Google AI Developers@googleaidevs
55
观看 @thorwebdev 的这个演示,看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用(调用 Gemini API),通过 Lyria 3️⃣ 生成定制的 30 秒片段。 在 @GoogleAIStudio 中开启你自己的工作室会话:http://goo.gle/3PbcCXJ
Google多模态教程/实践
02:08
Google Gemini@GeminiApp
38
这场活动即将开始!在此处加入Gemini Discord:http://discord.gg/gemini 【引用 @GeminiApp】:准备好用Gemini Canvas释放你的创造力了吗?🪄 不要错过我们下一次的Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升自己的创意提示技巧。 🗓️ 4月29日,星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

Google Gemini: Ready to unlock your creativity with Gemini Canvas? 🪄 Don't miss our next Discord event to see Gemini Creative Technolo...

Google多模态教程/实践
00:36
Tomer Tunguz 博客(VC 分析)
精选57
AI推理市场的专业化分化

AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由:Tomer 把推理市场跟数据库市场做类比,碎片化的逻辑讲得很透,做 AI 基础设施的朋友能直接用来梳理自己的赛道,普通人知道这么回事就行。
4月29日
23:40
TestingCatalog News 🗞@testingcatalog
55
DeepSeek 发布了 DeepSeek Vision 测试版,这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

testtm: Deepseek Vision 👀

DeepSeek产品更新多模态
22:40
TestingCatalog News 🗞@testingcatalog
65
ElevenLabs 推出 ElevenMusic 平台 🔥 ElevenMusic 基于 ElevenLabs 音乐生成模型构建,现已在网页端和移动端上线。

ElevenLabs: Today we are launching ElevenMusic, a new platform to discover, remix, create, and earn from music, built on the ElevenL...

产品更新多模态
22:37
歸藏(guizang.ai)@op7418
54
Deepseek 的多模态模型全量了。 目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型
DeepSeek多模态模型发布
22:15
向阳乔木@vista8
38
DeepSeek 的识图模式速度好快啊!这是新出的吗? 上传图片,让反推提示词,秒出~
DeepSeek产品更新多模态
22:15
向阳乔木@vista8
29
用户已体验新版AI识图功能,对其处理速度表示震惊。但质疑网页端为何将"识图模式"设为独立标签页,认为这种交互设计不自然,希望未来能整合到所有模式中。同时,用户关注API何时能支持识图功能,强调这对开发者至关重要。引用推文"Now, we see you. 👀"暗示了模型已具备视觉感知能力,是此次功能升级的核心背景。

Xiaokang Chen: Now, we see you. 👀

多模态大佬观点
22:15
向阳乔木@vista8
47
DeepSeek 的识图模式速度实在是太快了。 网页复刻还原度相当不错,这下前端开发就更好用了。 DeepSeek牛逼!
DeepSeek多模态大佬观点
22:13
meng shao@shao__meng
56
商汤 SenseNova-U1 架构创新:统一语言视觉表征

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式,视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构,直接移除翻译层,使语言和视觉在同一表征空间中运行。因此,模型能在单次推理中同步完成图像理解、推理和生成等任务,而非分步处理,提升了多模态交互的效率和连贯性。

多模态大佬观点开源生态
22:10
TestingCatalog News 🗞@testingcatalog
54
SenseTime开源了基于NEO-Unify架构的多模态图像生成模型SenseNova-U1。该架构完全摒弃了传统视觉编码器和VAE,原生地将理解、推理和生成统一为一个系统。该系列模型(8B和A3B参数)在开源模型中效率领先,以紧凑尺寸提供商业级性能与出色成本效益。其特色功能包括原生生成图文交织内容,适用于制作指南等实用场景;并擅长高密度信息渲染,能生成知识插图、海报、PPT和漫画等丰富结构的布局。模型已在Hugging Face和GitHub等平台开源。

SenseTime: SenseNova U1 Lite Series is now open source! Built on the NEO-unify architecture, it natively unifies multimodal underst...

图像生成多模态开源生态模型发布
17:41
The Decoder:AI News(RSS)
55
通过 Nemotron 3 Nano Omni,Nvidia 揭示了现代多模态模型的真实构成

Nvidia 发布了开源多模态模型 Nemotron 3 Nano Omni,该模型能够处理文本、图像、视频和音频。其引人关注之处不仅在于性能表现,更在于其训练数据的构成。模型的部分训练数据来源于 Qwen、GPT-OSS、Kimi 和 DeepSeek OCR 等多个知名项目,这揭示了构建现代多模态模型所需数据集的多样性与复杂性。

多模态开源生态模型发布
17:33
IT之家(RSS)
52
DeepSeek 终于能"看图"了!灰度"识图模式",图片理解功能内测

DeepSeek已灰度测试“识图模式”,新增多模态图片理解功能,用户可上传图片并获取描述。该模式与“快速模式”“专家模式”并列,并非简单OCR文字识别。部分测试用户反馈响应速度很快,类似flash;但亦有用户遇到“识图模式暂不可用”提示。网络响应内容显示该功能模型类型为“vision”,状态为“图片理解功能内测中”。

DeepSeek产品更新多模态
17:16
SenseTime@SenseTime_AI
56
感谢 @liuziwei7 与我们共同创造 #多模态智能 的未来!

Ziwei Liu: 🔥Native Unified Multimodal Model Open Sourced🔥 🚀SenseNova U1🚀 is the first native multimodal model that unifies mult...

Hugging Face多模态开源生态模型发布
17:11
小互@xiaohu
44
Deepseek 内测多模态能力 现在可以识别图像 对于Agent执行能力提升有很大帮助… 【引用 @PKUCXK】:Now, we see you. 👀

Xiaokang Chen: Now, we see you. 👀

智能体DeepSeek多模态模型发布
16:46
SenseTime@SenseTime_AI
精选65
是的,SenseNova U1 现已在 Hugging Face 和 GitHub 上发布! 探索它如何以语义精确性和像素级保真度实现复杂的 #信息图 创作。 Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1 GitHub: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/cxkwXWjp

AK: SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1

Hugging Face图像生成多模态模型发布

推荐理由:SenseNova U1 开源了,能生成像素级精准的信息图,对于做电商和可视化的人是个直接可用的工具,值得跑一下看看实际表现。
14:49
Alibaba Cloud@alibaba_cloud
精选64
HappyHorse 1.0 现已在 @fal 上线。去构建吧。 【引用 @fal】:Happy Horse 1.0 is live on fal, day 0 🐎 🎬 一流的运动质量 🎧 原生1080p,音频同步一步完成 🔗 音视频联合生成,非拼接 🔓 限制更少,商业用途更广 ⚡ 为生产规模而构建

fal: Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...

多模态模型发布视频

推荐理由:阿里云不声不响丢了个跟 Sora 对标的视频生成模型,音画同步一镜出片,直播带货团队可以立刻试试。
14:40
Hacker News 热门(buzzing.cc 中文翻译)
59
克劳德:创意作品

Anthropic公司发布了Claude for Creative Work,这是其AI助手Claude的创意专用版本,专注于优化创意任务。该发布在Hacker News上获得102点社区评分,显示高度关注。新工具增强了创意能力,包括改进的文本生成、构思辅助和设计支持,旨在提升写作、艺术、营销等领域的效率和质量。

Anthropic多模态教程/实践
14:35
-Zho-@ZHO_ZHO_ZHO
16
这才是 AI 的正确用法哈哈哈哈哈哈哈哈哈
其他多模态
13:33
IT之家(RSS)
50
Adobe Photoshop 引入 AI 3D 旋转对象功能,光影可自动匹配

Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具,用户可在3D空间中实时旋转、倾斜和翻转素材,点击“协调”按钮可自动调整光照和阴影以匹配背景。同时,Photoshop还推出了“图层清理”工具,能智能清理、组织并自动重命名图层,移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片,新增多款胶片风格预设,且辅助筛选速度更快,交互式滑块性能提升最高达5倍。

产品更新图像生成多模态
13:10
宝玉@dotey
64
分享"Neon Sketch"混合媒介AI绘画提示词模板

一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。

Amira Zairi: Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...

图像生成多模态教程/实践
12:38
ginobefun@hongming731
38
理想个人AI助手七大标准,尚无产品能全满足

一款出色的个人AI助手应具备七大核心能力:跨平台无缝执行邮件、日历及各类API/MCP服务;能主动可靠地处理定时任务与自动跟进;拥有优秀的长期记忆以更懂用户;提供无需复杂指令的开箱即用多端体验;支持在文字、语音、视频和实时通话间自由切换;可通过任何第三方通讯软件触达;并具备有趣的个性。然而,目前包括OpenClaw、Claude Code和Codex在内的产品,均未能完全满足所有这些标准。

Peter Yang: A great personal agent should: 1. Get work done across email, calendar, Google Workspace, or any API/MCP it's hooked up ...

智能体MCP/工具多模态大佬观点
11:35
阿绎 AYi@AYi_AInotes
49
Adobe与Claude合作被指战略投降,创意工具霸主或降级为AI插件

作者认为Adobe与Claude的合作并非强强联合,而是其在AI时代的公开战略投降,承认自身AI能力不足,转而将三十年积累的创意工具库打包成Claude的后端工具箱。官方演示聚焦于低复杂度任务,未能激发创意专业人士兴趣,行业反馈普遍失望。核心担忧在于Adobe可能将功能再次塞入体验不佳的Firefly框架,导致用户未来或仅需通过Claude对话即可完成设计,无需打开专业软件。这标志着Adobe正从创意工具霸主降级为AI工作流中的一个普通调度插件。

Adobe: Adobe for creativity + Claude 🤝 Now, Claude users can power their content with more than 50 Creative Cloud tools. Simpl...

Anthropic多模态大佬观点
10:38
HuggingFace Daily Papers(社区热门论文)
47
IAM: 身份感知的人体运动与形状联合生成

研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。

具身智能多模态论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
48
通过再生实现精修:扩大修改空间提升统一多模态模型的图像精修能力

针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。

图像生成多模态论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
56
互促学习:面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。

多模态视频论文/研究
09:38
ginobefun@hongming731
49
NVIDIA发布多模态模型Nemotron 3 Nano Omni

NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。

多模态模型发布端侧
08:38
Berryxia.AI@berryxia
65
OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布
08:33
IT之家(RSS)
65
英伟达推出 Nemotron 3 Nano Omni 模型:采用 30B-A3B 混合 MoE 架构,吞吐量最高提升 9.2 倍

英伟达发布开源全模态推理模型Nemotron 3 Nano Omni,采用30B‑A3B混合MoE架构,集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链,降低推理成本与编排复杂度。在多项基准测试中表现领先,尤其在视频推理任务中,其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍,文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放,支持开发者在各类环境中定制部署。

智能体多模态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
54
ComboStoc:扩散生成模型中的组合随机性

本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。

arXiv图像生成多模态论文/研究
08:00
Apple Machine Learning Research(RSS)
45
DSO: 用于缓解偏见的直接引导优化

研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
协同进化策略蒸馏(CoPD)

研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。

智能体多模态推理论文/研究
07:38
Berryxia.AI@berryxia
45
Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

MacRumors.com: Apple Vision Pro Used in World-First Cataract Surgery https://www.macrumors.com/2026/04/28/apple-vision-pro-cataract-sur...

多模态现象/趋势端侧
‹ 上一页
1…4243444546…50
下一页 ›