全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

6月1日周一

08:41Berryxia.AI63GitHub开源项目挑战付费订阅模式

08:28Hacker News 热门（buzzing.cc 中文翻译）64Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务

08:00HuggingFace Daily Papers（社区热门论文）69自动驾驶的未来：KITScenes多模态数据集

08:00HuggingFace Daily Papers（社区热门论文）52AdaCodec：用于视频多模态大模型的预测性视觉编码

08:00HuggingFace Daily Papers（社区热门论文）75Cosmos 3：面向物理AI的全模态世界模型

08:00HuggingFace Daily Papers（社区热门论文）64AutoMedBench：面向医疗自主研究的智能体AI模型基准测试

08:00HuggingFace Daily Papers（社区热门论文）57PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

00:35Berryxia.AI62Claude+Three.js打造盛唐语音互动游戏

5月31日周日

18:09Odyssey50尚未决定首先前往何处

15:16StepFun80同事件精选Step 3.7 Flash：可运行于桌面级设备的198B视觉模型同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》

13:52Greg Brockman58GPT Realtime 2语音操控电脑演示

10:14向阳乔木49Codex自动生成Suno歌曲MTV

09:45小互45GPT-Realtime 2.0语音操控电脑演示

08:00HuggingFace Daily Papers（社区热门论文）65SkillVerse多模态技能范式与VisSkillBot：AI智能体的技能应超越纯文本

08:00HuggingFace Daily Papers（社区热门论文）70精选ChartArena：跨语言、场景与格式的图表解析基准测试

08:00HuggingFace Daily Papers（社区热门论文）533DCodeBench：基于代码的程序化3D建模智能体评测基准

08:00HuggingFace Daily Papers（社区热门论文）59HakushoBench：基于日本政府白皮书的图表与表格VQA基准测试发布

08:00HuggingFace Daily Papers（社区热门论文）70精选定位何处：基础模型能否通过主动探索达到目标视角

06:53🚨 AI News | TestingCatalog62微软将发布新图像与语音模型

05:49MarkTechPost（RSS）572026年最佳文本转语音（TTS）模型：基于基准测试的对比

03:53🚨 AI News | TestingCatalog40NotebookLM即将推出的三大新功能

00:34Berryxia.AI71阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

5月30日周六

22:42StepFun67Step 3.7 Flash 模型限时免费体验

21:16The Verge：AI（RSS）73精选AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

20:11StepFun55阶跃星辰Step 3.7 Flash发布引关注

19:11StepFun62小即是美：开源多模态模型发布

16:44The Decoder：AI News（RSS）62Meta泄露备忘录揭示AI吊坠、超感知眼镜及企业可穿戴设备战略

12:11向阳乔木52Codex自动生成Suno歌曲MV与歌词字幕

11:21IT之家（RSS）62英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

10:21IT之家（RSS）41宏碁推出 AR Vision GR0 与 GI0 智能眼镜，前者配 Micro OLED 屏

08:06OpenRouter72精选ComfyUI现已支持OpenRouter模型直接调用

08:00HuggingFace Daily Papers（社区热门论文）54SuperMemory-VQA：面向长时记忆的自我中心视觉问答基准

08:00HuggingFace Daily Papers（社区热门论文）62UniKE：面向统一多模态模型的跨模态知识编辑基准

08:00HuggingFace Daily Papers（社区热门论文）65RoboStressBench：面向具身场景物理视觉压力的VLM鲁棒性基准测试

07:32HuggingFace Daily Papers（社区热门论文）61为何远处看向上方：探查视觉语言模型中的空间表征

05:48MarkTechPost（RSS）59阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

05:46Jeff Dean76与Gemini团队负责人畅谈现状与未来

05:36Google Gemini69Gemini Omni：从提示词到现实的视频生成

04:50🚨 AI News | TestingCatalog60OpenAI Codex Windows版现支持Computer Use及远程控制

04:19Greg Brockman76精选OpenAI推出实时翻译模型，支持70+语言输入

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月1日

08:41

Berryxia.AI@berryxia

63

GitHub开源项目挑战付费订阅模式

该推文指出，许多付费的AI工具和专业软件（如Bloomberg）是资本维持收入的机制。GitHub上已有10个开源项目可替代它们，提供免费、功能强大且支持自托管的选项。示例包括：AutoHedge（自主交易代理）、Vibe-Trading（金融技能与代理系统）、Fincept Terminal（Bloomberg替代品）、LibreChat（多模型聊天）以及Open Higgsfield AI（电影工作室）等。这些项目让用户能完全掌控自己的数据和控制权，将原本昂贵的订阅服务免费提供给普通人。

Harman: 10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...

智能体多模态开源/仓库部署/工程

08:28

Hacker News 热门（buzzing.cc 中文翻译）

64

Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务

Meta 推出针对 Instagram、Facebook 和 WhatsApp 的付费订阅服务，并表示未来将扩展更多订阅产品，其中包含 AI 相关计划。

Meta 图像生成多模态行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

69

自动驾驶的未来：KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集，传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素（含红绿灯）以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市，补充地理多样性。同时推出四个基准：在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

52

AdaCodec：用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码，仅在场景难以从先前上下文预测时向参考帧分配完整视觉token，否则将帧间变化（运动与预测残差）编码为紧凑的P-tokens。在全部11项基准测试中，AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下，使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线；在五项通用视频基准上平均得分提升，同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

75

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族，基于统一混合 Transformer 架构，联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架，在多项理解与生成任务上达到新 SOTA。技术报告撰写时，后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型，被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源（Linux Foundation OpenMDW-1.1 许可）。

具身智能多模态开源生态论文/研究

关联讨论 9 条X：Kim (@kimmonismus)IT之家（RSS）Hugging Face：Blog（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）LMSYS：Blog（Chatbot Arena 团队）

08:00

HuggingFace Daily Papers（社区热门论文）

64

AutoMedBench：面向医疗自主研究的智能体AI模型基准测试

AutoMedBench 是一个工作流感知的基准测试，用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务，组织智能体执行统一的五阶段工作流：规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道，每个任务设有Lite与Standard两个难度级别，单次运行平均包含33个智能体回合。结果表明，验证阶段是当前智能体最薄弱的环节，而设置阶段表现最强。错误分析显示，验证与提交失败分别占37.7%和38.1%，任务理解错误仅占0.9%；出现错误代码的运行总分平均比无错误运行低48%。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口，并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图，融合自监督视觉编码器的几何与语义节点距离，并通过盲目匹配来定位语言目标，无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明，PlatonicNav在无需显式跨模态训练的情况下，实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究

00:35

Berryxia.AI@berryxia

62

一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成，通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏，还能进入珍宝馆欣赏诗画，体验古文明与AI结合的沉浸感。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音

5月31日

18:09

Odyssey@odysseyml

50

还在决定首先去哪里。

产品更新多模态视频

15:16

StepFun@StepFun_ai

同事件精选80

阶跃星辰发布了Step 3.7 Flash，这是一款198B参数的视觉模型，旨在DGX Spark等桌面设备上运行。用户实测表明，128GB统一内存是运行门槛，模型占用约104GB。部署无需官方专用llama.cpp分支，主线版本即可。在上下文长度上存在权衡：启用视觉功能时，基于q8 KV cache的64K为上限；若要使用最高256K上下文，则需禁用视觉并切换至q4 KV cache，此时模型与缓存共占约114GB内存。该模型是推理模型，思考过程可能消耗大量max_tokens，需注意设置。

Sudo su: i am running stepfun's new step 3.7 flash on a dgx spark right now. 198b vision model, on a box that sits on a desk. her...

多模态教程/实践部署/工程

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：把 198B 的视觉模型塞进一台桌面盒子，还跑通了，这本身就是个小里程碑。更关键的是，这篇实战直接帮你绕开了三个大坑，省下的三小时够你喝杯咖啡慢慢试了。

13:52

Greg Brockman@gdb

58

GPT Realtime 2 解锁了一些真正的魔法： GPT-Realtime 2.0 被严重低估了。演示：

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI 产品更新多模态语音

10:14

向阳乔木@vista8

49

只需提供一个Suno歌曲的URL，用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

MCP/工具多模态开源/仓库视频

09:45

小互@xiaohu

45

GPT-Realtime 2.0 实时语音接入AI 操控你的电脑这才是真正的Siri… 不过这么丝滑是接入的codex 还是什么？

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI 多模态大佬观点语音

08:00

HuggingFace Daily Papers（社区热门论文）

65

SkillVerse多模态技能范式与VisSkillBot：AI智能体的技能应超越纯文本

现有AI智能体的可复用技能多以纯文本形式存储，这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式，将声明式文本逻辑与显式视觉支持相结合，包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明，视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中，持续优于纯文本技能。

智能体 MCP/工具多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

ChartArena：跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub 多模态论文/研究评测/基准

推荐理由：ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片，终于能测出 MLLM 在真实文档场景下的真实水平，做文档解析的团队该认真看一下。

08:00

HuggingFace Daily Papers（社区热门论文）

53

3DCodeBench：基于代码的程序化3D建模智能体评测基准

本文提出了3DCodeBench，一个系统性基准，用于评估视觉语言模型（VLM）智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果，并建立了基于人类偏好的排名平台3DCodeArena。研究发现，主要失败源于API不匹配，而测试时扩展（如提高思考预算和多轮精炼）能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

HakushoBench：基于日本政府白皮书的图表与表格VQA基准测试发布

HakushoBench是一个日语图表与表格视觉问答基准测试，由33份日本政府白皮书构建而成，包含2053张图像和人工标注的问答对，涵盖超过10种图像类型，旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明，当前开源模型在此基准上仍面临挑战，最佳开源模型的准确率仅为58.6%，而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv 具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

06:53

🚨 AI News | TestingCatalog@testingcatalog

62

BUILD 🔥：微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2，一个支持 15 种新闻语言和更广泛情感光谱的多语言模型（请在文章中查看语音样本） > MAI Transcribe 1.5，一个用于语音转文本用例的新模型。 > MAI Image 2.5，已于上周公布，现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比，它支持文件上传，并可用于图像编辑。

Microsoft 图像生成多模态模型发布

05:49

MarkTechPost（RSS）

57

2026年最佳文本转语音（TTS）模型：基于基准测试的对比

文章对2026年领先的商用与开源权重文本转语音（TTS）模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议，旨在帮助工程师根据具体应用场景选择合适的模型。

多模态评测/基准语音

03:53

🚨 AI News | TestingCatalog@testingcatalog

40

ICYMI 👀：NotebookLM 即将推出的三大功能。 1. 全新的 Canvas 作品，允许用户将来源中的信息可视化为网页作品。 2. 个人偏好，基于过往对话、作品和自定义指令进行关联。 3. 连接器，与其他 Google 服务以及可能的外部应用相连。 * 所有这些功能此前已被发现，只是测试一种回顾格式。

Google 产品更新多模态

00:34

Berryxia.AI@berryxia

71

阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架，实现了视觉理解和文本生成。测试表明，该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文，生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行，兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧

5月30日

22:42

StepFun@StepFun_ai

67

Step 3.7 Flash，Hermes Agent 用户可免费使用 30 天。还能出什么问题？🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么！

Nous Research: Step 3.7 Flash is now free for 30 days via Nous Portal It is a new MoE vision-language model focused on agent efficiency...

智能体多模态模型发布

21:16

The Verge：AI（RSS）

精选73

AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

有卖家利用 AI 生成虚假的黑人形象，在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象，以带泪诉说的方式售卖所谓手工皮带扣，但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。

图像生成多模态现象/趋势

推荐理由：AI生成的虚拟黑人卖家在TikTok上哭着卖假货，The Verge这篇调查把AI黑产里最脏的那面扒给你看，做社交电商的尤其该点开读。

20:11

StepFun@StepFun_ai

55

等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧

19:11

StepFun@StepFun_ai

62

小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧

16:44

The Decoder：AI News（RSS）

62

Meta泄露备忘录揭示AI吊坠、超感知眼镜及企业可穿戴设备战略

Meta在AI领域投入数十亿美元但商业回报有限，开源策略与研究成果未达预期。公司战略重心转向AI硬件，内部备忘录曝光其开发AI吊坠、超感知眼镜及企业可穿戴设备等产品计划。

Meta 多模态端侧行业动态

12:11

向阳乔木@vista8

52

Codex 制作的 Suno MTV，任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。图片由Codex根据歌词内容自动生成，还挺符合意境。

图像生成多模态教程/实践

11:21

IT之家（RSS）

62

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型，专为机器人感知与 AI 智能体设计，可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术，提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上，混合模式速度达 12.7 Boxes Per Second，超过 Qwen3-VL（1.1 BPS）与 Rex-Omni（5.0 BPS）。在 LVIS（IoU=0.95）评测中得分 31.1，高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究

10:21

IT之家（RSS）

41

宏碁推出 AR Vision GR0 与 GI0 智能眼镜，前者配 Micro OLED 屏

Google 产品更新多模态

08:06

OpenRouter@OpenRouter

精选72

现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了！【引用 @ComfyUI】：ComfyUI刚刚添加了@OpenRouter支持。你不再局限于单一的大语言模型，现在可以直接在Comfy中访问20多个模型。更多灵活性，更少摩擦，同样的工作流。工作流链接在下方👇

ComfyUI: ComfyUI just added @OpenRouter support. Instead of being locked into a single LLM, you can now access 20+ models directl...

产品更新多模态开源生态

推荐理由：ComfyUI 首次直接集成 LLM 路由服务，等于给图像管线加了个「外挂大脑」，做自动化工作流的人可以直接在节点里调用 20+ 模型，省掉一堆 API tinker 环节。

08:00

HuggingFace Daily Papers（社区热门论文）

54

SuperMemory-VQA：面向长时记忆的自我中心视觉问答基准

SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集，包含 52.9 小时 AI 眼镜日常活动记录，同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对，覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索，每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示，现有系统在真实世界记忆任务上远未可靠，需设计仅当证据充分时才作答的接地 AI 记忆架构。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

62

UniKE：面向统一多模态模型的跨模态知识编辑基准

UniKE是首个针对统一多模态模型（UMMs）的跨模态知识编辑基准，包含2971个属性与关系编辑主题。VQA验证显示，文本侧编辑准确率约92%，但图像生成最佳整体VQA准确率仅18.5%，存在明显模态差距。提出的推理增强参数编辑方法在生成前显式激活已编辑知识，使整体VQA准确率提升最多18.6个百分点。机制分析表明，该差距源于编辑后文本表示与图像生成条件路径的对齐不足。文本知识编辑无法可靠跨模态迁移，需开发模态感知的编辑方法。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

RoboStressBench：面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发，将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估，揭示了特定压力下的失败模式，并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外，研究还引入了一种压力感知智能体求解器，它能在推理前检测视觉压力源并调用视觉编辑技能，以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准

07:32

HuggingFace Daily Papers（社区热门论文）

61

为何远处看向上方：探查视觉语言模型中的空间表征

视觉语言模型（VLMs）在空间推理基准上表现优异，但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析，发现多个模型族存在一致的“垂直距离纠缠”现象，即模型将图像垂直位置与空间距离混淆，这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著，且随数据规模扩大而加剧，即使基准分数提升。分析还表明，基准分数相似的模型可能具有不同的内部表征，这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差，团队推出了合成基准SpatialTunnel，实验证实该纠缠是模型固有属性，空间轴分离度更高的模型表现更鲁棒。

多模态推理论文/研究

05:48

MarkTechPost（RSS）

59

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

05:46

Jeff Dean@JeffDean

76

我非常享受与@OfficialLoganK以及我的Gemini联合负责人@OriolVinyalsML、@NoamShazeer和@koraykv的这次对话。

Logan Kilpatrick: My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...

Google 多模态大佬观点

05:36

Google Gemini@GeminiApp

69

从屏幕到现实，只需一个提示词。看看这些令人惊叹的例子，了解 Gemini Omni 如何理解你的视频输入，应用物理规律，并生成无缝的新动作。亲自试试看，并在回复中分享你如何实验 Gemini Omni 👇

Google 产品更新多模态视频

关联讨论 1 条X：Gemini (@GeminiApp)

04:50

🚨 AI News | TestingCatalog@testingcatalog

60

OpenAI宣布Codex的Windows版本现已支持Computer Use功能，能够直接在用户的Windows电脑上执行操作。同时，ChatGPT移动应用也新增了对Windows平台Codex的支持，允许用户在移动中启动、审查和引导任务，而任务本身可在Windows设备上持续运行。这是一项早期体验，OpenAI表示将继续开发更多功能，帮助用户随时随地高效工作。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体 OpenAI 产品更新多模态

04:19

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI 多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

1…19 202122 23…50