6月24日

11:55

HuggingFace Daily Papers（社区热门论文）

FlowR2A通过flow-matching解码器学习奖励条件动作分布，将基于评分方法（密集奖励监督但固定动作词汇）与基于锚点方法（动态生成提案但稀疏监督）统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布，引入细粒度每时间步奖励条件和奖励噪声增强，以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果，多模态提案质量显著高于此前方法。

具身智能多模态论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

CF-World：一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准，用于测试文本到图像（T2I）模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级：事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval，引入两个指标：Prior Resistance Rate（PRR）衡量克服固有先验的能力，Reasoning Retention Rate（RRR）评估无显式视觉线索时的推理依赖生成。实验表明，所有模型在反事实场景中性能急剧下降，原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式，过度依赖训练数据中的频繁视觉共现，在反事实任务中退回至熟悉常识先验。

arXiv 多模态推理论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架，包含基准ReMMDBench（500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签）及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点，构建可重用证据集，输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中，ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能，准确率41.80%，macro-F1 39.12%，成本较MMD-Agent降低17.5%，较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究

10:27

IT之家（RSS）

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持文本、音频等多模态参考生成，端到端输出目标音频，长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围，直接产出成片级音频。模型一次支持 2 分钟音频创作，可多次延长且保持音色统一；实现零样本多模态生成，支持音色与风格解耦控制。火山方舟已开启 API 邀测，个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

08:18

MarkTechPost（RSS）

同事件精选72

Mistral AI 发布 OCR 4 模型

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

检索增强产品更新多模态搜索

同一事件，精选展示《Mistral OCR 4》

推荐理由：Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

08:00

HuggingFace Daily Papers（社区热门论文）

星系分词器指南：科学基础模型基准

在统一Transformer框架下，比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干，评估重建保真度与物理属性预测。结果显示：基于流的JetFormer重建质量更高，VQ-VAE对星系物理属性的探针性能更强，Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦，没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准，凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究

07:27

IT之家（RSS）

扎克伯格谈 Meta AI 智能眼镜：必须在时尚与功能之间取得平衡

扎克伯格在访谈中表示，Meta 智能眼镜的难点不在堆砌 AI 功能，而在于做出人们愿意日常佩戴的产品，需在外观、舒适度和功能体验间取得平衡。本周二 Meta 推出全新系列智能眼镜，起售价 299 美元（约 2029 元），低于入门款雷朋智能眼镜，由依视路陆逊梯卡联合开发但不搭载其品牌标识。扎克伯格认为未来可穿戴设备必须与时尚融合，要让人戴出去有面子且佩戴舒适，并对比 Snap 新款 AI 眼镜因高价笨重遭吐槽。

Meta 多模态大佬观点端侧

06:39

The Verge：AI（RSS）

Google Home 6 月 23 日起扩展面部识别：非正面也能靠体型衣服识别，新增特定声音检测

Google Home 将从 6 月 23 日起更新面部识别功能：当人脸不清晰时，可通过“非生物识别信号（体型、衣服颜色等）”继续识别已在 Familiar Faces 库中标记的人。该库还将自动更新家庭成员的最新照片。AI 生成的事件描述新增识别特定声音（狗叫、警报、脚步声）的能力，即使声音来自摄像头外。同步发布的 Google Home 应用 4.20 版加入了 Nest 恒温器检测到的 HVAC 系统健康警报，并改进了 Matter 开关支持。

Google 产品更新多模态

05:06

HuggingFace Daily Papers（社区热门论文）

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:37

MarkTechPost（RSS）

Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift，用于结构化提取。输入 JSON Schema，返回匹配的 JSON 对象，可直接读取 PDF 和图像，支持多页文档一次性处理并跨页取值。提供本地（HuggingFace）和远程（vLLM）两种推理模式，后者推荐用于生产。代码采用 Apache 2.0，权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%，中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding，逐 token 约束输出结构但不保证语义正确；每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face 多模态开源生态模型发布

6月23日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程

22:24

Mistral AI：News（网页）

精选68

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

22:13

IT之家（RSS）

Meta 三款自有品牌智能眼镜首发亮相，299-399 美元

Meta 首次以自有品牌推出三款智能眼镜：Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元，Starfire 售价 399 美元，均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产，内置摄像头、扬声器，支持与 Meta AI 对话、翻译及拍摄，预装最新 AI 模型 Muse Spark。鼻托三档可调，提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本，并计划最终进入 AR 眼镜市场。

Meta 产品更新多模态端侧

21:56

Hacker News 热门（buzzing.cc 中文翻译）

精选70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库

关联讨论 1 条

推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。

21:20

The Verge：AI（RSS）

Meta推出无Ray-Ban品牌的智能眼镜，起售价$299

Meta推出全新Meta Glasses系列，首批包括Meta Fury、Meta Adventurer及与Kylie Jenner联名的Meta Glasses by Kylie三款镜框，共七种颜色。新品起售价$299，比Ray-Ban Meta Gen 2便宜约$80，内部规格与后者相同但电池续航稍长。眼镜由EssilorLuxottica设计制造，支持-12到+2.25处方镜片并配备可调节鼻托与镜腿。Meta可穿戴设备副总裁Alex Himel表示将很快推出直接针对隐私问题的更新。

Meta 产品更新多模态端侧

20:49

HuggingFace Daily Papers（社区热门论文）

Arbor：显式几何约束实现可控3D资产生成

Arbor是一个可训练的附件，为文本条件潜空间3D生成引入约束网格作为原生3D控制接口。约束分三类：包络区域（应有几何）、避让区域（保持空白）和接触区域（物体应接触）。Arbor将约束网格转换为模型token，在冻结去噪器内学习路由附件，使每个潜空间区域只接收相关约束信号。在自动和艺术家控制基准测试中，Arbor在固定约束下提升了约束遵循度，同时保持了对象质量和多样性。

多模态论文/研究

20:24

The Decoder：AI News（RSS）

字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段（无需后期拼接），支持场景变化与节奏切换，并同时处理多达50个额外输入（参考图、音频等），后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频

16:50

公众号：卡尔的AI沃茨

实测豆包Seed 2.1 Pro，把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro，重点提升Agent、GUI操作和编程能力：OSWorld 78.8接近GPT-5.5的78.7，Terminal Bench 2.1达71.0；多模态视觉理解进步显著（CharXiv-RQ 85.4等）。支持原生音视频、图片、文本混合理解，256K上下文，可切换快慢思考。实测六项真实工作流（旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成）均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码

16:07

IT之家（RSS）

比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版，新车今晚上市

比亚迪腾势超级智能体“迪迪虾”基于整车智能体系，采用活人逻辑，支持根据用户需求操控车辆、理解和执行多步骤复杂指令，并打通手机生态。该智能体将登陆腾势N8L闪充版，该车今晚19:30发布上市，预售价35-40万元，标配第二代刀片电池，插混闪充版纯电续航430km（同级第一），自称“5分钟充好，9分钟充饱”“零下30度，只多3分钟”。新车全球首搭新一代AI智能座舱，配备天神之眼5.0辅助驾驶系统。

智能体产品更新多模态

15:13

HuggingFace Daily Papers（社区热门论文）

MeshFlow：等变流匹配网格生成

MeshFlow提出直接生成三角网格的方法，将网格视为三角形汤，避免了序列化为长自回归序列。该方法采用等变最优传输流匹配模型，保持了三角形汤的关键对称性（面的任意排列及每个面内顶点的排列）。通过对Diffusion Transformer架构进行简单有效的修改，构建了可扩展网络来建模速度场，同时维持所需的等变性。引入基于最优传输的训练目标，消除了违反对称性的监督信号，改善了收敛性。MeshFlow的生成质量媲美最先进自回归网格生成器，推理速度提升约18倍。

多模态论文/研究

14:50

公众号：火山引擎

火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级，多Coding评测比肩全球顶尖，Agent国内第一，VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入；Seedream 5.0 Pro支持交互式编辑、多图层分离；豆包音频生成模型1.0可一次直出影视级音频。截至今年6月，豆包大模型日均Token调用量180万亿，同比增长超10倍；火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布

关联讨论 3 条

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 1 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

13:13

HuggingFace Daily Papers（社区热门论文）

Unlimited OCR：长序列OCR显存与速度问题的解决方案

针对长序列转录中KV缓存累积导致显存增加和速度下降的问题，研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线，用提出的Reference Sliding Window Attention（R-SWA）替换解码器所有注意力层，在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率，Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制，同样适用于ASR、翻译等任务。代码和模型权重已开源。

DeepSeek 多模态论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

UniverSat：分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络，采用通用补丁编码器（Universal Patch Encoder），将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间，使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练，生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中，取得了强劲结果。代码和模型已开源。

GitHub 多模态数据/训练模型发布

13:07

IT之家（RSS）

字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布，豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段，预计7月初正式上线。该模型支持单段原生30秒视频直接生成，用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台，周星驰为首批合作对象，用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段，相关模板当日创作量已突破十万次。

多模态模型发布

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 3 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

12:20

公众号：数字生命卡兹克

火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7，Agent大幅进化，多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token（输入/输出），上下文256k，已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测，可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出，Seedance 2.5支持30秒原生直出。Seedream 5.0 pro（7月初上线）及全新音频生成模型即将发布。

智能体多模态模型发布编码

关联讨论 3 条

12:13

HuggingFace Daily Papers（社区热门论文）

密集可验证奖励框架 DR-MV3D：全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答（MV3D-VQA）需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督，导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架，将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励（利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图）和局部轨迹奖励（监督有序视角选择），并通过轨迹级策略优化（GRPO）训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线，验证过程级密集监督的有效性。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Tailor-Bench：修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力，设计三种渐进难度场景：常规（常见工具-任务组合）、非常规（属性兼容替代品）、不可能（违反属性工具）。在统一协议下，预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化，暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化，视频模型还有时间不一致，说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

08:00

HuggingFace Daily Papers（社区热门论文）

IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架，将视觉条件查询分解为结构查询与语义查询的级联：结构查询先形成潜在视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息，推理时无需草图或中间解码，单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究

6月22日

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

22:05

IT之家（RSS）

生数 Vidu Q3 多模态视频大模型上线华为云 MaaS，主打文/图生视频一体化成片

6 月 22 日，生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS，面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型，支持 16 秒声画同出、1080P 画质，具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本：Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力，推理快、成本低；Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力，画面细节最优，最高支持 4K 分辨率，适合广告大片等精品创作。

多模态模型发布视频

18:09

Artificial Intelligence News（RSS）

欧莱雅与OpenAI合作，将美宝莲虚拟试妆引入ChatGPT

欧莱雅在VivaTech 2026宣布与OpenAI合作，将美宝莲虚拟试妆（基于ModiFace AR技术）直接集成到ChatGPT。合作覆盖消费者购物工具、产品发现、广告试点及内部AI应用。欧莱雅还将使用OpenAI的生命科学推理模型GPT-Rosalind，从理肤泉品牌开始研究皮肤微生物组，以开发新护肤品。OpenAI模型将用于欧莱雅内部生成式AI内容平台CreAItech，支持图像和视频生成。欧莱雅称2025年电商销售占比超30%，已有7.3万名员工接受生成式AI培训。

OpenAI 多模态行业动态

17:05

IT之家（RSS）

同事件精选71

让大模型从"一问一答"走向"边看边说"，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这是全球首个全栈开源的 interaction 模型和系统，获 vLLM-Omni day-0 原生支持。该模型具备三重突破：主动判断（持续观察视频流自主决定何时说话）、实时响应（面向正在发生的视频流即时响应）、适时智能体委托（复杂任务转交后台模型，前台继续观察）。支持摄像头、直播流、监控流等视频输入，以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中，对比豆包视频通话助手总体胜率 77.6%，对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频

同一事件，精选展示《京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"》

推荐理由：京东开源了首个全栈实时视频交互模型，让大模型能持续观察并主动响应，开发者可以直接用代码搭建安防、导购等实时AI助手，实用性很强。

15:05

IT之家（RSS）

阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1，在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致，单次生成 3 到 15 秒，支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日，HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛，优胜者可获百万商单合作，张纪中等担任评委。

多模态模型发布视频

08:00

HuggingFace Daily Papers（社区热门论文）

HeRA：面向多模态大语言模型的逐头表示对齐方法

HeRA在单个注意力头级别执行跨模态对齐，基于柏拉图表示假说，利用互K近邻（MKNN）度量定义对比损失，作为匹配局部拓扑结构的可微代理。训练时选择MKNN对齐分数最低的注意力头进行对齐，发现对齐最差的头反而带来最大收益。在多个MLLM和18项基准上的评估表明，HeRA一致提升视觉密集任务性能，并通过自然抑制对语言先验的过度依赖，有效缓解视觉幻觉。代码已开源。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理