6月24日

08:18

MarkTechPost（RSS）

同事件精选72

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

检索增强产品更新多模态搜索

同一事件，精选展示《Mistral OCR 4》

推荐理由：Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

08:00

HuggingFace Daily Papers（社区热门论文）

星系分词器指南：科学基础模型基准

在统一Transformer框架下，比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干，评估重建保真度与物理属性预测。结果显示：基于流的JetFormer重建质量更高，VQ-VAE对星系物理属性的探针性能更强，Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦，没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准，凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究

07:27

IT之家（RSS）

扎克伯格谈 Meta AI 智能眼镜：必须在时尚与功能之间取得平衡

扎克伯格在访谈中表示，Meta 智能眼镜的难点不在堆砌 AI 功能，而在于做出人们愿意日常佩戴的产品，需在外观、舒适度和功能体验间取得平衡。本周二 Meta 推出全新系列智能眼镜，起售价 299 美元（约 2029 元），低于入门款雷朋智能眼镜，由依视路陆逊梯卡联合开发但不搭载其品牌标识。扎克伯格认为未来可穿戴设备必须与时尚融合，要让人戴出去有面子且佩戴舒适，并对比 Snap 新款 AI 眼镜因高价笨重遭吐槽。

Meta 多模态大佬观点端侧

07:17

Berryxia.AI@berryxia

Mistral OCR 4发布：170种语言，结构化输出带边界框与置信度

2026年6月23日，Mistral AI发布非开源模型Mistral OCR 4，支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块（标题/正文/表格/页眉页脚）、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线，而是提供结构化输出，使OCR从认字工具进化为文档理解引擎，下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布

06:39

The Verge：AI（RSS）

Google Home 6 月 23 日起扩展面部识别：非正面也能靠体型衣服识别，新增特定声音检测

Google Home 将从 6 月 23 日起更新面部识别功能：当人脸不清晰时，可通过“非生物识别信号（体型、衣服颜色等）”继续识别已在 Familiar Faces 库中标记的人。该库还将自动更新家庭成员的最新照片。AI 生成的事件描述新增识别特定声音（狗叫、警报、脚步声）的能力，即使声音来自摄像头外。同步发布的 Google Home 应用 4.20 版加入了 Nest 恒温器检测到的 HVAC 系统健康警报，并改进了 Matter 开关支持。

Google 产品更新多模态

05:06

HuggingFace Daily Papers（社区热门论文）

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:37

MarkTechPost（RSS）

Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift，用于结构化提取。输入 JSON Schema，返回匹配的 JSON 对象，可直接读取 PDF 和图像，支持多页文档一次性处理并跨页取值。提供本地（HuggingFace）和远程（vLLM）两种推理模式，后者推荐用于生产。代码采用 Apache 2.0，权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%，中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding，逐 token 约束输出结构但不保证语义正确；每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face 多模态开源生态模型发布

03:16

Rohan Paul@rohanpaul_ai

MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型，专为实时AI角色设计。单H100 GPU可达47.5 FPS，成本低于0.001美元/秒；单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练（自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏）及智能体流式推理框架，支持千秒级连续生成。双流扩散Transformer（视频+音频交叉注意力）保持表情、口型与声音同步，历史KV缓存和attention sink确保片段连贯。首帧小于1秒，生成与播放同步，不先制作完整视频再配音。

多模态推理模型发布视频

02:49

AK@_akhaliq

百度刚发布了 Unlimited-OCR。

产品更新多模态

00:38

🚨 AI News | TestingCatalog@testingcatalog

Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档（12+ 语言）的盲测中，OCR 4 被偏好，平均胜率 72%；OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数，作为 Search Toolkit 的组件，支持 170 种语言，且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布

6月23日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程

23:13

歸藏(guizang.ai)@op7418

Seed 2.1 Pro 测评：胜任 Agent 工作流

Seed 2.1 Pro 正式发布，测评显示它能胜任真实 Agent 工作流。优势包括：复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式（本地电脑 Agent 操作）和火山引擎 API（Cloud Code）进行。复杂 Skills 测试（PPT 生成、社交媒体卡片）表现优秀，能根据内容调整版式。三个前端任务（百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页）均一步到位或结果完整。定位：未必最顶尖，但适合组合工作流——强编码模型负责工程，Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制：视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准

22:24

Mistral AI：News（网页）

精选68

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

22:13

IT之家（RSS）

Meta 三款自有品牌智能眼镜首发亮相，299-399 美元

Meta 首次以自有品牌推出三款智能眼镜：Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元，Starfire 售价 399 美元，均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产，内置摄像头、扬声器，支持与 Meta AI 对话、翻译及拍摄，预装最新 AI 模型 Muse Spark。鼻托三档可调，提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本，并计划最终进入 AR 眼镜市场。

Meta 产品更新多模态端侧

22:11

Mistral AI@MistralAI

推出 Mistral OCR 4。它通过边界框、块分类和内联置信度评分在170种语言中创建结构。 🧵👇

产品更新多模态

21:56

Hacker News 热门（buzzing.cc 中文翻译）

精选70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库

关联讨论 1 条

推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。