6月23日

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 3 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

12:20

公众号：数字生命卡兹克

火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7，Agent大幅进化，多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token（输入/输出），上下文256k，已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测，可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出，Seedance 2.5支持30秒原生直出。Seedream 5.0 pro（7月初上线）及全新音频生成模型即将发布。

智能体多模态模型发布编码

关联讨论 3 条

12:15

小互@xiaohu

字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型，可一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台，允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频

12:14

Berryxia.AI@berryxia

字节跳动发布视频生成模型 Seedance 2.5，版本从 2.0 直接跳升至 2.5，预示大幅迭代。新版本支持单段 30 秒原生视频生成，无需拼接；同时可输入最多 50 个全模态参考素材，极大提升创作素材容量。定价尚未公布，但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。开始吧~·

多模态模型发布视频

12:13

HuggingFace Daily Papers（社区热门论文）

密集可验证奖励框架 DR-MV3D：全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答（MV3D-VQA）需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督，导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架，将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励（利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图）和局部轨迹奖励（监督有序视角选择），并通过轨迹级策略优化（GRPO）训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线，验证过程级密集监督的有效性。

具身智能多模态论文/研究

11:14

Berryxia.AI@berryxia

百度开源 Unlimited OCR：单次解析多页 PDF，疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek 多模态开源/仓库模型发布

09:44

小互@xiaohu

字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型

字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5，同时推出全新豆包 Seed2.1 模型，声称能力达 Opus4.6 水平，以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

产品更新图像生成多模态视频

08:31

向阳乔木@vista8

百度开源 Unlimited OCR：3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型，仅3B参数、500M激活参数，在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术，并附带了技术解读和开源地址。

多模态开源/仓库端侧

08:13

Berryxia.AI@berryxia

百度开源 Unlimited-OCR，R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Tailor-Bench：修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力，设计三种渐进难度场景：常规（常见工具-任务组合）、非常规（属性兼容替代品）、不可能（违反属性工具）。在统一协议下，预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化，暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化，视频模型还有时间不一致，说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

08:00

HuggingFace Daily Papers（社区热门论文）

IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架，将视觉条件查询分解为结构查询与语义查询的级联：结构查询先形成潜在视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息，推理时无需草图或中间解码，单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究

05:07

elvis@omarsar0

天哪！Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新多模态

01:35

Google AI Developers@googleaidevs

Google Interactions API 正式可用：统一端点、稳定 schema、Managed Agents 等新功能

Google Interactions API 现已正式可用（GA），通过统一 /interactions 端点提供稳定 schema，同时支持模型推理与自主智能体。关键更新包括：Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览，默认使用 antigravity-preview-05-2026 智能体或自定义指令；简化 schema — 每个操作作为独立 step 形成线性流；后台执行 — 设置 background=True 实现异步运行并轮询结果；扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps，新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill；媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。

智能体 Google 产品更新多模态

01:12

Berryxia.AI@berryxia

百度开源Unlimited-OCR：可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeek Hugging Face 多模态开源/仓库

6月22日

23:42

SenseTime@SenseTime_AI

商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1，展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文，感谢YouTuber xCreate对SenseNova U1模型的详细拆解，重点展示其文本-图像交错推理（text-image interleaved reasoning）和信息图表（infographic）生成能力。推文附有逐步指南，指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHub Hugging Face 图像生成多模态

23:41

AK@_akhaliq

PerceptionDLM 平行区域感知与多模态扩散语言模型

多模态论文/研究

22:56

Chubby♨️@kimmonismus

据X用户Kim消息，本周四将发布多个新GPT模型，包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出，5.6 Pro在正确提示词下可完成任意任务，GPT-Bidi-1知识截止于2025年8月，自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试，预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI 多模态模型发布

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

22:05

IT之家（RSS）

生数 Vidu Q3 多模态视频大模型上线华为云 MaaS，主打文/图生视频一体化成片

6 月 22 日，生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS，面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型，支持 16 秒声画同出、1080P 画质，具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本：Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力，推理快、成本低；Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力，画面细节最优，最高支持 4K 分辨率，适合广告大片等精品创作。

多模态模型发布视频

21:26

Chubby♨️@kimmonismus

Sonnet 5 首次亮相。模型速度极快，且未使用参考图。看来下周会很忙。Kim 评论称，若测试确认，这将是一次很棒的发版。

Jayden Davis: BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...

Anthropic 图像生成多模态模型发布

18:09

Artificial Intelligence News（RSS）

欧莱雅与OpenAI合作，将美宝莲虚拟试妆引入ChatGPT

欧莱雅在VivaTech 2026宣布与OpenAI合作，将美宝莲虚拟试妆（基于ModiFace AR技术）直接集成到ChatGPT。合作覆盖消费者购物工具、产品发现、广告试点及内部AI应用。欧莱雅还将使用OpenAI的生命科学推理模型GPT-Rosalind，从理肤泉品牌开始研究皮肤微生物组，以开发新护肤品。OpenAI模型将用于欧莱雅内部生成式AI内容平台CreAItech，支持图像和视频生成。欧莱雅称2025年电商销售占比超30%，已有7.3万名员工接受生成式AI培训。

OpenAI 多模态行业动态

17:05

IT之家（RSS）

同事件精选71

让大模型从"一问一答"走向"边看边说"，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这是全球首个全栈开源的 interaction 模型和系统，获 vLLM-Omni day-0 原生支持。该模型具备三重突破：主动判断（持续观察视频流自主决定何时说话）、实时响应（面向正在发生的视频流即时响应）、适时智能体委托（复杂任务转交后台模型，前台继续观察）。支持摄像头、直播流、监控流等视频输入，以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中，对比豆包视频通话助手总体胜率 77.6%，对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频

同一事件，精选展示《京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"》

推荐理由：京东开源了首个全栈实时视频交互模型，让大模型能持续观察并主动响应，开发者可以直接用代码搭建安防、导购等实时AI助手，实用性很强。