6月23日

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 1 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

13:13

HuggingFace Daily Papers（社区热门论文）

UniverSat：分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络，采用通用补丁编码器（Universal Patch Encoder），将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间，使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练，生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中，取得了强劲结果。代码和模型已开源。

GitHub 多模态数据/训练模型发布

13:07

IT之家（RSS）

字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布，豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段，预计7月初正式上线。该模型支持单段原生30秒视频直接生成，用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台，周星驰为首批合作对象，用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段，相关模板当日创作量已突破十万次。

多模态模型发布

13:00

公众号：火山引擎

豆包大模型2.1发布，面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列：Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo，API已全量上线火山方舟。Pro输入6元/百万tokens，输出30元，缓存命中1.2元；Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点：Terminal Bench 2.1上Pro与Claude Opus 4.7持平，SWE-Pro接近GPT-5.5，NL2Repo-Bench领先GPT-5.5，SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分，ALE超越Claude Opus4.7，MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先：OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving，每月2~4次迭代。

智能体模型发布编码

关联讨论 3 条

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 3 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

12:20

公众号：数字生命卡兹克

火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7，Agent大幅进化，多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token（输入/输出），上下文256k，已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测，可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出，Seedance 2.5支持30秒原生直出。Seedream 5.0 pro（7月初上线）及全新音频生成模型即将发布。

智能体多模态模型发布编码

关联讨论 3 条

10:07

IT之家（RSS）

字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布，面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型，包括 Pro 和 Turbo 两个深度思考版本，以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型，在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级；Turbo 版本面向规模化生产，效果比肩 Pro

推理模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 3 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

6月22日

23:05

Nathan Lambert：Interconnects（RSS）

同事件精选67

GLM-5.2：开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2，6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型，匹配 Opus 4.8 无思考模式；在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布，GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布（2025 年 11 月 24 日）到 GLM-5.2 发布（2026 年 6 月 16 日）间隔约 6.8 个月。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2是第一个真正能打的开放编码代理模型，社区反应堪比DeepSeek R1时刻，对依赖Claude Code的开发者是个好消息，开放模型的竞争力又前进了一大步。

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

22:05

IT之家（RSS）

生数 Vidu Q3 多模态视频大模型上线华为云 MaaS，主打文/图生视频一体化成片

6 月 22 日，生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS，面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型，支持 16 秒声画同出、1080P 画质，具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本：Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力，推理快、成本低；Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力，画面细节最优，最高支持 4K 分辨率，适合广告大片等精品创作。

多模态模型发布视频

18:05

IT之家（RSS）

百川智能联合清华发布医疗增强大模型 Baichuan-M4，登顶 OpenAI 医疗评测

6月22日，百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一，综合得分68.6，领先第二名GPT-5.5超10分，幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中，M4初诊79.0、复诊74.7，全面领先GPT-5.5等模型。模型具备“全病程记忆”，长上下文临床记忆得分86.9；首创“证据锚定”循证引用，精度达90.0，远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准

17:05

IT之家（RSS）

同事件精选71

让大模型从"一问一答"走向"边看边说"，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这是全球首个全栈开源的 interaction 模型和系统，获 vLLM-Omni day-0 原生支持。该模型具备三重突破：主动判断（持续观察视频流自主决定何时说话）、实时响应（面向正在发生的视频流即时响应）、适时智能体委托（复杂任务转交后台模型，前台继续观察）。支持摄像头、直播流、监控流等视频输入，以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中，对比豆包视频通话助手总体胜率 77.6%，对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频

同一事件，精选展示《京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"》

推荐理由：京东开源了首个全栈实时视频交互模型，让大模型能持续观察并主动响应，开发者可以直接用代码搭建安防、导购等实时AI助手，实用性很强。