6月23日

14:33

数字生命卡兹克@Khazix0918

2026火山引擎FORCE大会发布Doubao-Seed-2.1系列，强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7，Agent工具调用及长程任务大幅进化，多模态保持国际领先。价格¥6/¥30每百万token，上下文256k。模型已在火山引擎、Trae、豆包上线，兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级，可执行文件访问、文档编辑等Agent任务，现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布

关联讨论 2 条

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 1 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

13:13

HuggingFace Daily Papers（社区热门论文）

UniverSat：分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络，采用通用补丁编码器（Universal Patch Encoder），将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间，使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练，生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中，取得了强劲结果。代码和模型已开源。

GitHub 多模态数据/训练模型发布

13:11

歸藏(guizang.ai)@op7418

Seedance 2.0 4K 视频上线即梦，15 秒 1200 积分

Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本，15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M，主要面向商业片和商业短剧制作公司。

模型发布视频

13:10

Orange AI@oran_ge

豆包 Seed Audio 1.0：声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布，区别于传统 TTS（文本转语音）的朗读式合成，该模型能根据想象生成人声、音乐、音效和环境音，并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”，类比香蕉首次将智能赋予图像，认为这是人类首次将智能赋予声音。

多模态模型发布语音

13:07

IT之家（RSS）

字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布，豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段，预计7月初正式上线。该模型支持单段原生30秒视频直接生成，用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台，周星驰为首批合作对象，用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段，相关模板当日创作量已突破十万次。

多模态模型发布

13:00

公众号：火山引擎

豆包大模型2.1发布，面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列：Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo，API已全量上线火山方舟。Pro输入6元/百万tokens，输出30元，缓存命中1.2元；Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点：Terminal Bench 2.1上Pro与Claude Opus 4.7持平，SWE-Pro接近GPT-5.5，NL2Repo-Bench领先GPT-5.5，SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分，ALE超越Claude Opus4.7，MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先：OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving，每月2~4次迭代。

智能体模型发布编码

关联讨论 2 条

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 2 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

12:20

公众号：数字生命卡兹克

火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7，Agent大幅进化，多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token（输入/输出），上下文256k，已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测，可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出，Seedance 2.5支持30秒原生直出。Seedream 5.0 pro（7月初上线）及全新音频生成模型即将发布。

智能体多模态模型发布编码

关联讨论 2 条

12:15

小互@xiaohu

字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型，可一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台，允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频

12:14

Berryxia.AI@berryxia

字节跳动发布视频生成模型 Seedance 2.5，版本从 2.0 直接跳升至 2.5，预示大幅迭代。新版本支持单段 30 秒原生视频生成，无需拼接；同时可输入最多 50 个全模态参考素材，极大提升创作素材容量。定价尚未公布，但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。开始吧~·

多模态模型发布视频

12:10

meng shao@shao__meng

字节跳动发布Seedream 5.0 Pro与Seedance 2.5

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5，分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下，图像视频生成赛道基本成为中国大厂的竞争阵地，包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频

11:14

Berryxia.AI@berryxia

百度开源 Unlimited OCR：单次解析多页 PDF，疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek 多模态开源/仓库模型发布

10:07

IT之家（RSS）

字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布，面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型，包括 Pro 和 Turbo 两个深度思考版本，以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型，在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级；Turbo 版本面向规模化生产，效果比肩 Pro

推理模型发布编码

08:13

Berryxia.AI@berryxia

百度开源 Unlimited-OCR，R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

05:06

🚨 AI News | TestingCatalog@testingcatalog

OpenAI 宣布 GPT-5.5-Cyber 模型更新，在 CyberGym 基准上得分 85.6%（早期版本为 81.9%）。Codex 新增 Security 插件，可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分，完整版 GPT-5.5-Cyber 模型面向可信防御者；Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品；Patch the Planet 项目与维护者合作保护关键开源项目。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI 安全/对齐模型发布编码

04:41

Rohan Paul@rohanpaul_ai

OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5，扩大 Daybreak 网络安全计划

OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5，该基准测试 AI 智能体复现已知软件漏洞的能力，对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划，包括：Codex Security 插件（在 Codex 内发现、验证并修复漏洞）；GPT-5.5-Cyber 完整版（供受信任防御者使用）；Cyber Partner Program（赋能安全公司构建基于 OpenAI 能力的安防产品）；Patch the Planet（与维护者合作保护关键开源项目）。本轮模型和计划属于“Trusted Access for Cyber”项目，不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人，自动扫描代码、确认漏洞真实可达、编写补丁并测试，

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI 安全/对齐模型发布编码

关联讨论 2 条

04:40

Tibo@thsottiaux

Let's Patch The Planet. Codex 安全更新和新 GPT-5.5-Cyber。网络防御加速的庆祝日。

OpenAI 安全/对齐模型发布

03:07

elvis@omarsar0

Sakana AI 推出 Fugu 多智能体编排系统，通过单个模型 API 即可访问。其 'Fugu Ultra' 模型性能匹配 Fable 和 Mythos，提供前沿能力且无出口管制风险。在生成程序化地形（Three.js）的对比中，Fugu Ultra 在一次生成（one-shotted）下表现突出。更多示例即将分享。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体模型发布

02:35

Sam Altman@sama

我们希望帮助所有公司变得安全，与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布；在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题，而不仅仅是发现它们。

OpenAI 安全/对齐模型发布

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 2 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

01:12

Berryxia.AI@berryxia

百度开源Unlimited-OCR：可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeek Hugging Face 多模态开源/仓库

6月22日

23:09

Nathan Lambert@natolambert

GLM-5.2 应该是智能体的"DeepSeek 时刻"。我们进入一个新世界，开放模型中拥有了顶尖智能体能力。如果你关心开放，现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Interconnects: GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...

智能体开源生态模型发布

23:05

Nathan Lambert：Interconnects（RSS）

同事件精选67

GLM-5.2：开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2，6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型，匹配 Opus 4.8 无思考模式；在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布，GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布（2025 年 11 月 24 日）到 GLM-5.2 发布（2026 年 6 月 16 日）间隔约 6.8 个月。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2是第一个真正能打的开放编码代理模型，社区反应堪比DeepSeek R1时刻，对依赖Claude Code的开发者是个好消息，开放模型的竞争力又前进了一大步。

22:56

Chubby♨️@kimmonismus

据X用户Kim消息，本周四将发布多个新GPT模型，包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出，5.6 Pro在正确提示词下可完成任意任务，GPT-Bidi-1知识截止于2025年8月，自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试，预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI 多模态模型发布

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。