6月23日

12:10

meng shao@shao__meng

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5，分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下，图像视频生成赛道基本成为中国大厂的竞争阵地，包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频

11:14

Berryxia.AI@berryxia

百度开源 Unlimited OCR：单次解析多页 PDF，疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek 多模态开源/仓库模型发布

10:07

IT之家（RSS）

字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布，面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型，包括 Pro 和 Turbo 两个深度思考版本，以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型，在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级；Turbo 版本面向规模化生产，效果比肩 Pro

推理模型发布编码

08:31

向阳乔木@vista8

百度开源 Unlimited OCR：3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型，仅3B参数、500M激活参数，在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术，并附带了技术解读和开源地址。

多模态开源/仓库端侧

08:13

Berryxia.AI@berryxia

百度开源 Unlimited-OCR，R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

05:06

🚨 AI News | TestingCatalog@testingcatalog

OpenAI 宣布 GPT-5.5-Cyber 模型更新，在 CyberGym 基准上得分 85.6%（早期版本为 81.9%）。Codex 新增 Security 插件，可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分，完整版 GPT-5.5-Cyber 模型面向可信防御者；Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品；Patch the Planet 项目与维护者合作保护关键开源项目。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI 安全/对齐模型发布编码

04:41

Rohan Paul@rohanpaul_ai

OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5，扩大 Daybreak 网络安全计划

OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5，该基准测试 AI 智能体复现已知软件漏洞的能力，对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划，包括：Codex Security 插件（在 Codex 内发现、验证并修复漏洞）；GPT-5.5-Cyber 完整版（供受信任防御者使用）；Cyber Partner Program（赋能安全公司构建基于 OpenAI 能力的安防产品）；Patch the Planet（与维护者合作保护关键开源项目）。本轮模型和计划属于“Trusted Access for Cyber”项目，不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人，自动扫描代码、确认漏洞真实可达、编写补丁并测试，

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI 安全/对齐模型发布编码

关联讨论 2 条

04:40

Tibo@thsottiaux

Let's Patch The Planet. Codex 安全更新和新 GPT-5.5-Cyber。网络防御加速的庆祝日。

OpenAI 安全/对齐模型发布

03:07

elvis@omarsar0

Sakana AI 推出 Fugu 多智能体编排系统，通过单个模型 API 即可访问。其 'Fugu Ultra' 模型性能匹配 Fable 和 Mythos，提供前沿能力且无出口管制风险。在生成程序化地形（Three.js）的对比中，Fugu Ultra 在一次生成（one-shotted）下表现突出。更多示例即将分享。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体模型发布

02:35

Sam Altman@sama

我们希望帮助所有公司变得安全，与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布；在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题，而不仅仅是发现它们。

OpenAI 安全/对齐模型发布

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 2 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

01:12

Berryxia.AI@berryxia

百度开源Unlimited-OCR：可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeek Hugging Face 多模态开源/仓库

6月22日

23:09

Nathan Lambert@natolambert

GLM-5.2 应该是智能体的"DeepSeek 时刻"。我们进入一个新世界，开放模型中拥有了顶尖智能体能力。如果你关心开放，现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Interconnects: GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...

智能体开源生态模型发布

23:05

Nathan Lambert：Interconnects（RSS）

同事件精选67

GLM-5.2：开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2，6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型，匹配 Opus 4.8 无思考模式；在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布，GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布（2025 年 11 月 24 日）到 GLM-5.2 发布（2026 年 6 月 16 日）间隔约 6.8 个月。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2是第一个真正能打的开放编码代理模型，社区反应堪比DeepSeek R1时刻，对依赖Claude Code的开发者是个好消息，开放模型的竞争力又前进了一大步。

22:56

Chubby♨️@kimmonismus

据X用户Kim消息，本周四将发布多个新GPT模型，包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出，5.6 Pro在正确提示词下可完成任意任务，GPT-Bidi-1知识截止于2025年8月，自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试，预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI 多模态模型发布

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。