🚨 AI News | TestingCatalog@testingcatalog · 7天前45

OPENAI 🔥: GPT-5.6-Preview has been spotted in the ChatGPT code. It was likely made available to certain partner Enterprises too. This also potentially means that it will remain in a limited preview state for some time. Not soon? 👀

译OPENAI 🔥: GPT-5.6-Preview 已在 ChatGPT 代码中被发现。它可能也已向某些合作伙伴企业开放。这也意味着它可能会在有限预览状态下持续一段时间。不会很快？👀

Rohan Paul@rohanpaul_ai · 7天前72

Another fantastic open source release. DeepReinforce just dropped Ornith-1.0, an MIT-licensed open-source family of agentic coding LLMs. The flagship Ornith-1.0-397B MoE (17B-active) is the most powerful model in the release, reporting 82.4 on SWE-Bench Verified and 77.5 on Terminal-Bench 2.1 - surpassing Claude Opus 4.7 on both benchmarks. Built on top of pretrained Gemma 4 and Qwen 3.5 Employs a novel self-improving training strategy. With this Ornith changes the training target by asking the model to improve both the answer and the task scaffold, meaning the plan, memory pattern, tool rhythm, error handling, and search process that shape the answer. During RL, the model proposes a better scaffold first, then uses it to produce solution rollouts, and the reward updates both stages together. That makes the model less like a coder following one rigid checklist and more like a coder learning which checklist works for each type of bug, repo, or terminal task. The most interesting result is the 9B model reaching 69.4 on SWE-Bench Verified

译DeepReinforce 发布 Ornith-1.0，一个 MIT 许可的开源智能体编码大语言模型家族，涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE（17B 活跃参数）。旗舰模型在 SWE-Bench Verified 上取得 82.4，Terminal-Bench 2.1 上取得 77.5，均超越 Claude Opus 4.7；并在 SWE-Bench Pro（62.2）、Multilingual（78.9）等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练，采用新型自我改进策略：强化学习不仅生成解决方案，还联合优化任务特定的 scaffold（包含计划、记忆模式、工具节奏、错误处理等）。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布，支持商用与研究。

🚨 AI News | TestingCatalog@testingcatalog · 7天前74

DeepReinforce has released Ornith-1.0, their new self-improving family of open-source models designed for agentic coding. > Ornith-1.0 learns to write its own task scaffolds during training rather than relying on human-designed harnesses. > The 397B MoE flagship can match Claude Opus 4.7 on coding benchmarks, and the compact 9B Dense variant is optimized for edge devices.

译DeepReinforce 发布 Ornith-1.0 系列开源模型，专为智能体编码设计。参数覆盖 9B Dense、31B Dense、35B MoE 和 397B MoE，基于 gemma4 和 qwen3.5 微调。采用自我改进训练策略：强化学习同时生成解决方案和任务脚手架。旗舰 397B MoE 在编码基准上匹配 Claude Opus 4.7，9B Dense 针对边缘设备优化。评测成绩包括 Terminal-Bench 2.1 77.5、SWE-Bench verified 82.4、SWE-Bench Pro 62.2、NL2Repo 48.2 等。全部模型以 MIT 许可证开源，可商用和研究使用。

Chubby♨️@kimmonismus · 7天前43

GPT-5.6 spotted in internal model-access route. That GPT-5.6 is coming is no secret. The only question is when and how quickly it will arrive. My guess is that everything is being prepared to respond to a potential Fable 5 re-release by releasing GPT-5.6 shortly afterward. Given the increasing rumors surrounding Fable 5, it's not surprising that GPT-5.6 is back in the spotlight.

译GPT-5.6 在内部模型访问路径中被发现。 GPT-5.6 即将到来已不是秘密。唯一的问题是它何时以及多快到来。我猜测，一切准备工作都是为了应对潜在的 Fable 5 重新发布，随后很快发布 GPT-5.6。鉴于围绕 Fable 5 的传闻越来越多，GPT-5.6 重新成为焦点并不意外。

Berryxia.AI@berryxia · 7天前60

这下让真的可以让很多人都闭嘴了！ Unsloth把GLM-5.2压缩到1-bit后。本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本，速度还能到21 tok/s左右。在同一个prompt下生成的HTML/设计效果，看起来甚至比闭源模型更丰富、更“有想法”。这已经不是简单的量化了，而是把一个原本需要海量显存的超大模型，硬生生塞进了消费级硬件还能打。 GLM-5.2本身就以创意和长上下文见长，现在连极致量化后都还能保持较强的表现，确实有点超出预期。这也再次验证了一个趋势：开源模型在极端优化后，正在快速缩小和闭源前沿模型在实际可用性上的差距，尤其是在本地部署和特定任务上。大内存的本子这下真的太香了，Qwen 3.7 这些模型又该迭代版了。

译Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本，在 Mac Studio M3 Ultra（256GB RAM）上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出（HTML/设计效果）对比，1-bit 版本表现不逊色，甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长，极端量化后仍保持较强表现，验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距，尤其适合本地部署。

Chubby♨️@kimmonismus · 7天前24

I hope this is true.

译Anthropic 的 Fable 5 于今日重新发布。我希望这是真的。

Chubby♨️@kimmonismus · 7天前31

Some users can (re)select Fable 5 in the Claude Code model selector, while others say they were able to select it despite Fable 5 being taken down. I deleted the post about it because I was too unsure and didn't want to spread false information. But regardless, it seems things are happening, and Fable 5 is within reach again!

译部分用户可以在 Claude Code 模型选择器中（重新）选择 Fable 5，而另一些用户表示，尽管 Fable 5 已被下架，他们仍能选中它。我删除了相关帖子，因为不太确定，不想传播错误信息。但无论如何，事情似乎在推进，Fable 5 再次触手可及！

🚨 AI News | TestingCatalog@testingcatalog · 7天前48

ICYMI 👀: OpenAI upgraded its GPT-5.5-Instant model on ChatGPT for paid users and free users are getting it as well, shortly. > It handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Most of you won’t use it but there are also loads of free users who will.

译OpenAI 推出新版本 GPT-5.5 Instant，号称是使用最多的模型。新版本能更好地理解问题意图并调整回答，更可靠地处理复杂约束，同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送，明天起免费用户也将陆续获得。

Alibaba Cloud@alibaba_cloud · 7天前65

The buzz around #HappyHorse 1.1 just keeps getting bigger! Proud to see #ComfyUI join the growing list of industry leaders bringing the latest generation of #AIVideo creation to creators worldwide.

译HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI，一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力（运动更流畅）；增强 R2V，每次最多使用 9 张参考图；实现多角色造型零串扰，背景变化时角色仍保持一致；指令遵循能力增强，可处理超 2500 字符的提示词，单次生成 6–8 个场景；修复皮肤反光和过度锐化；对话与音效同步更紧密。

Alibaba Cloud@alibaba_cloud · 7天前67

A big win for creators everywhere. Proud to see #Replicate supporting #HappyHorse 1.1 and helping more storytellers access powerful tools for video creation, audio, and character-driven narratives.

译全球创作者的重大胜利。自豪地看到 #Replicate 支持 #HappyHorse 1.1，帮助更多故事讲述者获得视频创作、音频及角色驱动叙事的强大工具。

ginobefun@hongming731 · 6月25日43

http://x.com/i/article/2069928325951401985 # BestBlogs 早报 · 06-25｜OpenAI 联手 Broadcom 出芯片，Anthropic 谈人机协作，阿里代码评审 CLI 揽星 5k 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲分别站在 AI 全栈竞争的三个不同层面：芯片、协作模式、代码质量。 OpenAI 与 Broadcom 联手把推理芯片的研发周期压缩到九个月，AI 行业的竞争正卷入硬件层。 Anthropic 罕见公开内部协作经验，给「人类与多智能体共享工作台」这种新协作模式立了规矩。另一边，阿里把验证两年的代码评审 CLI 开源即揽星 5k，提醒我们 AI 写代码和 AI 审代码远不是同一种能力。三条精讲合在一起看，正好勾勒出一条完整的链路：底层算力越来越便宜，协作方式从单人变成多人多智能体，但生产出来的代码质量仍需要专门工具来兜底，每一层都在同步进化，缺一不可。速览部分还覆盖了 Flutter 渲染机制、Gemini 3.5 Flash 的计算机操作能力、Qwen 的语言世界模型、Cisco 零日漏洞复盘、智能体记忆构建方法，以及一段 Gemini 对抗 DeepSeek 的幕后故事；补充阅读部分则提供了围绕今天三条精讲的更多一线信源和延伸视角。 ## ★ 精讲一：OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片背景：过去两年，AI 行业的竞争主线一直是模型能力和应用层产品，芯片更多被当作「买来的基础设施」。OpenAI 这次直接下探到芯片设计层，和 Broadcom（NASDAQ: AVGO）联合发布了 Jalapeño——OpenAI 第一款定制 LLM 推理芯片，也是双方多代计算平台合作的第一颗芯片。芯片由 Broadcom 总裁兼 CEO Hock Tan、总裁 Charlie Kawwas 当面交付给 OpenAI CEO Sam Altman 和总裁 Greg Brockman，象征意义大于一次普通的供应商发布会。关键事实：Jalapeño 从设计到流片仅用九个月，团队称这是高性能芯片史上最快的 ASIC 研发周期之一，而这个研发过程本身就由 OpenAI 自家模型加速完成——形成了「用模型设计芯片，再用芯片跑模型」的闭环。芯片围绕 OpenAI 对 LLM 推理需求的深度理解从零设计，设计阶段就充分参考了模型路线图、推理 kernel、服务系统和产品需求，并联合 Broadcom、Celestica 在芯片实现、板级与机柜系统集成、高性能网络、可扩展生产系统等环节实现工业化落地。工程样片已经在实验室以量产目标频率和功耗运行真实负载，包括 GPT‑5.3‑Codex‑Spark。早期测试显示，Jalapeño 的能效比（performance per watt）显著优于当前最先进水平，详细技术报告将在未来几个月公布。架构层面的核心思路是减少数据搬运、平衡计算/内存/网络资源，让实际利用率更接近理论峰值；Broadcom 的芯片实现能力和包括 Tomahawk 网络芯片在内的网络技术，则负责把这套平台真正落地到大规模生产环境，并计划从 2026 年起与 Microsoft 等数据中心伙伴一起以吉瓦级规模部署。OpenAI 硬件项目负责人 Richard Ho 提到，团队围绕对前沿模型最重要的 kernel、内存搬运、网络和服务模式优化架构，让 Jalapeño 在执行最重要的负载时能更接近硬件理论极限；Broadcom CEO Hock Tan 则把这次合作定义为面向未来十年 AI 物理基础设施扩张的「多代路线图的开端」。为什么重要：这标志着 OpenAI 的全栈战略从「模型 + 产品」正式下探到「芯片」这一层，构建出「模型反哺芯片设计、芯片支撑更便宜推理」的飞轮。Brockman 把这称为「计算驱动的经济」——通过自己设计更多层级的技术栈，用更高效率提供更多智能，让先进 AI 的访问成本持续走低，并能被用于解决更重要的问题。对于依赖云端推理成本的开发者和企业来说，这条芯片自研路线如果跑通，意味着未来几年大模型调用价格还有进一步下降空间；而对芯片产业来说，OpenAI 以「模型公司」身份亲自下场定制芯片，本身也是对英伟达等传统芯片供应商话语权的一次结构性挑战。与今日其他精讲的关系：如果说精讲一是 AI 竞争卷入硬件层的信号，精讲三里阿里开源的代码评审 CLI 则提醒我们，硬件红利最终还是要靠软件工程能力消化——芯片更快不代表代码质量自动变好，AI 写代码与 AI 审代码仍是两种需要分别打磨的能力。阅读建议：如果你关注 AI 基础设施和芯片产业链，这篇官方发布值得通读，重点看架构设计思路和量产时间线；如果只关心应用层，知道「推理成本可能继续下降」这一个结论即可，不必深究芯片实现细节。详见：OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片 ## ★ 精讲二：Anthropic 关于构建高效人机协作团队的经验 | Claude 背景：过去和 AI 协作基本是「一人对一个聊天窗口」的单机模式——一个人面对一个智能体完成单点任务。随着智能体能处理编码、研究、财务分析这类复杂长周期工作，使用形态也在变化，但本质上仍是「单人」体验。Claude Tag 这类工具的发布打破了这个边界：人类和智能体现在可以共处同一个工作空间，为团队共同目标协作，工作形态从「单机游戏」变成了「多人游戏」——人类团队设定策略，Claude 执行具体工作。关键事实：Anthropic 在文章中把能与多个不同人类同时协作的 AI 模型称为「多智能体（multiplayer agents）」。这类智能体需要三项基础能力：持久记忆（记住目标并据此调整执行）、不绑定个人的独立身份凭证（在安全可预期的边界内运作）、对组织信息的持续广泛访问权限（理解组织运作方式并据此行动）。文中举了一个具体场景：人类团队和智能体在 Slack 同一个频道里一起分析数据集，智能体能跟进对话上下文、调用工具、给出分析结果，整个过程就像团队里多了一名常驻成员，而不是临时被叫来回答一个问题就消失的助手。但 Anthropic 强调，光有技术基础还不够，团队还需要建立新的工作方式和共同规范，文章总结了四条经验：信息默认公开（团队内部尽量公开透明，因为智能体只能从可搜索的文本——Slack、代码、文档、会议记录——构建对世界的理解，私聊和口头沟通对智能体而言「不存在」，与其逐条决定哪份文档能给智能体看，不如直接设定工作空间级别的安全边界，让信息在边界内对人和智能体一视同仁地流动）；人和智能体各有清晰角色分工，避免责任边界模糊导致互相甩锅或重复劳动；由人类设定北极星目标，智能体负责执行细节，团队设定战略方向，Claude 执行具体工作，这种分工让人类可以专注在更高层的判断上；按可验证程度逐步放权，而不是一开始就给智能体完全自主权——风险越低、越容易验证结果的任务，越适合早期放权，高风险决策仍需人类把关。为什么重要：这是 Anthropic 少见的公开内部协作实践，相当于把「团队级智能体协作」这件事从概念阶段直接给出了一套可复制的治理框架。对正在把 AI 智能体引入团队协作流程的公司来说，这四条经验提供了具体的边界设计参考，而不只是停留在「智能体很强大」的宏观叙事，也回应了很多团队在引入智能体协作时最容易卡住的两个问题——信息要不要全量开放给智能体、放权节奏怎么把控。与今日其他精讲的关系：精讲一讲的是 AI 全栈竞争卷入硬件层，精讲二则是软件协作范式的进化——两者共同指向同一个趋势：AI 正在从「被使用的工具」变成「被设计进组织结构里的协作者」，无论是芯片层还是团队协作层，都需要重新设计底层架构来适配这种变化。阅读建议：如果你的团队已经或准备让多个智能体参与协作流程，这四条经验值得逐条对照自己的实践，尤其是「信息默认公开」和「按可验证程度放权」这两条最容易在落地时被简化掉；如果只是单人使用 AI 工具，可以重点看「信息默认公开」这一条，它对个人知识管理同样有参考价值。详见：Anthropic 关于构建高效人机协作团队的经验 | Claude ## ★ 精讲三：阿里开源 Open Code Review：一周揽下 5k star，更专业的代码评审 CLI 背景：AI 每天生成的代码量已经远超人工评审的承载上限——以前一天 review 几百行,现在动辄几千甚至几万行，代码评审正在成为研发效率新的质量瓶颈。Open Code Review 的前身是阿里集团内部官方 AI 代码评审助手，过去两年在内部服务了数万开发者、识别了数百万个代码缺陷，经过大规模生产验证后被孵化为开源项目，向社区开放。关键事实：文章直接点出了用通用 Agent（比如 Claude Code + Skills）做代码评审的三个常见痛点：覆盖不全（变更较大时 Agent 倾向于「偷懒」，选择性评审部分文件，导致遗漏）、位置漂移（报告的问题与实际代码位置经常对不上，出现行号或文件偏移）、效果不稳定（纯自然语言驱动的 Skills 难以调试，评审质量因提示词的细微差异大幅波动）。这些问题的根源在于纯语言驱动的架构缺乏对评审流程的强约束。Open Code Review 的解法是「确定性工程 + Agent」混合架构：精准的文件筛选（明确哪些文件需要评审、哪些应当过滤，确保重要改动一个不漏）、智能文件打包（把关联文件归并为同一评审单元，每个包作为独立 subagent 任务，上下文互相隔离，超大变更场景下更稳定也天然支持并发）、精细化规则匹配（针对不同文件特征匹配对应评审规则，用模板引擎而非语言模型保证规则匹配的稳定性和可预期性）、外挂的定位与反思组件（独立的评论定位模块和反思模块，系统性提升 AI 反馈的位置准确性和内容准确性），这些「不能出错」的环节全部交给工程逻辑负责的强约束环节；Agent 只负责动态决策和上下文召回这类真正需要推理的部分，包括场景化提示词调优和场景化工具集沉淀。阿里内部数据显示：月活用户 2 万、累计执行 370 万次真实评审任务、用户采纳率超过 30%、有效 AI 评论占比全集团范围内近 80%、评论位置准确率超过 97%。基于 50 个热门开源仓库、200 个真实 PR、覆盖 10 种编程语言、80+ 资深工程师交叉标注的开源评测集显示：Open Code Review 各模型组合准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%（以 Claude-4.6-Opus 为例，OCR 产出 889 条评论命中 301 个真实问题，准确率 33.90%；Claude Code 产出 5980 条评论命中 435 个真实问题，准确率仅 7.23%）；但 Claude Code 在召回率上更具优势，CC + Claude-4.6-Opus 以 28.90% 的召回率位居所有组合之首，比 OCR 最优组合多发现约 45% 的真实问题，CC + Qwen3.7-Max 和 CC + GLM-5.1 的召回率同样超过 OCR 多数组合，这对安全审计这类「宁可多查、不可遗漏」的场景仍有不可替代的价值。综合 F1 指标，Open Code Review 在准确率与召回率之间取得了更均衡的表现（最优 25.10% vs Claude Code 最优 14.13%），资源消耗也更低（Token 消耗 352K–743K，耗时 1–6 分钟，远低于 Claude Code 的 2,062K–5,664K Token、5–14 分钟）。文章还指出一个有意思的现象：更新的 Claude-4.8-Opus 在两个工具上都表现出「更精确但更保守」的特征，准确率最高但召回率明显低于上一代 Claude-4.6-Opus，说明模型代际升级不一定带来评审效果的全面提升。为什么重要：这组对比数据揭示了一个容易被忽视的事实——AI 写代码与 AI 审代码是两种截然不同的能力，即便是最强的编码 Agent，也需要专业的评审 Agent 来兜底。Open Code Review 团队甚至用 Claude Code 从零以 Go 语言重写了这个开源项目本身，再用 Open Code Review 反过来评审每一次变更，106 次代码变更中累计发现 145 个有效问题，涵盖严重 Bug、安全问题、错误处理不当、命名错误、代码重复、性能问题等多种类型，这个「自证」过程本身就是对工具能力的真实验证。与今日其他精讲的关系：精讲一和精讲二分别讲了 AI 在硬件层和团队协作层的进化，精讲三则把视角拉回最基础的软件工程环节——再快的芯片、再高效的人机协作，最终生产出来的代码质量仍然需要专门的工程化方案去把关，这是当前通用 Agent 普遍存在的短板。阅读建议：如果你的团队已经在用 AI 大量生成代码，这篇文章里「确定性工程 + Agent」的架构思路和评测数据值得细读，尤其是文件打包和定位反思组件的设计可以直接借鉴；如果只是想知道结论，记住一句话即可——通用 Agent 评审代码目前还不如专门工具准，但召回更全，两者可以搭配使用。详见：阿里开源 Open Code Review：一周揽下 5k star，更专业的代码评审 CLI ## 速览 [说好的艺术家呢？—— AI 时代，内容工业的三次死亡与创作者的重生](https://www.bestblogs.dev/podcast/e1238ff) 这是「屠龙之术」作者在 AEIS-AI 娱乐内容产业峰会上一场 40 分钟演讲的录制版本，围绕当前 AI 多模态领域的发展现状展开。文章深入剖析了 AI 如何从素材生产、生产流程、版权归属三个层面接连冲击传统内容工业，并指出创作者唯有放弃旧有的生产者身份、构建全新的价值愿景，依靠人类独有的直觉、品味与信任关系，才能在技术碾压之下实现真正的「重生」，而不是在旧赛道里继续被替代。演讲本身带有明显的行业一线视角，时间线里穿插了多个具体案例，适合从业者对照自己所在的细分赛道判断冲击程度和应对节奏。 [Flutter 底层渲染解析：BuildContext 与 Element Tree 详解](https://www.bestblogs.dev/article/c7c34649) 文章从一句常见的报错「Looking up a deactivated widget's ancestor is unsafe」讲起，深入剖析 Flutter 内部的三棵树结构——Widget Tree、Element Tree、RenderObject Tree——以及 BuildContext 究竟是什么、setState 调用之后框架内部到底发生了什么。比起照搬 Stack Overflow 答案，这篇文章更适合想真正理解 Flutter 渲染原理、从根上修复上下文相关错误的开发者。 [在 Gemini 3.5 Flash 中推出计算机操作功能](https://www.bestblogs.dev/article/16a75c47) Google 宣布计算机操作（computer use）现已成为 Gemini 3.5 Flash 的内置工具，此前这项能力只在独立的 Gemini 2.5 computer use 模型中提供。Gemini 在函数调用和搜索/地图等内置工具调用上本就表现不错，这次原生整合计算机操作能力之后，开发者可以直接用主力 Flash 模型构建能与浏览器、移动端、桌面环境交互的智能体，不再需要额外接入专门模型，开发链路更简洁。 [Qwen-AgentWorld 开源：让 Agent 学会“先预测，再行动”](https://www.bestblogs.dev/article/8810d85f) 通义实验室开源了 Qwen-AgentWorld，号称首个原生语言世界模型——核心思路是让 Agent 不再只在真实环境里反复试错（搭建沙箱成本高、危险操作可能直接搞崩环境），而是先学会「预测环境会发生什么」。环境建模从继续预训练阶段就作为训练目标，贯穿 CPT、SFT、RL 全流程，而不是对通用大语言模型的事后适配；单一模型同时覆盖 MCP、Search、Terminal、SWE 等文本类环境与 Web、OS、Android 等 GUI 类环境，实现跨领域知识迁移，在 AgentWorldBench 上超过了 GPT-5.4 等前沿模型。文章还展示了可控模拟和跨任务泛化两种应用范式，适合关注 Agent 训练方法论演进的读者。 [Cisco SD-WAN 管理器零日漏洞遭利用获取 Root 权限全过程](https://www.bestblogs.dev/article/bcfc7fba) Mandiant 详细复盘了一起真实攻击事件：威胁行为者在拿到某服务商的 SD-WAN 基础设施初始访问权限后，利用 Cisco Catalyst SD-WAN Manager 中的零日权限提升漏洞 CVE-2026-20245，通过文件上传功能缺乏校验的缺陷，把一个受限的管理员账号一路提权到 root 权限。拿到 root 之后，攻击者并未止步于横向移动，而是进行了大量针对性的反取证清理，试图抹去入侵痕迹，这也增加了事后溯源的难度。这篇分析对安全团队理解真实世界的零日利用链条、文件上传类漏洞的危害边界以及事后取证排查很有参考价值，建议运维和安全团队结合自己的 SD-WAN 部署情况核对补丁状态。 [如何为 AI 智能体构建记忆](https://www.bestblogs.dev/article/35c6d909) LangChain 这篇文章给出了一套构建智能体记忆的结构化方法：通过「捕获、分析、更新」三步循环的闭环，让智能体能从之前的交互中学习，避免用户每次都要重复纠正同样的问题。文章还结合 LangSmith 讲解了具体的可观测性、记忆引擎和上下文管理实现方式，适合正在给自己的 Agent 加记忆能力的开发者参考落地细节。 [40 天不睡、5 人死磕：DeepMind 主管爆料 Gemini 大战 DeepSeek 内幕](https://www.bestblogs.dev/article/87f785ef) 这篇编译自 Gemini 预训练主管 Vlad Feinberg 的播客访谈，讲述了 Gemini 2.0 Flash 背后只有 5 个人的团队、在硅谷和巴黎两地 24 小时倒班、连续 40 天不眠不休训练模型的真实故事，揭开了「顶尖实验室天天搞颠覆性算法」这种想象背后更朴素的工程真相——团队真正的日常是调整编译器和超参数、解决显存溢出、把微调任务硬塞进一堆老旧 TPU 卡里。文章还谈到预训练研究、量化、推理协同设计，以及程序员在 AI 时代应该往哪个方向转型，对关心大模型训练一线工作方式、想了解「干脏活」式工程贡献如何被认可的读者很有意思。 ## 补充阅读 [GitHub - BrightbeamAI/chap：协作人机交互协议（CHAP）](https://www.bestblogs.dev/article/c077a653)：一个开放协议，专门用于规范人类与 AI 智能体之间结构化、可审计的协作，把人工覆写行为记录为结构化数据，方便追溯决策过程和持续改进提示词，适合关注人机协作协议标准化的读者。 [从表单到 Agent：得物社区活动搭建的 AI 实践之路](https://www.bestblogs.dev/article/16cf7e6c)：得物技术团队分享了把社区活动搭建流程从「填表单」逐步演进到「AI 驱动 + 人工确认」两阶段 Agent 架构的实践过程，包含关键的取舍和架构设计细节，适合做内部工具 Agent 化改造的团队参考。 [超越 CLEAN 与 MVP：在 Android 中构建离线优先的响应式数据层](https://www.bestblogs.dev/article/4f0d0408)：介绍了响应式数据层架构（RDLA），通过强制分离公共 API 数据定义与私有实现数据源，解决响应式 UI 框架与移动端存储限制之间的矛盾，重点是离线优先和去耦同步，适合 Android 架构方向的工程师。 [Greg Brockman 宣布 OpenAI 推出全新 LLM 推理芯片 Jalapeño](https://www.bestblogs.dev/status/2069809298612621629)：OpenAI 总裁本人发布 Jalapeño 推理芯片的第一时间动态，可以作为精讲一官方公告的一线信源补充。 [OpenAI 发布首款 AI 芯片：Jalapeño](https://www.bestblogs.dev/status/2069770172802773292)：OpenAI 官方账号同步发布的芯片公告，与上面 Brockman 的个人动态相互印证，适合想看官方第一反应的读者。 [阿里重磅开源！Open Code Review：一周 5k star，为你的代码保驾护航](https://www.bestblogs.dev/article/ea5f8bff)：另一篇视角介绍 Open Code Review 开源始末，公开了更多评测数据细节和具体使用方式，适合看完精讲三还想了解上手步骤的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读： 1. 精讲三 · Open Code Review —— 信息密度最高，「AI 写代码 vs AI 审代码」的结论对几乎所有用 AI 编程的团队都有直接参考价值。 1. 精讲一 · OpenAI 与 Broadcom 推理芯片 —— 了解 AI 行业竞争正在卷入硬件层这个大趋势，判断未来推理成本走向。 1. 精讲二 · Anthropic 人机协作经验 —— 如果你的团队已经或即将引入多智能体协作，这四条经验能帮你少踩一些治理上的坑。其余内容可以按兴趣挑选：关注移动端开发看 Flutter 渲染解析，关注 Agent 工程看 Qwen-AgentWorld 和智能体记忆构建，关注安全看 Cisco 零日漏洞复盘，关注行业幕后故事看 Gemini 对抗 DeepSeek 那篇。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño，九个月流片，工程样片已跑GPT‑5.3‑Codex‑Spark，能效比显著领先，计划2026年吉瓦级部署。Anthropic公开多智能体协作经验，提出需持久记忆、独立凭证、广泛信息访问，总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review，一周5k星，采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。

Nathan Lambert@natolambert · 6月25日53

GLM 5.2 being on the Opus frontier for cost of CursorBench is what drives frontier lab margins down

译GLM 5.2 在 CursorBench 上处于 Opus 前沿（在成本方面），这正是导致前沿实验室利润下降的原因。

Lee Robinson@leerob · 6月25日65

You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. Results from our evals ↓

译你现在可以在 Cursor 中试用 GLM 5.2！很高兴看到更多有用的开放模型，感谢 Fireworks 在此合作。我们的评估结果如下 ↓

ChatGPT@ChatGPTapp · 6月25日65

The new GPT-5.5 Instant is very smart, very intuitive, and very fun to chat with. Rolling out now to everyone, starting with Pro and then Plus users. Free users should have the new GPT-5.5 Instant model by tomorrow.

译新的GPT-5.5 Instant非常智能、非常直观，聊天起来非常有趣。现已开始向所有人推送，先从Pro用户，然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。

OpenAI@OpenAI · 6月25日67

We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better at understanding the intent behind a question and adapting its response accordingly. It also handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Rolling out today to paid users, tomorrow to free users.

译我们为你带来了新版 GPT-5.5 Instant，它现在聊起天来有趣多了。我们最常用的模型现在能更好地理解问题背后的意图，并相应地调整回应。它也能更可靠地处理复杂约束，让购物和本地推荐更加实用和连贯。今天向付费用户推送，明天向免费用户推送。

Nathan Lambert@natolambert · 6月25日68

A much needed data release! Excited to tinker with the data.

译如何训练出在终端和编码方面能力强大的小型智能体模型？现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B，这是基于 Qwen-3 的最强开放数据智能体模型，在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布，很兴奋。

Greg Brockman@gdb · 6月25日69

Big improvements to GPT-5.5 Instant, including being much more fun to talk to. Give it a try:

译OpenAI 推出 GPT-5.5 Instant 新版本，能更好理解问题意图、处理复杂约束，并改进购物与本地推荐。今日向付费用户推送，明日覆盖免费用户。

Berryxia.AI@berryxia · 6月25日78

Qwen直接训了一个能模拟7种Agent环境的语言世界模型，叫Qwen-AgentWorld。它不是先训Agent再加环境，而是从头就把“环境建模”当成核心训练目标。模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化，而不是只学会怎么去操作。他们做了两个方向的探索：一个是把世界模型做成高质量的环境模拟器，用来跑可控的Sim RL，结果发现用模拟环境训练的Agent，在某些任务上甚至能超过真实环境训练的Agent。另一个更有意思：单纯让模型做环境预测（不做任何Agent训练），这个预测能力居然能直接迁移到真实的多轮Agent任务上，在多个benchmark上都有明显提升，包括一些完全没见过的领域。 Qwen这次开源了35B的MoE版本和对应的benchmark。核心思路很清晰：想让Agent变强，先让它真正“懂”环境，不只是只教它怎么行动。

译Qwen-AgentWorld是一个原生语言世界模型，端到端以环境建模为训练目标，而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境，并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向：1）将世界模型用作可控Sim RL的环境模拟器，模拟环境训练的Agent在部分任务上超过真实环境训练；2）仅做环境预测（不进行Agent训练）的预测能力零微调迁移到多轮Agent任务，在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Chubby♨️@kimmonismus · 6月25日44

This Fable 5 update sounds almost too good to be true: The latest Claude Code update does not only include some interesting hints about Fable 5’s return. It also suggests that the model may be permanently added to the subscription plan. That would be fantatic. And I hope it's true insofar as Anthropic generates good PR with it.

译Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week"，同时移除 "purchased separately from your plan"，暗示 Anthropic 正为 Fable 5 回归做准备，可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待，认为有望带来良好公关效果。

OpenRouter@OpenRouter · 6月25日54

Fugu Ultra by @SakanaAILabs is live on OpenRouter! Excited to see more multi-model systems pushing the frontier.

译Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter！很高兴看到更多多模型系统推动前沿。

Alibaba Cloud@alibaba_cloud · 6月24日69

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 🔗 Model Studio: https://int.alibabacloud.com/m/1000413253/

译阿里云发布 Qwen-AgentWorld，一个原生语言世界模型，可在单一模型内模拟 7 种智能体环境（MCP、搜索、终端、SWE、Web、OS、Android），环境建模是其初始训练目标而非事后适配。该模型

Orange AI@oran_ge · 6月24日54

刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型这个模型是原生多模态模型，是目前的多模态最强模型。相比 2.0 版本，增强了 coding 能力和 Agent 能力，具体的评测可以参考藏师傅的文章体验地址 http://colaos.ai

译Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

Qwen@Alibaba_Qwen · 6月24日76

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 📑 Paper: https://arxiv.org/abs/2606.24597 📖 Blog: https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub: https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace: https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope: https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

译通义千问发布Qwen-AgentWorld，一款原生语言世界模型，可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标，非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径：一是构建环境模拟基础模型；二是探索世界模型增强智能体训练——可控Sim RL（以LWM为环境的智能体强化学习）优于真实环境训练，而LWM预热（预测环境的学习）即使不经任何智能体特定微调，也能将预测知识迁移至智能体任务。

Alibaba Cloud@alibaba_cloud · 6月24日60

Meet Qwen3.7-Plus, built for multimodal agent execution across GUI interaction, tool use, and coding. From visual input to code and real task execution, it’s designed for long-running, real-world agent workflows. Try it today on Alibaba Cloud with a limited-time 20% discount. 🔗 : https://int.alibabacloud.com/m/1000414123/

译认识 Qwen3.7-Plus，为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行，它专为长期运行的现实世界智能体工作流而设计。今天在阿里云上试用，限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/

小互@xiaohu · 6月24日56

Seedance 2.5 发布会感觉海外朋友很想了解方便英文朋友了解内容，我配好了中英文双语字幕嘿嘿

译字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片，原生4K分辨率，可输入50个全模台参考素材，并支持3D白模。同时推出AI版权商业化平台，允许用户使用官方授权的IP电影版权进行创作和分成。

小互@xiaohu · 6月24日61

原样抄写几十页的 PDF，几乎所有模型都做不到一种全新参考滑动窗口注意力（R-SWA）技术能让模型像人类抄书一样“连抄几十页”，而不会造成其记忆混乱。最新开源的 Unlimited OCR 模型：可以模拟人类解析工作记忆的模式 3B大小 500M激活但在标准 32K 上下文上它可以一次前向推理能吞几十页文档，不用切页... 该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作此前所有模型都无法通过一次前向推理完成数十页文档的解析。因为传统 OCR 是一页一页跑，每跑完一页就清空记忆，最后再把各页结果拼起来唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR，就是模拟人类抄书过程，使用了一种叫参考滑动窗口注意力（R-SWA）的技术模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单，这两样区别对待：原件，从头到尾一直完整看着，保证抄写位置不出错。正在写的字，只看最近一小段(默认 128 个字)，更早的就不管了，等于边写边忘。好处是，它脑子里要记的东西，始终恒定那么多。不存在需要记的太多，脑子掉线的情况，所以不管文档多少页，显存和算力都不涨。还能一直连续的的抄写文档...

译百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

Rohan Paul@rohanpaul_ai · 6月24日52

VibeThinker is a 3B param model, with almost head to head benchmark result with Opus 4.5 on reasoning with novel SFT+GRPO. Unusually strong for its size: with only 3B parameters, 94.3 on AIME26, 80.2 Pass@1 on LiveCodeBench v6, and 96.1% acceptance on recent unseen LeetCode contests. "places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2" They start from a 3B Qwen2.5-Coder base model, then train it with carefully filtered hard examples, multi-solution supervised training, reinforcement learning on math/code/STEM tasks with verifiable rewards, self-distillation, instruction-focused RL, and a test-time answer-checking method called CLR.

译VibeThinker是一个仅3B参数的推理模型，采用SFT+GRPO训练，在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3，LiveCodeBench v6上80.2 Pass@1，近期未见过的LeetCode竞赛中接受率达96.1%，匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B，经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

swyx 🔜 @aiDotEngineer@swyx · 6月24日41

btw Zai IPO'ed in Jan at HK$120 a share. when I first met @louszbd nobody really knew anyone using GLM's. now they have beat deepseek with the world's undisputed top open model and in some respects (see @ml_angelopoulos) say top model period, and are returning to SF @aidotengineer on top of the world and open for business! excited for @Thom_Wolf and @ZixuanLi_ to chat onstage!

译智谱AI（Zai）1月以每股120港元在港IPO。其GLM-5.2模型击败DeepSeek，成为全球公认的最佳开源模型，并在部分基准上整体表现领先。团队首次现身硅谷，参加AI Engineer World's Fair，将分享最新工作进展。

Berryxia.AI@berryxia · 6月24日56

刚刚，Mistral发布OCR 4！（非开源模型） 170种语言，自带置信度评分，OCR赛道又开始卷了啊！ 2026年6月23日，Mistral AI发布了Mistral OCR 4。这家以大语言模型闻名的法国公司，突然杀进了OCR领域。 Mistral OCR 4的核心能力不是简单的文字识别。它为每个识别结果生成边界框，精确标注文字在页面上的位置。它对每个文本块进行自动分类：标题、正文、表格、页眉页脚。它为每个识别结果附带置信度评分，告诉你这个字它有多确定。支持170种语言。这件事的背景是，过去三个月OCR赛道经历了一场密集的技术迭代。百度刚刚开源了Unlimited OCR，用R-SWA机制实现了一次推理处理几十页文档。 Now Mistral带着完全不同的思路入场，不是做长文档理解，而是做结构化输出。两种路线指向同一个方向：OCR正在从"认字工具"进化为"文档理解引擎"。以前OCR输出的是纯文本。现在输出的是带位置、带类型、带置信度的结构化数据。对开发者来说，这意味着下游任务不需要再自己做版面分析。OCR直接给你答案。价格：$4 /1000 页做参考官网可以看看 OCR评测圈又要热闹了。 Mistral 这个OCR模型中文的表现我不信可以超越Paddle OCR，下一个拿它做个测评看看效果？

译2026年6月23日，Mistral AI发布非开源模型Mistral OCR 4，支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块（标题/正文/表格/页眉页脚）、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线，而是提供结构化输出，使OCR从认字工具进化为文档理解引擎，下游开发者无需再做版面分析。

Hao AI Lab@haoailab · 6月24日73

(1/5) 5 seconds of video. 1.8s seconds of generation. One NVIDIA GeForce RTX 5090 on FastVideo. 🤯🚀 - FastWan-QAD, a new family of video generation models - Trained with FastVideo's Quantization-Aware Distillation (QAD) recipe. - Powered by FastVideo, we push a single NVIDIA GeForce RTX 5090 to its absolute limit: generating a 5-second 480P video in 1.8s end-to-end! 📜 Blog: https://haoailab.com/blogs/fastwan-qad/ 💻 Code: https://github.com/hao-ai-lab/FastVideo 💽 Model: https://huggingface.co/FastVideo/FastWan-QAD-1.3B

译Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

Rohan Paul@rohanpaul_ai · 6月24日66

AI video is moving into its real-time reaction era, with MaineCoon now leading in low-latency AI video. @catnips_ai just introduced MaineCoon, a 22B real-time text-to-audio-video model built for live AI characters, not offline video generation i.e. to make AI video feel live by generating synced speech and visuals in real time. A record-breaking frame rate of up to 47.5 FPS on a single H100 GPU. Audio-visual generation cost drops significantly below $0.001 per second and continues to fall. It positions the paradigm of social world models for social-interactive purposes. MaineCoon serves as the first generative core toward this paradigm and provides a technical foundation for next-generation AI-native social platforms. It proposes a multi-stage forcing-free streaming training paradigm that includes self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). These components enable 22B-scale native and efficient streaming audio-visual training. It designs an agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift through agentic cache management, chunk commitment, long-context rollout, and prompt planning. The big deal is long-duration streaming at low cost. Text goes in, the first frame appears in under 1s, and the model keeps producing synced video and audio while playback is already happening. So it is not making a full video first, then dubbing it later. It generates forward in small chunks, and each chunk continues from the last one. That is hard because tiny chunks usually break consistency. Faces drift. Voices change. Motion gets weird. Audio and mouth movement separate. MaineCoon tries to solve this with a dual-stream Diffusion Transformer: one stream for video, one stream for audio, and cross-stream attention between them so expression, lip motion, voice, timing, and body movement stay tied together. It also uses a history key-value cache and an attention sink. In plain words, the model keeps useful memory from previous chunks, so the next chunk does not feel like a new disconnected clip. The speed claim is also big: up to 47.5 fps on a single H100, and real-time 30 fps on a single RTX Pro 6000 GPU. That is the low-cost part. You do not need a huge multi-GPU serving setup just to get real-time audio-video generation. They also describe an agentic streaming system that can keep generation going for more than 10 minutes while holding identity, voice, scene state, visual quality, and synced audio. If the stream starts drifting, the system repairs future chunks instead of editing already-shown frames. So MaineCoon is best understood as a streaming-native visual reaction layer: fast first frame, continuous audio-video output, long-horizon memory, and low inference cost. 🧵 1/n.

译MaineCoon是一款22B参数的实时文本到音频-视频模型，专为实时AI角色设计。单H100 GPU可达47.5 FPS，成本低于0.001美元/秒；单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练（自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏）及智能体流式推理框架，支持千秒级连续生成。双流扩散Transformer（视频+音频交叉注意力）保持表情、口型与声音同步，历史KV缓存和attention sink确保片段连贯。首帧小于1秒，生成与播放同步，不先制作完整视频再配音。

Krea@krea_ai · 6月24日71

our technical report is out. deep dive on the data, architecture, and training techniques used to create Krea 2. https://www.krea.ai/blog/krea-2-technical-report

译我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

🚨 AI News | TestingCatalog@testingcatalog · 6月24日65

Mistral AI launched OCR 4 👀 > Win rates averaging 72%, alongside the top overall score on OlmOCRBench (85.20). > Alongside the extracted text, OCR 4 returns bounding boxes, typed-block classification, and inline confidence scores. > OCR 4 is an ingestion component of Search Toolkit, Mistral's open-source, composable search framework. > Support for 170 languages across 10 language groups. > OCR 4 is compact enough to run in a single container.

译Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档（12+ 语言）的盲测中，OCR 4 被偏好，平均胜率 72%；OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数，作为 Search Toolkit 的组件，支持 170 种语言，且足够紧凑可单容器运行。

Krea@krea_ai · 6月23日60

today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-training meant to be fine-tuned, and a fast distilled version with a wide aesthetic diversity. read the details below 👇

译今天，我们发布了 Krea 2 的开源权重。欢迎 Krea 2 Raw 和 Krea 2 Turbo，一个来自中期训练的未蒸馏模型，旨在用于微调；以及一个快速蒸馏版本，具有广泛的美学多样性。详情如下 👇

Baidu Inc.@Baidu_Inc · 6月23日71

3B total parameters & 500M activated, yet powerful enough to transcribe 40+ pages in one pass while keeping context intact. Meet Unlimited OCR!

译百度开源Unlimited OCR，专为一次性读取长文档设计。模型总参数量3B，仅激活500M，在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力（R-SWA），模拟人类抄书过程，保持源、近期上下文和后续焦点，同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本，可在单次前向传播中转录40+页，不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日57

OPENAI 🔥: An upcoming Bidi 1 voice model will be able to translate in real-time! This will unlock a huge pile of use cases to be built on top of when it lands on the APIs.

译OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译！这将解锁大量用例，当它落地到API时可在其上构建。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日48

BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in ChatGPT and, potentially, in Codex soon as well. > Bidi 1 can speak over while you are talking and keep listening. > Bidi 1 can switch between tasks back and force mid-sentence. > Bidi 1 is much better at handling interruptions and pauses. > Bidi 1 can better keep and memorize the context while you speak. There is still a cap on how long it can keep speaking, which is expected, but it easily counted to 23 without pausing. * Bidi 1 is not available yet, but given all the recent preparations, we will get it very, very soon.

译OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听，可在句子中间来回切换任务，处理打断和停顿的能力更强，还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限，但在测试中可轻松数到 23 而不中断。据推文透露，OpenAI 正为网页版准备 Bidi 1：设置中将新增该语音模型选项，语音气泡颜色从蓝色变为黄色。该模型尚未上线，但预计很快就会推出。

X.PIN@thexpin · 6月23日57

ByteDance just dropped a wave of new models: 1️⃣ Doubao 2.1 Pro targets coding. 2️⃣ Seedance 2.5: 4K video, up to 30 seconds per clip. Landing in July with a new AI copyright commercialization platform. 3️⃣ Seedream 5.0 Pro: image model that actually handles text in images, multi-layer editing, and outputs editable layered design files. 4️⃣ Seed-Audio 1.0: zero-shot multimodal audio: multi-character dialogue, background music, and sound effects in one pass.

译字节跳动刚刚推出了一波新模型： 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5：4K 视频，每段最长 30 秒。将于 7 月上线，同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro：图像模型，能处理图像中的文本，支持多层编辑，并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0：零样本多模态音频：一次生成多角色对话、背景音乐和音效。

Berryxia.AI@berryxia · 6月23日44

看着没有什么那么重的CG感了，Seedance 2.5 看来更新的有点多啊。不过大家注意现在就是Demo展示，实际上线预计在7月初上线。

译字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台，允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻，但当前仅限 Demo 展示，正式上线预计在 7 月初。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日65

BYTEDANCE 🔥: Seedance 2.5 has been officially announced, along with an updated Seedance 2.0. - Seedance 2.0 now supports 4k output - Seedance 2.5 will be able to generate 30-second videos in one go - ByteDance also announced a new AI copyright commercialization platform This video ad is stunning 👀

译BYTEDANCE 🔥: Seedance 2.5 已正式发布，同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台这个视频广告太惊艳了 👀