http://x.com/i/article/2069297858969497600 # 一文总结2026火山引擎FORCE大会 - 向Coding和Agent全面进军。今天，又是每年都非常重磅的火山引擎Force原动力大会了。有一说一，人是真多啊。基本上每年这个时候，就是豆包模型全家桶的年度更新。今年自然也不例外，所有的模型基本就是全面升级。人在现场，也第一时间给大家总结一下这次大会和我觉得值得说的亮点。希望对大家有用。一. Seed 2.1 Pro 这个模型，基本就是今天最重头戏了。今天，正式发布了Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。毕竟在这个时代，模型就是一切。而基础模型，是所有心怀梦想的厂商，永远不可能放弃的话题。 Seed的基模在过去，在2025年初，可以说确实是个很棒的模型，那时候大家都还在卷推理，卷多模态。可2025年，有太多的事情发生，Manus横空出世，将大家对于Agent的理解向前推了一大步，然后就是Claude Code+Claude让企业客户直接用脚投票，那段时间，Anthropic凭借着Coding和Agent能力的一骑绝尘，甚至将OpenAI都远远甩在了身后。而Seed慢了，在这个Coding和Agent的能力几乎已经约等于模型智能能力水平的时代里，也逐渐越来越被人遗忘。而这次基模Seed-2.1-Pro，在憋了很多之后，终于发布了，他们的多模态能力依然是王者，这个你丝毫不用怀疑字节在多模态上的能力，豆包手机和Seedance就能看出来这块的积累，而之前一直以来，都是巨大短板的Coding和Agent能力，在这半年持续不断的猛追之下，在这一次，也终于算是能打了，也终于算是到了可用级别。老规矩，先看下评分。 Coding能力，确实是补了一大波，有些地方能摸一摸Opus 4.7的级别，比最新一代的模型还是差点了，差距坦诚的讲，还是有的。 Agent能力，也就是各种工具调用还有长程任务上，倒是大幅进化了不少。现场还有一个秀Agent能力的我觉得挺牛逼的，还是蛮秀的。目前Seed-2.1系列在火山、Trae、豆包上等等均已上线，也兼容所有的Agent框架，我直接在Claude Code里测了下。我对它的评价是，一个非常综合的水桶级模型，虽然在Coding能力上，离Claude这种还有差距，但是这回至少是上桌了，然后他强就强在，水桶。因为这玩意，在世界知识、多模态上，都有不错的表现。一个还是多模态的能力，一个基模如果没有多模态，其实我觉得还是比较伤的，就像DeepSeek V4 Pro还有GLM-5.2，Coding能力确实都很强，但是最大的问题，还是没有多模态。而Seed系列的多模态一直都是国际领先的水平，视觉理解的能力在几乎所有评测集上都是TOP。你让它看文档、看图表、看视频，基本上能力都非常的强，一个又能写代码又能看图看视频的模型，跟一个只能写代码的模型，在实际业务场景里能做的事情还是有不少差距的。举个例子，我自己开发的AI资讯监控网站AIHOT上，会对我们所有抓取到的内容进行摘要总结及评分。比如今天早上抓到的这篇Google的内容，下面那一段文字，就是我对原文的摘要和总结，右上角就是AI系统对它的打分以及是否值得被精选。但这个总结和评分，其实是丢信息的，因为原文里面是有图片的，甚至很多的模型里面，是有视频的。而我背后用的模型，是两个没有多模态能力的纯文本模型，一个小一点的，用来翻译+总结和摘要，一个大一点的，用来评分。因为丢失了多模态的信息，特别是这个评分，有的时候是不公平的，比如说X上的一些信息，可能只是发了个质量很高的播客视频，但是只简单配了两句话，那就很有可能，是会被我的精选系统过滤掉的。很多发图片比较多的内容也是如此，比如，小红书和B站，这些上面的一些信息我过去一直没有监控，不是因为我监控的技术手段做不到，是过去我找不到一个比较好的支持多模态的评分模型，所以一直就没干。那Doubao-Seed-2.1上了之后，我觉得完全可以把背后的这个模型，换成用Doubao-Seed-2.1-turbo来进行摘要，用Seed-2.1-Pro来进行评分，支持我AIHOT上多模态内容的生态。说干就干，我直接把Claude Code里面的模型，用CC switch换成了Seed-2.1-Pro，让他自己来开发自己。然后把我上面说的那段话，直接当做Prompt，扔了进去，先让他做摘要和总结这块的迭代，因为精选评分那块改模型整体改动太大了，Promtp、阈值、公式算法什么的都需要调整，还要做全量的线上数十万条数据的全量回测，不是一时半会就能干完的。这个任务开发难度不算很高，但是也没有那么简单，就是我的那个代码，因为后端流程有点复杂了，乱七八糟的细节太多了，而且过去没有把图片扔进去推理的先例，图片缓存和持久化啥的全都没做，所以要考虑的细节还是很多的。在思考了十几分钟以后，Doubao-Seed-2.1-pro给了我一个详细的方案。考虑的还是比较全面的，一些对抗性审查的方案还有风险的应对措施，基本都考虑到了。没啥问题，我就直接让他开工了。大概在30分钟后，开发完成了。基本没啥问题，前面的图片缓存、抓取、压缩流程啥的都能跑通，整体都还不错。但是出现了一个很诡异的BUG，就是莫名其妙的，跑一个文字+多图的摘要，失败了一大半，长的甚至要几分钟之多，我都干懵了，我以为火山的API这么慢？？结果让它找了半天原因，发现是Doubao-Seed-2.1默认开了深度思考，所以本来就慢，然后自己又给自己写了个300秒超时，然其中一个图片的包装函数又写错了。改了两轮，搞了10分钟，才把这个事解决，然后让他给我列了一个100条数据的回测报告，这一次，发现推理速度变得极其牛逼，延迟几乎只要3.5s就能直接出。回测报告的UI展示上，我觉得中规中矩，前端审美是能看的，干净清爽，也没啥特别的错位BUG。摘要的信息准确性无敌，香爆了。我感觉我的AIHOT在信息质量上，又要迈向新一波质量的升级了。然后还有两个点我觉得还是需要说一下，价格和上下文长度。首先是价格，这个价格相比海外，确实不算贵了，¥6 / ¥30每百万token（输入/输出），但是相比国内DeepSeek这种直接干到个位数级别的爹，感觉还是有优化空间。上下文还是卡在了256k，没有到达主流的1M，这个还是比较可惜的。坐等Doubao-Seed的下一个版本了。二. 豆包办公模式因为Doubao-Seed-2.1-Pro正式发布了，所以，还有一个很重要的功能应该也要即将正式上线了。也是豆包专业版。这其中专业版我觉得最核心的功能，我觉得就是我这两天一直在测的，基于Doubao-Seed-2.1-Pro的豆包办公模式，也是豆包的Agent。因为我已经提前拿到了内测资格，当你打开豆包客户端之后，就能在下面看到这个东西。基于Doubao-Seed-2.1-Pro的办公任务。 Agent时代下驱动的通用办公场景，也是所有厂子我觉得不可能放弃的一环。豆包的办公模式其实之前就有了，但是之前的体验，坦诚的讲，我自己体验下来，说实话确实一般。核心原因还是基模，因为之前跑的是Seed 2.0 Pro，这个模型多模态能力很强，理解力也不差，但是在Agent和Coding能力上的短板，导致它在执行一些稍微复杂办公任务的时候，就表现比较一半了。而这次，底座换成了Seed-2.1-Pro。不要小看这个“换底座”三个字。对于一个AI产品来说，底座模型的能力升级，可能比产品本身做任何改进都更有效，真的，产品团队搞半年的交互优化、流程重构，在现在，我觉得可能不如底座模型在Agent能力上提升个20%来得实在。这就是我一直说的，模型就是一切。我们自己体验下来，变化还是挺明显的。打开豆包的桌面客户端，在输入框下侧选择办公任务，就能进入。办公任务下，我们直接选中本地电脑，它就能够去访问到你本地电脑环境中的各种文件。你可以指定某个项目文件夹，也可以不指定。豆包自己也自带了一堆skills，Agent在执行任务的时候会自动调用。我测试了一些任务，在豆包办公模式的表现上，Seed-2.1-Pro整体能力发挥的还不错。举个例子。我让它来做我们财务同事之前跟我讲的他们一个工作流。月底报销的时候，她需要把全公司所有人的发票都汇总到一个飞书多维表格上。这种活交给Agent来干最合适不过了。这里出于隐私，我拿1月的发票来演示. 打开办公模式，我直接在收集了全公司发票的目录下，让他去汇总所有人的发票的信息，按照报销人的格式填到多维表格里面。它会先申请访问文件的权限和执行脚本的权限。然后还会申请飞书文档的编辑权限。等你都授权之后，它就库库开始干了。然后就能看到，它把公司各个部门按照每一个报销人，一共210个发票上的信息都提取出来，填到了我指定的多维表格里。基本上没有什么问题，这个就体现出Agent能力和多模态模型的省心省力了。。。然后测了下联网、收集信息调研的能力。正好过几个月我们办公室的租期就到了，再加上越来越多的小伙伴加入我们，现在的办公室确实有点坐不下了。所以我们最近就疯狂的在朝阳找新的、更大的地方。目前行政那边，根据预算和交通方面的要求，实地也跑了一些，最后选了3个备选方案。正好昨天下午给我的，我也不太懂，我就把这3个地方丢给豆包，把要求告诉它，让它帮我出一个对比方案，如果有它觉得更合适的地方，也可以推荐。。它就去网上搜了一大堆资料，最后给了一份很详细的报告。先从各个维度全面对比了3个地方，然后分别介绍优缺点，还额外给出了几个推荐的地方。这个租金报价预估，居然基本都是真实的，跟我昨天行政拿给我的报价，几乎就没差个多少钱。。。同样为了看得更直观，我又让它生成了一个PPT。它会自动调用做PPT的技能去生成。一轮直出的效果，只能说，能看。这块我盘了一下，大概率是skill的原因。这块我建议可以加归藏的PPT skill，可能视觉效果会更好一点。我自己也拿我之前测一些通用办公任务的30个题目的测试集，在基于Doubao-Seed-2.1-Pro之上的豆包办公任务跑了下回测。最终效果长这样。数据分析那边跟Gemini有点像，有时候会自作主张，踩中一些陷阱，比如其中的一道数据分析的题目。但是整体来说，在有了Seed-2.1-Pro的加持之后，豆包的办公任务，也终于变得还不错了，能在Agent这个通用办公场景上，跟其他家正面开战了。毕竟，这可是豆包啊。三. Seedance Seedance这块，作为字节的王者，这次也迎来了一波更新。 Seedance 2.0拥有4K了，而且是原生4K。注意，是原生4K，跟后期超分是两回事，现在市面上有不少4K视频，其实就是先生成个720p或者1080p的底子，然后拿超分模型往上拉。 Seedance 2.0模型的质量，配合上4K，基本是可以达到影视级了。目前已经在火山和即梦上上线。然后就是新模型，Seedance 2.5。更加优秀的运动能力、分镜能力，还有表演质感。而且，支持30秒的单段原生直出。而且，现在，还支持在支持在保持画面一致性的同时做局部调整了。四. 写在最后除了上面三大块之外。还有两个模型和一些功能我觉得可以快速提一下。 Seedream 5.0 pro，7月初上线。核心升级在于交互式精准编辑，你可以直接在画面上点选、圈选、用箭头标注来表达编辑意图，不需要再用文字去描述空间关系了，还有多图层分离和高密度信息表达能力的提升，一整页PPT的信息量都能准确呈现。一个全新的音频生成模型。支持用文字、声音参考生成音频、全要素直出（人声+音效+背景音一条Prompt搞定），单次可以生成2分钟音频并且支持延长到几十分钟保持一致性。对于做有声书和播客的人来说简直是大杀器。然后，火山方舟CLI也正式发布了，这对我这种后端几乎都在火山上的开发者来说是个大利好。能方便非常多。整体大概就是这样。说到底还是那句话，模型就是一切。字节，也在向Coding和Agent，全面进军了。

译豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7，Agent工具调用及长程任务大幅进化，多模态保持国际领先。价格¥6/¥30每百万token，上下文256k。模型已在火山引擎、Trae、豆包上线，兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级，可执行文件访问、文档编辑等Agent任务，现场演示自动汇总210张发票至飞书多维表格。

歸藏(guizang.ai)@op7418 · 6月23日65

Seedance 2.0 的 4K 分辨率我已经在即梦上线。看了一下，15 秒是 1200 积分，需要选择 Seedance VIP 版本。 4K 分辨率生成的视频码率为 50M，感觉是为那些做商业片和商业短剧的公司准备的。

译Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本，15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M，主要面向商业片和商业短剧制作公司。

Orange AI@oran_ge · 6月23日43

声音模型的 Seedance 时刻，终于来了今天我体验到一个全新的声音模型，跟以前所有的声音模型都不一样。以前的声音模型一般叫 TTS（文本转语音），它们只能根据你给的文本来合成语音，它更像是一个朗读机器，而非智能声音模型。但这个新模型，可以根据你的想象，生成一切你所需要的声音，包括人声、音乐、音效、环境音，以及这些声音里所富含的那些不可言说的微妙细节。它的名字名字叫：豆包音频生成模型 Seed Audio 1.0。在我看来，这就是声音模型的 Seedance 时刻。就像香蕉是人类第一次将智能赋予图像，Seed Audio 是人类第一次将智能赋予声音。接下来，就让我们一起听听它到底有何特别。推特不能发音频，可转至公众号来听 https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg

译豆包音频生成模型 Seed Audio 1.0 发布，区别于传统 TTS（文本转语音）的朗读式合成，该模型能根据想象生成人声、音乐、音效和环境音，并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”，类比香蕉首次将智能赋予图像，认为这是人类首次将智能赋予声音。

小互@xiaohu · 6月23日59

字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片原生支持4K分辨率支持50个全模台参考素材输入支持3D白模同时发布AI版权商业化平台，可以使用官方授权的各种IP电影版权进行创作，分成！

译字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型，可一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台，允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

Berryxia.AI@berryxia · 6月23日58

卧槽！Seedance 2.5 直接支持 30s 单段原生视频支出啊！支持50个全模态参考素材，真的是吊炸天了。 PS：特么价格也要起起飞了吧😄

译字节跳动发布视频生成模型 Seedance 2.5，版本从 2.0 直接跳升至 2.5，预示大幅迭代。新版本支持单段 30 秒原生视频生成，无需拼接；同时可输入最多 50 个全模态参考素材，极大提升创作素材容量。定价尚未公布，但用户预期可能大幅上涨。

meng shao@shao__meng · 6月23日57

字节跳动火山引擎 FORCE，2026 原动力大会上官宣发布 Seedream 5.0 Pro 和 Seedance 2.5，图像和视频理解生成赛道，继续卷起来！在 OpenAI Sora 关停，Google Veo 迟迟不更新的情况下，图像和视频生成，基本是中国大厂的竞争了: 字节跳动、阿里巴巴、快手。。。

译字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5，分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下，图像视频生成赛道基本成为中国大厂的竞争阵地，包括字节跳动、阿里巴巴、快手等。

Berryxia.AI@berryxia · 6月23日63

卧槽，这一波有人直接把DeepSeek的“墙角挖倒了啊”？今天在HuggingFace刷到一个有意思的OCR开源模型和背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。一次前向推理，几十页文档直接转录完。核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。一张图或者一本多页PDF，直接扔进去就能一次性解析完。不用再切成小块反复跑。据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。 KV Cache大小恒定，不随文档长度增长。这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。技术报告的写法也很有意思。故事性极强，想法激进。有种探索者的气质。这种风格此前都是DeepSeek技术报告的专属标签。然后事情就开始变得有趣了。翻了下技术报告的核心贡献者。三位，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？我顺着线索往回找了一下。您才怎么着？ GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。国内OCR圈不算大。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。再看另一个细节。 2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。开源了。感兴趣的自己试试。我后面也会进行实测，顺手点个🌟。 GitHub：http://github.com/baidu/Unlimited-OCR Hugging Face：http://huggingface.co/baidu/Unlimited-OCR

译百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

Berryxia.AI@berryxia · 6月23日73

卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~ 先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。一次前向推理，几十页文档直接转录完。核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。一张图或者一本多页PDF，直接扔进去就能一次性解析完，不用再切成小块反复跑。这特么是真的爽啊！据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。KV Cache大小恒定，不随文档长度增长。这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。技术报告的写法也很有意思，故事性极强，想法激进。有种探索者的气质，这种风格此前都是DeepSeek技术报告的专属标签。然后事情就开始变得有趣了。翻了下技术报告的核心贡献者。三位中，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？顺着线索往回找下看看？ GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。国内OCR圈也不算太大哈。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。我们再看看另一外个细节哈。 2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。项目、模型都是开源，感兴趣的自己试试地址评论区👇🏻。

译百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日70

OpenAI announces GPT-5.5-Cyber (new) model update, which scores 85.6% on CyberGym benchmark in comparison to 81.9% in its early version. Codex got a new Security plugin too 👀

译OpenAI 宣布 GPT-5.5-Cyber 模型更新，在 CyberGym 基准上得分 85.6%（早期版本为 81.9%）。Codex 新增 Security 插件，可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分，完整版 GPT-5.5-Cyber 模型面向可信防御者；Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品；Patch the Planet 项目与维护者合作保护关键开源项目。

Rohan Paul@rohanpaul_ai · 6月23日75

OpenAI’s new GPT-5.5-Cyber just beat Mythos 5 on CyberGym. CyberGym measures whether an agent can reproduce known software vulnerabilities, so this is quite a strong signal for defensive vulnerability analysis of models. OpenAI also launched a major push to use GPT-5.5-Cyber and human security teams to fix open source bugs before AI bug-hunting tools flood maintainers with low-quality reports. Vulnerability discovery is becoming much easier, so the scarce part is now remediation, which means confirming the bug, proving reachability, writing a fix, testing it, and giving humans enough evidence to merge safely. OpenAI’s initiative is to use GPT-5.5-Cyber as a defensive security worker inside Codex. It scans code, checks whether a vulnerability is real and reachable, writes a patch, tests the patch, and gives humans evidence to approve it. Daybreak is OpenAI’s new cybersecurity initiative to help trusted defenders find, verify, and patch vulnerable software much faster using AI. The new checkpoint of GPT-5.5-Cyber, are all part of the company's limited “Trusted Access for Cyber” program and do not involve a public release.

译OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5，该基准测试 AI 智能体复现已知软件漏洞的能力，对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划，包括：Codex Security 插件（在 Codex 内发现、验证并修复漏洞）；GPT-5.5-Cyber 完整版（供受信任防御者使用）；Cyber Partner Program（赋能安全公司构建基于 OpenAI 能力的安防产品）；Patch the Planet（与维护者合作保护关键开源项目）。本轮模型和计划属于“Trusted Access for Cyber”项目，不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人，自动扫描代码、确认漏洞真实可达、编写补丁并测试，

Tibo@thsottiaux · 6月23日57

Let's Patch The Planet. Updates to codex security and a new GPT-5.5-Cyber. A day of celebration for cyber defense acceleration. https://openai.com/index/daybreak-securing-the-world/

译Let's Patch The Planet. Codex 安全更新和新 GPT-5.5-Cyber。网络防御加速的庆祝日。

elvis@omarsar0 · 6月23日52

Guess which is Fugu Ultra? This is how recent models compare when generating endless procedural terrain (using Three.js). All of these are one-shotted! Just wild! Trying a few more examples. Will share soon!

译Sakana AI 推出 Fugu 多智能体编排系统，通过单个模型 API 即可访问。其 'Fugu Ultra' 模型性能匹配 Fable 和 Mythos，提供前沿能力且无出口管制风险。在生成程序化地形（Three.js）的对比中，Fugu Ultra 在一次生成（one-shotted）下表现突出。更多示例即将分享。

Sam Altman@sama · 6月23日45

We want to help all companies be secure, working with the USG and the security ecosystem. *The full version of GPT-5.5-Cyber is here; state of the art performance on CyberGym. *Patch The Planet and Codex Security will help solve security problems instead of just finding them.

译我们希望帮助所有公司变得安全，与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布；在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题，而不仅仅是发现它们。

Berryxia.AI@berryxia · 6月23日66

这速度真特么离谱啊！卧槽！最新开源的Unlimited-OCR能一次性处理几百页文档，而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布，其核心创新是R-SWA（Reference Sliding Window Attention）。它让模型在解码时KV Cache保持恒定，不会随着文档页数增加而爆炸式增长。结果就是：一张图或者一本多页PDF，直接扔进去就能一次性解析完，速度和稳定性都比传统逐页处理的方式好很多。在OmniDocBench上拿到了93分，比DeepSeek-OCR高出6个百分点。这已经不是简单的准确率提升，而是把长文档OCR的工作流从“分块+外部调度器拼接”变成了真正的端到端一镜到底。以前做多页文档最头疼的就是上下文断裂和格式不一致，现在模型能一次性看到整篇文档的结构、布局和逻辑关系，输出质量自然上了一个台阶。这其实是把OCR从“认字工具”往“长文档理解引擎”又往前推了一大步。技术路线很清晰，也很实用。果然百度现在OCR独树一帜，遥遥领先了。模型地址见评论区～ 👇

译百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

Nathan Lambert@natolambert · 6月22日56

GLM-5.2 should be “DeepSeek moment” for agents. We enter a new world where the top end of agentic capabilities are available in open models. If you care about open, now is the time to inform regulators on how we should build a world with safe, frontier, open intelligence.

译GLM-5.2 应该是智能体的“DeepSeek 时刻”。我们进入一个新世界，开放模型中拥有了顶尖智能体能力。如果你关心开放，现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Chubby♨️@kimmonismus · 6月22日55

It looks like we’re getting a whole range of new GPT models this Thursday: GPT-5.6, 5.6 Pro, and a new bidirectional voice model. Initial tests of the voice model were outstanding, this is exactly what I had hoped for two years ago!

译据X用户Kim消息，本周四将发布多个新GPT模型，包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出，5.6 Pro在正确提示词下可完成任意任务，GPT-Bidi-1知识截止于2025年8月，自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试，预计将推出新checkpoint。

Chubby♨️@kimmonismus · 6月22日38

It seems the first tests with Sonnet 5 are already underway. If this is confirmed, we're in for a great release!

译Sonnet 5 首次亮相。模型速度极快，且未使用参考图。看来下周会很忙。Kim 评论称，若测试确认，这将是一次很棒的发版。

Alibaba Cloud@alibaba_cloud · 6月22日48

🚀 Introducing HappyHorse 1.1 — now officially live on Alibaba Cloud Model Studio! All HappyHorse 1.1 capabilities are available via API, providing enterprise customers and developers with a complete integration solution. This release delivers production-ready video synthesis systematically optimized across core content generation scenarios. 🔥 Launch Promotion: Enjoy a 40% OFF sitewide discount for the first 2 weeks! Optimize your integration costs today.

译🚀 推出 HappyHorse 1.1 — 现已正式在阿里云模型工作室上线！所有 HappyHorse 1.1 功能均可通过 API 获取，为企业客户和开发者提供完整的集成解决方案。此次发布带来了生产级视频合成，已在核心内容生成场景中系统优化。 🔥 发布促销：前两周享受全场 40% 折扣！立即优化您的集成成本。

🚨 AI News | TestingCatalog@testingcatalog · 6月22日64

BREAKING 🔥: Sakana AI announced the Sakana Fugu and Sakana Fugu Ultra systems, which perform on par with Claude Fable 5 and Mythos 5 across many benchmarks. > Sakana AI is an AI lab from Japan, and Fugu is an orchestration model trained to operate other LLMs. > It is available as an API but not yet accessible in the EEA region. That's a natural evolution. Orchestration multi-model systems will outperform single-model systems, and they will become much more accessible for smaller labs and companies to build. Big players will have to consider building orchestrating systems that rely on models built by competitors. It is already happening at Meta, Apple, and Microsoft, and will likely catch Google, Anthropic, and OpenAI as well eventually.

译Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型，训练用于操控其他 LLM，通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5，并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务，但暂不支持 EEA 地区。推文指出，编排式多模型系统将超越单一模型，使小型实验室和企业更易构建，并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。

meng shao@shao__meng · 6月22日20

GLM-5.2 已经在 X 飞了好几天了，最强开源模型、接近 Claude Fable 5 ... 各种信息满天飞终于还是忍不住下载了 Codex，哦，不 Zcode！打开 Zcode，好消息：可以免费试用（我应该是没充值没买 Coding Plan 的，据说也抢不到）坏消息，第二条消息就这样了。。。

译GLM-5.2 已在 X 平台讨论多日，被称作最强开源模型，性能接近 Claude Fable 5。作者下载了类似 Codex 的 Zcode 工具，可免费试用（无需充值 Coding Plan），但第二条消息即遭遇限制或故障。

Rohan Paul@rohanpaul_ai · 6月21日50

The video where @mntruell ( Michael Truell, co-founder and CEO of Cursor) announced Cursor’s new Composer model at Compile: Cursor now has 10 to 20X more compute than they previously had, allowing them to train this GPT-size model from scratch.

译@mntruell（Michael Truell，Cursor联合创始人兼CEO）在Compile上宣布了Cursor的新Composer模型： Cursor现在的算力是此前的10到20倍，让他们能够从头训练这个GPT规模的模型。

Chubby♨️@kimmonismus · 6月21日41

When I read all the posts about how surprised everyone is that GLM-5.2 is really as good as claimed, and numerous benchmarks support this (usually just behind GPT-5.5 and Opus 4.8 in 3rd place), I can even imagine that the founder isn't exaggerating when he claims to be able to release a Mythos class model this year.

译当我读到所有那些关于大家对 GLM-5.2 真的如宣传中那样出色感到惊讶的帖子，以及众多基准测试支持这一点（通常仅次于 GPT-5.5 和 Opus 4.8，位列第三）时，我甚至能想象创始人声称今年能发布一个 Mythos 级别的模型并非夸大其词。

Chubby♨️@kimmonismus · 6月21日67

Even the Vercel CEO is impressed/shocked at how good GLM-5.2 in coding is. open source, open weights.

译就连 Vercel CEO 都对 GLM-5.2 在编码上的出色表现感到印象深刻/震惊。开源，开放权重。

Chubby♨️@kimmonismus · 6月21日44

I have a feeling that GPT-5.6 will be a big, positive surprise. Let's recall the information on GPT-5.6: "The company is separately preparing to release a new AI model, codenamed 5.6, which will be a “meaningful improvement” over the current flagship, GPT-5.5, OpenAI’s chief scientist, Jakub Pachocki, wrote in a message to staff."

译我预感 GPT-5.6 会是一个巨大的正面惊喜。让我们回忆一下关于 GPT-5.6 的信息： “该公司正单独准备发布一款新的 AI 模型，代号为 5.6，它将是当前旗舰模型 GPT-5.5 的‘有意义的改进’，OpenAI 首席科学家 Jakub Pachocki 在一份给员工的备忘录中写道。”

小互@xiaohu · 6月19日65

豆包实时语音模型3.0 API 上线看演示还是很牛P的，能干不少事情了全双工：能同时听和说，像真人聊天那样可以随时插话端到端：语音进、语音出，不进行转录，更快、更自然。精准遵循 + 适时参与：你可以一句话给它定规矩，比如多人聊天时说「现在先别出声，聊到世界杯时再加入」，它就安静待命，等话题真到了再主动接话最关键的一步升级：它支持自定义工具，能在实时对话里直接调用工具完成任务，预定日历、发邮件、总结文档、发起查询，一句话语音就在对话流里办完。这等于从「语音助手」往「语音 Agent」迈了一步

译豆包实时语音模型3.0 API正式上线。支持全双工（同时听和说，可随时插话）和端到端（语音进、语音出，无转录），交互更快速自然。具备精准遵循指令能力，如设定“先不出声，聊到世界杯再加入”后安静待命。关键升级是支持自定义工具，可在实时对话中直接调用工具完成任务（预定日历、发邮件、总结文档、发起查询等），从“语音助手”向“语音 Agent”迈进。

Z.ai@Zai_org · 6月19日54

Long-horizon is more than a concept. It should live in real-world scenarios, empowering AI builders to solve the problems that matter. And more scenarios are on the way.

译智谱 GLM-5.2 在内部 35 项挑战性移动开发任务（共 70 次试验）中完成率达 48/70，较 GLM-5.1 的 21/70 提升超两倍；同期 Claude Fable 5 为 56/70。主推文指出长程能力应落地真实场景，更多场景即将推出。

Chubby♨️@kimmonismus · 6月19日45

Nice, sounds like next thursday is gonna be big: GPT-5.6 release incoming

译不错，看来下周四将有大动作：GPT-5.6 即将发布

歸藏(guizang.ai)@op7418 · 6月19日31

GPT-5.6 快来了

译OpenAI 正在准备 GPT-5.6 模型系列的发布，测试中已发现 GPT-5.6-Pro。很快就能看到。

xAI@xai · 6月19日66

Grok TTS delivers the most human-like speech

译xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分（真人 100 分）位居榜首。该指数选取同一声音和引文，经各模型克隆后由听众盲评。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日40

OPENAI 🔥: GPT-5.6 and GPT-5.6-Pro models may potentially arrive as soon as next week. Really soon 👀

译OPENAI 🔥: GPT-5.6 和 GPT-5.6-Pro 模型可能最快下周就会到来。非常快 👀

🚨 AI News | TestingCatalog@testingcatalog · 6月19日45

OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. Soon 👀

译OPENAI 🔥：GPT-5.6 模型系列正在为即将到来的发布做准备，因为 GPT-5.6-Pro 已在测试中被发现。很快 👀

AYi@AYi_AInotes · 6月19日74

把 1.5TB 的模型剁掉 84% 的体积，塞进本地跑，还剩 82% 的功力，这就是GLM-5.2，最强开源模型，现在缩骨到了 238GB，256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了技术博客：http://z.ai/blog/glm-5.2 权重：http://huggingface.co/zai-org/GLM-5.2 API：https://docs.z.ai/guides/llm/glm-5.2 编码计划：http://z.ai/subscribe

译GLM-5.2 发布开源权重，MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB，可在 256GB Mac 或同档硬件本地运行，保留 82% 性能。拥有 1M 上下文窗口，编码和智能体任务显著提升。提供两种推理力度：GLM-5.2 (max) 极限推理，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

SenseTime@SenseTime_AI · 6月18日43

Speed matters — so we built an 𝟴-𝘀𝘁𝗲𝗽 𝗱𝗶𝘀𝘁𝗶𝗹𝗹𝗲𝗱 𝗟𝗼𝗥𝗔 of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 for you. ⚡️ 𝟭𝟮.𝟱𝘅 𝗶𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝘀𝗽𝗲𝗲𝗱𝘂𝗽 🎨 Infographic quality mostly on par with the base model Get started with SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0: 💻Github: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/base_vs_distill.md#run-base-and-distilled-model 🤗https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-LoRAs/blob/main/SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0.safetensors 👾Discord: http://discord.gg/BuTXPHmQub

译商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA（SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0），实现 12.5 倍推理加速，信息图（infographic）生成质量基本与基模型持平。模型权重已开源至 HuggingFace，GitHub 提供使用文档。

Chubby♨️@kimmonismus · 6月18日47

Anthropics founder and co founder are working hard to get fable 5 back for everyone. Looking good, security issues are being addressed. Via Bloomberg

译Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。看起来不错，安全问题正在解决。Via Bloomberg

Alibaba Cloud@alibaba_cloud · 6月18日45

See Qwen‑Robot Suite in action! 🤖 Bridging language and physical action, Qwen‑RobotNav, Qwen‑RobotManip, and Qwen‑RobotWorld redefine robotics with seamless instruction generalization and adherence to physical laws.

译看看 Qwen-Robot Suite 的实际表现吧！🤖 桥接语言与物理动作，Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 通过无缝的指令泛化与遵循物理定律，重新定义了机器人技术。

🚨 AI News | TestingCatalog@testingcatalog · 6月18日64

Catnip has introduced MaineCoon, a new real-time interactive audio-visual model that puts a live AI character on screen. > This is a 22B streaming model built for real-time processing, that keeps the character alive rather than pausing to render. > The first frame lands in under a second, and the generation runs up to 7x faster than existing audio-visual models, holding around 47.5 FPS on a single H100.

译Catnip 发布 MaineCoon，一款 22B 参数的流式实时交互音频-视觉模型，可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒，推理速度达 47.5 FPS（单张 H100），比现有音视频模型快 7 倍。该模型支持无限时长交互，强调 AI 持续在场而非轮流回复，旨在将被动视频升级为实时 AI 存在感。

ginobefun@hongming731 · 6月18日47

BestBlogs 早报 · 06-18 # GLM-5.2 / 智谱开源 / AI 化学家 / MiniMax 闫俊杰 / Chan-Lam 偶联反应 [1] ★ 精讲｜GLM-5.2 上线并开源：专注 Coding 与长程任务今天智谱上线并开源 GLM-5.2，在百万用户参与的 Code Arena 前端开发盲测中拿下全球可用模型第一。核心是 Solid 1M 无损上下文撑起长程任务：FrontierSWE 仅比 Opus 4.8 低 1%，超过 GPT-5.5 与 Opus 4.7；实测中模型用满近 88 万 tokens，一次性自主交付了一个覆盖 Web、移动端与小程序的多端应用。配合 IndexShare 稀疏注意力与改进投机解码，单位 token 的 FLOPs 降低至 2.9 倍。模型 Day 0 适配多家国产芯片，采用 MIT 协议全开源，无地域限制。来源：智谱 https://www.bestblogs.dev/article/3b64e7b6 [2] ★ 精讲｜近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 将 GPT-5.4 接入 http://Molecule.one 的智能化学 AI Maria 及其高通量实验室，让其自主提出研究方案、设计并分析实验。系统聚焦改善药物合成常用的 Chan-Lam 偶联反应，提出用 TEMPO 等温和氧化剂提升一类历史上低产率的磺胺底物反应。两轮共完成 10080 次实验，平均产率从 16.6% 升至 25.2%，台架验证 14 组底物中 11 组产率提升、多数翻倍以上。全程三个月，化学家全程把关方案与实验，OpenAI 称这是近乎自主而非完全自主的科研协作范式。来源：OpenAI News https://www.bestblogs.dev/article/54116bca [3] ★ 精讲｜对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局 MiniMax 创始人闫俊杰透露：M3 目标是让用户无限制、不计成本地用上 Sonnet/Opus 级别模型，已逼近临界点；上月启动的 10X 计划邀请网络安全、金融、法律等垂直专家深度合作；下一步要攻克 10T 参数模型——国内模型规模比美国小一个数量级，需先做实 3T 再迈向 10T，最大卡点是工程积累而非物理瓶颈。他认为智能的终局是端到端交付结果：让模型直接修复漏洞、做出金融决策。来源：十字路口 Crossing https://www.bestblogs.dev/article/ed61bb66 [4] Claude Design 日常工作中更稳定地保持品牌一致性 | Claude Claude Design 现已集成你的设计系统、与 Claude Code 同步、支持直接画布编辑，并连接更多外部工具，使其在日常专业使用中更加稳定。来源：Claude Blog https://www.bestblogs.dev/article/adc8d33b [5] 更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战本文以淘宝主播 Agent 为例，系统阐述在直播高压力场景下，如何通过 Harness 工程（执行循环、工具注册、上下文管理、状态存储、生命周期钩子、评估接口）将不确定的模型能力工程化为可用、可控、可演化的生产系统。来源：阿里云开发者 https://www.bestblogs.dev/article/e75081f9 [6] NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布了 ENPIRE 系统，首次让 AI 编程 agent 在真实物理世界中自主完成机器人实验的全流程，包括环境搭建、策略改进、实验执行和代码迭代，人类只需查看报告。来源：宝玉(@dotey) https://www.bestblogs.dev/status/2067027033431875699 [7] A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践本文来自 Google Developers Blog，提出了三种架构模式，将 A2UI 声明式、原生渲染的 UI 与 MCP Apps 基于 iframe 的自定义界面相结合，以构建安全、高性能且视觉一致的智能体 UI。来源：Google Developers Blog https://www.bestblogs.dev/article/e52759ce [8] 当你的 AI 智能体扩展互相争斗时本文解释了 AI 编程智能体扩展如何争夺上下文窗口空间和模型注意力，从而引发冲突并降低输出质量，同时提供了一个衡量和缓解这些组合问题的框架。来源：Microsoft for Developers https://www.bestblogs.dev/article/c36b8ce8 [9] 独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元 Ed Zitron 独家报道，OpenAI 2025 年的审计财报显示收入为 130.7 亿美元，成本为 340 亿美元，其中 8.67 亿美元来自软银，3.03 亿美元来自微软。来源：Ed Zitron(@edzitron) https://www.bestblogs.dev/status/2066732330954478008 [10] 字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70% 本文独家披露字节跳动 AI 业务财务数据：豆包日活超 2 亿但日收入不足百万，而视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%，揭示 AI 商业化从 C 端免费转向 B 端付费的战略调整。来源：晚点 LatePost https://www.bestblogs.dev/article/84815714 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-18

译智谱开源GLM-5.2，Code Arena盲测全球可用模型第一，专注Coding与长程任务，支持百万token无损上下文，单位token FLOPs降至2.9倍，MIT协议全开源。OpenAI将GPT-5.4接入Molecule.one自主改进Chan-Lam偶联反应，两轮10080次实验后平均产率从16.6%升至25.2%，14组底物中11组提升。MiniMax闫俊杰称M3目标无限制用Sonnet/Opus级别模型，计划攻克10T参数模型。

SemiAnalysis@SemiAnalysis_ · 6月18日60

Great work to @vllm_project team and @NVIDIA on smooth, out-of-the-box day 0 @MiniMax_AI M3 experience with @inferact EAGLE3 spec decode. Here are the details of ongoing M3 workstream: NVIDIA, Inferact and SemiAnalysis are working hard on enabling disaggregated inferencing (PR 45879), and the Inferact team is working on enabling FlashInfer M3 MoE kernels (PR 45723). Performance should be much better once those PRs land. Huge shoutout to @rogerw0108 & @mgoin_ and the maintainers for the rapid review and mentorship here!

译vLLM 团队与 NVIDIA 合作，为 MiniMax M3 模型提供开箱即用的 day 0 体验，并集成 Inferact 的 EAGLE3 推测解码。当前工作包括：NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理（PR 45879），Inferact 团队启用 FlashInfer M3 MoE 内核（PR 45723），落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量，并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等，性能有望进一步提升。

Rohan Paul@rohanpaul_ai · 6月18日34

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/zai-releases-glm-52-model-1m-context 🗞️ Z .ai releases GLM 5.2 model: 1M context window with MIT-licensed open weights, long-horizon coding agents 🗞️ Tensordyne Announces Breakthrough Inference System - 13x the rack throughput of NVIDIA’s NVL72 GB300 🗞️ New MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality 🗞️ Google released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Great news for locall LLMs. 🗞️ Dario Amodei’s new blog, calling for an urgent policy overhaul because he thinks frontier AI is moving faster than governments can regulate it. 🗞️ OpenAI is buying Ona to give Codex agents a secure cloud desk that stays open after humans leave. 🗞️ Full Letter From US Commerce Secretary Howard Lutnick to Dario Amodei - What did US tell Anthropic before banning Mythos and Fable for foreigners

译Z.ai 推出 GLM 5.2 模型，1M 上下文窗口、MIT 许可开源权重，面向长周期编码智能体。Tensordyne 宣布推理系统，机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma，26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona，为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic，就禁止外国用户使用 Mythos 和 Fable 做出说明。

Chubby♨️@kimmonismus · 6月18日40

Holy Sh*t: Seedance 2.5 coming early July. And still no text-to-video model has even come close to Seedance.

译Holy Sh*t: Seedance 2.5 七月初发布。并且仍然没有任何文生视频模型能接近 Seedance。