http://x.com/i/article/2070795179813203968 # Wan Streamer：一个能跟你实时视频通话的真人 AI 阿里通义实验室 Wan 团队放出 Wan Streamer 模型，一个能跟你实时视频通话的真人 AI。我们已经习惯了跟 AI 打字、语音聊天。Wan Streamer 往前走了一步，它能跟你视频通话：你这边有摄像头和麦克风，它那边实时生成一张会说话的脸，看着你、回应你。效果展示： 📹 视频① · 中文日常通话 —— 在此插入视频。中文 · 暖色室内视频通话：聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。 ## 1 · 这是什么：一个模型跑通实时音视频对话 Wan Streamer v0.1 是一个实时音视频交互模型。能实时对话的 AI 现在不少，但能一边看你的脸、一边听你说话、一边开口回应、自己还自带一张会动的脸的，几乎没有。Wan Streamer 把这件事压进了一个模型里。它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出，做到亚秒级的全双工音视频对话：模型自己算出一段回应大约只要 200 毫秒，加上网络往返后总延迟约 550 毫秒。为什么值得看：现在能实时对话的系统分两类，一类响应快但只出声音、没有可见的脸（GPT-4o Realtime、豆包、Gemini Live），另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。几个关键数字： - ～200 ms — 模型侧响应延迟 - ～550 ms — 总交互延迟（200ms 模型侧 + 350ms 网络往返） - 160 ms — 25fps 下最短的流式处理单元 - 192p — v0.1 分辨率，端到端设计的概念验证把总延迟 550ms 拆开看：模型本身只占 200ms，剩下 350ms 是网络往返。也就是说，纯模型的反应速度，比你读到的总延迟更快。 ## 2 · 旧办法为什么慢：一道道接力，每步都在等旧办法慢，是因为它们是一串独立模型拼起来的流水线：语音先转成文字（ASR），文字喂给语言模型想答案（LLM），答案再合成语音（TTS），最后驱动一张脸动起来（动画渲染）。 > 音视频输入 → ⏳ASR 识别 → ⏳LLM 想答案 → ⏳TTS 合成语音 → ⏳动画渲染 → 输出每过一道工序都要等上一道交货，等待时间一段段累加，识别和口型对不齐的误差也一路累积。每个箭头都是一次等待 + 一次误差累积；模块之间靠文字当中转桥；多数系统只出语音，或者把一张脸勉强拼出来，且不报告端到端时延。 Wan Streamer 是端到端单模型：音视频输入 →「一个 Transformer」（感知 · 推理 · 规划 · 生成一起做）→ 同步音视频输出。没有接缝，等待时间坍缩；轮次管理、被打断、长程一致性，作为一个连贯行为一起学出来。打个比方：端到端像一个人自己听完直接开口；级联像传话游戏，每过一手都慢一拍，还可能把话传错。中间那层把语音／视频先转成文字、再用文字驱动下游——文字就是各模块之间隐藏的中转桥，桥越多越慢、越容易错。Wan Streamer 不要这个中间桥，模态之间直接耦合。原文给这件事下了一个判断：实时音视频交互不是「多模态理解」加「多模态生成」的简单相加，它本质上是全双工的，所以可流式性是一种建模约束，而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统，光靠工程调优也补不出真正的低延迟全双工。【📹 视频② · 即兴模仿 —— 在此插入视频。中文 · 明亮白色室内。聊 CP、娱乐圈八卦、周星驰《功夫》，最后模仿经典笑容，轻松愉快女声】 ## 3 · 核心创新：一个模型从听到说全包了 Wan Streamer 的内核只有一句话：把视觉、音频、文本的输入 token 和输出 token，交错排成同一条序列，交给一个 Transformer 处理；用 block-causal attention 协调，让它边来边算地往外吐。单个端到端 Transformer 取消了外部的 VAD、ASR、语言模型、TTS、动画、视频生成等模块，把感知、推理、回应规划、语音与视觉生成、响应时机、轮次管理全放进同一个持久状态里联合优化。低延迟、全双工、同步音视频这三件事，根都在这里。模型把交互看成一条连续的因果流：你的观测和它的回应，一起更新当前上下文。语言回应是一串离散 token，用 next-token 预测训练；音频和视频回应活在连续的 latent 空间里，用条件 flow matching 联合生成，让语音、动作、外观、场景演化作为一个耦合整体一起去噪，而不是各生成各的再拼。为了撑住这条流，整栈从设计之初就是因果的：严格因果音视频 VAE、因果音视频编码器、因果音视频解码器，以及由 block-causal attention 协调的时序因果 Transformer。被这套设计抹掉的外部模块是：外部 VAD、ASR 识别、外部语言模型、TTS 合成、动画模块、视频生成模块。 ## 4 · 怎么做到边听边说、随时能打断人和世界的交互天生是流式、全双工的：我们不是先听完、再单独想、最后才答，而是一边看一边听一边说、随时停顿和打断，感知和表达在音视频的时间尺度上重叠发生。实时交互模型也得长成这样。因果编码器 + 因果解码器 + 低延迟多模态 token 调度，让 25fps 下的流式单元短到 160ms：输入的语音视频立刻影响输出，生成的音频和视觉状态在解码之前就耦合好，而不是事后修补。于是它能边听边说，你说话时它仍在听、被打断还能调整。这套机制靠的是 block-causal attention：它把一小块（比如 160ms 的音视频片段）当成一个处理单位，块内部的 token 可以互相看（双向），但一个块只能看见过去的块、看不到未来的块。块 3 一到就能开算，因为它只依赖块 1、块 2，不用等未来的块 4——这就是流式生成。部署细节：thinker–performer 怎么把延迟压到 200ms。Wan Streamer 训练时是单个端到端模型；实时部署时，同一个模型拆成跨两张 GPU 的 thinker–performer 流水线，尽量让计算重叠。thinker 负责编码、语言预测与状态更新、KV-cache 构建，以及把上一单元解码成音视频并立即输出；performer 只负责为下一段跑 flow-matching 求解器。因为 performer 从不跑解码器、thinker 从不跑高成本求解器，解码和生成互不阻塞。只要 performer 耗时加通信耗时塞进一个 160ms 单元，就维持实时吞吐。边听边说、随时能被打断，落到对话里就是这种自然感。这两段都是英文实时对话：【📹 视频③ · 英文车内 —— 在此插入视频。英文 · 车内近景。女生说自己很累，感谢对方耐心陪伴，疲惫真诚女声。】【📹 视频④ · 英文室内 —— 在此插入视频。英文 · 浅色室内近景。聊无意识刷手机、自动化习惯、关掉通知，自然女声。】 ## 5 · 和别的系统比，快在哪、能做什么下面两组延迟数字测的不是一回事，得分开看。上方一组是完整的端到端交互闭环（感知用户并产生回应），其中只有 Wan Streamer 同时输出视频；下方一组是数字人／音视频渲染器，只计到渲染阶段，不含它们依赖的外部语言模型、ASR、TTS，所以用户实际感受到的延迟比图里更高。两组刻度各自独立，不能横跨两组直接比大小。数值取各系统公开报告中最接近的口径，混合了不同测量边界。能力维度的覆盖如下，Wan Streamer 是唯一一行全部打勾的：需要提一句：这五个维度是 Wan 按自己的能力边界定的；表里其他系统分属纯语音（GPT-4o、豆包、Gemini）和数字人渲染（StreamAvatar、LPM）两类，和 Wan 不是同一品类。这张表更适合看「各家覆盖了哪些点」，不是排名次——Wan 唯一全✓，更多是因为「维度由它来定」。最后看一段完整的真实链路：一次真实联网对话的屏幕录制，能看到从感知到回应的全过程。【📹 视频⑤ · 实时录屏 —— 在此插入视频。真实联网对话录屏：左边是本地用户画面，右边是 AI Agent 实时回应，下方同步滚动文本流】注意：本项目还处于研究阶段，并没有上线，没有开放使用入口，只能当成「技术验证」看。来源： Wan Streamer v0.1 官方发布页（wan-streamer.com），论文 arXiv:2606.25041

译阿里通义实验室Wan团队发布Wan Streamer v0.1，首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms，总延迟约550ms，25fps下流式处理单元160ms，分辨率192p。同步生成语音与面部视频，支持全双工打断，取消外部ASR/TTS/动画模块，通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证，未开放使用。

Ethan Mollick@emollick · 5天前81

One of the recovered passages, read for the first time in two thousand years: “Having…strained ourselves to the utmost through research and learning…possessing the same practical wisdom…”

译其中一段被复原的文字，两千年来首次被读到：“经过研究和学习的极限努力……拥有同样的实践智慧……”

ginobefun@hongming731 · 6天前53

BestBlogs 早报 · 06-27 # GPT-5.6 Sol / Deep Agents 提示词缓存 / AI 推理成本 / Scaling Laws / 翁荔 [1] ★ 精讲｜GPT-5.6 Sol 前瞻：下一代模型预览 OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）、低成本 Luna。新增 max 深度推理档与调用子智能体的 ultra 模式，Sol 在 Terminal-Bench 2.1 上以 88.8% 刷新编码 SOTA。这次首发只面向少数可信伙伴，并配合美国政府网络安全审查分阶段放开——能力跃升与安全门槛同步收紧，才是本次发布最值得关注的信号。来源：OpenAI News https://www.bestblogs.dev/article/97e62d58 [2] ★ 精讲｜Deep Agents 的提示词缓存 LangChain 拆解了把生产级 Agent 成本压下来的关键杠杆——提示词缓存。难点在于各家策略割裂：Anthropic、Gemini 支持显式断点，OpenAI 走最长前缀自动缓存，Gemini 仅有隐式缓存。其 Deep Agents 框架做了 provider 无关封装，在真实 Agent 轨迹上把 token 成本砍掉 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。会话越长收益越大，长程任务最受益。来源：LangChain Blog https://www.bestblogs.dev/article/91444258 [3] ★ 精讲｜AI 推理显然是盈利的不少人认为 AI 推理服务本身在亏钱、只能靠投资人输血续命，Sean Goedecke 算了一笔账反驳：4 张 A100 跑 70B 模型约 2M token/小时，电费加散热每百万 token 仅约 13 美分，摊上 GPU 折旧综合成本约 1 美元；而 GPT-5.4-mini 卖 4.5 美元，70%-80% 毛利完全成立。DeepSeek-V4-Pro 市场价约 87 美分已贴近成本佐证。真正亏的不是推理，而是 AI 实验室拿推理利润补贴训练军备竞赛。来源：Sean Goedecke https://www.bestblogs.dev/article/262173e6 [4] 新一代学习 AI，苹果端侧模型配方，GLM-5.2 攻克开放性问题吴恩达分享了指导 AI 原生产品构建的三个关键软件开发循环（智能体编码、开发者反馈、外部反馈），同时涵盖了 GLM-5.2 领先的智能体表现以及美国大学 AI 学位兴起的相关资讯。来源：The Batch | http://DeepLearning.AI https://www.bestblogs.dev/article/6a65696f [5] 科技爱好者周刊（第 401 期）：如何赚到 10 亿美元本文摘录了 Paul Graham 关于如何通过创业赚取 10 亿美元的演讲，核心观点是保持高增长率并进入大市场，并辅以增长计算示例和其他科技资讯。来源：阮一峰的网络日志 https://www.bestblogs.dev/article/a93f6c93 [6] 腾讯混元 AI Infra 如何优化 Hy3 Preview：一次大模型推理性能提升的技术拆解本文拆解腾讯混元 Hy3 大模型在 Hopper 卡上从算子、融合、并行、缓存到量化的全栈推理优化方案，实测性能提升显著。来源：腾讯技术工程 https://www.bestblogs.dev/article/a0f9d2c7 [7] OpenSandbox 再进化：Credential Vault 让真实密钥不再进入沙箱 OpenSandbox 推出 Credential Vault 功能，通过出站代理在沙箱外注入凭据，使 AI Agent 沙箱不再需要保存真实密钥。来源：阿里技术 https://www.bestblogs.dev/article/eb89e83b [8] Zynga 创始人 Mark Pincus：消费者产品「现在没法投」，恰恰是你该入场的理由 [视频] Zynga 创始人 Mark Pincus 反向立论，指出现在正是押注消费者产品的时机，并分享了「Proven Better New」框架、「鱼群来袭」产品市场契合测试法，以及 AI 消费革命将在 2029 年到来的预测。来源：Y Combinator https://www.bestblogs.dev/video/39f15d3 [9] 翁荔最新万字长文：大模型 Scaling Laws，要谨慎理解本文系统梳理大模型 Scaling Laws 的研究脉络，从早期机器学习损失可预测性、Kaplan 与 Chinchilla 的计算最优分配，到数据受限区域及实际拟合中的敏感陷阱，为理解缩放定律提供了全面且深入的导览。来源：AINLP https://www.bestblogs.dev/article/f547eb02 [10] 火山引擎 AI 搜索千万级 Agent 架构演进与实践：从 ReAct 三节点到 Unified Policy 本文详细解析火山引擎 AI 搜索团队如何将标准 ReAct 架构演进为 Unified Policy Agent 架构，通过 Workflow 与 Agent 分层、统一控制/行为/状态，实现 TTFT 降低 30%与推荐质量提升。来源：字节跳动技术团队 https://www.bestblogs.dev/article/b02cc219 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-27

译OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）和低成本 Luna。新增 max 深度推理档与 ultra 模式，Sol 在 Terminal-Bench 2.1 以 88.8% 刷新编码 SOTA。LangChain 拆解 Deep Agents 提示词缓存，可削减 token 成本 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。Sean Goedecke 核算 AI 推理服务毛利率可达 70%-80%，DeepSeek-V4-Pro 市场价约 87 美分已贴近成本。

Google Gemini@GeminiApp · 6天前47

From creating images in real-time with your voice to new ways to support your small business, here’s a look at this month’s Gemini Drops 🧵

译从用语音实时创建图像，到支持小企业的新方式，以下是本月 Gemini Drops 的内容 🧵

AK@_akhaliq · 6天前40

ViQ Text-Aligned Visual Quantized Representations at Any Resolution

译ViQ 文本对齐的视觉量化表示，支持任意分辨率。

AK@_akhaliq · 6天前44

Confidence-Aware Tool Orchestration for Robust Video Understanding

译面向鲁棒视频理解的自信感知工具编排

Alibaba Cloud@alibaba_cloud · 6天前45

At Flink Forward Asia Shenzhen 2026, NVIDIA’s Chuan Chen shared how NVIDIA and Alibaba Cloud accelerate multimodal data stream processing for Apache Flink: “NVIDIA and Alibaba Cloud's team technically collaborate to enable the CUDA library-accelerated multimodal data stream processing of Apache Flink.” This open-source collaboration enables end-to-end, high-performance multimodal streaming architectures for AI commentary, live image-text feeds, and interactive Q&A. #NVIDIA #AlibabaCloud #ApacheFlink #DataAI #AI #Multimodal #RealTimeStreaming

译在Flink Forward Asia Shenzhen 2026大会上，NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作：通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构，可应用于AI解说、实时图文信息流和交互式问答等场景。

Berryxia.AI@berryxia · 6天前60

我靠，这个项目还挺有意思的！有人用AI做了一个能实时解说世界杯的解说员，而且不只支持英语，还能切换成法语。它实时抓取直播画面帧，让GPT-5.4-mini看比赛并生成解说词，再用ElevenLabs以体育解说员的语气播报出来。整个过程是端到端的实时调用，已经能比较自然地跟上比赛节奏。更关键的是，这个系统不是死板的模板生成，直接让模型真正“看”比赛内容后再组织语言。这意味着理论上它可以适应不同语言、不同风格的解说，甚至未来还能做双解说员对喷这种更有趣的玩法。目前最大的挑战还是延迟和解说的精准度，但方向已经很明确了：AI正在从“辅助内容”变成“实时内容生产者”。这让我想到2个玩法，一个是已经有的产品叠叠社的一个字母实时互动，一个是声音多种声线克隆或者直接使用有些比如建国的声音来解说，就会比较有意思。项目已经开源，地址见评论👇🏻

译开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播，采样最新帧，让GPT-5.4-mini理解比赛内容并生成解说词，再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用，已能较自然跟上比赛节奏，支持英语和法语切换。项目已开源，目前主要挑战是延迟和解说精准度，但方向明确——AI正从辅助内容变为实时内容生产者。

Alibaba Cloud@alibaba_cloud · 6天前46

Stop shooting. Start creating with #HappyHorse 1.1. Produce captivating brand and commerce videos with intelligent storytelling, expressive motion, refined details, and immersive sound experiences. Built for creators who want speed without compromising quality. Launch Offer: Save 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

译别再拍摄了。用 #HappyHorse 1.1 开始创作吧。通过智能叙事、富有表现力的动作、精细的细节和沉浸式音频体验，制作引人注目的品牌和商业视频。为追求速度又不愿牺牲质量的创作者而打造。发布优惠：节省 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

Alibaba Cloud@alibaba_cloud · 6天前50

HappyHorse 1.1 is powering the next wave of AI video creation. From @ComfyUI and @runware to @fal , @replicate , and @Picsart , leading platforms are already building with it. Now available on Alibaba Cloud Model Studio. Start creating today: https://int.alibabacloud.com/m/1000412436/ #HappyHorse #AlibabaCloud #ModelStudio #AIVideo #GenerativeAI

译HappyHorse 1.1 正在推动下一波AI视频创作。从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart，领先平台已在使用它构建应用。现已在阿里云Model Studio上可用。立即开始创作：https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI

PixVerse@PixVerse_ · 6天前65

Seedance 2.0 now does native 4K on PixVerse The hard part isn't resolution — it's keeping detail alive in fast motion. Watch the scales and spray hold as the dragon skims the sea.

译Seedance 2.0 现已在 PixVerse 上支持原生 4K 难点不在于分辨率，而在于快速运动中保持细节清晰。看看巨龙掠过海面时，鳞片和水花是如何保持清晰的。

Orange AI@oran_ge · 7天前41

豆包 2.1 Pro 模型的推理的上下文精度太差了人搞错，性别搞错，时间搞错... 我一指出来就疯狂道歉（态度很端正这真的很豆包了...

译用户指出刚上线 Cola 的 Seed 2.1 Pro 模型（自称原生多模态、多模态最强，相比 2.0 增强 coding 和 Agent 能力）在推理时上下文精度极差：常搞错人物、性别、时间。用户指出错误后模型频繁道歉，态度端正但问题明显。

Runway@runwayml · 7天前53

Introducing Agent 2.0 Go from a simple prompt to fully realized marketing briefs and campaign assets right inside of Runway Agent. You can also easily analyze your performance data to improve your creative and scale it across platforms, formats and markets. Agent is being built to become the most capable autonomous agent for real-world work.

译推出 Agent 2.0 从简单的提示词到完整生成的营销简报和活动素材，全都在 Runway Agent 内完成。你还可以轻松分析你的表现数据，以改善你的创意，并跨平台、格式和市场进行扩展。 Agent 正在被打造成为最强大的自主智能体，用于真实世界的工作。

Artificial Analysis@ArtificialAnlys · 7天前57

HappyHorse-1.0 from @HappyHorseATH takes #1 in AI video editing, followed by Seedance 2.0 from @dreamina_ai and Wan 2.7 from @Alibaba_Wan, on the new Artificial Analysis Video Editing Leaderboard 🏆 In previous media generation modalities, we focussed on overall model quality. In Video Editing, we have started to identify the drivers of overall model quality. We score models across five editing capabilities, each reflecting how these models are actually used in the real world: ➤ Visual Effects Editing: VFX, relighting, background change, and restyling, valuable for creative production such as film and advertising ➤ Physics & World Simulation: how a scene moves through space and time under real or even fictional physics, valuable for creative direction and storytelling ➤ Sound & Speech Editing: sound design and dialogue, valuable for shaping mood and story or localizing narrated video content ➤ Object Editing: add, replace, or remove objects, valuable across ecommerce and entertainment for variants and spot fixes ➤ Complex Edits: multi-edit instructions, valuable when both controllability and efficiency matter After ~80K blind human votes, strengths are split: different models lead different capabilities. Kling 3.0 ranks #5 overall but #1 in Visual Effects Editing. In Sound & Speech Editing, Wan 2.7 rises to #2 (#3 overall), while Seedance 2.0 (#2 overall) sits at #3. Seedance 2.0 and HappyHorse-1.0 are tied at the top of Physics & World Simulation. HappyHorse-1.0 wins overall by being the only model never weak in any editing capability: top-3 in all five capabilities, and #1 or tied #1 in four of them. Full capability breakdowns and example videos below 🧵

译Artificial Analysis 发布最新 AI 视频编辑排行榜，HappyHorse-1.0 综合实力第一，Seedance 2.0 第二，Wan 2.7 第三。榜单基于约 8 万次人工盲评，从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型，并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五，但在视觉效果编辑上排名第一。

宝玉@dotey · 7天前42

帮转，DeepSeek 招多模态方向工程师研究员

译DeepSeek 正在招聘多模态方向的全职/实习岗位，包括多模态数据工程师（预训练数据工程师）以及多模态理解数据/算法研究员（图像与视频方向）。应聘者可通过私信或发送简历至 talent@deepseek.com 联系。

Artificial Analysis@ArtificialAnlys · 7天前68

Microsoft's MAI-Image-2.5 ranks #2 in Text to Image and #3 in Image Editing in the Artificial Analysis Image Arena, behind only OpenAI's image models The latest addition to the MAI Image family is capable of handling both text to image generation and image editing, up to a maximum output resolution of roughly 1MP at flexible aspect ratios with a 32K token context. MAI-Image-2.5 is one of the strongest image models we have tested, ranking #2 in Text to Image behind only OpenAI's GPT Image 2. Its Image Editing capabilities rank at #3 on our leaderboard, ranking just behind OpenAI’s image models, with performance comparable to Google’s Nano Banana 2. MAI-Image-2.5-Flash, the faster, lower-cost variant, lands at #8 in Text to Image and #6 in Image Editing. MAI-Image-2.5 is priced at $48 per 1k images and MAI-Image-2.5-Flash at $20 per 1k images on the Foundry API. Both are also available in the MAI Playground, and MAI-Image-2.5 is available to users in PowerPoint and OneDrive. Congratulations to @MicrosoftAI on the release! See below for comparisons between MAI-Image-2.5 and other leading models in the Artificial Analysis Image Arena 🧵

译微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名，仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑，最大输出分辨率约 1MP，支持灵活宽高比，上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价：MAI-Image-2.5 为 $48/千图，Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground，其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

Google AI Developers@googleaidevs · 7天前73

The Computer Use tool is now available for Gemini 3.5 Flash 🛠️ Build agents that see and take action across browser, mobile, and desktop environments to seamlessly handle long-horizon tasks. Here’s what’s new: - Built-in support for mobile and desktop operating systems - Intent arguments for all function calls - Customizable client-side functions to easily support human-in-the-loop (HITL) takeover - Prompt injection detection and configurable action-level safety policies to fit your app’s needs Learn how you can use 3.5 Flash to automate QA testing, business processes, and more in the blog: https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/

译Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用，支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体，可处理长期任务。新特性包括：内置移动与桌面操作系统支持；所有函数调用配备 intent arguments；可定制的客户端函数实现人工接管（HITL）；提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。

Berryxia.AI@berryxia · 7天前39

Grok 现在制作这种视频真的好方便，而且基本可以一次性搞定，而Google Omni 就触发版权问题。

向阳乔木@vista8 · 7天前82

http://x.com/i/article/2070045816782217216 # 豆包Seed 2.1实测：编程可用，识鱼封神！前天，火山引擎将在年度Force大会上发布了最新基模Seed-2.1系列（Pro、Turbo）。模型特点在这里： > https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 到底如何，我们还是看实际场景表现。乔帮主从常规测试、工作场景和个人爱好出发，带着大家一起测 Seed-2.1-Pro 。一句话总结：Agent 和 Coding 迈过生产级可用线，多模态识别有惊喜！ ## 小汽车测试 Django Web 框架的联合创始人之一 Simon Willison。每次模型发布，他都会做 “鹈鹕骑车” ，来测模型推理和SVG生成能力。最近 Reddit 流行一个新测试，我称之为“小汽车测试”，中文翻译提示词如下 > 用一个单独的 HTML 文件实现全屏画布，不使用任何库。以侧视角模拟一辆行驶中的汽车作为主体。保持汽车在前景中可见，同时背景景观持续滚动，营造出汽车向前行驶的感觉。使用分层场景实现景深效果：近处地面、路边元素、树木、电线杆以及远处的山丘或山脉应以不同速度移动，形成自然的视差效果。真实地动画化车轮旋转，并添加细微的车身运动，使汽车感觉与道路相连。让环境在车后平滑地流过，场景重复但富有变化，使运动感觉真实可信。使用电影级光效和统一的天空（如日落、黄昏或日光）来增强氛围。整体运动应感觉平静、沉浸且真实，具有无缝循环动画效果。这个测试很妙，一次性考察大模型物理建模、无缝循环动画、空间层次、美学和编程能力。如果模型编程能力不强，很难通过测试，因为要求不能用第三方库，只能从头生成原生 JS 代码。 JS 代码一旦出错，很容易白屏加载不出画面。 Seed 2.1 Pro 出来效果如下，感觉有点超预期。虽然背景树木时高时低有点怪，小汽车轮子太靠上，但整体完成很不错。 ## 前端网页开发用大模型，很多时候是为了开发网站，前端网页开发能力多少得测下，提示词如下： > 设计并实现一个面向 CFO 的「AI 财务预测平台」官网首页，要求包含首屏 Hero、可信客户 Logo、3 个核心卖点、一个实时财务预测仪表盘预览、客户证言、价格入口和 CTA。输出可运行的单文件 HTML/CSS/JS 或 React 组件。要求视觉风格接近 Linear/Stripe/Notion 的高级感，但不能照抄任何品牌。界面简洁清晰，提示词遵循也不错，图表展示效果不错，但整体中规中矩，算符合超预期。 https://www.32kw.com/view/ed38b2d ## 后台功能开发身边 AI Coding 厉害的朋友，现在都是用文档驱动开发（Spec开发）。先让 AI 生成需求文档，自己检查没问题后，丢给 AI 开发即可。最常见案例就是开发个 CMS（内容管理系统），大部分网站基础就是这个，复杂点会加上注册登录、用户权限管控、页面SEO页面优化、Rest API 等。试下 Seed 2.1 Pro 是否能完美执行这套工作流： > 读取这个PRD，开发CMS系统：[文档地址] Seed 2.1 Pro 选择了 nextjs 框架、sqlite数据库，还设计了 REST API 接口。 5 分钟左右完成开发，增删改查正常，功能完全符合文档要求，除界面不够 fancy，挑不出别的问题。这么看，一些常规编程任务也可以用 Seed 2.1 Pro 了。 ## 生成炸裂标题不是人人都需要编程，但日常写文章，取个标题，是最常见不过的任务。大聪明（赛博禅心）一直跟我说，做自媒体要研究新智元。喷归喷，但人家起标题真的是一绝。新智元发布了5000多篇文章，让 AI 分析了 2688 篇，提炼了一套新智元标题生成 Skill > npx skills add joeseesun/qiaomu-xinzhiyuan-title 虽然用 Prompt 也能生成标题，但用 Agent 能读取飞书、公众号页面，再参考 Skill 的 Reference 文档，生成标题质量更稳定、更轻松。这里我们继续用开篇文章，提示词也简单： > 用新智元标题Skill生成10个候选标题，读取这里的内容：https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 是不是有那个味道了？😂 没想到老实巴交的豆包 Seed 2.1，也能瞬间变标题党，相当炸裂！ ## 竞品调研报告很多人的日常工作，经常要做一些产品分析调研，把下面提示词发给 Seed 2.1 Pro： > 调研 3 个「AI 会议纪要工具」的官网、价格、核心功能、集成生态、隐私合规表述和用户评价。输出一张竞品矩阵，并给出面向中小企业的 MVP功能优先级、差异化定位和 90 天 Roadmap。生成内容很长，我补了一句：“写入飞书文档”，精准调 lark-doc 写入文档，效果如下：指令遵循不错，各项任务都完成了。直接抓取被拦截时，还会调用 Playwright 读页面获取信息。 ## 生成信息卡图将任意文本或链接一键转化为杂志质感信息卡片，自动截图输出图片，适合分享到 X、小红书、微信。先安装下面乔帮主的 Skill > npx skills add joeseesun/info-card-designer 然后把开篇的微信文章发给 Seed 2.1 Pro，提示词： > 读取 https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 用信息卡skill生成卡片默认生成了蓝紫渐变图 😂 ，让它调整生成白色简洁风格信息图。 ## 制作电子书互联网上有些博客写的非常好，很值得做成 epub 电子书，导入微信读书随时看。安装下面的 Skill，一句话生成电子书。 > npx skills add joeseesun/qiaomu-epub-book-generator 比如 Paul Graham 的博客，常读常新。此任务可以测试 Seed 2.1-pro的 Skill 调用和执行能力，提示词很简单： > 抓取 Paul Graham 最新 x 条博客，用乔木 epub 制作 skill 生成epub电子书不仅顺利下载翻译博客文章为中文。还能遵循 Skill 封面设计规范，先设计网页，再调用 Playwright 截图，生成电子书封面。 ## 拍照识鱼乔帮主作为钓鱼佬，最近在开发一款自用 iOS App。产品需求：拍照后 AI 自动读取相片 exif 信息记录钓点，同时识别渔获，什么鱼种，有几条。之前测试 Gemini 3.1 Flash，竟把白条识别成“泥鳅”，非常恼火。听火山发布会说 Seed 2.1 Pro 多模态不错。抱着试试看心态，给了一张没抹去 exif 信息的图片，输入提示词： > 读取这张图片的地理位置信息，并识别图中有几条鱼，什么鱼附件原图：结果让人感动，不仅调用 exif 工具读取了图片地理位置（温榆河），还准确识别了鱼种和数量。连泥水中看不太清楚的两条都识别到了，还给我科普了白条的拉丁名和其他俗名，震惊！ > 鱼种：几乎全是白条鱼（学名䱗，Hemiculter Leucisculus，俗称餐条、青鳞子、游刁子）我的钓点记录 App 终于有救了。 ## 如何体验？虽然豆包专业版-办公模式、TRAE、TRAE WORK、扣子都上线了 Seed-2.1-Pro。但企业和专业用户一般会接 API，在Claude Code等工具中使用。为还原实际能力，避免产品系统提示词影响，上面测试都用是 CC Switch + 火山方舟 API ，终端用的 cmux。 ## 写在后面可能最近牛 X 模型太多了，豆包 Seed 2.1 Pro 感觉稍微有点中规中矩。好消息是 Agent 能力达到可用线，常规编程、调工具、写文档、截图、生成电子书都能搞定，这对依赖 AI 工作流的人来说，体感差异很明显，且价格还不错。最大惊喜来自多模态，至少我测试的场景，明显领先 Gemini 3.1 Flash。等后面有空我再测下自动化视频剪辑，这个更考验多模态实力。上面测试的 Skill 都是开源的，直接 ⁠npx skills add 就能用。如果想在 Claude Code 中调用，直接去火山方舟申请 API 即可，已经全量开放。

译火山引擎发布豆包Seed-2.1系列（Pro、Turbo）。实测Seed-2.1 Pro显示：Agent和Coding能力达到生产级可用线，能完成SVG动画、网页开发、CMS系统等任务；配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜，拍照识鱼准确识别鱼种和数量，优于Gemini 3.1 Flash。价格实惠，API已通过火山方舟全量开放。

Alibaba Cloud@alibaba_cloud · 7天前65

The buzz around #HappyHorse 1.1 just keeps getting bigger! Proud to see #ComfyUI join the growing list of industry leaders bringing the latest generation of #AIVideo creation to creators worldwide.

译HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI，一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力（运动更流畅）；增强 R2V，每次最多使用 9 张参考图；实现多角色造型零串扰，背景变化时角色仍保持一致；指令遵循能力增强，可处理超 2500 字符的提示词，单次生成 6–8 个场景；修复皮肤反光和过度锐化；对话与音效同步更紧密。

Berryxia.AI@berryxia · 7天前74

PaddleOCR的PP-OCRv6终于上Hugging Face了。这次不只是精度又提升，还一次性加了transformers和ONNX Runtime两个后端。意味着你现在可以用更统一的API，在不同推理框架之间无缝切换，而不用改太多代码。 PaddleOCR一直以来都是工业界用得最多的开源OCR方案之一，这次上HF + 多后端支持，等于把门槛又拉低了一大截。尤其是想在transformers生态里直接用高性能OCR的人，这次可以直接上手了。从之前的Unlimited-OCR到这次PP-OCRv6，国内团队在长文档和实用OCR方向上确实在持续迭代，而且越来越注重工程可用性。地址见评论区👇

译PaddleOCR 的 PP-OCRv6（对应 PaddleOCR 3.7）正式上线 HuggingFace，精度进一步提升，并新增 transformers 和 ONNX Runtime 两个推理后端。用户可通过统一 API 在不同后端之间无缝切换，无需大幅修改代码。PP-OCRv6 是工业界广泛使用的开源 OCR 方案，此次上架 HF 并支持多后端，降低了工程接入门槛，尤其利好希望在 transformers 生态中直接使用高性能 OCR 的开发者。

🚨 AI News | TestingCatalog@testingcatalog · 6月25日60

Google Flow Agent can now use Google Maps Street View grounding to generate images and videos. Only works with US locations at this moment. > "Your Google Flow Agent can now generate images and videos grounded in Google Maps Street View, giving your scenes real-world details and accuracy, whether you are placing characters in a local scene, stylizing a city landmark, or reimagining your favorite neighborhood." > "To use the feature, enable Agent mode and use a named location or a street address in your prompt. This feature is available globally, but currently only for US locations."

译Google Flow Agent 新增 Google Maps Street View 实景锚定功能，支持根据用户提示中的地名或街道地址，为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。

elvis@omarsar0 · 6月25日64

Finally caved in, and I now fully speak to agents as opposed to typing prompts. My first realization is that you can just blabber on and tell the agent so many rich details via audio. The longer and the more detailed the audio explanation, the better the results. The most interesting thing about interacting with the agent this way is that I can parallelize more work and enable agents to perform way longer runs, implementing many things at once. In addition, I have developed a new feature where I can record the screen, take screenshots, track mouse actions and movements, annotate, and explain (using voice) to the agent things that it struggles with, like design and precise feature development. My finding is that the richer the prompt modality, the more reliable the agent results are. The noise (if any) doesn't even matter. Yes, it's more expensive (i.e., lots more tokens used this way), but the reliability that you are getting is worth it. I often store those as reusable commands/skills where it applies and inject them into loops. The results are night and day.

译作者从打字提示转向完全用语音与AI智能体交互，发现通过音频能提供更丰富的细节，语音越长越详细，结果越好。这种交互方式还能并行化更多工作，让智能体执行更长时间任务。作者开发了新功能：录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富，智能体结果越可靠，虽然消耗更多token成本更高，但可靠性值得。这些模式可存储为可重用技能，效果天差地别。

Rohan Paul@rohanpaul_ai · 6月25日64

Genspark just launched Genspark Design. Turns rough prompts into editable UI, posters, videos, HTML animations, and working code through Claude Opus 4.7. The point is that it treats design as a reusable system, not a one-off image, so logos, colors, typography, spacing, and components can be saved once and applied across new assets. the most useful idea here the is layered output, where text, images, backgrounds, and components stay separate, so users can revise the design itself instead of asking the model to regenerate everything. One prompt or brief can become a UI prototype, social kit, landing page, animation, or video, while keeping the parts editable rather than flattened into a pretty dead end.

译Genspark 推出 Genspark Design，由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统，支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出：文本、图像、背景、组件保持分离，用户可直接修改设计本身，无需要求模型重新生成。支持上传 Figma 文件或保存设计，一键生成可交付代码（基于 Genspark Code），无需设计背景即可使用。

Runway@runwayml · 6月24日57

New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every market. All with a single click.

译Runway 新功能，现可本地化广告。一张图片输入，任意语言输出。输入单一广告，即可获得适用于每个市场的版本。全部一键完成。

OpenBMB@OpenBMB · 6月24日26

Nice work 👍👍@TechlatestNet A local photo assistant on Telegram with MiniCPM-V 4.6 and no cloud OCR is exactly what privacy-focused users need.

译Nice work 👍👍@TechlatestNet Telegram 上的本地照片助手，搭载 MiniCPM-V 4.6，无需云端 OCR，正是注重隐私的用户所需。

Orange AI@oran_ge · 6月24日54

刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型这个模型是原生多模态模型，是目前的多模态最强模型。相比 2.0 版本，增强了 coding 能力和 Agent 能力，具体的评测可以参考藏师傅的文章体验地址 http://colaos.ai

译Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

meng shao@shao__meng · 6月24日50

我用 TRAE Work 测了豆包 2.1 Pro：视觉还原和前端设计、交互能力，真的超出我的预期了！字节跳动最新发布的豆包2.1 系列模型，官方介绍整体在 Coding 和 Agent 能力上有显著提升，VLM 能力保持领先，能力介于 Claude Opus 4.6 和 4.8 之间，这在项目中就很有想象空间了。在进入正式项目中使用体验之前，先找一个前端设计图还原实现的题目，结合它的 Coding 和 Agent 能力，特别是 VLM 对设计图的布局、设计要素、细节、场景的理解。我把操作过程录屏，可以看到我让豆包2.1 参考的设计图，和一句简单的要求，它在执行前，会先思考整个规划和实现过程，然后读取我的设计图、理解它的使用场景和设计细节等，再调用对应最合理的 Skill 来规划整体网页实现逻辑。分步骤实现网页编写后，使用本地预览和视觉验证等来验证实现符合规划预期。整体实现完成后，输出在视觉还原、交互和技术实现方面的实现细节，可以看出，非常细节，包括设计图中的设计感、布局，甚至不同标题和字体选择，都很贴切，自适应布局也是默认就有且很丝滑。最让我意外的是，它居然还给每个部分真的配了有实际意义的图，而不只是占位！

译邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升，VLM 能力保持领先，综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中，模型先思考整体规划与实现过程，再读取设计图理解场景和细节，调用最合理的 Skill 规划网页逻辑，分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致，包括布局、字体选择、自适应布局，甚至为每个部分配上具有实际意义的图片而非占位符。

OpenBMB@OpenBMB · 6月24日65

🥳Thanks for sharing this, @MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 running at this speed on-device is really impressive — especially under 2B params on Apple Core AI. Great work pushing efficient multimodal AI forward.🫡

译🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻——尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

Alibaba Cloud@alibaba_cloud · 6月24日60

Meet Qwen3.7-Plus, built for multimodal agent execution across GUI interaction, tool use, and coding. From visual input to code and real task execution, it’s designed for long-running, real-world agent workflows. Try it today on Alibaba Cloud with a limited-time 20% discount. 🔗 : https://int.alibabacloud.com/m/1000414123/

译认识 Qwen3.7-Plus，为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行，它专为长期运行的现实世界智能体工作流而设计。今天在阿里云上试用，限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/

AYi@AYi_AInotes · 6月24日70

有点炸裂，我把一张截图丢给一个 Flash 模型， 2分多钟后它给我做了个能用的x文章头图生成工具，昨晚晚手痒试了下，用的是 StepFun 的 step-3.7-flash，挂在 Codex 里跑，丢了一张我自己的爆款头图进去，让它照着复刻成网页版x文章头图生成器，不到3分钟就跑完了，浏览器里直接打开就能用，能改文案能导出 PNG，一次成型，总成本只花了$0.06，最有意思的是这个模型不止会写代码，它看了一眼参考图，自己就把完整的功能逻辑摸透，直接把能跑的东西做出来，又快成本又低，当然也要泼盆冷水，功能确实能用，但视觉还原只有六七分，我那种手绘涂鸦风它还原不到位，得自己再调，完整prompt，我放评论区了，直接抄就行，顺嘴提一句：如果你也在用 AI 搞东西，可以看下 @StepFun_ai 的 Startup Program，早期团队能拿 API 额度、生态支持，还有联合推广和资源对接 👉 http://platform.stepfun.ai/startup-program 做 AI agent、编程工作流、搜索类应用或者多模态系统的，step-3.7-flash 值得试一把。

译用户将截图丢给 StepFun 的 step-3.7-flash 模型（运行在 Codex 中），2 分多钟生成可用的网页版文章头图生成器，支持修改文案和导出 PNG，总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑，但视觉还原度仅六七分，手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program，早期团队可获 API 额度、生态支持及资源对接。

Baidu Inc.@Baidu_Inc · 6月24日59

Try this great Unlimited-OCR demo from @_akhaliq: https://huggingface.co/spaces/baidu/Unlimited-OCR

译百度发布了 Unlimited-OCR，推荐通过这个演示体验。

小互@xiaohu · 6月24日61

原样抄写几十页的 PDF，几乎所有模型都做不到一种全新参考滑动窗口注意力（R-SWA）技术能让模型像人类抄书一样“连抄几十页”，而不会造成其记忆混乱。最新开源的 Unlimited OCR 模型：可以模拟人类解析工作记忆的模式 3B大小 500M激活但在标准 32K 上下文上它可以一次前向推理能吞几十页文档，不用切页... 该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作此前所有模型都无法通过一次前向推理完成数十页文档的解析。因为传统 OCR 是一页一页跑，每跑完一页就清空记忆，最后再把各页结果拼起来唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR，就是模拟人类抄书过程，使用了一种叫参考滑动窗口注意力（R-SWA）的技术模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单，这两样区别对待：原件，从头到尾一直完整看着，保证抄写位置不出错。正在写的字，只看最近一小段(默认 128 个字)，更早的就不管了，等于边写边忘。好处是，它脑子里要记的东西，始终恒定那么多。不存在需要记的太多，脑子掉线的情况，所以不管文档多少页，显存和算力都不涨。还能一直连续的的抄写文档...

译百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

Alibaba Cloud@alibaba_cloud · 6月24日13

🔥 2 DAYS TO GO until #FFA2026! All 11 sub-forum agendas are now live, covering 7 major Data + AI tracks: 🧠 Multimodal & Vector Computing 🤖 AI Agents 🏗️ AI Platform in Practice ⚙️ Intelligent DevOps 🌊 Agentic Lake 📊 Real Time Analytics 🚀 Real-Time Data Powers the Future of AI Plus dedicated industry sessions on Automotive AI and Embodied AI. ✨ Apache Fluss 1.0 debuts with real-time context capabilities for AI Agents. 📅 Jun 26–27 📍 Shenzhen 🔗 Register now: https://hd.aliyun.com/form/8369 #AlibabaCloud #ApacheFlink #ApachePaimon #ApacheFluss #DataAI #AIAgent #RealTimeData

译阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

向阳乔木@vista8 · 6月24日30

感动了，Doubao Seed 2.1 别的能力不说，多模态强的一批！

Berryxia.AI@berryxia · 6月24日56

刚刚，Mistral发布OCR 4！（非开源模型） 170种语言，自带置信度评分，OCR赛道又开始卷了啊！ 2026年6月23日，Mistral AI发布了Mistral OCR 4。这家以大语言模型闻名的法国公司，突然杀进了OCR领域。 Mistral OCR 4的核心能力不是简单的文字识别。它为每个识别结果生成边界框，精确标注文字在页面上的位置。它对每个文本块进行自动分类：标题、正文、表格、页眉页脚。它为每个识别结果附带置信度评分，告诉你这个字它有多确定。支持170种语言。这件事的背景是，过去三个月OCR赛道经历了一场密集的技术迭代。百度刚刚开源了Unlimited OCR，用R-SWA机制实现了一次推理处理几十页文档。 Now Mistral带着完全不同的思路入场，不是做长文档理解，而是做结构化输出。两种路线指向同一个方向：OCR正在从"认字工具"进化为"文档理解引擎"。以前OCR输出的是纯文本。现在输出的是带位置、带类型、带置信度的结构化数据。对开发者来说，这意味着下游任务不需要再自己做版面分析。OCR直接给你答案。价格：$4 /1000 页做参考官网可以看看 OCR评测圈又要热闹了。 Mistral 这个OCR模型中文的表现我不信可以超越Paddle OCR，下一个拿它做个测评看看效果？

译2026年6月23日，Mistral AI发布非开源模型Mistral OCR 4，支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块（标题/正文/表格/页眉页脚）、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线，而是提供结构化输出，使OCR从认字工具进化为文档理解引擎，下游开发者无需再做版面分析。

Rohan Paul@rohanpaul_ai · 6月24日66

AI video is moving into its real-time reaction era, with MaineCoon now leading in low-latency AI video. @catnips_ai just introduced MaineCoon, a 22B real-time text-to-audio-video model built for live AI characters, not offline video generation i.e. to make AI video feel live by generating synced speech and visuals in real time. A record-breaking frame rate of up to 47.5 FPS on a single H100 GPU. Audio-visual generation cost drops significantly below $0.001 per second and continues to fall. It positions the paradigm of social world models for social-interactive purposes. MaineCoon serves as the first generative core toward this paradigm and provides a technical foundation for next-generation AI-native social platforms. It proposes a multi-stage forcing-free streaming training paradigm that includes self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). These components enable 22B-scale native and efficient streaming audio-visual training. It designs an agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift through agentic cache management, chunk commitment, long-context rollout, and prompt planning. The big deal is long-duration streaming at low cost. Text goes in, the first frame appears in under 1s, and the model keeps producing synced video and audio while playback is already happening. So it is not making a full video first, then dubbing it later. It generates forward in small chunks, and each chunk continues from the last one. That is hard because tiny chunks usually break consistency. Faces drift. Voices change. Motion gets weird. Audio and mouth movement separate. MaineCoon tries to solve this with a dual-stream Diffusion Transformer: one stream for video, one stream for audio, and cross-stream attention between them so expression, lip motion, voice, timing, and body movement stay tied together. It also uses a history key-value cache and an attention sink. In plain words, the model keeps useful memory from previous chunks, so the next chunk does not feel like a new disconnected clip. The speed claim is also big: up to 47.5 fps on a single H100, and real-time 30 fps on a single RTX Pro 6000 GPU. That is the low-cost part. You do not need a huge multi-GPU serving setup just to get real-time audio-video generation. They also describe an agentic streaming system that can keep generation going for more than 10 minutes while holding identity, voice, scene state, visual quality, and synced audio. If the stream starts drifting, the system repairs future chunks instead of editing already-shown frames. So MaineCoon is best understood as a streaming-native visual reaction layer: fast first frame, continuous audio-video output, long-horizon memory, and low inference cost. 🧵 1/n.

译MaineCoon是一款22B参数的实时文本到音频-视频模型，专为实时AI角色设计。单H100 GPU可达47.5 FPS，成本低于0.001美元/秒；单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练（自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏）及智能体流式推理框架，支持千秒级连续生成。双流扩散Transformer（视频+音频交叉注意力）保持表情、口型与声音同步，历史KV缓存和attention sink确保片段连贯。首帧小于1秒，生成与播放同步，不先制作完整视频再配音。

AK@_akhaliq · 6月24日56

Baidu just released Unlimited-OCR

译百度刚发布了 Unlimited-OCR。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日65

Mistral AI launched OCR 4 👀 > Win rates averaging 72%, alongside the top overall score on OlmOCRBench (85.20). > Alongside the extracted text, OCR 4 returns bounding boxes, typed-block classification, and inline confidence scores. > OCR 4 is an ingestion component of Search Toolkit, Mistral's open-source, composable search framework. > Support for 170 languages across 10 language groups. > OCR 4 is compact enough to run in a single container.

译Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档（12+ 语言）的盲测中，OCR 4 被偏好，平均胜率 72%；OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数，作为 Search Toolkit 的组件，支持 170 种语言，且足够紧凑可单容器运行。

歸藏(guizang.ai)@op7418 · 6月23日49

http://x.com/i/article/2069421203073490944 # Seed 2.1 Pro 测评，终于能胜任 Agent 工作了今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。 ## 它能不能进 Agent 工作流？这次我最关心一件事：它能不能进真实的 Agent 工作流。跑下来，我觉得答案是能。以前很多人对它的印象，可能还停留在基础问答：速度快、回答顺、多模态能力不错，适合日常聊天和查资料。但如果要把它放到 Codex、Claude Code 这类 Agent 场景里，让它读规则、调工具、改文件、生成网页、做 PPT，大家可能不会第一时间想到它。这次 Seed2.1 Pro 给我的感觉不太一样。它已经能认真跑 Agent 任务了，而且有几个长处很明显。第一，复杂任务里比较稳。 Agent 场景里，模型不能只会回答一句话。它要理解任务、读材料、遵循工具规则，最后产出一个能交付的东西。我用它跑 Skills 的时候，它没有明显瞎写，也没有绕开规则，基本是在已有约束里把结果做出来了。第二，视觉内容的规划能力强。这里说的好看，只是表层。页面、PPT、图片卡片、动效这些东西，它会自己安排信息密度和视觉层级。很多模型可以完成任务，但结果经常需要人返工；Seed2.1 Pro 的产出更接近“可以直接拿来展示”的状态。第三，多模态是它的额外优势。现在很多强 coding 模型没有完整多模态能力，或者视觉理解不是主场。 Seed2.1 Pro 可以在图片、文档、视频理解和视觉表达上承担更多工作，和其他模型配合时也会很有价值。 ## 我怎么测的这次我主要用两个渠道测试。一个是在豆包里选择任务模式，再选择本地电脑，让它以类似 Codex 或 Claude Code 的 Agent 方式操作。另一个是通过火山引擎 API，在 Cloud Code 这类常见 Agent 架构下调用。这样可以同时看它在自家产品里的表现，以及换到更通用的 Agent 工作流后是否还稳。 ## 先跑复杂 Skills 我先测的是自己的两个 Skills，PPT 生成和社交媒体卡片。原因很简单：大多数人日常使用 Agent，不会每天都做重度工程开发，更多是办公、内容生产、资料整理、简单工具调用。复杂 Skills 规则多、上下文长、要求细，刚好能看出模型的下限和上限。第一个是 PPT Skill。我把 Seed2.1 的官方介绍文章给它，让它生成一份介绍 Seed2.1 的 PPT。结果相当不错。它没有出现页面内容超出，也没有大面积空白。每一页的信息密度都比较合理，标题、正文、数据和视觉元素之间的比例很稳。更重要的是，它不会死板地套模板，而是会根据内容调整版式。这点很能说明它在 Agent 场景里的可用性。它会先理解内容，再做结构规划，不会只把文字塞进模板。它还会加入动效，做出一些 Skill 模板里没有明确给过的排版方式，效果也可以。我还试了社交媒体图片卡片 Skill，结果也不错。这个场景更偏日常内容生产，比如封面图、信息卡片、产品介绍图。 ## 再跑三个前端任务接下来我测了三个编程任务。这三个任务避开了传统 CRUD，更吃 Agent 编程能力、前端实现能力和空间感知，主要是 WebGL / 3D / 动效。第一个是抽屉式或者百叶窗式的图片动效。我让它做一个横向展开的图片交互，鼠标 Hover 到某一列时，当前列展开，其他列收缩，同时要有图片、文字、遮罩、局部放大和高级感。这个效果它基本一步到位。豆包产品内和 Cloud Code 下的版本风格还有点不一样：豆包里的版本更简洁、更高级； Cloud Code 下的版本动效更多，有自定义光标、圆形画中画、分层遮罩和更强的动态反馈。第二个是 WebGL 贝塞尔曲线效果。这个任务更难。我只是用文字描述了一个抽象效果：三格贝塞尔曲线，每一格都有对应色散，曲线一直在运动；鼠标 Hover 到对应区域时，色散会增强，但仍然要沿着贝塞尔曲线自然运动。 Seed2.1 Pro 做出来的结果很舒服。曲线没有僵硬地抖动，玻璃切片和色散也没有乱糊一片。鼠标移动时，局部折射会增强，但整体运动仍然保持连续。这个案例说明，它能把抽象视觉描述转成可运行的前端效果。第三个是跨整页的视差滚动网页。我让它做一个长页面，九张图片贯穿整个网页。随着滚动，这九张图片会不断堆叠、散开、组成九宫格、再横向流动，每一段散开的组织形式都不同，但整体动画要连续。这个任务很容易翻车。它是一整条时间线，卡片的位置、缩放、旋转、滚动进度、文字层级、背景变化都要互相配合。但 Seed2.1 Pro 的结果很完整。它用了 GSAP、ScrollTrigger 和 Lenis，把九张卡片组织成一段连续的视觉叙事：先是扇形展开，再到斜向视差流，然后进入九宫格、空间穿梭和横向叙事。 ## 它适合放在哪里所以我对 Seed2.1 Pro 的判断是：它未必是每个榜单上最顶尖的模型，但已经能在真实 Agent 任务里干活了。尤其是在内容生产这个方向上，它的组合能力非常好：能读材料，能遵循复杂规则，能做工具调用，能生成视觉内容，也能完成有一定难度的前端动效。我觉得它适合放在组合工作流里。强 coding 模型继续负责重工程和复杂代码链路，Seed2.1 Pro 负责多模态理解、内容规划、视觉表达和前端呈现。这样反而更接近我日常真正会用的方式。当然也有限制。官方这次强调了视频理解能力，这点我很期待。但我在 Cloud Code 下调用时，视频输入似乎还不是完整视频实例，更像是抽帧式处理。如果后续 API 和 Agent 框架能更好地支持原生视频输入，它的优势会更明显。总的来说，大家以前可能觉得它只是一个快、顺、多模态好的基础模型。 Seed2.1 Pro 这次更值得关注的地方，是它开始能进 Agent 工作流了。现在 API 已经在火山引擎全量上线了，可以去试试。而且他们也支持直接接入到各种 Agent 里面，Code plan 可能还要等等。如果觉得内容对你有帮助的话，可以帮忙点个赞或者转发，谢谢。

译Seed 2.1 Pro 正式发布，测评显示它能胜任真实 Agent 工作流。优势包括：复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式（本地电脑 Agent 操作）和火山引擎 API（Cloud Code）进行。复杂 Skills 测试（PPT 生成、社交媒体卡片）表现优秀，能根据内容调整版式。三个前端任务（百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页）均一步到位或结果完整。定位：未必最顶尖，但适合组合工作流——强编码模型负责工程，Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制：视频输入目前为抽帧式处理。API 已在火山引擎全量上线。