AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 852 条
全部一手资讯X论文
🚨 AI News | TestingCatalog@testingcatalog · 7天前48

ICYMI 👀: OpenAI upgraded its GPT-5.5-Instant model on ChatGPT for paid users and free users are getting it as well, shortly. > It handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Most of you won’t use it but there are also loads of free users who will.

译OpenAI 推出新版本 GPT-5.5 Instant,号称是使用最多的模型。新版本能更好地理解问题意图并调整回答,更可靠地处理复杂约束,同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送,明天起免费用户也将陆续获得。

Alibaba Cloud@alibaba_cloud · 7天前65

The buzz around #HappyHorse 1.1 just keeps getting bigger! Proud to see #ComfyUI join the growing list of industry leaders bringing the latest generation of #AIVideo creation to creators worldwide.

译HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI,一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力(运动更流畅);增强 R2V,每次最多使用 9 张参考图;实现多角色造型零串扰,背景变化时角色仍保持一致;指令遵循能力增强,可处理超 2500 字符的提示词,单次生成 6–8 个场景;修复皮肤反光和过度锐化;对话与音效同步更紧密。

Alibaba Cloud@alibaba_cloud · 7天前67

A big win for creators everywhere. Proud to see #Replicate supporting #HappyHorse 1.1 and helping more storytellers access powerful tools for video creation, audio, and character-driven narratives.

译全球创作者的重大胜利。 自豪地看到 #Replicate 支持 #HappyHorse 1.1,帮助更多故事讲述者获得视频创作、音频及角色驱动叙事的强大工具。

Nathan Lambert@natolambert · 6月25日53

GLM 5.2 being on the Opus frontier for cost of CursorBench is what drives frontier lab margins down

译GLM 5.2 在 CursorBench 上处于 Opus 前沿(在成本方面),这正是导致前沿实验室利润下降的原因。

Lee Robinson@leerob · 6月25日65

You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. Results from our evals ↓

译你现在可以在 Cursor 中试用 GLM 5.2! 很高兴看到更多有用的开放模型,感谢 Fireworks 在此合作。我们的评估结果如下 ↓

ChatGPT@ChatGPTapp · 6月25日65

The new GPT-5.5 Instant is very smart, very intuitive, and very fun to chat with. Rolling out now to everyone, starting with Pro and then Plus users. Free users should have the new GPT-5.5 Instant model by tomorrow.

译新的GPT-5.5 Instant非常智能、非常直观,聊天起来非常有趣。 现已开始向所有人推送,先从Pro用户,然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。

OpenAI@OpenAI · 6月25日67

We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better at understanding the intent behind a question and adapting its response accordingly. It also handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Rolling out today to paid users, tomorrow to free users.

译我们为你带来了新版 GPT-5.5 Instant,它现在聊起天来有趣多了。 我们最常用的模型现在能更好地理解问题背后的意图,并相应地调整回应。 它也能更可靠地处理复杂约束,让购物和本地推荐更加实用和连贯。 今天向付费用户推送,明天向免费用户推送。

Nathan Lambert@natolambert · 6月25日68

A much needed data release! Excited to tinker with the data.

译如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Greg Brockman@gdb · 6月25日69

Big improvements to GPT-5.5 Instant, including being much more fun to talk to. Give it a try:

译OpenAI 推出 GPT-5.5 Instant 新版本,能更好理解问题意图、处理复杂约束,并改进购物与本地推荐。今日向付费用户推送,明日覆盖免费用户。

Berryxia.AI@berryxia · 6月25日78

Qwen直接训了一个能模拟7种Agent环境的语言世界模型,叫Qwen-AgentWorld。 它不是先训Agent再加环境,而是从头就把“环境建模”当成核心训练目标。 模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化,而不是只学会怎么去操作。 他们做了两个方向的探索: 一个是把世界模型做成高质量的环境模拟器,用来跑可控的Sim RL,结果发现用模拟环境训练的Agent,在某些任务上甚至能超过真实环境训练的Agent。 另一个更有意思:单纯让模型做环境预测(不做任何Agent训练),这个预测能力居然能直接迁移到真实的多轮Agent任务上,在多个benchmark上都有明显提升,包括一些完全没见过的领域。 Qwen这次开源了35B的MoE版本和对应的benchmark。 核心思路很清晰:想让Agent变强,先让它真正“懂”环境,不只是只教它怎么行动。

译Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Chubby♨️@kimmonismus · 6月25日44

This Fable 5 update sounds almost too good to be true: The latest Claude Code update does not only include some interesting hints about Fable 5’s return. It also suggests that the model may be permanently added to the subscription plan. That would be fantatic. And I hope it's true insofar as Anthropic generates good PR with it.

译Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week",同时移除 "purchased separately from your plan",暗示 Anthropic 正为 Fable 5 回归做准备,可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待,认为有望带来良好公关效果。

OpenRouter@OpenRouter · 6月25日54

Fugu Ultra by @SakanaAILabs is live on OpenRouter! Excited to see more multi-model systems pushing the frontier.

译Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter! 很高兴看到更多多模型系统推动前沿。

Alibaba Cloud@alibaba_cloud · 6月24日69

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 🔗 Model Studio: https://int.alibabacloud.com/m/1000413253/

译阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

Orange AI@oran_ge · 6月24日54

刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://colaos.ai

译Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

Qwen@Alibaba_Qwen · 6月24日76

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 📑 Paper: https://arxiv.org/abs/2606.24597 📖 Blog: https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub: https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace: https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope: https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

译通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

Alibaba Cloud@alibaba_cloud · 6月24日60

Meet Qwen3.7-Plus, built for multimodal agent execution across GUI interaction, tool use, and coding. From visual input to code and real task execution, it’s designed for long-running, real-world agent workflows. Try it today on Alibaba Cloud with a limited-time 20% discount. 🔗 : https://int.alibabacloud.com/m/1000414123/

译认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/

小互@xiaohu · 6月24日56

Seedance 2.5 发布会 感觉海外朋友很想了解 方便英文朋友了解内容,我配好了中英文双语字幕 嘿嘿

译字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片,原生4K分辨率,可输入50个全模台参考素材,并支持3D白模。同时推出AI版权商业化平台,允许用户使用官方授权的IP电影版权进行创作和分成。

小互@xiaohu · 6月24日61

原样抄写几十页的 PDF,几乎所有模型都做不到 一种全新参考滑动窗口注意力(R-SWA)技术 能让模型像人类抄书一样“连抄几十页”,而不会造成其记忆混乱。 最新开源的 Unlimited OCR 模型: 可以模拟人类解析工作记忆的模式 3B大小 500M激活 但在标准 32K 上下文上 它可以一次前向推理能吞几十页文档,不用切页... 该模型由百度研发,据说是挖走DeepSeek OCR核心贡献者的新作 此前所有模型都无法通过一次前向推理完成数十页文档的解析。 因为传统 OCR 是一页一页跑,每跑完一页就清空记忆,最后再把各页结果拼起来 唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR,就是模拟人类抄书过程,使用了一种叫参考滑动窗口注意力(R-SWA)的技术 模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单,这两样区别对待: 原件,从头到尾一直完整看着,保证抄写位置不出错。 正在写的字,只看最近一小段(默认 128 个字),更早的就不管了,等于边写边忘。 好处是,它脑子里要记的东西,始终恒定那么多。不存在需要记的太多,脑子掉线的情况,所以不管文档多少页,显存和算力都不涨。 还能一直连续的的抄写文档...

译百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。

Rohan Paul@rohanpaul_ai · 6月24日52

VibeThinker is a 3B param model, with almost head to head benchmark result with Opus 4.5 on reasoning with novel SFT+GRPO. Unusually strong for its size: with only 3B parameters, 94.3 on AIME26, 80.2 Pass@1 on LiveCodeBench v6, and 96.1% acceptance on recent unseen LeetCode contests. "places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2" They start from a 3B Qwen2.5-Coder base model, then train it with carefully filtered hard examples, multi-solution supervised training, reinforcement learning on math/code/STEM tasks with verifiable rewards, self-distillation, instruction-focused RL, and a test-time answer-checking method called CLR.

译VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

Berryxia.AI@berryxia · 6月24日56

刚刚,Mistral发布OCR 4!(非开源模型) 170种语言,自带置信度评分,OCR赛道又开始卷了啊! 2026年6月23日,Mistral AI发布了Mistral OCR 4。 这家以大语言模型闻名的法国公司,突然杀进了OCR领域。 Mistral OCR 4的核心能力不是简单的文字识别。 它为每个识别结果生成边界框,精确标注文字在页面上的位置。 它对每个文本块进行自动分类:标题、正文、表格、页眉页脚。 它为每个识别结果附带置信度评分,告诉你这个字它有多确定。 支持170种语言。 这件事的背景是,过去三个月OCR赛道经历了一场密集的技术迭代。 百度刚刚开源了Unlimited OCR,用R-SWA机制实现了一次推理处理几十页文档。 Now Mistral带着完全不同的思路入场,不是做长文档理解,而是做结构化输出。 两种路线指向同一个方向:OCR正在从"认字工具"进化为"文档理解引擎"。 以前OCR输出的是纯文本。 现在输出的是带位置、带类型、带置信度的结构化数据。 对开发者来说,这意味着下游任务不需要再自己做版面分析。OCR直接给你答案。 价格:$4 /1000 页 做参考 官网可以看看 OCR评测圈又要热闹了。 Mistral 这个OCR模型中文的表现我不信可以超越Paddle OCR,下一个拿它做个测评看看效果?

译2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。

Hao AI Lab@haoailab · 6月24日73

(1/5) 5 seconds of video. 1.8s seconds of generation. One NVIDIA GeForce RTX 5090 on FastVideo. 🤯🚀 - FastWan-QAD, a new family of video generation models - Trained with FastVideo's Quantization-Aware Distillation (QAD) recipe. - Powered by FastVideo, we push a single NVIDIA GeForce RTX 5090 to its absolute limit: generating a 5-second 480P video in 1.8s end-to-end! 📜 Blog: https://haoailab.com/blogs/fastwan-qad/ 💻 Code: https://github.com/hao-ai-lab/FastVideo 💽 Model: https://huggingface.co/FastVideo/FastWan-QAD-1.3B

译Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

Rohan Paul@rohanpaul_ai · 6月24日66

AI video is moving into its real-time reaction era, with MaineCoon now leading in low-latency AI video. @catnips_ai just introduced MaineCoon, a 22B real-time text-to-audio-video model built for live AI characters, not offline video generation i.e. to make AI video feel live by generating synced speech and visuals in real time. A record-breaking frame rate of up to 47.5 FPS on a single H100 GPU. Audio-visual generation cost drops significantly below $0.001 per second and continues to fall. It positions the paradigm of social world models for social-interactive purposes. MaineCoon serves as the first generative core toward this paradigm and provides a technical foundation for next-generation AI-native social platforms. It proposes a multi-stage forcing-free streaming training paradigm that includes self-resampling, cross-modal representation alignment, domain-aware preference optimization, and reinforced online-policy distillation (ROPD). These components enable 22B-scale native and efficient streaming audio-visual training. It designs an agentic streaming inference framework that supports thousand-second-scale or even longer generation while mitigating drift through agentic cache management, chunk commitment, long-context rollout, and prompt planning. The big deal is long-duration streaming at low cost. Text goes in, the first frame appears in under 1s, and the model keeps producing synced video and audio while playback is already happening. So it is not making a full video first, then dubbing it later. It generates forward in small chunks, and each chunk continues from the last one. That is hard because tiny chunks usually break consistency. Faces drift. Voices change. Motion gets weird. Audio and mouth movement separate. MaineCoon tries to solve this with a dual-stream Diffusion Transformer: one stream for video, one stream for audio, and cross-stream attention between them so expression, lip motion, voice, timing, and body movement stay tied together. It also uses a history key-value cache and an attention sink. In plain words, the model keeps useful memory from previous chunks, so the next chunk does not feel like a new disconnected clip. The speed claim is also big: up to 47.5 fps on a single H100, and real-time 30 fps on a single RTX Pro 6000 GPU. That is the low-cost part. You do not need a huge multi-GPU serving setup just to get real-time audio-video generation. They also describe an agentic streaming system that can keep generation going for more than 10 minutes while holding identity, voice, scene state, visual quality, and synced audio. If the stream starts drifting, the system repairs future chunks instead of editing already-shown frames. So MaineCoon is best understood as a streaming-native visual reaction layer: fast first frame, continuous audio-video output, long-horizon memory, and low inference cost. 🧵 1/n.

译MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

Krea@krea_ai · 6月24日71

our technical report is out. deep dive on the data, architecture, and training techniques used to create Krea 2. https://www.krea.ai/blog/krea-2-technical-report

译我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

🚨 AI News | TestingCatalog@testingcatalog · 6月24日65

Mistral AI launched OCR 4 👀 > Win rates averaging 72%, alongside the top overall score on OlmOCRBench (85.20). > Alongside the extracted text, OCR 4 returns bounding boxes, typed-block classification, and inline confidence scores. > OCR 4 is an ingestion component of Search Toolkit, Mistral's open-source, composable search framework. > Support for 170 languages across 10 language groups. > OCR 4 is compact enough to run in a single container.

译Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档(12+ 语言)的盲测中,OCR 4 被偏好,平均胜率 72%;OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数,作为 Search Toolkit 的组件,支持 170 种语言,且足够紧凑可单容器运行。

Krea@krea_ai · 6月23日60

today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-training meant to be fine-tuned, and a fast distilled version with a wide aesthetic diversity. read the details below 👇

译今天,我们发布了 Krea 2 的开源权重。 欢迎 Krea 2 Raw 和 Krea 2 Turbo,一个来自中期训练的未蒸馏模型,旨在用于微调;以及一个快速蒸馏版本,具有广泛的美学多样性。 详情如下 👇

Baidu Inc.@Baidu_Inc · 6月23日71

3B total parameters & 500M activated, yet powerful enough to transcribe 40+ pages in one pass while keeping context intact. Meet Unlimited OCR!

译百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日57

OPENAI 🔥: An upcoming Bidi 1 voice model will be able to translate in real-time! This will unlock a huge pile of use cases to be built on top of when it lands on the APIs.

译OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译! 这将解锁大量用例,当它落地到API时可在其上构建。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日48

BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in ChatGPT and, potentially, in Codex soon as well. > Bidi 1 can speak over while you are talking and keep listening. > Bidi 1 can switch between tasks back and force mid-sentence. > Bidi 1 is much better at handling interruptions and pauses. > Bidi 1 can better keep and memorize the context while you speak. There is still a cap on how long it can keep speaking, which is expected, but it easily counted to 23 without pausing. * Bidi 1 is not available yet, but given all the recent preparations, we will get it very, very soon.

译OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

X.PIN@thexpin · 6月23日57

ByteDance just dropped a wave of new models: 1️⃣ Doubao 2.1 Pro targets coding. 2️⃣ Seedance 2.5: 4K video, up to 30 seconds per clip. Landing in July with a new AI copyright commercialization platform. 3️⃣ Seedream 5.0 Pro: image model that actually handles text in images, multi-layer editing, and outputs editable layered design files. 4️⃣ Seed-Audio 1.0: zero-shot multimodal audio: multi-character dialogue, background music, and sound effects in one pass.

译字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。

Berryxia.AI@berryxia · 6月23日44

看着没有什么那么重的CG感了,Seedance 2.5 看来更新的有点多啊。 不过大家注意现在就是Demo展示,实际上线预计在7月初上线。

译字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台,允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻,但当前仅限 Demo 展示,正式上线预计在 7 月初。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日65

BYTEDANCE 🔥: Seedance 2.5 has been officially announced, along with an updated Seedance 2.0. - Seedance 2.0 now supports 4k output - Seedance 2.5 will be able to generate 30-second videos in one go - ByteDance also announced a new AI copyright commercialization platform This video ad is stunning 👀

译BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

数字生命卡兹克@Khazix0918 · 6月23日78

http://x.com/i/article/2069297858969497600 # 一文总结2026火山引擎FORCE大会 - 向Coding和Agent全面进军。 今天,又是每年都非常重磅的火山引擎Force原动力大会了。 有一说一,人是真多啊。 基本上每年这个时候,就是豆包模型全家桶的年度更新。 今年自然也不例外,所有的模型基本就是全面升级。 人在现场,也第一时间给大家总结一下这次大会和我觉得值得说的亮点。 希望对大家有用。 一. Seed 2.1 Pro 这个模型,基本就是今天最重头戏了。 今天,正式发布了Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。 毕竟在这个时代,模型就是一切。 而基础模型,是所有心怀梦想的厂商,永远不可能放弃的话题。 Seed的基模在过去,在2025年初,可以说确实是个很棒的模型,那时候大家都还在卷推理,卷多模态。 可2025年,有太多的事情发生,Manus横空出世,将大家对于Agent的理解向前推了一大步,然后就是Claude Code+Claude让企业客户直接用脚投票,那段时间,Anthropic凭借着Coding和Agent能力的一骑绝尘,甚至将OpenAI都远远甩在了身后。 而Seed慢了,在这个Coding和Agent的能力几乎已经约等于模型智能能力水平的时代里,也逐渐越来越被人遗忘。 而这次基模Seed-2.1-Pro,在憋了很多之后,终于发布了,他们的多模态能力依然是王者,这个你丝毫不用怀疑字节在多模态上的能力,豆包手机和Seedance就能看出来这块的积累,而之前一直以来,都是巨大短板的Coding和Agent能力,在这半年持续不断的猛追之下,在这一次,也终于算是能打了,也终于算是到了可用级别。 老规矩,先看下评分。 Coding能力,确实是补了一大波,有些地方能摸一摸Opus 4.7的级别,比最新一代的模型还是差点了,差距坦诚的讲,还是有的。 Agent能力,也就是各种工具调用还有长程任务上,倒是大幅进化了不少。 现场还有一个秀Agent能力的我觉得挺牛逼的,还是蛮秀的。 目前Seed-2.1系列在火山、Trae、豆包上等等均已上线,也兼容所有的Agent框架,我直接在Claude Code里测了下。 我对它的评价是,一个非常综合的水桶级模型,虽然在Coding能力上,离Claude这种还有差距,但是这回至少是上桌了,然后他强就强在,水桶。 因为这玩意,在世界知识、多模态上,都有不错的表现。 一个还是多模态的能力,一个基模如果没有多模态,其实我觉得还是比较伤的,就像DeepSeek V4 Pro还有GLM-5.2,Coding能力确实都很强,但是最大的问题,还是没有多模态。 而Seed系列的多模态一直都是国际领先的水平,视觉理解的能力在几乎所有评测集上都是TOP。 你让它看文档、看图表、看视频,基本上能力都非常的强,一个又能写代码又能看图看视频的模型,跟一个只能写代码的模型,在实际业务场景里能做的事情还是有不少差距的。 举个例子,我自己开发的AI资讯监控网站AIHOT上,会对我们所有抓取到的内容进行摘要总结及评分。 比如今天早上抓到的这篇Google的内容,下面那一段文字,就是我对原文的摘要和总结,右上角就是AI系统对它的打分以及是否值得被精选。 但这个总结和评分,其实是丢信息的,因为原文里面是有图片的,甚至很多的模型里面,是有视频的。 而我背后用的模型,是两个没有多模态能力的纯文本模型,一个小一点的,用来翻译+总结和摘要,一个大一点的,用来评分。 因为丢失了多模态的信息,特别是这个评分,有的时候是不公平的,比如说X上的一些信息,可能只是发了个质量很高的播客视频,但是只简单配了两句话,那就很有可能,是会被我的精选系统过滤掉的。 很多发图片比较多的内容也是如此,比如,小红书和B站,这些上面的一些信息我过去一直没有监控,不是因为我监控的技术手段做不到,是过去我找不到一个比较好的支持多模态的评分模型,所以一直就没干。 那Doubao-Seed-2.1上了之后,我觉得完全可以把背后的这个模型,换成用Doubao-Seed-2.1-turbo来进行摘要,用Seed-2.1-Pro来进行评分,支持我AIHOT上多模态内容的生态。 说干就干,我直接把Claude Code里面的模型,用CC switch换成了Seed-2.1-Pro,让他自己来开发自己。 然后把我上面说的那段话,直接当做Prompt,扔了进去,先让他做摘要和总结这块的迭代,因为精选评分那块改模型整体改动太大了,Promtp、阈值、公式算法什么的都需要调整,还要做全量的线上数十万条数据的全量回测,不是一时半会就能干完的。 这个任务开发难度不算很高,但是也没有那么简单,就是我的那个代码,因为后端流程有点复杂了,乱七八糟的细节太多了,而且过去没有把图片扔进去推理的先例,图片缓存和持久化啥的全都没做,所以要考虑的细节还是很多的。 在思考了十几分钟以后,Doubao-Seed-2.1-pro给了我一个详细的方案。 考虑的还是比较全面的,一些对抗性审查的方案还有风险的应对措施,基本都考虑到了。 没啥问题,我就直接让他开工了。 大概在30分钟后,开发完成了。 基本没啥问题,前面的图片缓存、抓取、压缩流程啥的都能跑通,整体都还不错。 但是出现了一个很诡异的BUG,就是莫名其妙的,跑一个文字+多图的摘要,失败了一大半,长的甚至要几分钟之多,我都干懵了,我以为火山的API这么慢?? 结果让它找了半天原因,发现是Doubao-Seed-2.1默认开了深度思考,所以本来就慢,然后自己又给自己写了个300秒超时,然其中一个图片的包装函数又写错了。 改了两轮,搞了10分钟,才把这个事解决,然后让他给我列了一个100条数据的回测报告,这一次,发现推理速度变得极其牛逼,延迟几乎只要3.5s就能直接出。 回测报告的UI展示上,我觉得中规中矩,前端审美是能看的,干净清爽,也没啥特别的错位BUG。 摘要的信息准确性无敌,香爆了。 我感觉我的AIHOT在信息质量上,又要迈向新一波质量的升级了。 然后还有两个点我觉得还是需要说一下,价格和上下文长度。 首先是价格,这个价格相比海外,确实不算贵了,¥6 / ¥30每百万token(输入/输出),但是相比国内DeepSeek这种直接干到个位数级别的爹,感觉还是有优化空间。 上下文还是卡在了256k,没有到达主流的1M,这个还是比较可惜的。 坐等Doubao-Seed的下一个版本了。 二. 豆包办公模式 因为Doubao-Seed-2.1-Pro正式发布了,所以,还有一个很重要的功能应该也要即将正式上线了。 也是豆包专业版。 这其中专业版我觉得最核心的功能,我觉得就是我这两天一直在测的,基于Doubao-Seed-2.1-Pro的豆包办公模式,也是豆包的Agent。 因为我已经提前拿到了内测资格,当你打开豆包客户端之后,就能在下面看到这个东西。 基于Doubao-Seed-2.1-Pro的办公任务。 Agent时代下驱动的通用办公场景,也是所有厂子我觉得不可能放弃的一环。 豆包的办公模式其实之前就有了,但是之前的体验,坦诚的讲,我自己体验下来,说实话确实一般。 核心原因还是基模,因为之前跑的是Seed 2.0 Pro,这个模型多模态能力很强,理解力也不差,但是在Agent和Coding能力上的短板,导致它在执行一些稍微复杂办公任务的时候,就表现比较一半了。 而这次,底座换成了Seed-2.1-Pro。 不要小看这个“换底座”三个字。对于一个AI产品来说,底座模型的能力升级,可能比产品本身做任何改进都更有效,真的,产品团队搞半年的交互优化、流程重构,在现在,我觉得可能不如底座模型在Agent能力上提升个20%来得实在。 这就是我一直说的,模型就是一切。 我们自己体验下来,变化还是挺明显的。 打开豆包的桌面客户端,在输入框下侧选择办公任务,就能进入。 办公任务下,我们直接选中本地电脑,它就能够去访问到你本地电脑环境中的各种文件。 你可以指定某个项目文件夹,也可以不指定。 豆包自己也自带了一堆skills,Agent在执行任务的时候会自动调用。 我测试了一些任务,在豆包办公模式的表现上,Seed-2.1-Pro整体能力发挥的还不错。 举个例子。 我让它来做我们财务同事之前跟我讲的他们一个工作流。 月底报销的时候,她需要把全公司所有人的发票都汇总到一个飞书多维表格上。 这种活交给Agent来干最合适不过了。 这里出于隐私,我拿1月的发票来演示. 打开办公模式,我直接在收集了全公司发票的目录下,让他去汇总所有人的发票的信息,按照报销人的格式填到多维表格里面。 它会先申请访问文件的权限和执行脚本的权限。 然后还会申请飞书文档的编辑权限。 等你都授权之后,它就库库开始干了。 然后就能看到,它把公司各个部门按照每一个报销人,一共210个发票上的信息都提取出来,填到了我指定的多维表格里。 基本上没有什么问题,这个就体现出Agent能力和多模态模型的省心省力了。。。 然后测了下联网、收集信息调研的能力。 正好过几个月我们办公室的租期就到了,再加上越来越多的小伙伴加入我们,现在的办公室确实有点坐不下了。 所以我们最近就疯狂的在朝阳找新的、更大的地方。 目前行政那边,根据预算和交通方面的要求,实地也跑了一些,最后选了3个备选方案。 正好昨天下午给我的,我也不太懂,我就把这3个地方丢给豆包,把要求告诉它,让它帮我出一个对比方案,如果有它觉得更合适的地方,也可以推荐。。 它就去网上搜了一大堆资料,最后给了一份很详细的报告。 先从各个维度全面对比了3个地方,然后分别介绍优缺点,还额外给出了几个推荐的地方。 这个租金报价预估,居然基本都是真实的,跟我昨天行政拿给我的报价,几乎就没差个多少钱。。。 同样为了看得更直观,我又让它生成了一个PPT。 它会自动调用做PPT的技能去生成。 一轮直出的效果,只能说,能看。这块我盘了一下,大概率是skill的原因。 这块我建议可以加归藏的PPT skill,可能视觉效果会更好一点。 我自己也拿我之前测一些通用办公任务的30个题目的测试集,在基于Doubao-Seed-2.1-Pro之上的豆包办公任务跑了下回测。 最终效果长这样。 数据分析那边跟Gemini有点像,有时候会自作主张,踩中一些陷阱,比如其中的一道数据分析的题目。 但是整体来说,在有了Seed-2.1-Pro的加持之后,豆包的办公任务,也终于变得还不错了,能在Agent这个通用办公场景上,跟其他家正面开战了。 毕竟,这可是豆包啊。 三. Seedance Seedance这块,作为字节的王者,这次也迎来了一波更新。 Seedance 2.0拥有4K了,而且是原生4K。 注意,是原生4K,跟后期超分是两回事,现在市面上有不少4K视频,其实就是先生成个720p或者1080p的底子,然后拿超分模型往上拉。 Seedance 2.0模型的质量,配合上4K,基本是可以达到影视级了。 目前已经在火山和即梦上上线。 然后就是新模型,Seedance 2.5。 更加优秀的运动能力、分镜能力,还有表演质感。 而且,支持30秒的单段原生直出。 而且,现在,还支持在支持在保持画面一致性的同时做局部调整了。 四. 写在最后 除了上面三大块之外。 还有两个模型和一些功能我觉得可以快速提一下。 Seedream 5.0 pro,7月初上线。核心升级在于交互式精准编辑,你可以直接在画面上点选、圈选、用箭头标注来表达编辑意图,不需要再用文字去描述空间关系了,还有多图层分离和高密度信息表达能力的提升,一整页PPT的信息量都能准确呈现。 一个全新的音频生成模型。 支持用文字、声音参考生成音频、全要素直出(人声+音效+背景音一条Prompt搞定),单次可以生成2分钟音频并且支持延长到几十分钟保持一致性。 对于做有声书和播客的人来说简直是大杀器。 然后,火山方舟CLI也正式发布了,这对我这种后端几乎都在火山上的开发者来说是个大利好。 能方便非常多。 整体大概就是这样。 说到底还是那句话,模型就是一切。 字节,也在向Coding和Agent,全面进军了。

译豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

歸藏(guizang.ai)@op7418 · 6月23日65

Seedance 2.0 的 4K 分辨率我已经在即梦上线。 看了一下,15 秒是 1200 积分,需要选择 Seedance VIP 版本。 4K 分辨率生成的视频码率为 50M,感觉是为那些做商业片和商业短剧的公司准备的。

译Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本,15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M,主要面向商业片和商业短剧制作公司。

Orange AI@oran_ge · 6月23日43

声音模型的 Seedance 时刻,终于来了 今天我体验到一个全新的声音模型,跟以前所有的声音模型都不一样。 以前的声音模型一般叫 TTS(文本转语音),它们只能根据你给的文本来合成语音,它更像是一个朗读机器,而非智能声音模型。 但这个新模型,可以根据你的想象,生成一切你所需要的声音,包括人声、音乐、音效、环境音,以及这些声音里所富含的那些不可言说的微妙细节。 它的名字名字叫:豆包音频生成模型 Seed Audio 1.0。 在我看来,这就是声音模型的 Seedance 时刻。 就像香蕉是人类第一次将智能赋予图像,Seed Audio 是人类第一次将智能赋予声音。 接下来,就让我们一起听听它到底有何特别。 推特不能发音频,可转至公众号来听 https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg

译豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

Berryxia.AI@berryxia · 6月23日58

卧槽!Seedance 2.5 直接支持 30s 单段原生视频支出啊! 支持50个全模态参考素材,真的是吊炸天了。 PS:特么价格也要起起飞了吧😄

译字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

meng shao@shao__meng · 6月23日57

字节跳动火山引擎 FORCE,2026 原动力大会上官宣发布 Seedream 5.0 Pro 和 Seedance 2.5,图像和视频理解生成赛道,继续卷起来! 在 OpenAI Sora 关停,Google Veo 迟迟不更新的情况下,图像和视频生成,基本是中国大厂的竞争了: 字节跳动、阿里巴巴、快手。。。

译字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。

Berryxia.AI@berryxia · 6月23日63

卧槽,这一波有人直接把DeepSeek的“墙角挖倒了啊”? 今天在HuggingFace刷到一个有意思的OCR开源模型和背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。 对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完。不用再切成小块反复跑。 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。 但输出端只维护前面128个状态。32K上下文,一次推理几十页。 KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思。故事性极强,想法激进。 有种探索者的气质。这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 我顺着线索往回找了一下。您才怎么着? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈不算大。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 再看另一个细节。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 开源了。感兴趣的自己试试。 我后面也会进行实测,顺手点个🌟。 GitHub:http://github.com/baidu/Unlimited-OCR Hugging Face:http://huggingface.co/baidu/Unlimited-OCR

译百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

向阳乔木@vista8 · 6月23日48

大聪明(赛博禅心)一直跟我说,做自媒体要研究新智元。 喷归喷,但人家起标题真的是一绝。 百度在一直OCR方面的技术很强,昨天开源 Unlimited OCR更强,3B参数500M激活,这么小的模型竟然有这么好的效果,出乎意料。 先不管作者是不是从DeepSeek出走的,文章提到的参考滑动注意力窗口技术值得关注。 技术解读见第二条,后面有项目开源地址。

译百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

Berryxia.AI@berryxia · 6月23日73

卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊! 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 顺着线索往回找下看看? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 我们再看看另一外个细节哈。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 项目、模型都是开源,感兴趣的自己试试地址评论区👇🏻。

译百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日70

OpenAI announces GPT-5.5-Cyber (new) model update, which scores 85.6% on CyberGym benchmark in comparison to 81.9% in its early version. Codex got a new Security plugin too 👀

译OpenAI 宣布 GPT-5.5-Cyber 模型更新,在 CyberGym 基准上得分 85.6%(早期版本为 81.9%)。Codex 新增 Security 插件,可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分,完整版 GPT-5.5-Cyber 模型面向可信防御者;Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品;Patch the Planet 项目与维护者合作保护关键开源项目。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
15:44
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 推出新版本 GPT-5.5 Instant,号称是使用最多的模型。新版本能更好地理解问题意图并调整回答,更可靠地处理复杂约束,同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送,明天起免费用户也将陆续获得。

OpenAI: We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...

OpenAI推理模型发布
14:54
Alibaba Cloud@alibaba_cloud
65
HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI,一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力(运动更流畅);增强 R2V,每次最多使用 9 张参考图;实现多角色造型零串扰,背景变化时角色仍保持一致;指令遵循能力增强,可处理超 2500 字符的提示词,单次生成 6-8 个场景;修复皮肤反光和过度锐化;对话与音效同步更紧密。

ComfyUI: HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...

多模态模型发布视频
14:54
Alibaba Cloud@alibaba_cloud
67
全球创作者的重大胜利。 自豪地看到 #Replicate 支持 #HappyHorse 1.1,帮助更多故事讲述者获得视频创作、音频及角色驱动叙事的强大工具。

Replicate: Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...

模型发布视频
06:19
Nathan Lambert@natolambert
53
GLM 5.2 在 CursorBench 上处于 Opus 前沿(在成本方面),这正是导致前沿实验室利润下降的原因。

Lee Robinson: You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...

开源/仓库模型发布编码
06:07
Lee Robinson@leerob
65
你现在可以在 Cursor 中试用 GLM 5.2! 很高兴看到更多有用的开放模型,感谢 Fireworks 在此合作。我们的评估结果如下 ↓
开源/仓库模型发布编码
02:38
ChatGPT@ChatGPTapp
65
新的GPT-5.5 Instant非常智能、非常直观,聊天起来非常有趣。 现已开始向所有人推送,先从Pro用户,然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。
OpenAI推理模型发布
02:20
OpenAI@OpenAI
精选67
我们为你带来了新版 GPT-5.5 Instant,它现在聊起天来有趣多了。 我们最常用的模型现在能更好地理解问题背后的意图,并相应地调整回应。 它也能更可靠地处理复杂约束,让购物和本地推荐更加实用和连贯。 今天向付费用户推送,明天向免费用户推送。
OpenAI推理模型发布

推荐理由:GPT-5.5 Instant 这次更新看似温和,但“更懂意图”和“复杂约束处理”的改进,对产品人和普通用户来说,可能比跑分更有用。
02:19
Nathan Lambert@natolambert
68
如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Richard Zhuang: How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...

智能体开源生态模型发布编码
02:17
Greg Brockman@gdb
69
OpenAI 推出 GPT-5.5 Instant 新版本,能更好理解问题意图、处理复杂约束,并改进购物与本地推荐。今日向付费用户推送,明日覆盖免费用户。

OpenAI: We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...

OpenAI模型发布
01:18
Berryxia.AI@berryxia
同事件精选78
Qwen-AgentWorld:原生语言世界模型,模拟7种Agent环境并超越Claude Opus 4.8和GPT-5.4

Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Qwen: 📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...

智能体开源生态模型发布
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》
推荐理由:这是我最近看到最有想法的Agent方向探索,直接从环境建模入手,而不是让模型死记硬背操作,且零样本迁移能力很惊艳,做Agent的开发者必读。
00:34
Chubby♨️@kimmonismus
44
Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week",同时移除 "purchased separately from your plan",暗示 Anthropic 正为 Fable 5 回归做准备,可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待,认为有望带来良好公关效果。

leo 🐾: 🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...

Anthropic模型发布
00:12
OpenRouter@OpenRouter
54
Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter! 很高兴看到更多多模型系统推动前沿。

Sakana AI: Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...

推理模型发布
6月24日
18:22
Alibaba Cloud@alibaba_cloud
69
Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

智能体MCP/工具模型发布
18:16
Orange AI@oran_ge
54
Cola Seed 2.1 Pro 上线,最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码
18:12
Qwen@Alibaba_Qwen
76
通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

智能体arXivMCP/工具模型发布
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)
14:50
Alibaba Cloud@alibaba_cloud
60
认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/
智能体多模态模型发布
13:52
小互@xiaohu
56
字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片,原生4K分辨率,可输入50个全模台参考素材,并支持3D白模。同时推出AI版权商业化平台,允许用户使用官方授权的IP电影版权进行创作和分成。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

模型发布视频
11:51
小互@xiaohu
61
百度开源 Unlimited OCR:用 R-SWA 技术实现"一次推理数十页"文档抄写

百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。

多模态开源/仓库模型发布
10:47
Rohan Paul@rohanpaul_ai
52
VibeThinker:3B参数推理模型,性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布
07:17
Berryxia.AI@berryxia
56
Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度

2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布
03:21
Hao AI Lab@haoailab
精选73
FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHubHugging Face模型发布端侧

推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
03:16
Rohan Paul@rohanpaul_ai
66
MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

多模态推理模型发布视频
01:37
Krea@krea_ai
精选71
我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Krea 2 开源了两个图像模型权重,一个未蒸馏适合微调,一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队,这次开放权重比很多大厂都实在。
00:38
🚨 AI News | TestingCatalog@testingcatalog
65
Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档(12+ 语言)的盲测中,OCR 4 被偏好,平均胜率 72%;OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数,作为 Search Toolkit 的组件,支持 170 种语言,且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布
6月23日
23:07
Krea@krea_ai
60
今天,我们发布了 Krea 2 的开源权重。 欢迎 Krea 2 Raw 和 Krea 2 Turbo,一个来自中期训练的未蒸馏模型,旨在用于微调;以及一个快速蒸馏版本,具有广泛的美学多样性。 详情如下 👇
图像生成模型发布
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
17:37
🚨 AI News | TestingCatalog@testingcatalog
57
OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译! 这将解锁大量用例,当它落地到API时可在其上构建。
OpenAI模型发布语音
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
15:55
X.PIN@thexpin
57
字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。
图像生成多模态模型发布视频
15:14
Berryxia.AI@berryxia
44
字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台,允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻,但当前仅限 Demo 展示,正式上线预计在 7 月初。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

图像生成模型发布行业动态视频
14:37
🚨 AI News | TestingCatalog@testingcatalog
65
BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

多模态模型发布视频
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎
13:11
歸藏(guizang.ai)@op7418
65
Seedance 2.0 4K 视频上线即梦,15 秒 1200 积分

Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本,15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M,主要面向商业片和商业短剧制作公司。

模型发布视频
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
12:10
meng shao@shao__meng
57
字节跳动发布Seedream 5.0 Pro与Seedance 2.5

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频
11:14
Berryxia.AI@berryxia
63
百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek多模态开源/仓库模型发布
08:31
向阳乔木@vista8
48
百度开源 Unlimited OCR:3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

多模态开源/仓库端侧
08:13
Berryxia.AI@berryxia
73
百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布
05:06
🚨 AI News | TestingCatalog@testingcatalog
70
OpenAI 宣布 GPT-5.5-Cyber 模型更新,在 CyberGym 基准上得分 85.6%(早期版本为 81.9%)。Codex 新增 Security 插件,可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分,完整版 GPT-5.5-Cyber 模型面向可信防御者;Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品;Patch the Planet 项目与维护者合作保护关键开源项目。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI安全/对齐模型发布编码
‹ 上一页
123456…22
下一页 ›