6月25日

00:34

Chubby♨️@kimmonismus

Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week"，同时移除 "purchased separately from your plan"，暗示 Anthropic 正为 Fable 5 回归做准备，可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待，认为有望带来良好公关效果。

leo 🐾: 🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...

Anthropic 模型发布

00:12

OpenRouter@OpenRouter

Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter！很高兴看到更多多模型系统推动前沿。

Sakana AI: Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...

推理模型发布

6月24日

23:29

Hacker News 热门（buzzing.cc 中文翻译）

Krea 2 技术报告

Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。

Hugging Face 图像生成多模态开源生态

18:22

Alibaba Cloud@alibaba_cloud

Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld，一个原生语言世界模型，可在单一模型内模拟 7 种智能体环境（MCP、搜索、终端、SWE、Web、OS、Android），环境建模是其初始训练目标而非事后适配。该模型

智能体 MCP/工具模型发布

18:16

Orange AI@oran_ge

Cola Seed 2.1 Pro 上线，最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码

18:12

Qwen@Alibaba_Qwen

通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld，一款原生语言世界模型，可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标，非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径：一是构建环境模拟基础模型；二是探索世界模型增强智能体训练——可控Sim RL（以LWM为环境的智能体强化学习）优于真实环境训练，而LWM预热（预测环境的学习）即使不经任何智能体特定微调，也能将预测知识迁移至智能体任务。

智能体 arXiv MCP/工具模型发布

关联讨论 3 条

17:55

The Decoder：AI News（RSS）

Mistral 发布 OCR 4 模型：在盲测中 72% 情况下超越竞品

Mistral AI 推出 OCR 4 模型，专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称，该模型在盲测中有 72% 的测试案例表现优于竞争对手。

多模态模型发布

16:57

Hacker News 热门（buzzing.cc 中文翻译）

YOLO26 简介

Roboflow 发布介绍 YOLO26 的博客文章，在 Hacker News 获得 100 个点赞。

开源生态模型发布

14:50

Alibaba Cloud@alibaba_cloud

认识 Qwen3.7-Plus，为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行，它专为长期运行的现实世界智能体工作流而设计。今天在阿里云上试用，限时 20% 折扣。 🔗 ： https://int.alibabacloud.com/m/1000414123/

智能体多模态模型发布

13:52

小互@xiaohu

字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片，原生4K分辨率，可输入50个全模台参考素材，并支持3D白模。同时推出AI版权商业化平台，允许用户使用官方授权的IP电影版权进行创作和分成。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片原生支持4K分辨率支持50个全模台参考素材输入支持3D白模同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

模型发布视频

12:42

IT之家（RSS）

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

智能体 Hugging Face 模型发布

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 3 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

11:51

小互@xiaohu

百度开源 Unlimited OCR：用 R-SWA 技术实现"一次推理数十页"文档抄写

百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

多模态开源/仓库模型发布

11:40

公众号：通义实验室（千问）

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 3 条

10:47

Rohan Paul@rohanpaul_ai

VibeThinker：3B参数推理模型，性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型，采用SFT+GRPO训练，在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3，LiveCodeBench v6上80.2 Pass@1，近期未见过的LeetCode竞赛中接受率达96.1%，匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B，经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布

10:27

IT之家（RSS）

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持文本、音频等多模态参考生成，端到端输出目标音频，长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围，直接产出成片级音频。模型一次支持 2 分钟音频创作，可多次延长且保持音色统一；实现零样本多模态生成，支持音色与风格解耦控制。火山方舟已开启 API 邀测，个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

10:06

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布

09:48

swyx 🔜 @aiDotEngineer@swyx

智谱AI（Zai）1月以每股120港元在港IPO。其GLM-5.2模型击败DeepSeek，成为全球公认的最佳开源模型，并在部分基准上整体表现领先。团队首次现身硅谷，参加AI Engineer World's Fair，将分享最新工作进展。

Lou: Made it to SF! The love for GLM-5.2 has been incredible. We are bringing team out for the AI Engineer World's Fair, wher...

DeepSeek 大佬观点开源生态模型发布

07:17

Berryxia.AI@berryxia

Mistral OCR 4发布：170种语言，结构化输出带边界框与置信度

2026年6月23日，Mistral AI发布非开源模型Mistral OCR 4，支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块（标题/正文/表格/页眉页脚）、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线，而是提供结构化输出，使OCR从认字工具进化为文档理解引擎，下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布

03:37

MarkTechPost（RSS）

Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift，用于结构化提取。输入 JSON Schema，返回匹配的 JSON 对象，可直接读取 PDF 和图像，支持多页文档一次性处理并跨页取值。提供本地（HuggingFace）和远程（vLLM）两种推理模式，后者推荐用于生产。代码采用 Apache 2.0，权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%，中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding，逐 token 约束输出结构但不保证语义正确；每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face 多模态开源生态模型发布

03:21

Hao AI Lab@haoailab

精选73

FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHub Hugging Face 模型发布端侧

推荐理由：单张 RTX 5090 上 1.8 秒生成 5 秒视频，把消费级延迟压到了‘即时生成’的临界点，做短视频和互动应用的开发者可以认真把这个模型放进技术栈。

03:16

Rohan Paul@rohanpaul_ai

MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型，专为实时AI角色设计。单H100 GPU可达47.5 FPS，成本低于0.001美元/秒；单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练（自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏）及智能体流式推理框架，支持千秒级连续生成。双流扩散Transformer（视频+音频交叉注意力）保持表情、口型与声音同步，历史KV缓存和attention sink确保片段连贯。首帧小于1秒，生成与播放同步，不先制作完整视频再配音。

多模态推理模型发布视频

01:37

Krea@krea_ai

精选71

我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布

推荐理由：Krea 2 开源了两个图像模型权重，一个未蒸馏适合微调，一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队，这次开放权重比很多大厂都实在。

00:38

🚨 AI News | TestingCatalog@testingcatalog

Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档（12+ 语言）的盲测中，OCR 4 被偏好，平均胜率 72%；OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数，作为 Search Toolkit 的组件，支持 170 种语言，且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布

6月23日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程

关联讨论 1 条

23:07

Krea@krea_ai

今天，我们发布了 Krea 2 的开源权重。欢迎 Krea 2 Raw 和 Krea 2 Turbo，一个来自中期训练的未蒸馏模型，旨在用于微调；以及一个快速蒸馏版本，具有广泛的美学多样性。详情如下 👇

图像生成模型发布

22:24

Mistral AI：News（网页）

精选68

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

关联讨论 1 条

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

20:24

The Decoder：AI News（RSS）

字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段（无需后期拼接），支持场景变化与节奏切换，并同时处理多达50个额外输入（参考图、音频等），后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频

19:10

IT之家（RSS）

精选72

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

GitHub 模型发布语音

推荐理由：网易有道把语音克隆的门槛压到了 3 秒，跨 14 种语言还能保持无口音，而且全量开源、商用无限制，对多语种配音和短剧出海是直接可用的工具。