全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 586 条

全部一手资讯 X 论文

6月27日周六

22:18TechCrunch：AI（RSS）66亚洲AI公司发布对标Anthropic模型的产品，应对出口禁令

16:09The Decoder：AI News（RSS）58字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

06:59IT之家（RSS）74OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

03:35MarkTechPost（RSS）77OpenAI 预览 GPT-5.6 系列：Sol、Terra、Luna 三层模型及新推理模式

02:47TechCrunch：AI（RSS）73OpenAI 应美国政府要求限制 GPT-5.6 发布，称限制不应成为常态

02:39The Decoder：AI News（RSS）66OpenAI 发布 GPT-5.6 Sol，与 Claude Mythos 竞争，政府访问规则被其称为不可持续

02:10Simon Willison 博客79OpenAI 发布 GPT-5.6 系列：旗舰模型 Sol、日常模型 Terra、低价模型 Luna

02:02Hacker News 热门（buzzing.cc 中文翻译）73OpenAI 预览 GPT-5.6 Sol：新一代模型

01:15The Verge：AI（RSS）79OpenAI 推出 GPT-5.6 模型套件：Sol、Terra 和 Luna

01:02OpenAI：官网动态（RSS · 排除企业/客户案例）78精选OpenAI 预览新一代模型 GPT-5.6 Sol

6月26日周五

11:59IT之家（RSS）67Mistral AI 推出 OCR 4 模型：支持 170 种语言，输出更受人类青睐

09:01Hacker News 热门（buzzing.cc 中文翻译）65Un-0：利用耦合振荡器生成图像

01:34MarkTechPost（RSS）66DeepReinforce 发布 Ornith-1.0 开源编码模型族

6月25日周四

15:58IT之家（RSS）69百度开源 Unlimited OCR 模型，基于 DeepSeek OCR 架构，30亿参数仅激活5亿

14:04MarkTechPost（RSS）73同事件精选百度发布Unlimited OCR：3B参数MoE模型，KV缓存恒定实现长文档高效解析同一事件，精选展示《无限制OCR：单次长时域解析》

11:12HuggingFace Daily Papers（社区热门论文）67iLLaDA：改进的大型语言扩散模型

08:58IT之家（RSS）41OpenAI 再次升级 GPT-5.5 Instant：更具洞察力，购物推荐更实用

05:29Hacker News 热门（buzzing.cc 中文翻译）71Gemini 3.5 Flash 中的计算机使用

04:07The Decoder：AI News（RSS）51OpenAI 称 ChatGPT Instant 更能理解用户真实意图

6月24日周三

23:29Hacker News 热门（buzzing.cc 中文翻译）78Krea 2 技术报告

17:55The Decoder：AI News（RSS）49Mistral 发布 OCR 4 模型：在盲测中 72% 情况下超越竞品

16:57Hacker News 热门（buzzing.cc 中文翻译）60YOLO26 简介

12:42IT之家（RSS）66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

12:42IT之家（RSS）74精选OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

11:54Qwen：Blog Retrieval（API）81精选Qwen-AgentWorld：面向通用智能体的语言世界模型

11:40公众号：通义实验室（千问）74Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

10:27IT之家（RSS）62火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

10:06蚂蚁 inclusionAI：HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布

03:37MarkTechPost（RSS）68Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

6月23日周二

23:56Hacker News 热门（buzzing.cc 中文翻译）73Mistral OCR 4 发布

22:24Mistral AI：News（网页）68精选Mistral OCR 4

20:24The Decoder：AI News（RSS）67字节跳动Seedance 2.5将AI视频生成延长至30秒

19:10IT之家（RSS）72精选网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

18:48The Decoder：AI News（RSS）58OpenAI正式发布GPT-5.5-Cyber网络安全模型，性能领先

18:16Hacker News 热门（buzzing.cc 中文翻译）59OpenAI DayBreak - GPT-5.5-Cyber

16:07IT之家（RSS）72超Claude Mythos 5成绩：OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

14:50公众号：火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

14:10公众号：京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

13:50公众号：火山引擎71精选豆包音频生成模型1.0发布，重新定义AI音频创作

13:13HuggingFace Daily Papers（社区热门论文）55UniverSat：分辨率和模态无关的Transformer用于地球观测

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月27日

22:18

TechCrunch：AI（RSS）

66

亚洲AI公司发布对标Anthropic模型的产品，应对出口禁令

中国360公司发布Tulongfeng和Yitianzhen两款AI安全工具，分别用于自动发现软件漏洞和自动化网络防御与事件响应，声称可与Anthropic的Mythos匹敌。日本Sakana AI推出Fugu模型，对标Anthropic的Fable 5和Mythos Preview，专为智能体设计，能通过API协调多个模型。两款产品发布正值美国对Mythos和Fable 5实施出口禁令两周后。Sakana表示Fugu已研发一年，目标日本企业和政府以降低出口管制风险；360创始人周鸿祎将漏洞发现AI定位为国家战略资产，警告“单向透明”风险。

Anthropic 安全/对齐模型发布

16:09

The Decoder：AI News（RSS）

58

字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

中国人民大学与字节跳动联合发布 iLLaDA，一个 8B 参数、从头训练的密集扩散语言模型。该模型从掩码 token 序列开始，通过多次并行迭代双向精炼文本，不同于自回归模型的逐 token 生成。iLLaDA 在 12 万亿 token 上预训练，并经过 12 轮微调。基础版本 iLLaDA-Base 平均得分 63.9，略超 Qwen2.5 7B 的 63.3，其中推理测试 BBH 提升 21.6 分至 71.3。但指令微调版 iLLaDA-Instruct 得分 67.1，落后于 Qwen2.5 7B Instruct 的 77.1，差距主要在数学和代码任务，作者归因于缺少额外的强化学习对齐。

推理模型发布编码

06:59

IT之家（RSS）

74

OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

6月27日，OpenAI发布GPT-5.6系列，包含旗舰版Sol（输入$5/百万tokens，输出$30）、均衡版Terra（$2.5/$15）和速度版Luna（$1/$6）。Sol在Terminal-Bench 2.1标准模式下得分88.8%，超Claude Mythos 5的88.0%，Ultra模式达91.9%；GeneBench v1上消耗更少token且胜GPT-5.5；ExploitBench中以约1/3输出token达Mythos Preview相近表现。目前仅向“可信合作伙伴”提供预览，未来几周公开上线，7月在Cerebras上线Sol，速度最高750 token/s。

OpenAI 安全/对齐推理模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

03:35

MarkTechPost（RSS）

77

OpenAI 预览 GPT-5.6 系列：Sol、Terra、Luna 三层模型及新推理模式

OpenAI 开始有限预览 GPT-5.6 系列，分为旗舰 Sol、日常生产 Terra 和低成本快速 Luna 三个层级。新增两种推理控制：max（加深单链推理）和 ultra（利用子智能体并行处理复杂任务）。在 Terminal-Bench 2.1 上，Sol (ultra) 得分 91.91%，Sol (max) 88.76%，超过 Claude Mythos 5（88%）和 GPT-5.5（83.4%）。定价方面，Sol 输入/输出每百万 token 为 $5/$30，Terra 为 $2.50/$15，Luna 为 $1/$6。目前仅向约 20 个合作伙伴开放 API 和 Codex 预览，更广泛接入计划在未来几周内推出。OpenAI 还计划在 7 月用 Cerebras 硬件使 Sol 达到每秒 750 token。

OpenAI 安全/对齐推理模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

02:47

TechCrunch：AI（RSS）

73

OpenAI 应美国政府要求限制 GPT-5.6 发布，称限制不应成为常态

OpenAI 周五宣布，应美国政府要求，将新一代 GPT-5.6 系列模型仅向“小部分受信任的合作伙伴”开放预览。系列包括旗舰模型 Sol、均衡模型 Terra 和低成本快速模型 Luna。Sol 具备增强的智能体能力（编码、生物学、网络安全），引入“max”推理努力模式和“ultra”子智能体协调模式，在编码基准上略优于 Anthropic 的 Claude Mythos 5，输出 token 仅为后者三分之一。定价方面，Sol 每百万输入 token 5 美元、输出 30 美元；Terra 半价；Luna 分别为 1 美元和 6 美元。OpenAI 称此为短期措施，计划未来数周逐步向 ChatGPT、Codex 和 API 用户开放。

OpenAI 安全/对齐推理模型发布

关联讨论 9 条X：邵猛 (@shao__meng)IT之家（RSS）X：Nathan Lambert (@natolambert)X：Rohan Paul (@rohanpaul_ai)X：宝玉 (@dotey)X：Berry Xia (@berryxia)The Decoder：AI News（RSS）Hacker News 热门（buzzing.cc 中文翻译）The Verge：AI（RSS）

02:39

The Decoder：AI News（RSS）

66

OpenAI 发布 GPT-5.6 Sol，与 Claude Mythos 竞争，政府访问规则被其称为不可持续

OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、中端 Terra 和入门级 Luna。Sol 在智能体编程基准 Terminal-Bench 2.1 得分为 88.8%，Sol Ultra 达 91.9%，超过 Claude Mythos 5 的 88% 和 Fable 5 的 84.3%；在生物基准 GeneBench v1 上以更少 token 实现 30% 最佳表现（GPT-5.5 为 22%）；在 ExploitBench 上匹配 Mythos Preview 但输出 token 仅为其三分之一。API 定价：Sol 输入 $5/百万 token、输出 $30，Terra 减半，Luna 更便宜。7 月在 Cerebras 上线，速度最高 750 token/s。当前仅限指定合作伙伴通过 API 和 Codex 使用，OpenAI 批评美国政府限制访问政策不可持续。

Anthropic OpenAI 安全/对齐模型发布

02:10

Simon Willison 博客

79

OpenAI 发布 GPT-5.6 系列：旗舰模型 Sol、日常模型 Terra、低价模型 Luna

OpenAI 推出 GPT-5.6 系列三个模型：Sol 为旗舰，Terra 面向日常工作（性能对标 GPT-5.5 但价格便宜 2 倍），Luna 为快速低价模型。定价按每百万模型 token 计算：Sol 输入 $5 / 输出 $30，Terra 输入 $2.5 / 输出 $15，Luna 输入 $1 / 输出 $6。新版引入更可预测的提示词缓存，支持显式缓存断点和 30 分钟最小缓存生命期；缓存写入按 1.25 倍非缓存输入速率计费，缓存读取继续享受 90% 折扣。目前仅面向部分受信任合作伙伴提供有限预览，未来几周全面开放。

OpenAI 推理模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

02:02

Hacker News 热门（buzzing.cc 中文翻译）

73

OpenAI 预览 GPT-5.6 Sol：新一代模型

OpenAI 预览了 GPT-5.6 Sol，这是一款新一代模型。该预览由 OpenAI 官方发布，标题明确指出其为“next-generation model”。目前预览信息有限，仅确认了模型名称与定位，未包含具体技术细节或功能披露。

OpenAI 安全/对齐推理模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

01:15

The Verge：AI（RSS）

79

OpenAI 推出 GPT-5.6 模型套件：Sol、Terra 和 Luna

OpenAI 发布 GPT-5.6 模型套件，包括旗舰款 Sol、中端 Terra 和快速平价 Luna，擅长编程、网络安全、生物学及长周期智能体任务。Sol 定价每百万 token 输入 $5 / 输出 $30，约为 Anthropic Claude Fable 5 的一半；Terra 价格为 Sol 一半，Luna 更低。Sol 额外提供“max”深度推理模式和“ultra”子智能体模式。安全方面，Sol 经过约 70 万 A100e GPU 小时自动化红队测试，并接受第三方测试。预览期间特朗普政府将逐案审批客户。公司计划数周内广泛开放，但称该类政府准入流程不应成为常态。

OpenAI 安全/对齐模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 7 条X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)X：Kim (@kimmonismus)X：Sam Altman (@sama)

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

6月26日

11:59

IT之家（RSS）

67

Mistral AI 推出 OCR 4 模型：支持 170 种语言，输出更受人类青睐

法国 AI 初创公司 Mistral AI 于本月 23 日发布文档内容识别模型 OCR 4，支持横跨 10 个语族的 170 种语言，在 OmniDocBench 上获 93.07 分，输出较 GPT 5.5 Pro、Gemini 3.1 Pro Preview 等更受人类青睐。该模型为小型聚焦模型，输出文本并提供边框、区域分类和置信度评分，支持 RAG 语义分块等下游工作负载。基础 API 定价每千页 4 美元，批处理享 50% 优惠；文档人工智能定价每千页 5 美元。

多模态模型发布

09:01

Hacker News 热门（buzzing.cc 中文翻译）

65

Un-0：利用耦合振荡器生成图像

Unconventional AI 发布首个图像生成模型 Un-0，其核心是一个模拟的耦合振荡器系统——一种物理计算基板。在 class-conditional ImageNet 64×64 上，Un-0 达到 FID 6.74，匹配此前领先常规图像生成方法的首次发布质量。模型将耦合强度矩阵 K 和频率 ω 作为可学习参数，通过库拉莫托振荡器方程演化。权重、训练与消融代码均已开源。Un-0 旨在验证物理动态系统能以约 1000 倍更高能效运行现代 AI 工作负载。

图像生成开源生态模型发布

01:34

MarkTechPost（RSS）

66

DeepReinforce 发布 Ornith-1.0 开源编码模型族

DeepReinforce 发布 Ornith-1.0 开源编码模型族，基于 Gemma 4 和 Qwen 3.5 后训练，提供 9B、31B、35B-MoE（每 token 激活约 3B 参数）和 397B-MoE 四个尺寸，均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同，Ornith-1.0 在强化学习中联合优化框架与解决方案，并引入三层防御（固定信任边界、确定性监视器、冻结 LLM 裁判）防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4，超越 Claude Opus 4.7（70.3）但低于 Claude Opus 4.8（85）和 GLM-5.2-744B（81.0）。支持 vLLM、SGLang 等推理框架，9B 模型（bf16 约 19GB）可部署在单张 80GB GPU 上。

智能体开源/仓库模型发布编码

6月25日

15:58

IT之家（RSS）

69

百度开源 Unlimited OCR 模型，基于 DeepSeek OCR 架构，30亿参数仅激活5亿

百度于6月22日开源 Unlimited OCR 模型，总参数量30亿，推理时仅激活5亿。模型延续 DeepSeek OCR 架构，编码端采用两级视觉编码并执行16倍 token 压缩，将1024×1024 PDF 图像压缩为256个视觉 token，缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点，冻结 DeepEncoder 后继续4000步，使用约200万份文档在8×16 A800 GPU上完成，单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23（DeepSeek OCR 87.01，DeepSeek OCR 2 89.17），文本编辑距离0.038，公式 CDM 92.61，表格 TEDS 90.93，读序编辑距离0.045；v1.6 得分93.92。GitHub 已获 6.8K Star。

DeepSeek 多模态开源生态模型发布

14:04

MarkTechPost（RSS）

同事件精选73

百度发布Unlimited OCR：3B参数MoE模型，KV缓存恒定实现长文档高效解析

百度推出Unlimited OCR，一个3B参数的MoE模型，推理时仅激活500M参数。其核心创新Reference Sliding Window Attention（R-SWA）将KV缓存大小固定为Lm + n（n默认128），内存和延迟不随输出长度增长。模型基于DeepSeek OCR继续训练4000步，支持32K最大长度，通过DeepEncoder实现16倍token压缩。在OmniDocBench v1.5上整体得分93.23，超出DeepSeek OCR基线6.22分；v1.6得分93.92为最高。Base模式下吞吐达5580 TPS，比DeepSeek OCR提升12.7%，6000 token输出时延迟低35%。适用于整本书转录等场景，代码与权重已在HuggingFace开源。

多模态开源生态模型发布

同一事件，精选展示《无限制OCR：单次长时域解析》

推荐理由：Baidu这个OCR模型用R-SWA把KV缓存压成常量，长文档解析终于不用越跑越慢了。MIT开源，3B总参但推理只消500M，做文档管线的可以直接接。

11:12

HuggingFace Daily Papers（社区热门论文）

67

iLLaDA：改进的大型语言扩散模型

iLLaDA是一个8B参数的掩码扩散语言模型，采用完全双向注意力机制训练，预训练数据量达12T tokens，并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA，iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点，iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练，iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。

开源生态推理模型发布

08:58

IT之家（RSS）

41

OpenAI 再次升级 GPT-5.5 Instant：更具洞察力，购物推荐更实用

OpenAI 6 月 25 日升级 GPT-5.5 Instant 模型，新版本更能洞察用户表达意图，理解问题背后的引申含义，并优化输出表达。处理复杂约束条件时更可靠，能更稳定地满足多条件任务。购物推荐和本地推荐方面表现更实用、更连贯，结果更贴近实际使用场景。付费用户即日起获得新版，免费用户明天接入。

OpenAI 模型发布

05:29

Hacker News 热门（buzzing.cc 中文翻译）

71

Gemini 3.5 Flash 中的计算机使用

Google 将计算机使用（Computer use）作为内置工具集成至 Gemini 3.5 Flash，使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供，现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面，模型采用针对性对抗训练降低提示注入风险，并新增两项可选企业级保护：要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。（198字）

智能体 Google MCP/工具模型发布

关联讨论 2 条X：Google AI for Developers (@googleaidevs)Google DeepMind：Blog（RSS）

04:07

The Decoder：AI News（RSS）

51

OpenAI 称 ChatGPT Instant 更能理解用户真实意图

OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型，目标提升对话质量，尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标，在多轮对话中保持上下文，对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时，模型调整得更有效，不再重复原有回答。本地商业和购物查询也有改进，模型更好利用位置数据，将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化，更多精心设计”。

OpenAI 推理模型发布

6月24日

23:29

Hacker News 热门（buzzing.cc 中文翻译）

78

Krea 2 技术报告

Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。

Hugging Face 图像生成多模态开源生态

关联讨论 1 条X：Krea AI (@krea_ai)

17:55

The Decoder：AI News（RSS）

49

Mistral 发布 OCR 4 模型：在盲测中 72% 情况下超越竞品

Mistral AI 推出 OCR 4 模型，专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称，该模型在盲测中有 72% 的测试案例表现优于竞争对手。

多模态模型发布

16:57

Hacker News 热门（buzzing.cc 中文翻译）

60

Roboflow 发布介绍 YOLO26 的博客文章，在 Hacker News 获得 100 个点赞。

开源生态模型发布

12:42

IT之家（RSS）

66

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

智能体 Hugging Face 模型发布

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 4 条X：通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门（buzzing.cc 中文翻译）X：Berry Xia (@berryxia)HuggingFace Daily Papers（社区热门论文）

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

11:40

公众号：通义实验室（千问）

74

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 4 条X：通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门（buzzing.cc 中文翻译）X：Berry Xia (@berryxia)HuggingFace Daily Papers（社区热门论文）

10:27

IT之家（RSS）

62

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持文本、音频等多模态参考生成，端到端输出目标音频，长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围，直接产出成片级音频。模型一次支持 2 分钟音频创作，可多次延长且保持音色统一；实现零样本多模态生成，支持音色与风格解耦控制。火山方舟已开启 API 邀测，个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

10:06

蚂蚁 inclusionAI：HuggingFace 新模型

31

inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布

03:37

MarkTechPost（RSS）

68

Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift，用于结构化提取。输入 JSON Schema，返回匹配的 JSON 对象，可直接读取 PDF 和图像，支持多页文档一次性处理并跨页取值。提供本地（HuggingFace）和远程（vLLM）两种推理模式，后者推荐用于生产。代码采用 Apache 2.0，权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%，中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding，逐 token 约束输出结构但不保证语义正确；每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face 多模态开源生态模型发布

6月23日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

73

Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程

关联讨论 1 条MarkTechPost（RSS）

22:24

Mistral AI：News（网页）

精选68

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

关联讨论 1 条MarkTechPost（RSS）

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

20:24

The Decoder：AI News（RSS）

67

字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段（无需后期拼接），支持场景变化与节奏切换，并同时处理多达50个额外输入（参考图、音频等），后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频

19:10

IT之家（RSS）

精选72

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

GitHub 模型发布语音

推荐理由：网易有道把语音克隆的门槛压到了 3 秒，跨 14 种语言还能保持无口音，而且全量开源、商用无限制，对多语种配音和短剧出海是直接可用的工具。

18:48

The Decoder：AI News（RSS）

58

OpenAI正式发布GPT-5.5-Cyber网络安全模型，性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型（取代预览版），在CyberGym（85.6%）、ExploitGym（39.5%）和SEC-bench Pro（69.8%）三项基准测试中领先，超越Anthropic Mythos 5（83.8%）和OpenAI GPT-5.5（81.8%）。同步更新Codex Security插件，从漏洞发现扩展至自动生成补丁，已扫描超3万个代码库，支持完整代码库扫描、攻击路径分析及批量补丁生成，变更需人工确认。模型仅向经审核的防御方开放，并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划，合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

Anthropic OpenAI 安全/对齐模型发布

18:16

Hacker News 热门（buzzing.cc 中文翻译）

59

OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型，该消息登上 Hacker News 热门，获得 100 个 HN 积分。

OpenAI 安全/对齐模型发布

16:07

IT之家（RSS）

72

超Claude Mythos 5成绩：OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目，面向安全防御团队有限开放完整版GPT-5.5-Cyber（网络安全专用模型）。在CyberGym单模型评测中，GPT-5.5-Cyber得85.6%，GPT-5.5为81.8%，Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%（GPT-5.5为25.95%）。SEC-bench Pro测试中得分69.8%（GPT-5.5为63.1%）。OpenAI称漏洞发现速度已因AI显著加快，当前瓶颈在修复环节。

OpenAI 安全/对齐模型发布

关联讨论 2 条X：Rohan Paul (@rohanpaul_ai)OpenAI：官网动态（RSS · 排除企业/客户案例）

14:50

公众号：火山引擎

83

火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级，多Coding评测比肩全球顶尖，Agent国内第一，VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入；Seedream 5.0 Pro支持交互式编辑、多图层分离；豆包音频生成模型1.0可一次直出影视级音频。截至今年6月，豆包大模型日均Token调用量180万亿，同比增长超10倍；火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布

关联讨论 5 条X：Vista (@vista8)公众号：数字生命卡兹克字节 Seed：Research Feed（网页内嵌数据）公众号：火山引擎X：卡兹克 (@Khazix0918)

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条HuggingFace Daily Papers（社区热门论文）IT之家（RSS）

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

13:13

HuggingFace Daily Papers（社区热门论文）

55

UniverSat：分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络，采用通用补丁编码器（Universal Patch Encoder），将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间，使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练，生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中，取得了强劲结果。代码和模型已开源。

GitHub 多模态数据/训练模型发布

123 4…15