全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 588 条

全部一手资讯 X 论文

6月2日周二

01:37Qwen：Blog Retrieval（API）81精选Qwen3.7-Plus：多模态智能体模型发布

01:03Hacker News 热门（buzzing.cc 中文翻译）75同事件精选英伟达 Cosmos 3同一事件，精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》

00:38Hugging Face：Blog（RSS）71精选JetBrains 发布 Mellum2：12B 参数混合专家模型

00:05TechCrunch：AI（RSS）40这家AI气象初创公司的预测表现超越政府机构

6月1日周一

22:05The Decoder：AI News（RSS）64MiniMax M3：具有百万token上下文窗口的开源权重模型挑战闭源领先者

21:35The Decoder：AI News（RSS）69Nvidia在GTC台北大会押注物理AI：发布新世界模型、驾驶大脑及开源人形机器人

21:35The Decoder：AI News（RSS）68Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型，但中国仍然领先

14:04IT之家（RSS）80让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

13:36Hugging Face：Blog（RSS）75NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

13:04IT之家（RSS）74英伟达开源5500亿参数Nemotron 3 Ultra模型

13:04IT之家（RSS）66英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

12:03IT之家（RSS）81同事件精选黄仁勋：英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产同一事件，精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》

11:39MiniMax：Blog（网页）83精选MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

09:28IT之家（RSS）70首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

09:23公众号：MiniMax（稀宇科技）65MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

02:16Hacker News 热门（buzzing.cc 中文翻译）72精选本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

5月30日周六

23:24IT之家（RSS）592B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

05:48MarkTechPost（RSS）59阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

05:40Hacker News 热门（buzzing.cc 中文翻译）70精选Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

01:38Google Blog：AI（RSS）74同事件精选Gemini Omni 与 Gemini 3.5 的 11 个实战展示同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

01:14The Decoder：AI News（RSS）56OpenAI 免费提供其生命科学AI模型，帮助各国政府为下一次大流行做好准备

5月29日周五

23:13Qwen：Blog Retrieval（API）66精选Qwen-VLA：从理解世界到付诸行动

22:53公众号：通义实验室（千问）61同事件精选Qwen-VLA：迈向通用具身智能的统一动作框架同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

19:19Artificial Intelligence News（RSS）68Anthropic发布Claude Opus 4.8

17:21IT之家（RSS）74精选小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

09:21IT之家（RSS）71阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

08:02公众号：阶跃星辰（Step）61同事件精选阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》

08:00HuggingFace Daily Papers（社区热门论文）62Mellum2 技术报告

07:48MarkTechPost（RSS）59Liquid AI 发布 LFM2.5-8B-A1B：一款支持设备端部署的混合专家架构模型，总参数 8.3B，活跃参数 1.5B

07:21IT之家（RSS）64Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

06:18MarkTechPost（RSS）72Anthropic发布Claude Opus 4.8，同步推出动态工作流与更便宜的快速模式，工作流最多支持1000个子智能体

05:42The Decoder：AI News（RSS）71Anthropic 发布 Claude Opus 4.8：被称作"小幅但实在的改进"，在多数基准测试中超越 GPT-5.5

02:42xAI：News（网页）82精选Grok Build 0.1 on API

01:14The Verge：AI（RSS）68Claude 的新模型在"出错时更'诚实'"

01:14TechCrunch：AI（RSS）72同事件精选Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具同一事件，精选展示《Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级》

01:08Hacker News 热门（buzzing.cc 中文翻译）87克劳德作品4.8

01:05Anthropic：Newsroom（网页）85精选Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

5月28日周四

23:19IT之家（RSS）60消息称微软下周将推全新编程模型，以争取开发者群体认可

15:37The Decoder：AI News（RSS）60ElevenLabs Music v2 实现从歌剧到重金属的流派转换而不失音乐连贯性

02:35The Decoder：AI News（RSS）55微软 MAI-Image-2.5 在基准测试中追平谷歌 Nano Banana 2

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月2日

01:37

Qwen：Blog Retrieval（API）

精选81

Qwen3.7-Plus：多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus，基于 Qwen3.7 文本骨干，增强视觉语言能力，保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题，融合 GUI 与 CLI 交互，跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3，SWE-Verified 77.7，QwenWorldBench 62.1，GPQA Diamond 90.3，MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布

关联讨论 5 条IT之家（RSS）X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：Kim (@kimmonismus)公众号：通义实验室（千问）X：通义千问 / Qwen (@Alibaba_Qwen)

推荐理由：Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型，在 ScreenSpot 和浏览器操作上的提升很实在，做自动化的开发者值得上手试试。

01:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选75

英伟达 Cosmos 3

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

具身智能多模态模型发布

同一事件，精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》

推荐理由：Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型，从机器人到自动驾驶都能用，英伟达这次是真的想定义物理 AI 的训练范式。

00:38

Hugging Face：Blog（RSS）

精选71

JetBrains 发布 Mellum2：12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家（MoE）模型，专注于自然语言与代码。每个 token 仅激活 2.5B 参数，推理速度可达同类模型的 2 倍以上，适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署，以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中，Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由：JetBrains 开源了 Mellum2，一个激活参数仅 2.5B 的 12B MoE 模型，专为代码和问答管道设计的快模型。做实时 RAG 或子代理时，终于不用硬扛大模型了。

00:05

TechCrunch：AI（RSS）

40

这家AI气象初创公司的预测表现超越政府机构

Windborne Systems 推出了最新的天气预报模型，其预测结果能够比现有的最佳政府预测提前数天。

数据/训练模型发布

6月1日

22:05

The Decoder：AI News（RSS）

64

MiniMax M3：具有百万token上下文窗口的开源权重模型挑战闭源领先者

中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。

多模态模型发布编码

21:35

The Decoder：AI News（RSS）

69

Nvidia在GTC台北大会押注物理AI：发布新世界模型、驾驶大脑及开源人形机器人

Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。

具身智能开源/仓库模型发布

21:35

The Decoder：AI News（RSS）

68

Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型，但中国仍然领先

根据Artificial Analysis基准评估，Nvidia发布的Nemotron 3 Ultra模型被评为目前最强大的美国开源大语言模型。但这一成就并未改变中国在开源大语言模型领域仍然保持领先的格局。

开源生态推理模型发布

14:04

IT之家（RSS）

80

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构，可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成，将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一，提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理，Edge版本即将推出。

具身智能多模态开源生态模型发布

关联讨论 7 条X：Kim (@kimmonismus)HuggingFace Daily Papers（社区热门论文）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)LMSYS：Blog（Chatbot Arena 团队）

13:36

Hugging Face：Blog（RSS）

75

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 7 条X：Kim (@kimmonismus)HuggingFace Daily Papers（社区热门论文）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)LMSYS：Blog（Chatbot Arena 团队）

13:04

IT之家（RSS）

74

英伟达开源5500亿参数Nemotron 3 Ultra模型

英伟达发布面向AI智能体的开源模型Nemotron 3 Ultra，其为5500亿参数的混合专家模型。相较于同级别开源模型，该模型推理速度最高提升5倍，使用成本最高降低30%。模型已适配Hermes Agent、LangChain Deep Agents等主流框架，并已助力CrowdStrike、Palantir等企业构建智能体系统。该模型预计于6月4日通过Hugging Face、ModelScope等平台以NVIDIA NIM微服务形式提供。

智能体开源生态模型发布

关联讨论 7 条X：Kim (@kimmonismus)HuggingFace Daily Papers（社区热门论文）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)LMSYS：Blog（Chatbot Arena 团队）

13:04

IT之家（RSS）

66

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作（VLA）模型，参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注，专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩，部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布

12:03

IT之家（RSS）

同事件精选81

黄仁勋：英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产

英伟达 CEO 黄仁勋在 2026 台北电脑展宣布，下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构，与上一代 Grace Blackwell 平台相比，其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计，其供应链规模是 Grace Blackwell 的两倍，产品预计于今年秋季开始发货。

推理数据/训练模型发布

同一事件，精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》

推荐理由：Vera Rubin 全面投产，智能体吞吐量提升 10 倍，供应链规模翻倍，这是英伟达给 AI 算力瓶颈的一记重拳，做智能体应用的同行该开始计划升级硬件了。

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 11 条X：MiniMax (@MiniMax_AI)MiniMax：Blog（网页）X：Kim (@kimmonismus)X：Testing Catalog (@testingcatalog)HuggingFace Daily Papers（社区热门论文）公众号：MiniMax（稀宇科技）X：OpenRouter (@OpenRouter)X：karminski (@karminski3)X：硅基流动 SiliconFlow (@SiliconFlowAI)X：歸藏 (@op7418)MarkTechPost（RSS）

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

09:28

IT之家（RSS）

70

首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3，宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构，API 上下文窗口最高支持 1M tokens，保障至少 512K 可用。在 BrowseComp 智能体评测中，M3 以 83.5 分超越 Opus 4.7（79.3）。官方提供 M3 与 M3-highspeed 两个版本 API，标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens（上下文≤512K，限时五折），并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布

关联讨论 11 条X：MiniMax (@MiniMax_AI)MiniMax：Blog（网页）X：Kim (@kimmonismus)X：Testing Catalog (@testingcatalog)HuggingFace Daily Papers（社区热门论文）公众号：MiniMax（稀宇科技）X：OpenRouter (@OpenRouter)X：karminski (@karminski3)X：硅基流动 SiliconFlow (@SiliconFlowAI)X：歸藏 (@op7418)MarkTechPost（RSS）

09:23

公众号：MiniMax（稀宇科技）

65

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 11 条X：MiniMax (@MiniMax_AI)MiniMax：Blog（网页）X：Kim (@kimmonismus)X：Testing Catalog (@testingcatalog)HuggingFace Daily Papers（社区热门论文）公众号：MiniMax（稀宇科技）X：OpenRouter (@OpenRouter)X：karminski (@karminski3)X：硅基流动 SiliconFlow (@SiliconFlowAI)X：歸藏 (@op7418)MarkTechPost（RSS）

02:16

Hacker News 热门（buzzing.cc 中文翻译）

精选72

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源/仓库模型发布端侧

推荐理由：端侧图像生成终于进入可用阶段，把 4B 模型压到 iPhone 能跑而且性能保留 95%，做本地 AI 应用的产品人应该认真看一眼。

5月30日

23:24

IT之家（RSS）

59

2B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

具身智能模型发布

05:48

MarkTechPost（RSS）

59

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

05:40

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由：Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

01:38

Google Blog：AI（RSS）

同事件精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google 多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

01:14

The Decoder：AI News（RSS）

56

OpenAI 免费提供其生命科学AI模型，帮助各国政府为下一次大流行做好准备

OpenAI 通过新的 Rosalind 生物防御计划，免费提供其生命科学模型 GPT-Rosalind，旨在加强大流行防范和生物防御。早期合作伙伴包括劳伦斯利弗莫尔国家实验室、约翰霍普金斯大学以及疫苗倡议组织 CEPI。该计划现已向全球开放申请。

OpenAI 模型发布

5月29日

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 1 条HuggingFace Daily Papers（社区热门论文）

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

22:53

公众号：通义实验室（千问）

同事件精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

19:19

Artificial Intelligence News（RSS）

68

Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8，这是对Claude Opus 4.7的升级，改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用，API名称为claude-opus-4-8。

智能体 Anthropic 推理模型发布

17:21

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

09:21

IT之家（RSS）

71

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体 Hugging Face 多模态模型发布

关联讨论 2 条X：阶跃星辰 StepFun (@StepFun_ai)X：OpenRouter (@OpenRouter)

08:02

公众号：阶跃星辰（Step）

同事件精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体 MCP/工具多模态开源生态

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

08:00

HuggingFace Daily Papers（社区热门论文）

62

Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型，每个 token 有 2.5B 活跃参数，专注于软件工程任务，是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE，并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练，并通过 YaRN 扩展至 128K 上下文窗口，之后经过监督微调与 RLVR 后训练，发布了直答式（Instruct）和带推理链（Thinking）两个变体。在多项基准测试中，其性能可与 4B-14B 范围的开源模型竞争，而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码

07:48

MarkTechPost（RSS）

59

Liquid AI 发布 LFM2.5-8B-A1B：一款支持设备端部署的混合专家架构模型，总参数 8.3B，活跃参数 1.5B

Liquid AI 发布了 LFM2.5-8B-A1B 模型。这是一款混合专家架构模型，总参数量为 8.3B，每次推理仅激活其中的 1.5B 参数。该模型支持 128K 上下文窗口，具备推理和工具调用能力，可在消费级硬件上本地运行。

模型发布端侧

07:21

IT之家（RSS）

64

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

Anthropic 推理模型发布编码

06:18

MarkTechPost（RSS）

72

Anthropic发布Claude Opus 4.8，同步推出动态工作流与更便宜的快速模式，工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8，在Claude Code中引入动态工作流和更便宜的快速模式，目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic 模型发布编码

关联讨论 12 条X：Claude Devs (@ClaudeDevs)X：Boris Cherny (@bcherny)X：Artificial Analysis (@ArtificialAnlys)X：洪明 (@hongming731)X：OpenRouter (@OpenRouter)X：Thariq (@trq212)X：Kim (@kimmonismus)X：Claude (@claudeai)X：Rohan Paul (@rohanpaul_ai)X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：宝玉 (@dotey)

05:42

The Decoder：AI News（RSS）

71

Anthropic 发布 Claude Opus 4.8：被称作"小幅但实在的改进"，在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能，可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic 推理模型发布

关联讨论 12 条X：Claude Devs (@ClaudeDevs)X：Boris Cherny (@bcherny)X：Artificial Analysis (@ArtificialAnlys)X：洪明 (@hongming731)X：OpenRouter (@OpenRouter)X：Thariq (@trq212)X：Kim (@kimmonismus)X：Claude (@claudeai)X：Rohan Paul (@rohanpaul_ai)X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：宝玉 (@dotey)

02:42

xAI：News（网页）

精选82

Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI 模型发布编码

关联讨论 4 条X：xAI (@xai)X：Elon Musk (@elonmusk, xAI)X：阿易 AI Notes (@AYi_AInotes)X：Testing Catalog (@testingcatalog)

推荐理由：xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出，专攻 agentic coding，这是直接在叫板 Claude Code 和 Cursor，做开发工具的同行该重新算账了。

01:14

The Verge：AI（RSS）

68

Claude 的新模型在"出错时更'诚实'"

Anthropic 在周四发布了其最新模型 Claude Opus 4.8。新模型在生成错误内容时，更倾向于主动标示不确定性，并减少做出无根据的断言。在内部评估中，其产出未经证实断言的可能性比前代模型降低约 4 倍。

Anthropic 安全/对齐模型发布

01:14

TechCrunch：AI（RSS）

同事件精选72

Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具

Anthropic 发布了最新的 Opus 4.8 大语言模型，并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组，以执行复杂任务。

智能体 Anthropic 推理模型发布

同一事件，精选展示《Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级》

推荐理由：Opus 4.8 是 Anthropic 对 Opus 4.7 失望反应的快速回应，亮点不在跑分而在模型能主动标记不确定性，这比正确率更实用。动态工作流让跨子 agent 的代码迁移成为现实，开发团队值得关注。

01:08

Hacker News 热门（buzzing.cc 中文翻译）

87

克劳德作品4.8

Anthropic 发布了新版模型 Claude Opus 4.8。该模型的具体技术参数、性能基准与定价等详情暂未提供。本文提供了其官方公告页面的链接，并记录了该新闻在 Hacker News 上的讨论热度。

Anthropic 推理模型发布

关联讨论 12 条X：Claude Devs (@ClaudeDevs)X：Boris Cherny (@bcherny)X：Artificial Analysis (@ArtificialAnlys)X：洪明 (@hongming731)X：OpenRouter (@OpenRouter)X：Thariq (@trq212)X：Kim (@kimmonismus)X：Claude (@claudeai)X：Rohan Paul (@rohanpaul_ai)X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：宝玉 (@dotey)

01:05

Anthropic：Newsroom（网页）

精选85

Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用，价格与前代相同。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增“动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。此外，其诚实度与对齐表现也得到提升，代码错误漏检率降低了约 75%。

智能体 Anthropic 推理模型发布

关联讨论 12 条X：Claude Devs (@ClaudeDevs)X：Boris Cherny (@bcherny)X：Artificial Analysis (@ArtificialAnlys)X：洪明 (@hongming731)X：OpenRouter (@OpenRouter)X：Thariq (@trq212)X：Kim (@kimmonismus)X：Claude (@claudeai)X：Rohan Paul (@rohanpaul_ai)X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：宝玉 (@dotey)

推荐理由：Opus 4.8看着是常规升级，但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头，快速模式降价三倍更是直接拉低了实时场景的入场券。

5月28日

23:19

IT之家（RSS）

60

消息称微软下周将推全新编程模型，以争取开发者群体认可

微软计划在下周Build大会发布多款自研AI模型，旨在争取开发者认可。其中将包含一款编程专用模型，以提升GitHub Copilot的竞争力，应对Cursor与Claude Code等对手的挑战。同时，微软还将推出多款不同规格的新模型，具备语音转写、逻辑推理、语音处理及图像生成等技能。

Microsoft 多模态模型发布编码

15:37

The Decoder：AI News（RSS）

60

ElevenLabs Music v2 实现从歌剧到重金属的流派转换而不失音乐连贯性

ElevenLabs 发布了升级版 AI 音乐生成模型 Music v2。该模型支持跨流派创作，单首乐曲可实现从歌剧到重金属再到说唱的风格转换，并保持音乐连贯性。新功能支持音乐局部重新生成，允许用户在不修改乐曲其他部分的情况下，对特定片段进行重写。

多模态模型发布

02:35

The Decoder：AI News（RSS）

55

微软 MAI-Image-2.5 在基准测试中追平谷歌 Nano Banana 2

微软的 MAI-Image-2.5 在 Arena 文本生成图像排行榜上排名第三，与谷歌的 Nano Banana 2 持平，但仍落后于 OpenAI 的 Image-2。该模型相比其前代产品有显著提升，特别是在渲染图像内文字和商业视觉效果方面。

Microsoft 多模态模型发布

1…5 678 9…15