5月6日

22:16

IT之家（RSS）

精选71

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

智能体多模态推理模型发布

推荐理由：豆包Seed 2.0 lite把视频、音频、图片、文字原生塞进一个模型，还顺手强化了Agent和GUI操作，对需要全模态处理的企业来说，这可能是目前性价比最高的选择。

19:54

公众号：火山引擎

豆包基础模型 Doubao-Seed-2.0-lite 升级，支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级，新增全模态理解能力。升级后的模型支持全模态理解，可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布

08:15

IT之家（RSS）

OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant：幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant，重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域，幻觉声明较前代减少52.5%；在用户标记的事实错误测试中，不准确声明降低37.3%。回复内容更简洁，减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新，付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI 推理模型发布

01:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选75

GPT-5.5 Instant 系统卡片

OpenAI 于2026年5月5日发布了最新即时模型 GPT-5.5 Instant。该模型在网络安全、生物与化学防范两个类别首次被定位为“高能力”级别，并为此实施了相应的安全防护措施。其整体安全缓解方案与此系列前代模型相似。官方明确，不存在名为 GPT-5.4 Instant 的模型，其主要对标基线是 GPT-5.3 Instant。为避免混淆，GPT-5.5 模型被特指为 GPT-5.5 Thinking。

OpenAI 安全/对齐模型发布

推荐理由：GPT-5.5 Instant 是第一个被 OpenAI 标记为「高能力」的 Instant 模型，安全评估里多了些新门槛，做 AI 安全的可以翻开系统卡看看具体红线画在哪。

01:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant：更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI 推理模型发布

推荐理由：ChatGPT默认模型替换为GPT-5.5 Instant，不只是变聪明，幻觉减少和个性化控制才是真改进，每个用户都能马上感觉到不同。

5月3日

15:51

The Decoder：AI News（RSS）

小米开源模型 MiMo-V2.5-Pro 瞄准 Claude Opus，实现数小时自主编程

小米发布开源模型 MiMo-V2.5-Pro，其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6，同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务，标志着中国开源模型竞争焦点正从单纯追求基准分数，转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。

Anthropic 开源/仓库模型发布编码

5月2日

17:49

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek V4--性能几乎达到前沿水平，价格却仅为其一小部分

DeepSeek发布了V4版本模型，其性能已接近行业最前沿水平，但在价格上具有显著优势，仅为主要竞争对手的一小部分。该模型在多项基准测试中表现出色，能以极低的成本提供顶级的AI能力，有望大幅降低企业和开发者的使用门槛，推动AI技术的更广泛普及。

大佬观点开源/仓库模型发布

推荐理由：Simon Willison 实测结论很直白，DeepSeek V4 性能几乎摸到前沿，价格却便宜一个量级，对预算卡死的团队是重大利好。

15:50

The Decoder：AI News（RSS）

xAI 发布 Grok 4.3，大幅降价并推出创意项目 Imagine 智能体模式

xAI 正式推出 Grok 4.3 模型，其核心策略是大幅降低价格并增强工具使用能力。新模型在实际任务处理上有所提升，但在性能上仍落后于 OpenAI 和 Anthropic 的顶尖模型。此次发布还引入了一个基于智能体的新型图像生成器“Imagine”模式，专门服务于创意项目。

xAI 图像生成推理模型发布

5月1日

19:17

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Grok 4.3

x.ai 正式发布了 Grok 4.3 模型，开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注，相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI 多模态推理模型发布

推荐理由：xAI 的 Grok 4.3 如期而至，性能和对标都写在文档里了，想了解最新大模型实力的开发者值得花五分钟看一眼。

16:47

The Decoder：AI News（RSS）

Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体

Mistral 发布其新旗舰模型 Mistral Medium 3.5，它将此前独立的聊天、推理和代码生成模型合并为一个单一产品。同时，该公司为其编程工具 Vibe 增加了异步云代理功能，并为聊天产品 Le Chat 引入了新的智能体模式。

智能体推理模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model，并对其进行了前沿风险准备情况评估。报告显示，该模型在预设的可能带来灾难性风险的领域测试中，未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果，Meta 决定以开放权重模型的形式公开发布 CWM。

Meta 安全/对齐开源/仓库模型发布

05:01

Midjourney：Updates（RSS）

精选56

V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质，这一改进在风格参考（SREF）和情绪板（Moodboards）功能中效果最为显著，同时所有类型的图像生成质量均有所增强，为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由：Midjourney V8.1 只是个小版本迭代，主要提升锐度和图像质量，用惯了 V8 的可以不急着换，但玩 SREF 和 Moodboard 的值得试一下，细节确实有提升。

02:13

Google Developers Blog（RSS）

精选62

基于Gemini Embedding 2构建：智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型，该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入，显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言，并提供任务特定前缀和马特廖什卡降维等特性，为构建复杂AI智能体提供高效精准的基础。

Google 检索增强多模态模型发布

推荐理由：开发者做多模态RAG的苦日子结束了，Gemini Embedding 2把文本、图片、视频塞进同一个语义空间，还自带Matryoshka降维，直接省掉一堆胶水代码。

4月30日