5月30日

23:24

IT之家（RSS）

2B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

具身智能模型发布

22:42

StepFun@StepFun_ai

Step 3.7 Flash，Hermes Agent 用户可免费使用 30 天。还能出什么问题？🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么！

Nous Research: Step 3.7 Flash is now free for 30 days via Nous Portal It is a new MoE vision-language model focused on agent efficiency...

智能体多模态模型发布

20:11

StepFun@StepFun_ai

等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧

19:45

Google AI Developers@googleaidevs

精选71

ICYMI：Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵

Google 图像生成模型发布

推荐理由：Gemini 图像模型 GA 了，生成式视觉正式进入 Google 时间，做设计工具和内容生成的开发者可以直接接入测试，看看能不能成为下一个 Midjourney。

19:11

StepFun@StepFun_ai

小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧

18:34

Berryxia.AI@berryxia

Grok-build-0.1 现已支持使用X AI的 API了。看了一下价格，输入：百万Token花费 1美金左右。输出：百万Token花费 2美金左右。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

xAI 模型发布编码

12:11

meng shao@shao__meng

用户吐槽Claude Opus 4.8升级不大，还遇到账号问题

Claude Opus 4.8发布后，部分用户反馈其相比Opus 4.7升级感知不强，甚至认为模型变笨了。同时，有声音指出GPT-5.5更好用，并调侃该模型是否蒸馏了Qwen。此外，有用户在发布后尝试测试，发现自己的新注册账号意外变为“未注册”状态，此前该账号仅发送过一条消息，引发了对账号安全性的担忧。

Anthropic OpenAI 大佬观点模型发布

07:50

🚨 AI News | TestingCatalog@testingcatalog

xAI在API控制台公开发布了grok-build-0.1模型，该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1，输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体 xAI 模型发布编码

关联讨论 4 条

06:16

Rohan Paul@rohanpaul_ai

今日简报已发布

本期简报要点如下：Anthropic发布了Claude Opus 4.8模型，并宣布完成650亿美元融资，投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能：使用8块AMD MI300X GPU时处理速度达3000 tokens/s，使用8块NVIDIA H200 GPU时达2100 tokens/s（FP16精度，无推测解码），模型参数为20亿。此外，Datacurve推出了更具挑战性的编程基准测试DeepSWE，旨在更清晰地评估顶尖模型的性能差异。

Anthropic 推理模型发布行业动态

05:48

MarkTechPost（RSS）

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

05:40

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由：Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

04:19

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI 多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

01:38

Google Blog：AI（RSS）

同事件精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google 多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

01:14

The Decoder：AI News（RSS）

OpenAI 免费提供其生命科学AI模型，帮助各国政府为下一次大流行做好准备

OpenAI 通过新的 Rosalind 生物防御计划，免费提供其生命科学模型 GPT-Rosalind，旨在加强大流行防范和生物防御。早期合作伙伴包括劳伦斯利弗莫尔国家实验室、约翰霍普金斯大学以及疫苗倡议组织 CEPI。该计划现已向全球开放申请。

OpenAI 模型发布

00:45

Chubby♨️@kimmonismus

尽管有 Opus 4.8，我发现自己仍在使用 GPT 5.5 和 Codex。显然 GPT-5.6 正在路上；一个新的检查点已经达成，这让我更加高兴。我对新模型抱有很高的期望。OpenAI 这一年真是精彩。

leo 🐾: Work continues on GPT-5.6! Earlier today a significantly better new checkpoint was made available internally

OpenAI 模型发布

00:34

Berryxia.AI@berryxia

PaddleOCR-VL 1.6 发布，文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩，在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升，并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容，实现了零迁移成本，方便直接部署使用，旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布

00:34

Berryxia.AI@berryxia

Liquid AI发布设备端优化模型LFM2.5-8B-A1B

Liquid AI发布了LFM2.5-8B-A1B，一款为设备端优化的模型。它采用8B MoE架构，但仅有1.5B active参数，在38T tokens上进行了大规模RL训练，并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲，表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环，具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架，覆盖Apple、NVIDIA、AMD硬件。

Liquid AI: Today, we're releasing LFM2.5-8B-A1B, a device-optimized model designed to power real-life applications on phones, lapto...

智能体模型发布端侧

00:09

xAI@xai

同事件精选73

grok-build-0.1 现已通过 xAI API 提供公开测试版。这是驱动 Grok Build CLI 的同一模型，擅长智能体编码。定价为输入 $1/m，输出 $2/m，极具成本效益、智能且快速。

xAI 模型发布编码

同一事件，精选展示《Grok Build 0.1 on API》

推荐理由：xAI 把 Grok Build 底层模型开放 API 了，定价比竞品便宜一个量级，做 agentic coding 的可以低成本试一下，速度也不错。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 1 条

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

22:53

公众号：通义实验室（千问）

同事件精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。