通义千问发布 Qwen3.7-Max，专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力，通过 MCP 和多智能体编排实现办公自动化，能自主执行超 1000 步工具调用（如 35 小时全自主内核优化）。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型：Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码

关联讨论 8 条

推荐理由：Qwen3.7-Max 把 agent 能力拉到了新高度，35 小时自主内核优化证明长程执行有真实生产力，做 coding agent 的团队该认真测一下。

05:25

Google Developers Blog（RSS）

Google I/O 2026：从辅助工具到独立智能体的战略转型

在2026年开发者大会上，Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型，并对“反重力”智能体优先平台进行了重大更新。面向移动开发者，推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革，包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API，以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。

智能体 Google 模型发布编码

03:03

Hugging Face：Blog（RSS）

OlmoEarth v1.1：更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族，将计算成本降低最多 3 倍，同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率（10m、20m、60m）的 token 合并为单个 token，大幅缩短输入序列长度，从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸，权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face 开源/仓库数据/训练模型发布

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体 Google 多模态推理

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

02:18

Google Blog：AI（RSS）

精选89

I/O 2026：欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代，新功能使其能够自动执行复杂任务，显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程，实现自动化处理，例如自动管理邮件、安排日程或生成报告，帮助用户从重复性工作中解放出来，专注于创造性任务。这一更新基于先进机器学习模型，强调准确性与效率，标志着 AI 助手向更智能、更自主的方向发展。

智能体 Google 模型发布

推荐理由：谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来，这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent，所有做 AI 应用的接下来都得重新看一遍技术选型。

01:48

Google DeepMind：Blog（RSS）

同事件精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMind Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

5月19日

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

5月16日

06:50

Google DeepMind：Blog（RSS）

精选75

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体 DeepMind Google 多模态

关联讨论 18 条

推荐理由：Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本，四倍于竞品速度的同时基准表现超过 3.1 Pro，这可能是今年对开发者最实用的基座模型之一。

5月15日

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源，这是为真实复杂任务打造的万亿级思考模型，Agent 执行能力全面增强，采用双档推理配置，兼顾效率、成本与能力上限。

开源生态推理模型发布

03:45

Hugging Face：Blog（RSS）

精选60

IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型：97M 参数的紧凑型（granite-embedding-97m-multilingual-r2）在 MTEB Multilingual Retrieval 上得 60.3 分，超越所有开放子 1 亿参数模型；311M 全尺寸模型（granite-embedding-311m-multilingual-r2）得 65.2 分，在 500M 以下开放模型中排第二，并支持 Matryoshka 维度。两者均基于 ModernBERT 架构，支持 200+ 种语言，针对 52 种语言和 9 种编程代码检索训练，上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型，预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由：97M小模型在跨语言检索上打败很多300M级选手，32K上下文让长文档处理不再鸡肋，Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。

5月14日

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

5月13日

11:45

公众号：面壁智能（MiniCPM）

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

5月11日

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

5月9日

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

02:34

Hugging Face：Blog（RSS）

CyberSecQwen-4B 发布：防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型，在 CTI-Bench 上以半参数（4B vs 8B）对标 Cisco Foundation-Sec-Instruct-8B：CTI-MCQ 得分 0.5868，领先 8.7 个百分点；CTI-RCM 得分 0.6664，保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU，训练使用 AMD Instinct MI300X，LoRA 微调（r=64, lr=5e-5），数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答，以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face 安全/对齐开源生态模型发布

00:34

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face 开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

5月8日

05:49

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划，推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究，并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI 安全/对齐模型发布

推荐理由：GPT-5.5 正式登场，首秀是给安全防御者用的，Trusted Access 机制把模型和真实漏洞环境连起来，做网络安全的可以关注，其他人先看看。

01:18

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选86

通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型，能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平，支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具，以构建更流畅、更智能的语音应用体验。

OpenAI 多模态模型发布语音

推荐理由：语音模型不再只是‘听写’，开始能推理和翻译了，OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段，做语音产品的值得赶紧试试。

5月7日

10:01

公众号：腾讯混元

腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周，Token 调用量即增长 10 倍，其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码

5月6日

19:54

公众号：火山引擎

豆包基础模型 Doubao-Seed-2.0-lite 升级，支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级，新增全模态理解能力。升级后的模型支持全模态理解，可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布

01:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选75

GPT-5.5 Instant 系统卡片

OpenAI 于2026年5月5日发布了最新即时模型 GPT-5.5 Instant。该模型在网络安全、生物与化学防范两个类别首次被定位为“高能力”级别，并为此实施了相应的安全防护措施。其整体安全缓解方案与此系列前代模型相似。官方明确，不存在名为 GPT-5.4 Instant 的模型，其主要对标基线是 GPT-5.3 Instant。为避免混淆，GPT-5.5 模型被特指为 GPT-5.5 Thinking。

OpenAI 安全/对齐模型发布

推荐理由：GPT-5.5 Instant 是第一个被 OpenAI 标记为「高能力」的 Instant 模型，安全评估里多了些新门槛，做 AI 安全的可以翻开系统卡看看具体红线画在哪。

01:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant：更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI 推理模型发布

推荐理由：ChatGPT默认模型替换为GPT-5.5 Instant，不只是变聪明，幻觉减少和个性化控制才是真改进，每个用户都能马上感觉到不同。

5月1日

05:01

Midjourney：Updates（RSS）

精选56

V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质，这一改进在风格参考（SREF）和情绪板（Moodboards）功能中效果最为显著，同时所有类型的图像生成质量均有所增强，为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由：Midjourney V8.1 只是个小版本迭代，主要提升锐度和图像质量，用惯了 V8 的可以不急着换，但玩 SREF 和 Moodboard 的值得试一下，细节确实有提升。

02:13

Google Developers Blog（RSS）

精选62

基于Gemini Embedding 2构建：智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型，该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入，显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言，并提供任务特定前缀和马特廖什卡降维等特性，为构建复杂AI智能体提供高效精准的基础。

Google 检索增强多模态模型发布

推荐理由：开发者做多模态RAG的苦日子结束了，Gemini Embedding 2把文本、图片、视频塞进同一个语义空间，还自带Matryoshka降维，直接省掉一堆胶水代码。

4月30日

09:00

公众号：蚂蚁百灵（Ling）

同事件精选62

Ling-2.6-1T 正式开源：面向复杂任务的万亿级综合旗舰模型

Ling-2.6-1T 于上周发布，今日正式开源。该模型定位为面向复杂任务的万亿级综合旗舰模型。

开源生态模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁开源万亿参数模型 Ling-2.6-1T，虽然一个多月后才看到，但这是目前国内参数最大的综合性基座，做复杂多模态 agent 的团队可以直接拿来用，省去从头训练的麻烦。

08:00

OpenRouter：Announcements（RSS）

April Release Spotlight

本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型，包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强，特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%，同时上下文窗口扩展至百万token级别。开发者工具方面，新的智能体SDK支持更复杂的任务编排，而重排序模型显著提升了检索精度。

智能体产品更新多模态模型发布

00:40

Mistral AI：News（网页）

Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体

Mistral AI推出旗舰模型Mistral Medium 3.5，这是一个128B参数的密集模型，拥有256K上下文窗口，在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎，并驱动两项新功能：Vibe远程编程智能体可将编码任务移至云端异步并行执行，用户可通过CLI或Le Chat启动并在完成后接收通知；Le Chat的新工作模式则是一个由该模型驱动的智能体，能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来，提升工作效率。

智能体开源生态模型发布编码

4月29日