DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。
DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。
meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型,采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力,致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。
美团开源Agentic MoE模型LongCat-Flash,总参数量560B,每token仅激活27B。该模型基于SGLang框架,采用PD分离架构与SBO技术,通过四阶段流水线在单batch内实现计算与通信重叠,突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上,在Agent任务中表现优异,适用于复杂实时智能体应用。
meituan-longcat 发布 LongCat-Flash-Chat 项目,宣称将通过开源与开放科学推进人工智能技术的进步与民主化。该项目致力于打破技术壁垒,降低 AI 使用门槛,但目前尚未披露具体的技术架构、参数规模、性能基准测试数据及应用场景等详细信息。
xAI发布轻量级编程模型Grok Code Fast 1,采用全新架构,基于真实PR数据训练,精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒,定价输入$0.20/百万tokens、输出$1.50/百万tokens,SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。
同一事件,精选展示《GPT-5 现已上线》OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。
关联讨论 1 条X:ChatGPT (@ChatGPTapp)智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。
Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。
Kimi K2 采用混合专家(MoE)架构,拥有 320 亿激活参数和 1 万亿总参数,在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。
关联讨论 1 条Moonshot AI:Kimi BlogMistral AI 与 All Hands AI 合作发布了新的 Devstral 模型,旨在增强 AI 智能体的编程能力。其中,Devstral Small 1.1 是一款开源模型(Apache 2.0 许可),仅有 24B 参数,在 SWE-Bench Verified 基准测试中达到 53.6% 的成绩,成为同类开源模型的新标杆。Devstral Medium 则通过 API 提供,在相同基准上取得 61.6% 的高分,性能超越 Gemini 2.5 Pro 和 GPT 4.1,且价格更具竞争力。两款模型均提供公共 API 访问。
xAI 正式发布 Grok 4,新一代大模型在数学推理和代码生成能力上大幅提升,延续实时获取 X 平台信息的特色。该版本支持更长上下文窗口和图像理解,即日起向 X Premium+ 订阅者开放。
关联讨论 1 条xAI:News(网页)OpenRouter 宣布推出 Cypher Alpha,这是一款免费、通用型隐身模型,内置工具调用功能,用户可直接尝试。
推出统一 DNA 序列模型 AlphaGenome,提升调控变异效应预测能力,有望揭示基因组功能新机制。现已通过 API 开放使用。
Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。
关联讨论 1 条Google DeepMind:Blog(RSS)Mistral AI 发布了其首个推理模型 Magistral,包含开源版 Magistral Small(24B 参数)和企业版 Magistral Medium。在 AIME2024 上,Magistral Medium 得分为 73.6%,Magistral Small 为 70.7%。该模型核心特点是支持透明的多步推理,并能在 Le Chat 中以 10 倍于多数竞品的速度运行。Magistral 原生支持包括英语、法语、简体中文在内的多语言推理。开源版 Magistral Small 以 Apache 2.0 许可证发布。
小米开源多模态大模型Xiaomi MiMo-VL,该模型定位为Agent时代的推理基座,旨在为智能体时代提供基础推理能力。
DeepSeek-R1 更新,思考更深,推理更强。开启“深度思考”功能即可体验新版 R1 更加强大的思考与推理能力。
Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量,即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供,定价为每百万 token 0.15 美元,批量 API 享五折优惠。最大上下文长度为 8192 tokens,推荐使用 3000 字符(含 1000 字符重叠)分块以优化检索效果。
Mistral AI 与 All Hands AI 合作推出 Devstral,一款专注于解决真实世界 GitHub 问题的智能体大语言模型。该模型需在 OpenHands 或 SWE-Agent 等代码智能体框架中运行。在 SWE-Bench Verified 基准测试中,Devstral 获得 46.8% 的分数,超越此前的开源最先进模型超过 6 个百分点。在相同测试框架下,其表现优于 DeepSeek-V3-0324 和 Qwen3 232B-A22B,并且比闭源的 GPT-4.1-mini 高出超过 20%。Devstral 以 Apache 2.0 许可证开源,可在单张 RTX 4090 或配备 32GB 内存的 Mac 上本地部署,亦可通过 API 调用。
发布新一代生成式媒体模型 Veo 3 与 Imagen 4,以及专为电影制作打造的工具 Flow,支持更高质量的视频与图像生成及专业影视创作流程。
Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。
关联讨论 1 条Google DeepMind:Blog(RSS)Mistral AI 发布 Mistral Medium 3 模型,主打顶尖性能与高性价比。该模型在各项基准测试中达到或超过 Claude Sonnet 3.7 表现的90%,但成本显著更低(API 定价为 $0.4 / 百万输入 token 和 $2 / 百万输出 token)。其性能超越 Llama 4 Maverick 等开源模型及 Cohere Command A 等企业模型,成本也优于 DeepSeek v3。该模型擅长编码和多模态理解等专业任务,并支持混合或本地部署、定制微调及集成企业系统,现已可通过多个平台调用。
鉴于开发者反馈积极,Google 提前两周发布 Gemini 2.5 Pro Preview 更新版本,编程性能进一步提升,现已开放获取。
Quasar Alpha 和 Optimus Alpha 是 OpenRouter 的早期测试版本,在测试期间均位居排行榜首位。
OpenRouter 公告显示,Quasar Alpha 与 Optimus Alpha 在测试期间均登顶排行榜,它们是早期测试阶段的模型版本。
Quasar Alpha 和 Optimus Alpha 两个早期测试版本在测试期间均位居榜首。它们是某先进模型或系统的初期迭代,其测试表现优异,在相关评测中取得了领先的排名,显示出强大的潜力。此次发布揭示了这些早期版本的存在及其突出的基准测试结果。
OpenRouter 宣布推出其第二个“隐身”(stealth)模型 Optimus Alpha。该模型名称延续了“stealth”系列,但官方目前未公布具体技术参数、功能或应用细节。
OpenRouter 宣布推出其第二个“stealth”模型 Optimus Alpha,该模型为闭源产品,尚未公布参数规模、性能基准或价格等细节。
团队发布了其第二个“隐形”模型Optimus Alpha。该模型延续了此前“隐形”模型的保密策略,具体性能指标与架构细节未公开。此举旨在保持技术优势,避免在竞争激烈的AI模型领域过早暴露全部能力。Optimus Alpha的推出标志着团队在模型迭代上的持续进展,但核心改进方向与具体应用场景仍有待后续披露。
OpenRouter 宣布其首个“隐身”模型 Quasar Alpha。该模型是 OpenRouter 首次推出的隐藏身份/来源的模型,具体参数、性能、可用性等细节尚未公布。
OpenRouter 宣布推出其首个名为 Quasar Alpha 的“隐身”模型。
公司首次发布了名为Quasar Alpha的“隐形”模型。这一新模型标志着其产品策略的转变,旨在以更隐蔽、不易被察觉的方式运行。Quasar Alpha的推出是其在人工智能模型领域的一次重要迭代,具体性能指标和细节尚未完全公开,但明确指向了增强模型的隐蔽性和适应性。