IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。
IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。
NXP在Hugging Face发布技术博客,详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集,对VLA模型进行针对性微调,以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战,推动机器人AI在边缘端的实际应用。
inclusionAI发布了ZwZ-4B-GGUF模型。该模型基于开源与开放科学理念,旨在推动人工智能技术的进步与普及。其核心变化是提供了GGUF格式,这是一种高效且通用的模型文件格式,便于在不同硬件和推理框架上部署与运行。此举旨在降低大型语言模型的使用门槛,促进更广泛的研究与应用开发。
inclusionAI推出开源模型ZwZ-2B-GGUF,致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI开发与应用的门槛,促进更广泛的社区参与和创新。模型以开放协作和科学共享为核心路径,强调技术普及与包容性发展。
inclusionAI 团队发布了 AReaL-tau2-telecom-user-sft-30B 模型。这是一个拥有 300 亿参数、专门针对电信领域用户服务场景进行监督微调的大语言模型。该模型的发布旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及,使其更易于获取和应用。
inclusionAI团队发布了AReaL-tau2-telecom-sft-30B模型,这是一个拥有300亿参数、专门针对电信领域进行监督微调(SFT)的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与普及。其核心变化在于针对电信行业的特定任务和数据进行了深度优化,以提升在该垂直领域的专业性能和应用效果。
inclusionAI 发布了针对零售业优化的 AReaL-tau2-retail-sft-30B 模型,参数量达 300 亿,采用监督微调技术。该模型致力于通过开源与开放科学推动人工智能的进步与普及,旨在降低技术使用门槛,促进AI在零售领域的专业化应用与创新。
inclusionAI 发布了 ZwZ-2B 模型,这是一个拥有 20 亿参数的开源语言模型。该模型旨在通过开源和开放科学的方式推动人工智能的进步与民主化。其上下文处理长度扩展至 128K,并在多项基准测试中性能显著提升,特别是在代码生成和数学推理任务上表现出色。ZwZ-2B 的发布为研究者和开发者提供了一个更易获取的高性能 AI 工具。
Google 发布 Gemini 3.1 Flash-Lite,为 Gemini 3 系列中速度最快、成本效益最高的模型,面向大规模智能应用场景优化。
Apple 发布了搭载 M5 芯片的全新 MacBook Air,为这款全球最受欢迎的笔记本电脑带来卓越性能和扩展的 AI 能力。新款 MacBook Air 在性能上实现显著提升,并增强了人工智能相关功能,进一步巩固其在轻薄本市场的领先地位。
GGML 和 llama.cpp 团队正式加入 Hugging Face,以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp,保持 100% 技术自主权和社区领导力,项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源,助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成,实现近乎“一键式”的模型部署,并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈,推动开源超级智能的普及。
inclusionAI发布了ZwZ-8B模型,这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分,致力于让更广泛的社区能够访问和利用先进的AI技术。
inclusionAI 团队发布了 LLaDA2.1-flash 模型,致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升,响应延迟降低约40%,同时保持与前一版本相当的准确率。模型参数规模为70亿,支持多模态输入,并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛,促进更广泛的研究与产业落地。
inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿(30B),是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标,旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升,具体技术细节和基准测试结果有待进一步公布。
Transformers.js 发布第四个主要版本 v4,该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命,使开发者能够更便捷地获取并在项目中集成这一机器学习库。
美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8(8位浮点)精度格式,属于 Flash-Lite 轻量化系列,旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语,具体参数规模、基准测试成绩及技术细节有待进一步披露。
Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。
GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。
本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型,LiquidAI 推出性能被低估的 10 亿参数方案,Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮,多款重要产品即将面世。
美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。
GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。
智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。
AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。
与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。
NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。
InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。