12月11日

23:47

Hugging Face：Blog（RSS）

精选76

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构，每个模型独立运行，确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载，并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型，并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置，也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由：本地跑模型终于能像 Ollama 一样热切换，开发调试效率大幅提升

12月10日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月8日

00:00

智谱：研究（网页内嵌数据）

AutoGLM：每台手机，都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM，创新采用ComputerRL、MobileRL与AgentRL技术架构，在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务，具备屏幕理解、自主规划与云端异步运行能力，可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧

11月14日

05:37

Hugging Face：Blog（RSS）

参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松，首站将于2025年12月5日至7日在日本东京举行，第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者，需组成最多四人的团队，在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励，冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face 具身智能端侧行业动态

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体 OpenAI 教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

10月26日

01:34

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览，达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出，支持 100 万 token 超长上下文和多模态能力。

Google 多模态模型发布端侧

关联讨论 1 条

推荐理由：Google轻量模型Gemini 2.5 Flash-Lite正式版发布，百万上下文多模态兼顾成本效益

10月24日

02:50

Google DeepMind：Blog（RSS）

精选

Gemma 3 270M 发布：专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型，仅 2.7 亿参数，定位紧凑型超高效 AI 专业工具。

DeepMind 开源生态模型发布端侧

推荐理由：Google 发布 270M 超小参数开源模型，端侧部署新选择

10月13日

00:00

LMSYS：Blog（Chatbot Arena 团队）

NVIDIA DGX Spark深度评测：本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片，在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型，双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽，该设备更适合小模型批处理推理与AI原型开发，而非大模型生产部署。支持SGLang和Ollama框架，为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程

9月4日

14:54

蚂蚁 inclusionAI：GitHub 新仓库

InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构，旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧

8月29日

04:47

Ethan Mollick：One Useful Thing（RSS）

精选

大众智能

从 GPT-5 到 nano banana，强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用，普通用户都能便捷获取先进 AI 能力，技术民主化进程加速，标志着智能时代进入人人可及的新阶段。

OpenAI 现象/趋势端侧

推荐理由：Ethan Mollick 解读 AI 普及化趋势，从 GPT-5 到微型设备应用

6月24日

22:00

Google DeepMind：Blog（RSS）

精选

Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型，具备通用灵巧操作与快速任务适应能力，支持本地设备直接部署运行。

DeepMind Google 具身智能模型发布

关联讨论 1 条

推荐理由：DeepMind 发布端侧机器人模型，支持本地部署与快速任务适应

5月20日

17:45

Google DeepMind：Blog（RSS）

精选

Gemma 3n 预览版发布：强大、高效、移动优先的 AI

Gemma 3n 预览版发布，专为移动设备优化的开源多模态模型。采用 2-in-1 架构，支持音频理解，适用于实时交互和音频中心应用开发。

DeepMind Google 多模态模型发布

关联讨论 1 条

推荐理由：Google 发布端侧多模态模型 Gemma 3n，支持音频理解，面向移动设备优化

3月17日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Mistral Small 3.1 开源模型

Mistral AI 于2025年3月17日发布 Mistral Small 3.1。该模型在 Mistral Small 3 基础上改进，支持最高 128k tokens 上下文窗口，推理速度达 150 tokens/秒，并支持多模态理解。官方称其性能超越了 Gemma 3 和 GPT-4o Mini 等同量级模型。Mistral Small 3.1 以 Apache 2.0 许可开源，基础模型与指令微调模型均已发布。模型轻量化，可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行，适用于对话助手、函数调用、专业领域微调及构建推理模型等多种场景。

开源生态模型发布端侧

1月15日

17:39

公众号：DeepSeek（深度求索）

DeepSeek 官方 App 正式发布，iOS/Android 各应用市场均已上线

DeepSeek 推出官方移动端 App，目前已在 iOS 和 Android 各大应用商店上架。该 App 由 DeepSeek-V3 模型驱动，面向所有用户免费开放使用，用户可通过官网或应用市场直接下载。

DeepSeek 产品更新端侧

10月16日

00:00

Mistral AI：News（网页）

Mistral AI发布Ministral 3B和8B边缘模型

Mistral AI发布了两个新的边缘计算模型Ministral 3B和Ministral 8B。两者均支持高达128k的上下文长度。Ministral 8B采用了特殊的交错滑动窗口注意力模式，以实现更快、内存效率更高的推理。这些模型在知识、常识、推理、函数调用和效率方面为10B以下类别设定了新标杆，可用于设备端翻译、离线智能助手、本地分析和机器人等场景。在多项基准测试中，它们超越了同级别的Gemma 2 2B、Llama 3.2 3B等模型。Ministral 8B的API定价为$0.1 / M tokens，Ministral 3B为$0.04 / M tokens。

MCP/工具模型发布端侧