llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。
智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。
AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。
与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。
NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。
InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。
从 GPT-5 到 nano banana,强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用,普通用户都能便捷获取先进 AI 能力,技术民主化进程加速,标志着智能时代进入人人可及的新阶段。
Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。
关联讨论 1 条Google DeepMind:Blog(RSS)Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。
关联讨论 1 条Google DeepMind:Blog(RSS)Mistral AI 于2025年3月17日发布 Mistral Small 3.1。该模型在 Mistral Small 3 基础上改进,支持最高 128k tokens 上下文窗口,推理速度达 150 tokens/秒,并支持多模态理解。官方称其性能超越了 Gemma 3 和 GPT-4o Mini 等同量级模型。Mistral Small 3.1 以 Apache 2.0 许可开源,基础模型与指令微调模型均已发布。模型轻量化,可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行,适用于对话助手、函数调用、专业领域微调及构建推理模型等多种场景。
DeepSeek 推出官方移动端 App,目前已在 iOS 和 Android 各大应用商店上架。该 App 由 DeepSeek-V3 模型驱动,面向所有用户免费开放使用,用户可通过官网或应用市场直接下载。
Mistral AI发布了两个新的边缘计算模型Ministral 3B和Ministral 8B。两者均支持高达128k的上下文长度。Ministral 8B采用了特殊的交错滑动窗口注意力模式,以实现更快、内存效率更高的推理。这些模型在知识、常识、推理、函数调用和效率方面为10B以下类别设定了新标杆,可用于设备端翻译、离线智能助手、本地分析和机器人等场景。在多项基准测试中,它们超越了同级别的Gemma 2 2B、Llama 3.2 3B等模型。Ministral 8B的API定价为$0.1 / M tokens,Ministral 3B为$0.04 / M tokens。