AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 135 条
全部一手资讯X论文
标签「端侧」清除
12月11日周四
23:47Hugging Face:Blog(RSS)76精选llama.cpp 服务器新增多模型管理功能
12月10日周三
00:00智谱:研究(网页内嵌数据)精选GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别
12月8日周一
00:00智谱:研究(网页内嵌数据)AutoGLM:每台手机,都可以成为 AI 手机
11月14日周五
05:37Hugging Face:Blog(RSS)58参与 AMD Open Robotics 黑客松
11月3日周一
00:00LMSYS:Blog(Chatbot Arena 团队)精选在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署
10月26日周日
01:34Google DeepMind:Blog(RSS)精选Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产
10月24日周五
02:50Google DeepMind:Blog(RSS)精选Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型
10月13日周一
00:00LMSYS:Blog(Chatbot Arena 团队)NVIDIA DGX Spark深度评测:本地AI推理的新标杆
9月4日周四
14:54蚂蚁 inclusionAI:GitHub 新仓库51InclusionAI 开源 MoE 大语言模型 Ling-V2
8月29日周五
04:47Ethan Mollick:One Useful Thing(RSS)精选大众智能
6月24日周二
22:00Google DeepMind:Blog(RSS)精选Gemini Robotics On-Device 将 AI 引入本地机器人设备
5月20日周二
17:45Google DeepMind:Blog(RSS)精选Gemma 3n 预览版发布:强大、高效、移动优先的 AI
3月17日周一
00:00Mistral AI:News(网页)58Mistral AI 发布 Mistral Small 3.1 开源模型
1月15日周三
17:39公众号:DeepSeek(深度求索)50DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线
10月16日周三
00:00Mistral AI:News(网页)54Mistral AI发布Ministral 3B和8B边缘模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月11日
23:47
Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由:本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
12月10日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由:智谱开源1.5B语音识别模型,端侧可用且针对真实场景优化,适合集成到输入法等产品
12月8日
00:00
智谱:研究(网页内嵌数据)
AutoGLM:每台手机,都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧
11月14日
05:37
Hugging Face:Blog(RSS)
58
参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face具身智能端侧行业动态
11月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署

与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体OpenAI教程/实践端侧

推荐理由:DGX Spark本地跑通Claude Code完全离线,隐私敏感开发者的新选择
10月26日
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
10月24日
02:50
Google DeepMind:Blog(RSS)
精选
Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。

DeepMind开源生态模型发布端侧

推荐理由:Google 发布 270M 超小参数开源模型,端侧部署新选择
10月13日
00:00
LMSYS:Blog(Chatbot Arena 团队)
NVIDIA DGX Spark深度评测:本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程
9月4日
14:54
蚂蚁 inclusionAI:GitHub 新仓库
51
InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧
8月29日
04:47
Ethan Mollick:One Useful Thing(RSS)
精选
大众智能

从 GPT-5 到 nano banana,强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用,普通用户都能便捷获取先进 AI 能力,技术民主化进程加速,标志着智能时代进入人人可及的新阶段。

OpenAI现象/趋势端侧

推荐理由:Ethan Mollick 解读 AI 普及化趋势,从 GPT-5 到微型设备应用
6月24日
22:00
Google DeepMind:Blog(RSS)
精选
Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。

DeepMindGoogle具身智能模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:DeepMind 发布端侧机器人模型,支持本地部署与快速任务适应
5月20日
17:45
Google DeepMind:Blog(RSS)
精选
Gemma 3n 预览版发布:强大、高效、移动优先的 AI

Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。

DeepMindGoogle多模态模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google 发布端侧多模态模型 Gemma 3n,支持音频理解,面向移动设备优化
3月17日
00:00
Mistral AI:News(网页)
58
Mistral AI 发布 Mistral Small 3.1 开源模型

Mistral AI 于2025年3月17日发布 Mistral Small 3.1。该模型在 Mistral Small 3 基础上改进,支持最高 128k tokens 上下文窗口,推理速度达 150 tokens/秒,并支持多模态理解。官方称其性能超越了 Gemma 3 和 GPT-4o Mini 等同量级模型。Mistral Small 3.1 以 Apache 2.0 许可开源,基础模型与指令微调模型均已发布。模型轻量化,可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行,适用于对话助手、函数调用、专业领域微调及构建推理模型等多种场景。

开源生态模型发布端侧
1月15日
17:39
公众号:DeepSeek(深度求索)
50
DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线

DeepSeek 推出官方移动端 App,目前已在 iOS 和 Android 各大应用商店上架。该 App 由 DeepSeek-V3 模型驱动,面向所有用户免费开放使用,用户可通过官网或应用市场直接下载。

DeepSeek产品更新端侧
10月16日
00:00
Mistral AI:News(网页)
54
Mistral AI发布Ministral 3B和8B边缘模型

Mistral AI发布了两个新的边缘计算模型Ministral 3B和Ministral 8B。两者均支持高达128k的上下文长度。Ministral 8B采用了特殊的交错滑动窗口注意力模式,以实现更快、内存效率更高的推理。这些模型在知识、常识、推理、函数调用和效率方面为10B以下类别设定了新标杆,可用于设备端翻译、离线智能助手、本地分析和机器人等场景。在多项基准测试中,它们超越了同级别的Gemma 2 2B、Llama 3.2 3B等模型。Ministral 8B的API定价为$0.1 / M tokens,Ministral 3B为$0.04 / M tokens。

MCP/工具模型发布端侧
‹ 上一页
1234
下一页 ›