AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 908 条
全部一手资讯X论文
标签「端侧」清除
2月20日周五
08:00Hugging Face:Blog(RSS)86精选GGML 和 llama.cpp 加入 HF 以确保 Local AI 的长期进展
2月12日周四
16:52蚂蚁 inclusionAI:HuggingFace 新模型39inclusionAI/ZwZ-8B
2月10日周二
11:39公众号:腾讯混元59首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型
2月9日周一
18:47蚂蚁 inclusionAI:HuggingFace 新模型39inclusionAI/LLaDA2.1-flash
15:55蚂蚁 inclusionAI:HuggingFace 新模型36inclusionAI/UI-Venus-1.5-30B-A3B 发布
08:00Hugging Face:Blog(RSS)76精选Transformers.js v4:现已在 NPM 上发布!
2月6日周五
15:32美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型
2月4日周三
00:00Mistral AI:News(网页)82Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场
2月3日周二
00:00智谱:研究(网页内嵌数据)GLM-OCR发布:性能SOTA,搞定复杂文档
2月2日周一
21:03Nathan Lambert:Interconnects(RSS)最新开源模型(第18期):Arcee 400B MoE、LiquidAI 被低估的 1B 模型、新版 Kimi,以及本月密集发布的预期
1月27日周二
16:03美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Lite
1月20日周二
00:00智谱:研究(网页内嵌数据)精选GLM-4.7-Flash开源、免费
12月17日周三
19:58Google DeepMind:Blog(RSS)精选Gemini 3 Flash:专为速度打造的前沿智能
12月11日周四
23:47Hugging Face:Blog(RSS)76精选llama.cpp 服务器新增多模型管理功能
12月10日周三
00:00智谱:研究(网页内嵌数据)精选GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别
12月8日周一
00:00智谱:研究(网页内嵌数据)AutoGLM:每台手机,都可以成为 AI 手机
11月14日周五
05:37Hugging Face:Blog(RSS)58参与 AMD Open Robotics 黑客松
11月3日周一
00:00LMSYS:Blog(Chatbot Arena 团队)精选在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署
10月26日周日
01:34Google DeepMind:Blog(RSS)精选Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产
10月24日周五
02:50Google DeepMind:Blog(RSS)精选Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型
10月13日周一
00:00LMSYS:Blog(Chatbot Arena 团队)NVIDIA DGX Spark深度评测:本地AI推理的新标杆
9月4日周四
14:54蚂蚁 inclusionAI:GitHub 新仓库51InclusionAI 开源 MoE 大语言模型 Ling-V2
8月29日周五
04:47Ethan Mollick:One Useful Thing(RSS)精选大众智能
6月24日周二
22:00Google DeepMind:Blog(RSS)精选Gemini Robotics On-Device 将 AI 引入本地机器人设备
5月20日周二
17:45Google DeepMind:Blog(RSS)精选Gemma 3n 预览版发布:强大、高效、移动优先的 AI
3月17日周一
00:00Mistral AI:News(网页)58Mistral AI 发布 Mistral Small 3.1 开源模型
1月15日周三
17:39公众号:DeepSeek(深度求索)50DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线
10月16日周三
00:00Mistral AI:News(网页)54Mistral AI发布Ministral 3B和8B边缘模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
2月20日
08:00
Hugging Face:Blog(RSS)
精选86
GGML 和 llama.cpp 加入 HF 以确保 Local AI 的长期进展

GGML 和 llama.cpp 团队正式加入 Hugging Face,以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp,保持 100% 技术自主权和社区领导力,项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源,助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成,实现近乎“一键式”的模型部署,并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈,推动开源超级智能的普及。

开源生态端侧行业动态

推荐理由:本地推理核心引擎获得长期资源保障,端侧 AI 生态稳定性大幅提升
2月12日
16:52
蚂蚁 inclusionAI:HuggingFace 新模型
39
inclusionAI/ZwZ-8B

inclusionAI发布了ZwZ-8B模型,这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分,致力于让更广泛的社区能够访问和利用先进的AI技术。

开源/仓库模型发布端侧
2月10日
11:39
公众号:腾讯混元
59
首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型

腾讯混元开源0.3B端侧模型,实现首个产业级2Bit量化突破。在真实端侧设备上,相比原始精度模型,生成速度提升2—3倍。

开源/仓库模型发布端侧
2月9日
18:47
蚂蚁 inclusionAI:HuggingFace 新模型
39
inclusionAI/LLaDA2.1-flash

inclusionAI 团队发布了 LLaDA2.1-flash 模型,致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升,响应延迟降低约40%,同时保持与前一版本相当的准确率。模型参数规模为70亿,支持多模态输入,并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛,促进更广泛的研究与产业落地。

开源/仓库模型发布端侧
15:55
蚂蚁 inclusionAI:HuggingFace 新模型
36
inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿(30B),是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标,旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升,具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧
08:00
Hugging Face:Blog(RSS)
精选76
Transformers.js v4:现已在 NPM 上发布!

Transformers.js 发布第四个主要版本 v4,该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命,使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face开源/仓库端侧部署/工程

推荐理由:浏览器和 Node.js 直接跑 HF 模型的大版本升级,前端开发者可零门槛接入 AI
2月6日
15:32
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型

美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8(8位浮点)精度格式,属于 Flash-Lite 轻量化系列,旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语,具体参数规模、基准测试成绩及技术细节有待进一步披露。

Hugging Face模型发布端侧部署/工程
2月4日
00:00
Mistral AI:News(网页)
82
Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。

模型发布端侧语音
2月3日
00:00
智谱:研究(网页内嵌数据)
GLM-OCR发布:性能SOTA,搞定复杂文档

GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。

多模态开源生态模型发布端侧
2月2日
21:03
Nathan Lambert:Interconnects(RSS)
最新开源模型(第18期):Arcee 400B MoE、LiquidAI 被低估的 1B 模型、新版 Kimi,以及本月密集发布的预期

本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型,LiquidAI 推出性能被低估的 10 亿参数方案,Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮,多款重要产品即将面世。

开源/仓库开源生态端侧
1月27日
16:03
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Lite

美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。

Hugging Face开源生态模型发布端侧
1月20日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由:智谱开源轻量模型GLM-4.7-Flash,免费API助力个人开发者快速上手
12月17日
19:58
Google DeepMind:Blog(RSS)
精选
Gemini 3 Flash:专为速度打造的前沿智能

Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由:Google发布Gemini 3 Flash轻量模型,兼顾前沿性能与推理速度
12月11日
23:47
Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由:本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
12月10日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由:智谱开源1.5B语音识别模型,端侧可用且针对真实场景优化,适合集成到输入法等产品
12月8日
00:00
智谱:研究(网页内嵌数据)
AutoGLM:每台手机,都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧
11月14日
05:37
Hugging Face:Blog(RSS)
58
参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face具身智能端侧行业动态
11月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署

与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体OpenAI教程/实践端侧

推荐理由:DGX Spark本地跑通Claude Code完全离线,隐私敏感开发者的新选择
10月26日
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
10月24日
02:50
Google DeepMind:Blog(RSS)
精选
Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。

DeepMind开源生态模型发布端侧

推荐理由:Google 发布 270M 超小参数开源模型,端侧部署新选择
10月13日
00:00
LMSYS:Blog(Chatbot Arena 团队)
NVIDIA DGX Spark深度评测:本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程
9月4日
14:54
蚂蚁 inclusionAI:GitHub 新仓库
51
InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧
8月29日
04:47
Ethan Mollick:One Useful Thing(RSS)
精选
大众智能

从 GPT-5 到 nano banana,强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用,普通用户都能便捷获取先进 AI 能力,技术民主化进程加速,标志着智能时代进入人人可及的新阶段。

OpenAI现象/趋势端侧

推荐理由:Ethan Mollick 解读 AI 普及化趋势,从 GPT-5 到微型设备应用
6月24日
22:00
Google DeepMind:Blog(RSS)
精选
Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。

DeepMindGoogle具身智能模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:DeepMind 发布端侧机器人模型,支持本地部署与快速任务适应
5月20日
17:45
Google DeepMind:Blog(RSS)
精选
Gemma 3n 预览版发布:强大、高效、移动优先的 AI

Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。

DeepMindGoogle多模态模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google 发布端侧多模态模型 Gemma 3n,支持音频理解,面向移动设备优化
3月17日
00:00
Mistral AI:News(网页)
58
Mistral AI 发布 Mistral Small 3.1 开源模型

Mistral AI 于2025年3月17日发布 Mistral Small 3.1。该模型在 Mistral Small 3 基础上改进,支持最高 128k tokens 上下文窗口,推理速度达 150 tokens/秒,并支持多模态理解。官方称其性能超越了 Gemma 3 和 GPT-4o Mini 等同量级模型。Mistral Small 3.1 以 Apache 2.0 许可开源,基础模型与指令微调模型均已发布。模型轻量化,可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行,适用于对话助手、函数调用、专业领域微调及构建推理模型等多种场景。

开源生态模型发布端侧
1月15日
17:39
公众号:DeepSeek(深度求索)
50
DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线

DeepSeek 推出官方移动端 App,目前已在 iOS 和 Android 各大应用商店上架。该 App 由 DeepSeek-V3 模型驱动,面向所有用户免费开放使用,用户可通过官网或应用市场直接下载。

DeepSeek产品更新端侧
10月16日
00:00
Mistral AI:News(网页)
54
Mistral AI发布Ministral 3B和8B边缘模型

Mistral AI发布了两个新的边缘计算模型Ministral 3B和Ministral 8B。两者均支持高达128k的上下文长度。Ministral 8B采用了特殊的交错滑动窗口注意力模式,以实现更快、内存效率更高的推理。这些模型在知识、常识、推理、函数调用和效率方面为10B以下类别设定了新标杆,可用于设备端翻译、离线智能助手、本地分析和机器人等场景。在多项基准测试中,它们超越了同级别的Gemma 2 2B、Llama 3.2 3B等模型。Ministral 8B的API定价为$0.1 / M tokens,Ministral 3B为$0.04 / M tokens。

MCP/工具模型发布端侧
‹ 上一页
1…212223
下一页 ›