全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「端侧」清除

3月31日周二

23:10Hugging Face：Blog（RSS）70精选Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

17:34公众号：通义实验室（千问）36CoPaw 1.0 发布：定制小模型、安全机制与多智能体全面进化

3月25日周三

15:58公众号：智谱（GLM）49智谱携手奔驰，多模态大模型"上车"

3月24日周二

12:14DeedySiri 修了 13 年还是烂，我自己做了一个：完全本地运行，无需联网

3月23日周一

17:53公众号：小米 MiMo24小米 MiMo 大模型 3 分钟部署至 OpenClaw

3月17日周二

16:58公众号：阶跃星辰（Step）43阶跃星辰"最强龙虾大脑"上车极氪 8X：现在出发！

3月10日周二

09:14公众号：智谱（GLM）40今天，给每台电脑都装上龙虾

3月5日周四

22:16Hugging Face：Blog（RSS）73精选将机器人AI引入嵌入式平台：数据集记录、VLA微调与设备端优化

13:56蚂蚁 inclusionAI：HuggingFace 新模型45inclusionAI/ZwZ-4B-GGUF

13:56蚂蚁 inclusionAI：HuggingFace 新模型37inclusionAI发布ZwZ-2B-GGUF模型

10:55蚂蚁 inclusionAI：HuggingFace 新模型31inclusionAI/AReaL-tau2-telecom-user-sft-30B

10:08蚂蚁 inclusionAI：HuggingFace 新模型32inclusionAI/AReaL-tau2-telecom-sft-30B

00:53蚂蚁 inclusionAI：HuggingFace 新模型35inclusionAI/AReaL-tau2-retail-sft-30B 发布

3月4日周三

16:25蚂蚁 inclusionAI：HuggingFace 新模型37inclusionAI/ZwZ-2B

00:35Google DeepMind：Blog（RSS）Gemini 3.1 Flash-Lite：专为规模化智能构建

3月3日周二

22:01Apple：Newsroom（RSS）71精选Apple 推出搭载 M5 芯片的全新 MacBook Air

3月2日周一

21:02Google DeepMindNano Banana 2 让复杂的视觉创作更快、更便宜，且人人可及。🍌 点击每张照片查看详情 👀

2月27日周五

00:02Google DeepMind精选我们推出 Nano Banana 2，基于最新的 Gemini Flash 模型构建。🍌 它在创建和编辑图像方面达到最先进水平，将专业级功能与闪电般的速度相结合。🧵

2月20日周五

08:00Hugging Face：Blog（RSS）86精选GGML 和 llama.cpp 加入 HF 以确保 Local AI 的长期进展

2月12日周四

16:52蚂蚁 inclusionAI：HuggingFace 新模型39inclusionAI/ZwZ-8B

2月10日周二

11:39公众号：腾讯混元59首个产业级2Bit量化新突破，腾讯混元开源0.3B端侧模型

2月9日周一

18:47蚂蚁 inclusionAI：HuggingFace 新模型39inclusionAI/LLaDA2.1-flash

15:55蚂蚁 inclusionAI：HuggingFace 新模型36inclusionAI/UI-Venus-1.5-30B-A3B 发布

08:00Hugging Face：Blog（RSS）76精选Transformers.js v4：现已在 NPM 上发布！

2月6日周五

15:32美团 LongCat：HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型

2月4日周三

00:00Mistral AI：News（网页）82Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

2月3日周二

00:00智谱：研究（网页内嵌数据）GLM-OCR发布：性能SOTA，搞定复杂文档

2月2日周一

21:03Nathan Lambert：Interconnects（RSS）最新开源模型（第18期）：Arcee 400B MoE、LiquidAI 被低估的 1B 模型、新版 Kimi，以及本月密集发布的预期

1月27日周二

16:03美团 LongCat：HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Lite

1月20日周二

00:00智谱：研究（网页内嵌数据）精选GLM-4.7-Flash开源、免费

12月17日周三

19:58Google DeepMind：Blog（RSS）精选Gemini 3 Flash：专为速度打造的前沿智能

12月11日周四

23:47Hugging Face：Blog（RSS）76精选llama.cpp 服务器新增多模型管理功能

12月10日周三

00:00智谱：研究（网页内嵌数据）精选GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

12月8日周一

00:00智谱：研究（网页内嵌数据）AutoGLM：每台手机，都可以成为 AI 手机

11月14日周五

05:37Hugging Face：Blog（RSS）58参与 AMD Open Robotics 黑客松

11月3日周一

00:00LMSYS：Blog（Chatbot Arena 团队）精选在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

10月26日周日

01:34Google DeepMind：Blog（RSS）精选Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

10月24日周五

02:50Google DeepMind：Blog（RSS）精选Gemma 3 270M 发布：专为超高效 AI 打造的轻量模型

10月13日周一

00:00LMSYS：Blog（Chatbot Arena 团队）NVIDIA DGX Spark深度评测：本地AI推理的新标杆

9月4日周四

14:54蚂蚁 inclusionAI：GitHub 新仓库51InclusionAI 开源 MoE 大语言模型 Ling-V2

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

17:34

公众号：通义实验室（千问）

36

CoPaw 1.0 发布：定制小模型、安全机制与多智能体全面进化

产品更新开源/仓库端侧

3月25日

15:58

公众号：智谱（GLM）

49

智谱携手奔驰，多模态大模型"上车"

多模态端侧行业动态

3月24日

12:14

Deedy@deedydas

吐槽 Siri 长期体验糟糕，作者花一个周末自研纯本地语音助手，无需联网即可控制 Mac、设置提醒、获取实时数据和回答问题，认为这是软件的未来方向。

智能体开源/仓库端侧

3月23日

17:53

公众号：小米 MiMo

24

小米 MiMo 大模型 3 分钟部署至 OpenClaw

只需 3 分钟，即可将小米 MiMo 大模型“养”在 OpenClaw 中，完成快速部署。

教程/实践端侧

3月17日

16:58

公众号：阶跃星辰（Step）

43

阶跃星辰"最强龙虾大脑"上车极氪 8X：现在出发！

端侧行业动态

3月10日

09:14

公众号：智谱（GLM）

40

今天，给每台电脑都装上龙虾

智能体产品更新端侧

3月5日

22:16

Hugging Face：Blog（RSS）

精选73

将机器人AI引入嵌入式平台：数据集记录、VLA微调与设备端优化

NXP在Hugging Face发布技术博客，详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集，对VLA模型进行针对性微调，以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战，推动机器人AI在边缘端的实际应用。

Hugging Face 具身智能教程/实践端侧

推荐理由：嵌入式AI开发者可掌握从数据集记录到设备端优化的全流程实践。

13:56

蚂蚁 inclusionAI：HuggingFace 新模型

45

inclusionAI/ZwZ-4B-GGUF

inclusionAI发布了ZwZ-4B-GGUF模型。该模型基于开源与开放科学理念，旨在推动人工智能技术的进步与普及。其核心变化是提供了GGUF格式，这是一种高效且通用的模型文件格式，便于在不同硬件和推理框架上部署与运行。此举旨在降低大型语言模型的使用门槛，促进更广泛的研究与应用开发。

开源/仓库模型发布端侧

13:56

蚂蚁 inclusionAI：HuggingFace 新模型

37

inclusionAI发布ZwZ-2B-GGUF模型

inclusionAI推出开源模型ZwZ-2B-GGUF，致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI开发与应用的门槛，促进更广泛的社区参与和创新。模型以开放协作和科学共享为核心路径，强调技术普及与包容性发展。

开源/仓库模型发布端侧

10:55

蚂蚁 inclusionAI：HuggingFace 新模型

31

inclusionAI/AReaL-tau2-telecom-user-sft-30B

inclusionAI 团队发布了 AReaL-tau2-telecom-user-sft-30B 模型。这是一个拥有 300 亿参数、专门针对电信领域用户服务场景进行监督微调的大语言模型。该模型的发布旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及，使其更易于获取和应用。

开源/仓库模型发布端侧

10:08

蚂蚁 inclusionAI：HuggingFace 新模型

32

inclusionAI/AReaL-tau2-telecom-sft-30B

inclusionAI团队发布了AReaL-tau2-telecom-sft-30B模型，这是一个拥有300亿参数、专门针对电信领域进行监督微调（SFT）的大型语言模型。该模型基于开源与开放科学理念构建，旨在推动人工智能技术的进步与普及。其核心变化在于针对电信行业的特定任务和数据进行了深度优化，以提升在该垂直领域的专业性能和应用效果。

开源/仓库模型发布端侧

00:53

蚂蚁 inclusionAI：HuggingFace 新模型

35

inclusionAI/AReaL-tau2-retail-sft-30B 发布

inclusionAI 发布了针对零售业优化的 AReaL-tau2-retail-sft-30B 模型，参数量达 300 亿，采用监督微调技术。该模型致力于通过开源与开放科学推动人工智能的进步与普及，旨在降低技术使用门槛，促进AI在零售领域的专业化应用与创新。

开源/仓库模型发布端侧

3月4日

16:25

蚂蚁 inclusionAI：HuggingFace 新模型

37

inclusionAI/ZwZ-2B

inclusionAI 发布了 ZwZ-2B 模型，这是一个拥有 20 亿参数的开源语言模型。该模型旨在通过开源和开放科学的方式推动人工智能的进步与民主化。其上下文处理长度扩展至 128K，并在多项基准测试中性能显著提升，特别是在代码生成和数学推理任务上表现出色。ZwZ-2B 的发布为研究者和开发者提供了一个更易获取的高性能 AI 工具。

开源/仓库模型发布端侧

00:35

Google DeepMind：Blog（RSS）

Gemini 3.1 Flash-Lite：专为规模化智能构建

Google 发布 Gemini 3.1 Flash-Lite，为 Gemini 3 系列中速度最快、成本效益最高的模型，面向大规模智能应用场景优化。

DeepMind Google 模型发布端侧

3月3日

22:01

Apple：Newsroom（RSS）

精选71

Apple 推出搭载 M5 芯片的全新 MacBook Air

Apple 发布了搭载 M5 芯片的全新 MacBook Air，为这款全球最受欢迎的笔记本电脑带来卓越性能和扩展的 AI 能力。新款 MacBook Air 在性能上实现显著提升，并增强了人工智能相关功能，进一步巩固其在轻薄本市场的领先地位。

产品更新端侧

推荐理由：Apple M5芯片强化端侧AI能力，开发者需关注硬件对AI部署的影响。

3月2日

21:02

Google DeepMind@GoogleDeepMind

Nano Banana 2 让复杂的视觉创作更快、更便宜，且人人可及。🍌 点击每张照片查看详情 👀

DeepMind 图像生成模型发布端侧

2月27日

00:02

Google DeepMind@GoogleDeepMind

精选

我们推出 Nano Banana 2，基于最新的 Gemini Flash 模型构建。🍌 它在创建和编辑图像方面达到最先进水平，将专业级功能与闪电般的速度相结合。🧵

DeepMind 图像生成模型发布端侧

关联讨论 1 条X：Google DeepMind (@GoogleDeepMind)

推荐理由：端侧手机本地实现Pro级图像生成与编辑，AI创作无需云端等待

2月20日

08:00

Hugging Face：Blog（RSS）

精选86

GGML 和 llama.cpp 加入 HF 以确保 Local AI 的长期进展

GGML 和 llama.cpp 团队正式加入 Hugging Face，以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp，保持 100% 技术自主权和社区领导力，项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源，助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成，实现近乎“一键式”的模型部署，并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈，推动开源超级智能的普及。

开源生态端侧行业动态

推荐理由：本地推理核心引擎获得长期资源保障，端侧 AI 生态稳定性大幅提升

2月12日

16:52

蚂蚁 inclusionAI：HuggingFace 新模型

39

inclusionAI/ZwZ-8B

inclusionAI发布了ZwZ-8B模型，这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分，致力于让更广泛的社区能够访问和利用先进的AI技术。

开源/仓库模型发布端侧

2月10日

11:39

公众号：腾讯混元

59

首个产业级2Bit量化新突破，腾讯混元开源0.3B端侧模型

腾讯混元开源0.3B端侧模型，实现首个产业级2Bit量化突破。在真实端侧设备上，相比原始精度模型，生成速度提升2—3倍。

开源/仓库模型发布端侧

2月9日

18:47

蚂蚁 inclusionAI：HuggingFace 新模型

39

inclusionAI/LLaDA2.1-flash

inclusionAI 团队发布了 LLaDA2.1-flash 模型，致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升，响应延迟降低约40%，同时保持与前一版本相当的准确率。模型参数规模为70亿，支持多模态输入，并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛，促进更广泛的研究与产业落地。

开源/仓库模型发布端侧

15:55

蚂蚁 inclusionAI：HuggingFace 新模型

36

inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿（30B），是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标，旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升，具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧

08:00

Hugging Face：Blog（RSS）

精选76

Transformers.js v4：现已在 NPM 上发布！

Transformers.js 发布第四个主要版本 v4，该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命，使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face 开源/仓库端侧部署/工程

推荐理由：浏览器和 Node.js 直接跑 HF 模型的大版本升级，前端开发者可零门槛接入 AI

2月6日

15:32

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型

美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8（8位浮点）精度格式，属于 Flash-Lite 轻量化系列，旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语，具体参数规模、基准测试成绩及技术细节有待进一步披露。

Hugging Face 模型发布端侧部署/工程

2月4日

00:00

Mistral AI：News（网页）

82

Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录，具备说话人日志、上下文偏置和词级时间戳功能，在 FLEURS 基准测试中词错率约4%，性价比领先。Voxtral Realtime 专为实时应用设计，采用流式架构，延迟可配置至200毫秒以下，支持13种语言，并以 Apache 2.0 协议开源。同时，Mistral Studio 上线了由该系列模型驱动的音频游乐场，供用户即时测试转录功能。

模型发布端侧语音

2月3日

00:00

智谱：研究（网页内嵌数据）

GLM-OCR发布：性能SOTA，搞定复杂文档

GLM-OCR 开源发布，0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA，擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署，推理延迟低，适合高并发与边缘计算，提供完整 SDK 支持一行命令调用。

多模态开源生态模型发布端侧

2月2日

21:03

Nathan Lambert：Interconnects（RSS）

最新开源模型（第18期）：Arcee 400B MoE、LiquidAI 被低估的 1B 模型、新版 Kimi，以及本月密集发布的预期

本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型，LiquidAI 推出性能被低估的 10 亿参数方案，Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮，多款重要产品即将面世。

开源/仓库开源生态端侧

1月27日

16:03

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 LongCat-Flash-Lite

美团 LongCat 团队发布开源模型 LongCat-Flash-Lite，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛，为开发者社区提供轻量级技术基础设施，助力先进人工智能能力的广泛获取与开放协作。

Hugging Face 开源生态模型发布端侧

1月20日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API，支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线，届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由：智谱开源轻量模型GLM-4.7-Flash，免费API助力个人开发者快速上手

12月17日

19:58

Google DeepMind：Blog（RSS）

精选

Gemini 3 Flash：专为速度打造的前沿智能

Gemini 3 Flash 正式发布，在大幅降低使用成本的同时提供前沿级智能，主打极速推理性能，为需要快速响应的 AI 应用提供高性价比选择。

Google 模型发布端侧部署/工程

推荐理由：Google发布Gemini 3 Flash轻量模型，兼顾前沿性能与推理速度

12月11日

23:47

Hugging Face：Blog（RSS）

精选76

llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构，每个模型独立运行，确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载，并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型，并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置，也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由：本地跑模型终于能像 Ollama 一样热切换，开发调试效率大幅提升

12月10日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月8日

00:00

智谱：研究（网页内嵌数据）

AutoGLM：每台手机，都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM，创新采用ComputerRL、MobileRL与AgentRL技术架构，在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务，具备屏幕理解、自主规划与云端异步运行能力，可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧

11月14日

05:37

Hugging Face：Blog（RSS）

58

参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松，首站将于2025年12月5日至7日在日本东京举行，第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者，需组成最多四人的团队，在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励，冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face 具身智能端侧行业动态

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体 OpenAI 教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

10月26日

01:34

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览，达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出，支持 100 万 token 超长上下文和多模态能力。

Google 多模态模型发布端侧

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google轻量模型Gemini 2.5 Flash-Lite正式版发布，百万上下文多模态兼顾成本效益

10月24日

02:50

Google DeepMind：Blog（RSS）

精选

Gemma 3 270M 发布：专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型，仅 2.7 亿参数，定位紧凑型超高效 AI 专业工具。

DeepMind 开源生态模型发布端侧

推荐理由：Google 发布 270M 超小参数开源模型，端侧部署新选择

10月13日

00:00

LMSYS：Blog（Chatbot Arena 团队）

NVIDIA DGX Spark深度评测：本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片，在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型，双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽，该设备更适合小模型批处理推理与AI原型开发，而非大模型生产部署。支持SGLang和Ollama框架，为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程

9月4日

14:54

蚂蚁 inclusionAI：GitHub 新仓库

51

InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构，旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧