LiteRT 是一个生产就绪的框架,旨在帮助移动开发者充分发挥神经处理单元(NPU)的效能,以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性,已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型,实现实时视频处理、动画生成与语音识别等高级功能。此外,平台还提供基准测试工具并具备跨平台兼容性,能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。
本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法,涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理,同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案,并提供了性能优化建议,帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。
inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。
该模型由 inclusionAI 发布,属于 DR-Venus 系列,参数量为 40 亿,采用强化学习训练并已转换为 GGUF 格式,便于在本地设备高效运行。其推出延续了通过开源与开放科学推动人工智能技术发展与普及的使命,旨在降低先进 AI 技术的使用门槛,促进更广泛的社区参与和创新应用。
inclusionAI 团队开源了 DR-Venus-4B-RL 模型。这是一个基于强化学习技术微调的 40 亿参数语言模型,旨在通过开源与开放科学的方式推动人工智能的发展与普及。该模型的发布为研究社区提供了一个中等规模、经过指令与人类偏好对齐的可用模型,延续了其促进 AI 民主化的目标。
该团队正致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。其核心目标是降低AI技术的门槛,促进更广泛的参与和创新,使先进AI工具能够被更多开发者和研究者所使用。这一举措旨在构建一个开放、协作的AI生态系统。
阶跃 Step 3.5 Flash 大规模上车极氪8X,深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型:Step 3.5 Flash 作为核心大脑,提供模糊指令理解与多步骤任务规划;语音大模型带来低延迟、更自然的交互;视觉理解模型可感知车外环境并决策,如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。
Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。
Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。
IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。
NXP在Hugging Face发布技术博客,详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集,对VLA模型进行针对性微调,以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战,推动机器人AI在边缘端的实际应用。
inclusionAI发布了ZwZ-4B-GGUF模型。该模型基于开源与开放科学理念,旨在推动人工智能技术的进步与普及。其核心变化是提供了GGUF格式,这是一种高效且通用的模型文件格式,便于在不同硬件和推理框架上部署与运行。此举旨在降低大型语言模型的使用门槛,促进更广泛的研究与应用开发。
inclusionAI推出开源模型ZwZ-2B-GGUF,致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI开发与应用的门槛,促进更广泛的社区参与和创新。模型以开放协作和科学共享为核心路径,强调技术普及与包容性发展。
inclusionAI 团队发布了 AReaL-tau2-telecom-user-sft-30B 模型。这是一个拥有 300 亿参数、专门针对电信领域用户服务场景进行监督微调的大语言模型。该模型的发布旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及,使其更易于获取和应用。
inclusionAI团队发布了AReaL-tau2-telecom-sft-30B模型,这是一个拥有300亿参数、专门针对电信领域进行监督微调(SFT)的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与普及。其核心变化在于针对电信行业的特定任务和数据进行了深度优化,以提升在该垂直领域的专业性能和应用效果。
inclusionAI 发布了针对零售业优化的 AReaL-tau2-retail-sft-30B 模型,参数量达 300 亿,采用监督微调技术。该模型致力于通过开源与开放科学推动人工智能的进步与普及,旨在降低技术使用门槛,促进AI在零售领域的专业化应用与创新。
inclusionAI 发布了 ZwZ-2B 模型,这是一个拥有 20 亿参数的开源语言模型。该模型旨在通过开源和开放科学的方式推动人工智能的进步与民主化。其上下文处理长度扩展至 128K,并在多项基准测试中性能显著提升,特别是在代码生成和数学推理任务上表现出色。ZwZ-2B 的发布为研究者和开发者提供了一个更易获取的高性能 AI 工具。
Google 发布 Gemini 3.1 Flash-Lite,为 Gemini 3 系列中速度最快、成本效益最高的模型,面向大规模智能应用场景优化。
Apple 发布了搭载 M5 芯片的全新 MacBook Air,为这款全球最受欢迎的笔记本电脑带来卓越性能和扩展的 AI 能力。新款 MacBook Air 在性能上实现显著提升,并增强了人工智能相关功能,进一步巩固其在轻薄本市场的领先地位。
GGML 和 llama.cpp 团队正式加入 Hugging Face,以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp,保持 100% 技术自主权和社区领导力,项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源,助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成,实现近乎“一键式”的模型部署,并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈,推动开源超级智能的普及。
inclusionAI发布了ZwZ-8B模型,这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分,致力于让更广泛的社区能够访问和利用先进的AI技术。
inclusionAI 团队发布了 LLaDA2.1-flash 模型,致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升,响应延迟降低约40%,同时保持与前一版本相当的准确率。模型参数规模为70亿,支持多模态输入,并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛,促进更广泛的研究与产业落地。
inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿(30B),是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标,旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升,具体技术细节和基准测试结果有待进一步公布。
Transformers.js 发布第四个主要版本 v4,该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命,使开发者能够更便捷地获取并在项目中集成这一机器学习库。
美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8(8位浮点)精度格式,属于 Flash-Lite 轻量化系列,旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语,具体参数规模、基准测试成绩及技术细节有待进一步披露。
Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。
GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。
本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型,LiquidAI 推出性能被低估的 10 亿参数方案,Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮,多款重要产品即将面世。
美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。
GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。