7月2日

22:00

公众号：面壁智能（MiniCPM）

面壁智能入选2025北京市数字经济标杆企业，以端侧AI夯实数实融合底座

面壁智能于7月2日入选“2025北京数字经济标杆企业”榜单，因在端侧大模型领域的技术创新与产业落地成果获认可。其MiniCPM系列模型全球下载量突破3600万次，端侧AI技术已在汽车、智能手机、AI PC、智能家居等领域实现规模化落地。面壁智能率先提出“密度定律”推动模型能力密度攀升，致力于让大模型从云端走向终端，成为可部署、可交付的产业能力。

端侧行业动态

02:32

Google Blog：AI（RSS）

Google 2026年6月AI更新汇总

Google在6月发布多项AI更新：推出Gemini 3.5 Live Translate实时语音翻译；

Google 多模态模型发布端侧

6月26日

20:00

公众号：面壁智能（MiniCPM）

面壁智能亮相链博会，展示端侧AI全链能力

面壁智能在第四届链博会上展示端侧AI全链能力，涵盖模型研发、芯片适配、终端部署到产业应用和生态协同。以“密度定律”提升单位参数智能密度，已围绕高效模型、端侧推理、软硬协同、多模态交互形成系统能力，完成多类主流芯片适配。现场展出智能体平台PilotDeck，可根据任务难度自动调度模型、控制推理成本，并能挂载端侧模型处理隐私敏感任务。面壁智能正与芯片、终端、行业伙伴共同推动端侧AI在汽车、手机、PC、机器人等设备上规模化落地。

端侧行业动态部署/工程

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月25日

15:30

公众号：面壁智能（MiniCPM）

面壁智能亮相MBBF：李大海称端侧智能是AI走向物理世界必经之路

面壁智能联合创始人兼CEO李大海在MBBF Top Talk Summit上指出，端侧智能是AI迈向物理世界的必经之路，未来2至3年将迎来能力跃升与场景迁移两大重构。端侧智能需满足实时响应、隐私安全、离线可用三大约束，搭载面壁量产级多模态模型的智能座舱已实现不依赖云端的“感知-记忆-推理-执行”闭环。他强调端云协同是规模化落地的关键，近期推出的MiniCPM5-1B模型以两百分之一参数规模逼近两年前GPT-4o水平，证明小模型可承载高密度智能。

大佬观点端侧

6月24日

01:10

Meta Engineering Blog（RSS）

Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低，Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降，并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh，但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题，而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Meta 教程/实践端侧

6月23日

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

6月18日

18:30

公众号：百度智能云（文心）

百度智能云联合十家伙伴，推动AI能力落地手机、PC、玩具、眼镜等硬件

百度智能云宣布与荣耀、vivo、OPPO、灵优智学、利尔达等十家伙伴合作，在手机、AI PC、芯片模组、AI玩具、AI眼镜等场景接入文心大模型、千帆及DuMate等能力。荣耀YOYO智能体接入文心大模型实现端云协同；vivo基于千帆7天搭建高考智能体，高峰日支撑10万次交互；OPPO用千帆搭建售后客服智能体，高频问题处理效率提升一倍；利尔达将AI集成至模组，端到端响应低于2秒；灵优智学实现1.3秒首响延迟。百度智能云已支持超1000款AI硬件爆品。

多模态端侧行业动态

17:50

公众号：面壁智能（MiniCPM）

面壁智能CTO曾国洋入选2026 Under36榜单

面壁智能联合创始人兼CTO曾国洋入选36Kr暗涌Waves 2026年度「36 Under 36」名册，同批入选者包括宇树科技王兴兴、腾讯姚顺雨、小米罗福莉等。榜单聚焦技术驱动的产业革新力量。曾国洋参与推动端侧大模型技术研发，以“密度法则”为范式构建全栈大模型技术体系。目前，面壁小钢炮MiniCPM端侧大模型全平台下载量突破3000万，已在汽车、智能手机、AIPC、智能家居等领域规模化落地。

端侧行业动态

11:20

公众号：京东JoyAI

京东 JoyInside 孵化"小龙 AI 魔法益智打印机"30天上架，618开门红4小时销量环比增长17倍

京东 JoyInside 硬件创新大赛孵化的“小龙 AI 魔法益智打印机”在618开门红4小时内预售销量环比增长17倍。该产品从参赛Demo到正式上架仅用30天，集故事机、聊天机器人、打印机、学习机于一体，支持儿童语音对话生成贴纸、涂色线稿等。依托京东自研JoyAI大模型，设备能理解儿童模糊指令并主动追问引导。京东从技术优化、供应链量产到流量渠道全面赋能，开门红52小时JoyInside已上线近百款新品，接入该技术的AI家电家居新品成交额环比增长200%。

端侧行业动态

6月17日

12:50

Tomer Tunguz 博客（VC 分析）

精选62

5x for Free：本地编程栈

Hacker News 讨论揭示：Qwen 3.6 35B-A3B 模型提及率 33% 领先，27B 变体以 20% 紧随其后，DeepSeek Pro 与 Gemma4 31B 位列前四。Agent 工具中 Pi (49%) 与 OpenCode (45%) 占主导。用户对比称，Claude Opus 可带来 15 倍加速，而本地离线 Qwen 提供 5 倍加速，且完全免费、保护隐私。SWE-bench Verified 基准测试显示，Qwen 3.6 27B 得分 77.2%，35B-A3B 得分 73.4%，接近 Claude Sonnet 4.6 的 79.6%。MoE 架构使大模型在消费级硬件上高效运行。

现象/趋势端侧编码

推荐理由：本地模型在编码上正逼近云端前沿，Qwen 35B-A3B 已成社区标配，免费且完全离线让这场替代变得真实，选型逻辑可能从此改变。

06:13

Midjourney：Updates（RSS）

Midjourney 将于明天直播揭晓首个秘密硬件项目

Midjourney 将在明天（美国太平洋时间下午6点）通过 Discord 和 X 平台直播，首次公开其秘密硬件项目。该项目被描述为“雄心勃勃、物理尺寸巨大且出人意料”。具体细节尚未公布。

产品更新图像生成端侧

6月13日

21:30

公众号：面壁智能（MiniCPM）

面壁智能李大海：全栈突破×场景落地，端侧AI加速AGI征程

面壁智能李大海在智源大会上表示，端侧智能是实现物理世界AGI的必由之路。MiniCPM端侧模型已落地汽车（长安马自达、吉利等）、手机、AIPC、具身智能、智能家居等领域。公司开源发布周展示全栈技术：UltraData数据治理体系、MiniCPM5-1B模型以1/200参数逼近两年前GPT-4o、ForgeTrain框架对比英伟达Megatron节省10%资源、BitCPM-CANN在国产算力跑通三值训练（推理节省6倍内存）、开源PilotDeck多智能体操作系统。面壁选择全栈开源，共建端侧生态。

具身智能大佬观点开源生态端侧

17:54

公众号：百度智能云（文心）

泰芯与百度智能云合作打造AI硬件端云一体化方案

泰芯半导体与百度智能云合作，为AI硬件提供端侧芯片与云端大模型能力。泰芯TXW81X系列低功耗多模音视频AI SoC已对接百度文心大模型和DeepSeek，全球首发TXW82X三模芯片（Wi-Fi/BLE/星闪），支持高清音视频低时延传输。百度智能云将千帆词元工厂、驾驭工程及多模态实时音视频RTC打包为即插即用的云端AI能力。双方已在AI拍学机、AI打印机、儿童对讲机等终端落地低延时语音交互、多模态识别等功能。泰芯年出货芯片突破1亿颗，AI品类占比近50%，同等规格方案价格低20%-30%。

端侧行业动态

17:54

公众号：通义实验室（千问）

精选79

MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集，使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%，Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计，默认开启 SME2 加速。该模型为 4B 参数视觉语言模型，支持图文理解和对话，通过 MNN 官方已转换量化的模型可直接下载部署，开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由：这是一份硬核的端侧部署指南，实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%，做移动端 AI 的团队可以直接抄作业。

17:54

公众号：面壁智能（MiniCPM）

面壁智能在2026北京智源大会展示端侧AI全栈技术

6月12日，面壁智能在2026北京智源大会上展示端侧AI全栈技术。MiniCPM5-1B以1B参数在AA-Index上超越所有2B以下模型，相比Qwen3.5-2B效果更优且参数量减半，由全球首个完全AI编写的预训练框架ForgeTrain完成，训练速度比英伟达Megatron快10%。BitCPM-CANN是国内首个基于华为昇腾端到端训练并开源的三值（1.58-bit）大模型，推理阶段释放约6倍显存红利。面壁智能联合北京智源人工智能研究院、OpenBMB发起「智能体+硬件创新加速孵化器」，单项目最高500万综合投资。

具身智能端侧行业动态

6月11日

19:10

公众号：京东JoyAI

为卫浴装上"AI大脑"，JoyInside×惠达AI卫浴套系6月17日重磅开售

京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”，含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型，设备支持语音控制、模糊语义理解、连续多轮对话及方言识别，可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售，6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作，预计年内接入超千万终端设备。

产品更新端侧语音

6月10日

17:50

公众号：百度智能云（文心）

利尔达与百度智能云合作，将AI能力集成至模组

物联网模组厂商利尔达（蜂窝模组出货量全球第四）与百度智能云合作，将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒，休眠功耗低至3µA，支持多语言出海，并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业，覆盖国民级终端、全场景智能及AI原生硬件。

端侧行业动态语音

6月9日

21:00

公众号：火山引擎

精选69

全新汽车品牌AIVA发布，火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相，首款量产车AIVA ME7将于2026年内亮相，全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径，让汽车成为具身AI生命体。火山引擎副总裁表示，人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由：AIVA把「先有AI再有车」当作造车逻辑，火山引擎直接下场定义汽车AI体验，这是豆包大模型从软件跑到物理世界的第一次大规模试水，做具身智能和车载产品的人该仔细看看。

05:15

Apple Machine Learning Research（RSS）

同事件精选79

苹果发布第三代 Apple Foundation Models（AFM）

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能，包括全新 Siri 和智能工具，以用户为中心深度融合操作系统，隐私为核心设计原则。

Google 多模态模型发布端侧

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：Apple与Google罕见联手推出的第三代基础模型，直接为下一代Siri和系统级AI功能铺路，标志着消费级AI的深度整合，产品经理和iOS开发者必须关注。

03:14

Apple：Newsroom（RSS）

同事件精选66

Apple 推出 Siri AI：由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI，一款由 Apple Intelligence 驱动的个人助理，具备个人上下文、世界知识和屏幕感知能力，能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：苹果对 Siri 的这次重构不是简单地换个模型，它把个人上下文、屏幕感知和视觉智能实际嵌进了系统，对普通用户来说日常交互方式可能要变。

6月8日

18:00

公众号：通义实验室（千问）

同事件精选68

Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

同一事件，精选展示《Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理》

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。

17:53

公众号：通义实验室（千问）

精选67

Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent（如Qoder）自动完成Android端侧AI App开发全流程。Agent依次执行：检查并配置Android环境（JDK 21、NDK 27等）、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录，最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标，Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

推荐理由：这是一篇手把手教程，用 Agent 简化 Qwen3-VL Android 部署，对想试端侧 VL 的开发者实用，但绑定阿里生态，通用性有限。

6月6日

00:38

Tomer Tunguz 博客（VC 分析）

精选68

AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理，仅复杂任务发往云端。智能体自动分类任务：简单任务本地数秒完成，复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%，平均任务时长从47秒降至19秒，队列等待时间从73秒降至4秒（降幅94%）。该模式类比Nucor小钢厂，每台能运行蒸馏模型的边缘设备都成为小型AI工厂，仅对那1/5困难任务支付云费用。未来几年，数以千万计的此类设备将在企业内部增殖，逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由：Tunguz 把自己 78% 的 AI 任务都挪到本地跑，吞吐量涨了 25%，延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚，做工作流自动化的值得细读。

6月5日

20:54

公众号：面壁智能（MiniCPM）

面壁智能推出端侧座舱产品SuperMate，基于MiniCPM-o4.5全双工大模型

6月4日，面壁智能在高通汽车技术与合作峰会上推出端侧智能座舱产品矩阵SuperMate。该产品基于MiniCPM-o4.5全双工全模态大模型，实现多源感知、融合决策与精准执行的全链路端侧处理。采用意图驱动与思维链自主编排，引入L1-L5记忆分层机制和动态信任窗口，支持打断与情绪调节。目前SuperMate已量产交付超30万台车辆，覆盖68个场景，无需依赖云端。面壁智能通过低比特量化与知识蒸馏降低算力需求，推动端侧AI规模化装车。

端侧行业动态

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

6月4日

18:25

公众号：面壁智能（MiniCPM）

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

00:07

Google Developers Blog（RSS）

在笔记本电脑上运行 Gemma 4 12B：借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行，支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化，通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外，LiteRT-LM CLI 新增 serve 命令，可创建行业兼容的本地端点，驱动完全本地的 AI 工具和智能体。

智能体 Google 产品更新多模态

关联讨论 7 条

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

15:47

公众号：面壁智能（MiniCPM）

AI构筑"新丝路"，面壁智能以端侧AI赋能"一带一路"数字合作

面壁智能CEO李大海近日在中吉媒体合作论坛上指出，中亚可成为数字丝绸之路智能枢纽，需提供低成本、可落地、可信赖的AI能力。公司自研MiniCPM系列大模型累计下载突破3000万次，已在汽车、智能手机等领域落地。面壁智能曾参与老挝国家大模型建设，打造的老挝语翻译模型在专业评测中超越GPT-4o，并训练融入本土文化的大模型，设计低成本多模型联合推理方案。李大海提出AI应成为普惠基础设施，合作需从概念转向实体落地。面壁智能已跑通“主权大模型”全链路技术路径，形成可全球复用的智能底座。

大佬观点开源生态端侧

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。