端侧 AI 最新动态与精选 · AI HOT

Topic · 主题全部主题 →

端侧 AI

跑在手机、电脑与边缘设备上的 AI：小模型、本地推理与端侧芯片的进展。

1,327条收录

117条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1韩国将投入1万亿美元扩大存储芯片生产和发展人形机器人752 家源

7月1日

01:58

TechCrunch：AI（RSS）

精选72

Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘，可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式，如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构，默认不访问私人消息。公司获 530 万美元种子轮融资，由 BITKRAFT Ventures 领投，现已开放下载。

智能体 Google 产品更新端侧

推荐理由：Acti 想用 AI 代理重塑手机键盘，把 Gemini 塞进输入法，离不离开 App 都能用 AI 的思路很讨巧，但换键盘的阻力不小，目前更像一个有趣的试验品。刚拿到 530 万美元种子轮，有试错空间。

00:28

ClaudeDevs@ClaudeDevs

精选67

Claude Desktop 现已在 Linux（Ubuntu 和 Debian）上推出测试版。除了浏览器和终端，你现在可以在所有付费计划中获得一流的桌面体验，包括 Claude Code、Claude Cowork 和聊天。

Anthropic 产品更新端侧

推荐理由：Claude 桌面端终于来到 Ubuntu，补齐了 Linux 开发者工作流里缺失的一环，beta 状态不影响它与终端、浏览器的深度打通。

6月30日

04:26

OpenClaw🦞@openclaw

精选71

OpenClaw 现已登陆 iOS 和 Android 🦞 📱 原生移动应用，终于来了 💬 智能体装进口袋 🔔 频道、任务、回复，随时处理用你的大拇指，在任何地方运行智能体。 iOS： https://apps.apple.com/us/app/openclaw-ai-that-does-things/id6780396132 Android： https://play.google.com/store/apps/details?id=ai.openclaw.app

智能体产品更新端侧

推荐理由：OpenClaw 终于推出原生移动应用，智能体可以随时放进口袋，对已有用户是体验上的补完，但对新用户的吸引力可能有限。

02:35

Hacker News 热门（buzzing.cc 中文翻译）

精选75

Qwen 3.6 27B 是本地开发的理想选择

Qwen 3.6 27B 是一款密集参数本地大语言模型，原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版（含多 token 预测）可达 30 tokens/s；用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务，作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B，但作者推荐 27B 版本。

开源生态端侧评测/基准

推荐理由：一篇详实的 Qwen 3.6 27B 实战评测，从创意写作到代码生成都测了，还给出了 llama.cpp 部署命令和性能数据，想本地跑模型的开发者可以直接抄作业。

6月26日

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月24日

15:10

OpenBMB@OpenBMB

精选65

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

MLBoy_DaisukeMajima: 📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...

多模态开源/仓库端侧

推荐理由：社区把 MiniCPM-V 4.6 搬上 iPhone 17 Pro，跑出 51 tok/s，还给了代码和模型，做端侧多模态的可以直接跑起来了。

03:21

Hao AI Lab@haoailab

精选73

FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHub Hugging Face 模型发布端侧

推荐理由：单张 RTX 5090 上 1.8 秒生成 5 秒视频，把消费级延迟压到了‘即时生成’的临界点，做短视频和互动应用的开发者可以认真把这个模型放进技术栈。

6月23日

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

6月19日

08:16

IT之家（RSS）

精选76

八部门联合发文力推"人工智能 + 消费"，扩大 AI 手机电脑及智能网联汽车消费

商务部等8部门近日印发《关于加快“人工智能 + 消费”发展的实施意见》，从5方面提出17条举措。重点包括：扩大AI手机电脑、智能家居、智能网联汽车、智能穿戴、AI机器人等供给；推动AI与居家、养老、文旅、餐饮、教育等融合；促进AI在批发零售、电商、物流领域应用；建设集聚区和体验中心，开展产品租赁、共享、试用等模式创新；完善基础设施、标准体系和监管，推动互联互通。商务部将协同落实，促进AI进千家万户。

政策/监管端侧

推荐理由：我认为这份文件把AI消费提到了国家层面，手机、汽车、零售都要智能化，产品经理应该盯住后续的补贴和标准细则。

6月17日

12:50

Tomer Tunguz 博客（VC 分析）

精选62

5x for Free：本地编程栈

Hacker News 讨论揭示：Qwen 3.6 35B-A3B 模型提及率 33% 领先，27B 变体以 20% 紧随其后，DeepSeek Pro 与 Gemma4 31B 位列前四。Agent 工具中 Pi (49%) 与 OpenCode (45%) 占主导。用户对比称，Claude Opus 可带来 15 倍加速，而本地离线 Qwen 提供 5 倍加速，且完全免费、保护隐私。SWE-bench Verified 基准测试显示，Qwen 3.6 27B 得分 77.2%，35B-A3B 得分 73.4%，接近 Claude Sonnet 4.6 的 79.6%。MoE 架构使大模型在消费级硬件上高效运行。

现象/趋势端侧编码

推荐理由：本地模型在编码上正逼近云端前沿，Qwen 35B-A3B 已成社区标配，免费且完全离线让这场替代变得真实，选型逻辑可能从此改变。

6月13日

17:54

公众号：通义实验室（千问）

精选79

MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集，使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%，Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计，默认开启 SME2 加速。该模型为 4B 参数视觉语言模型，支持图文理解和对话，通过 MNN 官方已转换量化的模型可直接下载部署，开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由：这是一份硬核的端侧部署指南，实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%，做移动端 AI 的团队可以直接抄作业。

04:49

Hacker News 热门（buzzing.cc 中文翻译）

精选70

如何在macOS上设置本地编码代理

来自ikyle.me的教程，指导在macOS上搭建本地编码代理，获Hacker News社区104个点赞。

开源生态教程/实践端侧编码

推荐理由：这篇文章不是泛泛的「本地跑大模型」，而是给 Mac 开发者一个实测过的、能打的生产环境编码代理方案，尤其 MTP 加速让速度不再鸡肋，可以直接抄作业。

6月12日

10:34

IT之家（RSS）

精选75

苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局并增加导航栏。新增视觉智能营养识别，用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级，不提供精确卡路里，需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期，可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升，GymKit 扩展至 iPhone，无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由：视觉智能营养识别不能给精确卡路里，但那个“深度加工食品”提醒对普通人很实用，健康App这次更新算得上近年最有用了。

6月11日

09:09

Berryxia.AI@berryxia

精选76

mlx-vlm v0.6.3 上线，首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构：以 256 token 块为单位并行生成、双向注意力、迭代自纠错；26B MoE 仅激活 3.8B，量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE，仅激活 3B，BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持，可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

Prince Canuma: mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...

Google 产品更新端侧编码

推荐理由：Google 和 Cohere 新模型发布同日，mlx-vlm 就把它们塞进了 Mac 本地，DiffusionGemma 用扩散思路生成文本，量化后 18GB 就跑得动，属于本地党必跟的更新。

6月9日

21:00

公众号：火山引擎

精选69

全新汽车品牌AIVA发布，火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相，首款量产车AIVA ME7将于2026年内亮相，全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径，让汽车成为具身AI生命体。火山引擎副总裁表示，人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由：AIVA把「先有AI再有车」当作造车逻辑，火山引擎直接下场定义汽车AI体验，这是豆包大模型从软件跑到物理世界的第一次大规模试水，做具身智能和车载产品的人该仔细看看。

07:33

Hacker News 热门（buzzing.cc 中文翻译）

精选74

Apple Core AI 框架

一篇关于 Apple Core AI 框架的 Hacker News 帖子获得 109 个点赞。帖子内容包含一张苹果开发者 OG 图片和一个指向 Apple Core AI Framework 官方文档的链接（developer.apple.com）。该帖子由 buzzing.cc 中文翻译，发布于 2026 年 6 月 8 日 02:47（UTC）。

产品更新端侧

推荐理由：Apple 在 WWDC 上发布的本地 AI 框架，统一了 CPU、GPU、Neural Engine 的推理接口，做 iOS/macOS AI 应用的开发者必看，提前适配就能低成本用上设备端能力。

6月8日

17:53

公众号：通义实验室（千问）

精选67

Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent（如Qoder）自动完成Android端侧AI App开发全流程。Agent依次执行：检查并配置Android环境（JDK 21、NDK 27等）、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录，最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标，Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

关联讨论 1 条

推荐理由：这是一篇手把手教程，用 Agent 简化 Qwen3-VL Android 部署，对想试端侧 VL 的开发者实用，但绑定阿里生态，通用性有限。

6月7日

19:27

AYi@AYi_AInotes

精选78

"我在田里雇了一名工程师，它叫 Codex" -- 北海道一个西兰花农的 8 个真实 AI 用法

日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题，涵盖 8 个用法：拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及，“如同身边有一位超级工程师”。

OpenAI 教程/实践端侧部署/工程

推荐理由：一个北海道农民把 ChatGPT 和 Codex 用成了农场的‘外挂工程师’，从病害诊断到温室远程控制，每个用法都附原始提示词——农业从业者可以直接抄作业。

6月6日

00:38

Tomer Tunguz 博客（VC 分析）

精选68

AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理，仅复杂任务发往云端。智能体自动分类任务：简单任务本地数秒完成，复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%，平均任务时长从47秒降至19秒，队列等待时间从73秒降至4秒（降幅94%）。该模式类比Nucor小钢厂，每台能运行蒸馏模型的边缘设备都成为小型AI工厂，仅对那1/5困难任务支付云费用。未来几年，数以千万计的此类设备将在企业内部增殖，逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由：Tunguz 把自己 78% 的 AI 任务都挪到本地跑，吞吐量涨了 25%，延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚，做工作流自动化的值得细读。

6月5日

05:17

Hacker News 热门（buzzing.cc 中文翻译）

精选80

Meta 在智能眼镜上搭载人脸识别功能

Meta 为其智能眼镜产品推出了人脸识别功能，用户可通过眼镜识别他人身份，并获取相关信息。该功能目前正通过早期测试版本向部分用户开放，旨在增强增强现实设备的社交与信息交互能力。

Meta 现象/趋势端侧

关联讨论 1 条

推荐理由：Meta 把完整的人脸识别栈塞进了智能眼镜 App，这事一旦激活，公共场所的匿名性将被重新定义。作者的技术取证链条扎实，迫使 Meta 必须正面回应。

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

6月4日

14:51

MarkTechPost（RSS）

精选71

Meet OpenJarvis：一个本地优先的设备端个人AI智能体框架，支持工具、记忆与学习

Stanford 研究人员发布 OpenJarvis，一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语：Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内，边际 API 成本降低约 800 倍。

智能体产品更新开源生态端侧

推荐理由：斯坦福这个框架把云端模型能力拉到本地，成本降了800倍，所有想做离线个人助理的开发者该试试看，开源实现比PPT有说服力。

00:42

HuggingFace Daily Papers（社区热门论文）

精选76

Ultralytics YOLO26：统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理，彻底移除 DFL，获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类，提供 5 种尺度（n/s/m/l/x）及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP，T4 TensorRT 延迟 1.7–11.8 ms；YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由：这次YOLO26把NMS和DFL都拿掉了，还把大模型训练的Muon优化器改成MuSGD，在COCO上的速度精度平衡比上一代强不少，做实时检测的应该拿来跑一跑。

6月3日

07:02

Satya Nadella@satyanadella

精选74

通过Project Solara，我们正在构建一个专为智能体优先设备打造的新平台。很高兴能与@cristianoamon和@Qualcomm合作！

Cristiano R. Amon: We're shifting from apps and operating systems to agents, and that changes the device experience end to end. Great conve...

智能体 Microsoft 产品更新端侧

推荐理由：微软和高通联手搞了个 Agent 优先的硬件平台 Project Solara，这标志着 AI 竞赛正式从模型卷到了设备，以后什么是智能终端可能要被重新定义。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

17:07

IT之家（RSS）

精选71

SK会长崔泰源：SK海力士计划未来五年内晶圆产能翻倍

SK海力士会长崔泰源宣布，计划在未来五年内将整体晶圆产能提高一倍，以应对AI普及带来的持续存储供应短缺。他预测AI数据中心和AI PC的普及将持续拉动存储需求，供需紧张局面可能延续至2030年。SK海力士将投入大规模资金用于设备、建设等扩张，尽管面临前置时间长（新建晶圆厂至少三年）和资源成本上涨等挑战。目前，SK海力士市值已首次突破1万亿美元。

端侧行业动态

推荐理由：存储龙头亲手确认产能翻倍且短缺持续到2030年，这个判断比任何市场预测都有分量，做AI基础设施和端侧产品的可以据此调整供应链预期。

6月1日

02:16

Hacker News 热门（buzzing.cc 中文翻译）

精选72

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源/仓库模型发布端侧

推荐理由：端侧图像生成终于进入可用阶段，把 4B 模型压到 iPhone 能跑而且性能保留 95%，做本地 AI 应用的产品人应该认真看一眼。

00:15

Hacker News 热门（buzzing.cc 中文翻译）

精选70

我花200英镑把一台数据中心级GPU装进了我的游戏电脑

一名用户以200英镑的价格购入了一块数据中心级GPU，并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。

教程/实践端侧部署/工程

推荐理由：一个200英镑的二手 V100 加适配器，就让游戏电脑用上了 32GB 显存，跑 Qwen3.6-27B 达到 32 tok/s，噪音问题也解决了。对于想低成本本地跑大模型的人，这篇 DIY 手记很实用。

5月31日

10:24

IT之家（RSS）

精选72

6000 多公里全程零干预：特斯拉 FSD 完成全球首次横穿加拿大自动驾驶

一辆特斯拉汽车搭载 FSD V14.3.3 版本软件，完成了全球首次全程零人工干预、横穿加拿大的自动驾驶行程。车辆从温哥华出发，历时 4 天 21 小时，行驶 3760 英里（6051 公里）抵达哈利法克斯，全程所有驾驶操作（包括高速并线、应对复杂路况与自动泊车）均由系统自主完成，无任何系统退出或人工修正。该版本随 2026.14.6.6 更新推送，整合了春季软件功能。

端侧行业动态

推荐理由：车主自己跑的6千公里零干预记录，比任何官方demo都实在。零接管、过施工、全自动泊车，FSD这个能力信号，对自动驾驶行业是颗定心丸。

05:43

Simon Willison 博客

精选73

在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers，但无法执行 <script> 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发，解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示，并计划后续将此方法应用于升级 Datasette Lite。

GitHub 教程/实践端侧部署/工程

推荐理由：Simon Willison 用 Service Worker 让 Python ASGI 在浏览器里真正跑了起来，这个技巧补上了 Datasette Lite 长期缺的 JS 执行能力，搞 Pyodide 的值得看看。

02:34

AYi@AYi_AInotes

精选75

NVIDIA 或将于六月发布整合 Blackwell GPU 与 AI 单元的 ARM 笔记本芯片 N1X

NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标，暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元，目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变：从显卡供应商，转型为定义整机核心方案的提供商，将直接冲击 Intel、AMD 和高通在 PC 市场的地位。

NVIDIA: A new era of PC. 25.0528, 121.5990

大佬观点端侧

推荐理由：三家巨头同发三个词和一个坐标，这比芯片参数更值得嗅的信号是，NVIDIA要从装空调的变成盖房子的，Windows 阵营的 Intel inside 可能真要换标了。

5月30日

05:40

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由：Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

5月29日

17:44

公众号：通义实验室（千问）

精选64

通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

通义实验室发布教程，演示如何在 Android 手机上部署 MCP 感知服务器，使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型（约 1.3GB），摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON，再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据，仅传输语义提取结果。项目已开源，实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由：如果你做Agent总觉得AI对物理世界是瞎子，这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛，不传原始视频只给结构化文字，隐私友好又能被Claude直接调用。

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

5月28日

11:35

公众号：面壁智能（MiniCPM）

精选61

PilotDeck 开源：以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck，以 WorkSpace（工作舱）替代传统对话框，每个工作舱拥有独立文件系统、记忆和技能，实现项目隔离。三大核心能力：记忆白盒化，全链路可见可控，支持一键修改和回滚；智能路由，自动识别任务难度动态分配模型，开启后成本节省近 70%，复杂任务仅用 1/6 成本即可反超顶级模型方案；Always-on 常驻任务，AI 主动发现并持续推进工作。支持端云协同，可调用端侧模型作为子 Agent，自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由：PilotDeck把Agent从对话框解放进「工作舱」，记忆可见、成本锐减、能无人值守运行。已开源，值得所有被多任务折磨的开发者试试。

01:34

Google Research：Blog（网页）

精选70

通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google 安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

5月26日

14:11

IT之家（RSS）

精选76

面壁智能开源 MiniCPM5-1B：在 AA-Index 上超越所有 2B 参数以下模型，能跑在手机、浏览器上

面壁智能开源其新一代端侧大语言模型MiniCPM5-1B。该模型仅1B参数，在AA-Index榜单上超越所有2B参数以下模型，相比3个月前的Qwen3.5-2B效果更优且参数量减半。经INT4量化后权重仅0.5GB，支持在手机和浏览器上运行。其Base Model版本由面壁智能自主研发的AI训练框架ForgeTrain预训练完成，现已全面开源模型权重、训练数据集与部署方案。

开源生态模型发布端侧

推荐理由：1B参数干翻所有2B以下模型，量化后0.5GB就能塞进手机和浏览器，这个效率把端侧模型的门槛又压低了，做移动端AI的值得跟进。

5月25日

13:11

IT之家（RSS）

精选77

华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究

关联讨论 2 条

推荐理由：华为用‘逻辑折叠’替代光刻进步，在不依赖新工艺下实现代际性能提升，这是中国芯片行业的一个技术转折，做硬件和AI推理的值得仔细看看。

5月22日

22:56

Rohan Paul@rohanpaul_ai

精选75

首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布

ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN，这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术，使模型内存占用相比BF16降低约6倍，可高效部署于手机、电脑、车载设备等边缘端。更关键的是，整个训练全栈（从量化算子到框架）均在昇腾上原生构建与验证，而非简单移植。该模型家族（0.5B-8B）在多项基准测试上保持了全精度模型95-97%的性能，为资源受限环境下部署和复现大模型提供了可落地的解决方案。

OpenBMB: 🚀 BitCPM-CANN by ModelBest × @Tsinghua_Uni × OpenBMB is here - and it's not about stacking parameters. Memory costs are...

开源/仓库模型发布端侧

关联讨论 1 条

推荐理由：首个开源的1.58-bit三元LLM，直接在昇腾芯片上原生训练，内存压缩到BF16的六分之一，8B模型就能跑在手机上，做端侧部署的可以立刻上手试试了。

00:33

Google Developers Blog（RSS）

精选75

推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API，使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制，迈向能够理解情境并实时响应用户需求的AI原生智能家居。

Google 产品更新多模态端侧

推荐理由：Google 把 Gemini 塞进智能家居，直接给硬件商和 ISP 提供交钥匙方案，这一步可能比 Nest 当年更有侵略性，做智能家居的得留意了。