5月28日

01:34

Google Research：Blog（网页）

精选70

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google 安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

5月27日

19:50

公众号：面壁智能（MiniCPM）

面壁智能发布 MiniCPM5-1B 端侧基座模型，FlagOS 完成云到端跨芯片 Day-0 适配

5月25日，面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分，超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB，可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配，覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧，支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线；平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。

开源生态教程/实践端侧

5月26日

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B，一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分，超越所有2B以下参数模型，包括Qwen3.5-2B（16.3分），验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB，可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain（全球首个完全由AI编写，训练速度比Megatron快10%）在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案，支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face 开源生态推理模型发布

5月25日

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN，实现6倍显存效率提升，可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧

5月22日

00:33

Google Developers Blog（RSS）

同事件精选63

发布 Kotlin版ADK与Android版ADK 0.1.0：在Android及其他平台构建AI Agent

Google发布了面向开发者的新工具包：Kotlin版ADK与Android版ADK 0.1.0。这两个工具包旨在帮助开发者构建AI Agent。其中，Kotlin版ADK将代理工作流引入后端项目开发；Android版ADK则专注于移动端应用，提供了构建AI代理所需的特定功能。此次发布为开发者提供了在Android生态及更广泛平台创建AI应用的官方工具基础。

智能体 Google 产品更新端侧

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 首次为 Android 推出端侧多 agent 开发框架，虽然还只是 0.1 版，但端云混合编排的思路已清晰，移动开发者可以提前踩坑了，这是端侧 AI 应用爆发前的一个信号。

00:33

Google Developers Blog（RSS）

精选75

推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API，使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制，迈向能够理解情境并实时响应用户需求的AI原生智能家居。

Google 产品更新多模态端侧

推荐理由：Google 把 Gemini 塞进智能家居，直接给硬件商和 ISP 提供交钥匙方案，这一步可能比 Nest 当年更有侵略性，做智能家居的得留意了。

5月21日

17:26

公众号：面壁智能（MiniCPM）

面壁智能 x OpenBMB 端侧大模型开源周，即将来袭！

开源生态端侧行业动态

5月20日

04:25

Google Developers Blog（RSS）

使用LiteRT-LM在设备上实现闪电般的快速生成式AI

Google AI Edge推出LiteRT-LM引擎，为跨平台移动和边缘设备提供高度优化的基础设施，支持Gemma 4模型在设备端运行。通过内存高效动态加载和多令牌预测技术，实现高达2.2倍的速度提升，并集成思维模式、约束解码等高级工具。同时，该引擎正扩展至Apple生态，新增原生Swift API和WebGPU加速的JavaScript API，支持高性能浏览器端推理。

Google 产品更新多模态端侧

04:25

Google Developers Blog（RSS）

精选65

更智能的 Google AI Edge Gallery：MCP 集成、通知和会话连续性

Google AI Edge Gallery 应用在安卓平台上扩展了设备端 AI 能力，通过引入对开源模型上下文协议（MCP）的实验性支持，使得 Gemma 4 模型能够协调处理跨 Google Workspace 和 Google Maps 等外部数据源的复杂任务。此次更新添加了“定时通知”技能，用于实现日常事务的自动化管理，并新增了持久化聊天记录功能，允许用户近乎即时地恢复长会话上下文。该平台依托开源工具包，积极鼓励社区开发者通过其 GitHub 仓库构建并分享专注实用的工作流、提示配置与工具集成。

Google MCP/工具产品更新端侧

推荐理由：MCP 终于跑在 Android 设备上了，虽然是实验性支持，但 Gemma 4 能直连 Workspace 和 Maps，做自动化的开发者可以上手试试。

03:25

Google Developers Blog（RSS）

精选69

Google Tensor ML SDK 测试版发布

Google Tensor ML SDK 进入测试版，支持开发者直接在 Pixel 10 设备的 TPU 上构建和部署高性能机器学习模型。该 SDK 集成边缘部署框架 LiteRT，提供统一工作流，可高效转换、编译并运行 PyTorch 或 TFLite 模型，并具备稳定回退机制。此外，新推出的模型库包含超过 100 个经典及生成式 AI 模型（如 Gemma 3），支持低延迟、注重隐私的语音识别、计算机视觉与文本生成等功能。

Google 产品更新端侧

推荐理由：Google 把 TPU 塞进了 Pixel 10，现在开发者能直接在手机上跑 Gemma 3 了，这是移动端 AI 从「能用」到「好用」的关键一步，做 app 的值得关注。

5月19日

20:07

Apple：Newsroom（RSS）

精选57

苹果发布全新辅助功能，并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜（Magnifier）和语音控制（Voice Control）功能引入了新的能力，旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由：Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助，是不错的方向，但全是远期承诺，现在还不能上手。

19:02

公众号：面壁智能（MiniCPM）

面壁智能WAIDE：端侧AI在多行业实现场景突破

面壁智能的端侧AI平台WAIDE已在多个行业实现场景落地，推动AI应用从云端向终端延伸。

端侧行业动态

16:30

公众号：通义实验室（千问）

30W奖池已就位！手机上的创意AI挑战赛，等你瓜分

端侧行业动态

5月18日

19:31

公众号：面壁智能（MiniCPM）

面壁智能：智能座舱的尽头是一个真正"懂你"的 Agent

面壁智能发文指出，智能座舱的最终形态是一个真正“懂你”的 AI 智能体（Agent）。

智能体现象/趋势端侧

5月15日

00:08

Google Developers Blog（RSS）

精选63

加速设备端AI：Arm与Google AI Edge的优化实践

Arm第二代可扩展矩阵扩展（SME2）与Google AI Edge软件栈集成，将CPU转变为强大的矩阵计算加速器，从而实现高性能的设备端生成式AI。本文以Stability AI的“stable-audio-open-small”模型为例，阐述了利用LiteRT、XNNPACK和KleidiAI构建的“转换、优化、部署”自动化硬件加速流程。该方案在基于Arm架构的移动设备和笔记本电脑上，成功实现了音频生成速度提升2倍以上、内存使用减少4倍的显著效果，同时确保了高音频质量。这一集成方案为在资源受限的边缘设备上高效运行复杂AI模型提供了有效路径。

Google 教程/实践端侧部署/工程

推荐理由：Google 和 Arm 在设备端 AI 上的联合优化案例很具体，给了开发者一套可复制的流程，2x 加速和 4x 内存节省对于做移动端生成式 AI 的人来说值得动手试一下。

5月14日

14:02

公众号：豆包（字节）

豆包输入法上新，可以在电脑上语音打字了

产品更新端侧语音

03:18

Tomer Tunguz 博客（VC 分析）

精选59

The 6 Messages That Actually Matter

知识工作者平均每天收到121封邮件，传统收件箱处理模式难以为继。未来邮件处理将转向高度个性化与自动化：用户能用自然语言定义处理规则，实现收据自动转发、销售线索自动录入CRM等流程。所有历史邮件将构成个人上下文层，为AI处理新邮件提供背景信息，敏感信息则由设备端模型进行私密处理。最终，收件箱本身将消失，真正重要的信息可能浓缩至仅6条。

智能体大佬观点端侧

推荐理由：Tunguz 描绘了一个让收件箱消失的未来，关键是那 6 条真正重要的消息如何被 AI 接管，做产品的人可以把这个当成工作流重构的思考起点。

5月13日

11:45

公众号：面壁智能（MiniCPM）

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

5月12日

14:22

公众号：火山引擎

乐橙×火山引擎：给安防注入AI能力，让监控从"被动记录"进化为"主动思考"

多模态端侧行业动态

03:18

Tomer Tunguz 博客（VC 分析）

精选67

本地模型处理半数日常任务，响应速度优于云端

一项为期五周的实验发现，在总计约1400项日常工作任务中，约50%可由本地35B参数模型（如Qwen 3.6 35B）成功处理，涵盖邮件、日程、总结和行政事务等类别。性能对比显示，本地模型在常规代理任务上的平均响应时间为2.8秒，比云端Claude Opus 4.5快2.1倍，尽管后者在复杂推理上仍领先约20%。本地模型输出更简洁，云端模型则在结构和代码规范性上更优。随着本地模型性能提升，将计算负载转向本地以应对云端成本已成为必然趋势。

大佬观点推理端侧

推荐理由：Tunguz用数据告诉你，本地35B模型延迟只有Opus的一半且能完成半数任务，对极致追求响应速度的产品思路冲击很大，本地优先可能会从边缘变成主流。

5月11日

03:43

Hugging Face：Blog（RSS）

精选74

MachinaCheck：基于AMD MI300X构建多智能体CNC可制造性分析系统

MachinaCheck是一款基于多智能体AI的系统，旨在革新小型CNC机加工车间的报价分析流程。传统上，车间经理需花费30-60分钟手动分析图纸，而该系统在上传STEP文件及材料、公差等简单输入后，能在30秒内生成完整的可制造性报告，明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型，利用192GB HBM3显存确保客户设计数据无需离开本地，满足了制造业对数据隐私的严格要求。系统采用五组件流水线，结合精确的几何特征提取与LLM的制造知识推理，最终输出结构化报告。

智能体 Hugging Face 开源/仓库端侧

推荐理由：虽然是hackathon项目，但用多Agent做CNC可行性分析，把推理全压在本地AMD显卡上保护图纸隐私，还给了可跑的代码和Space，制造业AI落地就该这么直接。

5月9日

02:34

Hugging Face：Blog（RSS）

CyberSecQwen-4B 发布：防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型，在 CTI-Bench 上以半参数（4B vs 8B）对标 Cisco Foundation-Sec-Instruct-8B：CTI-MCQ 得分 0.5868，领先 8.7 个百分点；CTI-RCM 得分 0.6664，保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU，训练使用 AMD Instinct MI300X，LoRA 微调（r=64, lr=5e-5），数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答，以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face 安全/对齐开源生态模型发布

5月8日

01:30

Apple Machine Learning Research（RSS）

精选69

实用学习型图像压缩的关键要素

学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化，但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择，旨在填补这一空白，探索在感知质量与运行效率间的联合优化方案，并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法，为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。

端侧论文/研究

推荐理由：Apple 这篇调研把感知质量和运行效率同时拉进实做框架，做 codec 或端侧推理的人值得认真读一下。

5月7日