4月20日

19:28

IT之家（RSS）

华为于4月20日发布Pura 90系列旗舰手机及全场景新品。Pura 90系列搭载麒麟9030S处理器，图像理解能力提升200%，整机性能提升25%。Pro Max配备2亿像素超大底长焦传感器，Pro版搭载5000万像素十档可变光圈主摄，全系采用6.6-6.9英寸直屏并搭载HarmonyOS 6.1。同期推出行业首款横向阔折叠Pura X Max，以及WATCH FIT 5、AI眼镜、MateBook 14鸿蒙版等多款生态产品。

产品更新端侧

19:07

Hacker News 热门（buzzing.cc 中文翻译）

OpenClaw可骗不了我。我还记得MS-DOS

技术社区热议OpenClaw项目，其构建免费、安全、始终在线的本地AI代理的方案在Hacker News上获106个赞。帖子标题"OpenClaw可骗不了我。我还记得MS-DOS"将现代AI工具与MS-DOS时代的简洁性对比，表达对技术复杂性的警惕。该方案强调本地部署的隐私保护与持续可用性。

智能体开源/仓库端侧

18:30

IT之家（RSS）

内存价格上涨成本扛不住：华为余承东称手机定价压力较大，后期可能涨价

华为发布Pura 90系列及Pura X Max等新机，余承东现场表示受内存价格上涨影响，新手机定价压力较大，成本上涨明显，后期可能涨价。此前OPPO、vivo、小米等安卓厂商已于3月至4月陆续调整部分产品价格。业内人士称，AI算力需求爆发叠加供应链控产等因素推动内存价格持续走高，苹果正高价扫货移动DRAM进一步挤压竞争对手备货空间。

端侧行业动态

17:53

IT之家（RSS）

小米澎湃 OS 3 超级小爱、CarWith、文件管理等海量功能升级

小米澎湃OS 3发布多项功能升级。超级小爱新增三指上滑触发"小爱记忆"及气泡上岛功能；CarWith支持经典桌面自定义布局、小米超级岛显示及Carlink极简小窗模式；文件管理新增桌面文件夹快捷方式及远程访问功能；小米智能卡支持接收iPhone分享的卡钥匙。此外，短信新增验证码轰炸拦截，时钟新增计时结束振动提醒。

智能体产品更新端侧

17:28

IT之家（RSS）

官网揭秘：华为 Pura 90 标准版手机搭载麒麟 9010S 处理器

华为在Pura系列发布会上推出Pura 90系列手机。其中Pro和Pro Max版本搭载全新麒麟9030S处理器，该芯片NPU图像理解能力提升200%，AI ISP色彩引擎提升43%，长焦视频清晰度提升110%，防抖精度提升30%。标准版则搭载麒麟9010S处理器，该芯片此前已用于nova 15 Ultra，相较上代产品整机性能提升18%。

多模态端侧行业动态

17:27

IT之家（RSS）

华为 MateBook 14 鸿蒙版实拍：高颜值"小圆本"登场

华为 MateBook 14 鸿蒙版于4月20日发布，为首款全面搭载鸿蒙操作系统的轻薄本。该机配备14.2英寸2.8K OLED云晰柔光屏，支持120Hz刷新率与100% sRGB/P3广色域，可减少99%环境干扰光。机身采用波点圆键盘设计与追色工艺，提供原野绿、樱粉金、深空灰三色。接口涵盖双USB-A、USB-C及HDMI。内置智慧助手"小艺"支持慧记、深度解题等AI功能，针对办公与学习场景全面提效。

智能体产品更新端侧

17:02

IT之家（RSS）

"何刚同款"华为 AI 眼镜发布，2499/2899 元

华为AI眼镜正式发布，提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框，售价2499元起，将于4月25日开售。产品采用轻量化设计，镜架仅重35.5克，镜腿薄至6.25毫米，基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片，支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能，综合续航达12小时，支持连续8小时通话或9小时音乐播放。

产品更新端侧语音

13:37

Hacker News 热门（buzzing.cc 中文翻译）

Show HN：使用 Gemma 4 E2B 在浏览器中运行 Prompt-to-Excalidraw 演示（3.1GB）

开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示，支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行，借助 E2B 沙箱环境实现前端 AI 推理，无需后端服务器支持。项目在 Hacker News 获得 101 个赞。

Google 图像生成开源/仓库端侧

4月19日

23:07

Hacker News 热门（buzzing.cc 中文翻译）

基于 Apple Silicon 的 WebAssembly 零拷贝 GPU 推理

教程/实践端侧部署/工程

16:07

The Decoder：AI News（RSS）

新研究显示 OpenClaw 驱动的全天候 Ray-Ban Meta 智能眼镜可加速日常任务

研究团队为 Ray-Ban Meta 智能眼镜开发了 OpenClaw 智能体，旨在探索持续感知型 AI 如何改变用户使用智能体系统的方式。这项研究表明，集成该智能体的全天候智能眼镜能够加速日常任务处理，展示了始终开启的 AI 助手在可穿戴设备上的应用潜力。

智能体 Meta 开源/仓库端侧

4月18日

08:00

HuggingFace Daily Papers（社区热门论文）

认知代价：面向去中心化共识的边缘原生SLM推理消融研究

研究团队提出Sentinel-Bench框架，基于Qwen-3.5-9B执行840次实验，对比System 1与System 2在Optimism DAO对抗性数据集上的表现。结果显示System 1基线达成100%对抗鲁棒性与司法一致性，状态最终性仅需13秒；而System 2引发26.7%认知崩溃率，导致共识稳定性降至72.6%并带来17倍延迟。研究还发现1.5%的"推理诱导谄媚"现象。实验证明，在拜占庭容错约束下，边缘原生SLM采用System 1参数化直觉优于System 2迭代审议。

推理端侧论文/研究

07:59

Simon Willison 博客

PyCon US 2026将在长滩举办，新增AI与安全专题

PyCon US 2026将于5月13日至19日在加州长滩举办，为2017年来首次回归西海岸。本届大会新增AI与安全专题轨道，AI专题于周五举行，含8场演讲，涵盖AI辅助开发、模型量化部署、浏览器端推理等，由Anthropic的Zac Hatfield-Dodds等联合主持。预计超2000名开发者参会，另设开放空间、闪电演讲和项目冲刺等社区活动。

智能体 Anthropic 端侧行业动态

4月17日

20:34

公众号：阶跃星辰（Step）

坐进极氪8X，感受阶跃大模型

阶跃 Step 3.5 Flash 大规模上车极氪8X，深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型：Step 3.5 Flash 作为核心大脑，提供模糊指令理解与多步骤任务规划；语音大模型带来低延迟、更自然的交互；视觉理解模型可感知车外环境并决策，如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。

多模态端侧行业动态

13:53

HuggingFace Daily Papers（社区热门论文）

GlobalSplat：基于全局场景Token的高效前馈式3D Gaussian Splatting

研究团队推出GlobalSplat框架，采用"先对齐后解码"策略，通过学习紧凑的全局潜在场景表示来解析跨视图对应关系，再解码显式3D几何，有效解决了传统方法因局部分配策略导致的全局一致性差和表示冗余问题。该框架在RealEstate10K和ACID数据集上仅需16K Gaussians（4MB存储）即可实现高质量新视角合成，单次前向传播推理速度达78毫秒以内，显著优于密集基线方法。

图像生成端侧论文/研究

09:58

karminski-牙医@karminski3

Unsloth发布2bit量化Qwen3.6，工具调用能力暴增

Unsloth团队发布Qwen3.6-35B-A3B 2bit动态量化版本，模型体积仅12.3GB且激活内存仅需1GB，可在32GB Mac上流畅运行。测试显示该版本支持30余次工具调用，相较之下前代Qwen3.5-35B-A3B的8bit版本仅能完成4-5次调用即出现性能衰减。这一突破意味着大模型在端侧设备上的实用性和多步骤任务处理能力获得显著提升。

智能体开源/仓库端侧部署/工程

06:27

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： MacMind--运行于1989年款Macintosh上的HyperCard变压器神经网络

MacMind是一个在1989年款Macintosh电脑上运行的变压器神经网络项目，使用苹果经典的HyperCard超媒体工具开发。该项目将现代Transformer架构完整移植到36年前的复古硬件上，突破了早期Mac的内存与性能限制。开发者已将代码开源至GitHub，项目在Hacker News发布当日获得102个赞，展现了复古计算与现代AI结合的工程挑战。

GitHub 开源/仓库端侧

4月16日

15:08

Hacker News 热门（buzzing.cc 中文翻译）

停止使用Ollama

技术博客sleepingrobots.com发布文章《停止使用Ollama》，对本地大模型运行工具Ollama提出严厉批评并呼吁用户放弃使用。该文在Hacker News技术社区获得132个积分关注，反映出开发者社区对本地AI工具安全性与实践标准的重视。文章标题直指Ollama存在架构缺陷或安全隐患，建议用户寻找更可靠的替代方案来部署开源大语言模型。

教程/实践端侧部署/工程

14:38

Hacker News 热门（buzzing.cc 中文翻译）

Darkbloom - 在闲置的 Mac 上进行私有推理

Darkbloom 发布了一款工具，支持在闲置 Mac 电脑上执行私有 AI 推理，利用本地空闲算力完成机器学习计算，避免数据上传云端。该项目主打隐私保护，所有推理均在设备本地运行。该消息在 Hacker News 上获得 113 个点赞，详情见 darkbloom.dev。

开源/仓库端侧部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

EdgeDetect：面向联邦入侵检测的重要性感知梯度压缩与同态聚合

EdgeDetect面向6G-IoT带宽受限环境，提出一种通信高效且隐私感知的联邦入侵检测方案。其核心创新"梯度智能化"通过基于中位数的统计二值化将梯度压缩为{+1,-1}表示，使上行负载降低32倍，并集成Paillier同态加密抵御梯度推断攻击。在CIC-IDS2017数据集（280万流，7类攻击）上，系统实现98.0%准确率和97.9%宏F1分数，通信开销从450MB/轮降至14MB（减少96.9%）。树莓派4实测显示单次推理仅需4.2MB内存、0.8ms延迟及12mJ能耗，准确率损失不足0.5%；即便面临5%投毒攻击，仍保持87%准确率与0.95少数类F1值。

arXiv 数据/训练端侧论文/研究

05:37

DogeDesigner@cb_doge

这芯片真是…美不胜收。 Tesla AI5

端侧行业动态

4月15日

17:14

DogeDesigner@cb_doge

Tesla AI5芯片完成流片，性能跃升助力自动驾驶与人形机器人

Tesla完成AI5芯片流片，单芯片算力达双AI4的5倍，整体算力提升8倍、内存9倍、带宽5倍。该芯片针对边缘AI推理深度优化，完整算力目标2000-2500 TOPS，单芯片性能匹敌Nvidia H100，双芯片可媲美Blackwell但成本功耗显著降低。AI5将大幅提升FSD、Robotaxi与Optimus性能，由TSMC Arizona与Samsung Texas在美国本土制造。

具身智能端侧行业动态部署/工程

15:44

DogeDesigner@cb_doge

Tesla AI4 v/s AI5 芯片

端侧行业动态

4月14日

08:00

HuggingFace Daily Papers（社区热门论文）

Forge-UGC：通用图编译器的FX优化与寄存器图引擎

Forge-UGC是面向异构加速器（如Intel NPU）的transformer四阶段编译器，通过torch.export捕获ATen图，经六种优化pass削减节点14.2%-21.9%，并采用线性扫描缓冲区分配与设备亲和性调度，使峰值缓冲区减少30%-48%、NPU-CPU切换降低42%-65%。在125M至8B参数模型测试中，较OpenVINO等编译速度提升6.9-9.2倍，推理延迟降低18.2%-35.7%，能耗减少30.2%-40.9%，且保持数值精度（logit差异<2.1e-5）。

arXiv 端侧论文/研究部署/工程

4月13日

18:48

Chubby♨️@kimmonismus

DeepSeek、Claude神话与OpenAI的新社会契约

播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行，显示美国出口管制未能遏制中国AI发展，反而迫使对方采取对策，令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力，引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI，凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约，质疑当价值创造不再依赖人类劳动时，现有社会秩序将如何重构。

DeepSeek OpenAI 大佬观点开源生态

17:40

The Decoder：AI News（RSS）

苹果正开发无显示屏智能眼镜，作为AI可穿戴设备

彭博社记者Mark Gurman披露，苹果正在研发一款完全舍弃显示屏的智能眼镜，转而将其定位为纯AI可穿戴设备。与传统AR眼镜不同，该设备不配备视觉显示功能，而是专注于人工智能交互能力。此举显示苹果正积极布局AI硬件赛道，寻求在可穿戴设备领域的创新突破。目前具体发布时间尚未公布。

智能体端侧行业动态

14:41

Hacker News 热门（buzzing.cc 中文翻译）

苹果的意外护城河：这位"AI输家"最终如何胜出

苹果在生成式AI竞赛中虽被贴上"输家"标签，却可能凭借隐私优先策略与设备端计算能力构建意外护城河。不同于依赖云端的竞争对手，苹果通过Apple Intelligence将AI处理留在本地，利用其超过20亿活跃设备的生态系统优势，以低硬件成本实现AI功能普及。这种"边缘计算"模式不仅规避了数据隐私风险，更可能重塑AI部署的经济模型，使苹果在AI应用落地层面实现差异化胜出。

现象/趋势端侧

12:34

Rohan Paul@rohanpaul_ai

OpenBMB发布开源多语言TTS模型VoxCPM 2

OpenBMB发布开源TTS模型VoxCPM 2，仅2B参数支持30种语言，无需语言标签即可生成语音。Apache-2.0许可，8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆，保留说话人细节。输出48kHz音质，RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署，适用于影视、游戏、有声书等专业场景。

开源/仓库端侧语音

08:56

karminski-牙医@karminski3

Gemma4提速秘籍！一条命令速度提升23%！

Gemma4可通过推测性解码实现23%推理加速。实测RTX5090上，31B dense主模型搭配E2B(5.1B)草稿模型，速度从61 token/s提升至76 token/s。该技术利用大模型算力过剩而显存带宽不足的特性，由小模型快速生成候选序列，大模型通过prefill阶段批量验证，避免逐token解码的带宽瓶颈。注意需保持模型系列一致性，Gemma4应搭配同系列草稿模型，不可与Qwen3.5混用。

Google 教程/实践端侧部署/工程

4月10日

06:34

karminski-牙医@karminski3

👍 【引用 @anemll】：anemll-profile 0.4.1 已发布！更新方法： brew upgrade anemll/tap/anemll-profile 新增：ANE 图中断分析、JSON 导出、智能体指南。将此链接提供给您的智能体：http://github.com/anemll/anemll-profile/blob/main/AGENTS.md 示例：来自 @mweinbach 自动转换包的 OCR ANE 分析

Anemll: anemll-profile 0.4.1 is out! To update: brew upgrade anemll/tap/anemll-profile New: ANE graph interruption analysis, JSO...

产品更新端侧部署/工程

05:15

Ethan Mollick@emollick

入手联网电子墨水屏，接入 nano banana 以轮换风格实时展示天气。AI 降低了尝试新型界面和数据可视化的门槛，无需复杂开发即可实现个性化信息展示。

多模态现象/趋势端侧

4月6日

08:00

HuggingFace Daily Papers（社区热门论文）

SuperLocalMemory V3.3："活脑"--生物启发式遗忘与认知量化的Zero-LLM智能体记忆系统

SuperLocalMemory V3.3（"活脑"）作为本地优先的Zero-LLM智能体记忆系统发布，实现完整认知记忆分类。核心创新包括：Fisher-Rao量化感知距离（FRQAD）以100%精度识别高保真嵌入；艾宾浩斯自适应遗忘曲线实现6.7倍区分力；7通道认知检索（语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想）在LoCoMo基准零LLM模式下达70.4%，多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道，纯CPU运行，月下载超5000次。

智能体 arXiv Hugging Face 开源/仓库

4月5日

08:00

HuggingFace Daily Papers（社区热门论文）

StateSMix：基于Mamba状态空间模型与稀疏N-gram上下文混合的在线无损压缩方法

StateSMix是一种无需预训练、完全自包含的无损压缩器，它在线训练Mamba风格状态空间模型（SSM），并结合稀疏N-gram哈希表与算术编码。SSM提供基于BPE词元的动态概率估计，N-gram表则通过仅更新非零计数词元的机制实现精确上下文记忆。系统采用熵自适应缩放来平衡二者贡献。在enwik8基准测试中，其压缩效果优于xz -9e，其中SSM是主要压缩引擎，仅其自身就比频率计数基线减少46.6%体积，而N-gram带来额外4.1%增益。该系统由纯C语言实现，支持AVX2 SIMD并行，在普通x86-64硬件上处理速度约为每秒2000词元。

arXiv 端侧论文/研究

4月3日

22:01

Demis Hassabis@demishassabis

精选

Gemma 4 在基准测试中性能超越体量 10 倍以上的大模型，图表 x 轴为对数坐标，凸显其极高的参数效率。

DeepMind Google 开源生态模型发布

推荐理由：Google 开源小模型 Gemma 4 发布，性能超越 10 倍体量级大模型

16:39

karminski-牙医@karminski3

精选72

Gemma4有8个模型，选哪个？一文看懂！

Google发布的Gemma4系列开放权重模型包含多个版本，选型需结合场景。带“-it”后缀为指令微调版，开箱即用；不带后缀为基座模型，供自行微调。其中，A4B指激活参数量为4B，E4B则采用逐层嵌入技术，以内存换取计算量，优化移动端性能。选型建议：综合性能与速度选26B-A4B；追求最佳代码或任务效果选31B；开发本地全模态应用选E4B；资源受限设备体验可选E2B，但输出质量有限。

Google 开源/仓库教程/实践端侧

推荐理由：Gemma 4 一口气出了 8 个变体，本地部署的人最怕选错模型白折腾，这篇把选型逻辑拆得明明白白，从龙虾助手到树莓派都有对应方案，抄作业就行。

12:15

公众号：小米 MiMo

Xiaomi MiMo Token Plan 全球发布

产品更新端侧

00:13

Sundar Pichai@sundarpichai

精选

Gemma 4 开源模型发布，提供 31B dense、26B MoE 及有效 2B/4B 四种尺寸，分别针对性能、低延迟和边缘设备优化。Google DeepMind 称其为同尺寸最佳开源模型，强调单位参数量智能密度极高。

Demis Hassabis: Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...

Google 开源生态模型发布端侧

推荐理由：Google发布Gemma 4开源模型，4种尺寸覆盖从云端到端侧全场景

00:08

Demis Hassabis@demishassabis

精选

Gemma 4 开源模型发布，提供 4 种尺寸：31B dense 版追求极致性能，26B MoE 版实现低延迟，2B 与 4B 版适配边缘设备，均可针对特定任务微调。

DeepMind Google 开源生态模型发布

推荐理由：Google 发布 Gemma 4 开源模型，覆盖 2B 至 31B 多尺寸，支持端侧与 MoE 架构

00:03

Google DeepMind@GoogleDeepMind

精选

Google 发布 Gemma 4 开源模型系列，采用 Apache 2.0 许可证，支持在本地硬件运行，专为高级推理和 agentic 工作流设计。

智能体 DeepMind Google 推理

推荐理由：Google 开源 Gemma 4 模型，支持本地硬件运行并强化 Agent 与推理能力

4月2日

08:00

Google Developers Blog（RSS）

精选81

通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型，旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery，以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可，支持超过 140 种语言，并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体 Google 模型发布端侧

推荐理由：开源 agentic 模型支持端侧运行，开发者可快速构建本地智能应用。

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧