新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。
跑在手机、电脑与边缘设备上的 AI:小模型、本地推理与端侧芯片的进展。
新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。
Qwen 3.6 27B 是一款密集参数本地大语言模型,原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版(含多 token 预测)可达 30 tokens/s;用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务,作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B,但作者推荐 27B 版本。
Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。
📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...
Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。
商务部等8部门近日印发《关于加快“人工智能 + 消费”发展的实施意见》,从5方面提出17条举措。重点包括:扩大AI手机电脑、智能家居、智能网联汽车、智能穿戴、AI机器人等供给;推动AI与居家、养老、文旅、餐饮、教育等融合;促进AI在批发零售、电商、物流领域应用;建设集聚区和体验中心,开展产品租赁、共享、试用等模式创新;完善基础设施、标准体系和监管,推动互联互通。商务部将协同落实,促进AI进千家万户。
Hacker News 讨论揭示:Qwen 3.6 35B-A3B 模型提及率 33% 领先,27B 变体以 20% 紧随其后,DeepSeek Pro 与 Gemma4 31B 位列前四。Agent 工具中 Pi (49%) 与 OpenCode (45%) 占主导。用户对比称,Claude Opus 可带来 15 倍加速,而本地离线 Qwen 提供 5 倍加速,且完全免费、保护隐私。SWE-bench Verified 基准测试显示,Qwen 3.6 27B 得分 77.2%,35B-A3B 得分 73.4%,接近 Claude Sonnet 4.6 的 79.6%。MoE 架构使大模型在消费级硬件上高效运行。
MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。
来自ikyle.me的教程,指导在macOS上搭建本地编码代理,获Hacker News社区104个点赞。
苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。
mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...
由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相,首款量产车AIVA ME7将于2026年内亮相,全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径,让汽车成为具身AI生命体。火山引擎副总裁表示,人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。
一篇关于 Apple Core AI 框架的 Hacker News 帖子获得 109 个点赞。帖子内容包含一张苹果开发者 OG 图片和一个指向 Apple Core AI Framework 官方文档的链接(developer.apple.com)。该帖子由 buzzing.cc 中文翻译,发布于 2026 年 6 月 8 日 02:47(UTC)。
通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。
关联讨论 1 条公众号:通义实验室(千问)日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题,涵盖 8 个用法:拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及,“如同身边有一位超级工程师”。
作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理,仅复杂任务发往云端。智能体自动分类任务:简单任务本地数秒完成,复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%,平均任务时长从47秒降至19秒,队列等待时间从73秒降至4秒(降幅94%)。该模式类比Nucor小钢厂,每台能运行蒸馏模型的边缘设备都成为小型AI工厂,仅对那1/5困难任务支付云费用。未来几年,数以千万计的此类设备将在企业内部增殖,逐步取代现阶段云厂商账单上的大部分工作负载。
Meta 为其智能眼镜产品推出了人脸识别功能,用户可通过眼镜识别他人身份,并获取相关信息。该功能目前正通过早期测试版本向部分用户开放,旨在增强增强现实设备的社交与信息交互能力。
关联讨论 1 条IT之家(RSS)Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。
Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。
Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。
We're shifting from apps and operating systems to agents, and that changes the device experience end to end. Great conve...
Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。
SK海力士会长崔泰源宣布,计划在未来五年内将整体晶圆产能提高一倍,以应对AI普及带来的持续存储供应短缺。他预测AI数据中心和AI PC的普及将持续拉动存储需求,供需紧张局面可能延续至2030年。SK海力士将投入大规模资金用于设备、建设等扩张,尽管面临前置时间长(新建晶圆厂至少三年)和资源成本上涨等挑战。目前,SK海力士市值已首次突破1万亿美元。
1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。
一名用户以200英镑的价格购入了一块数据中心级GPU,并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。
一辆特斯拉汽车搭载 FSD V14.3.3 版本软件,完成了全球首次全程零人工干预、横穿加拿大的自动驾驶行程。车辆从温哥华出发,历时 4 天 21 小时,行驶 3760 英里(6051 公里)抵达哈利法克斯,全程所有驾驶操作(包括高速并线、应对复杂路况与自动泊车)均由系统自主完成,无任何系统退出或人工修正。该版本随 2026.14.6.6 更新推送,整合了春季软件功能。
作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers,但无法执行 <script> 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发,解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示,并计划后续将此方法应用于升级 Datasette Lite。
NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标,暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元,目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变:从显卡供应商,转型为定义整机核心方案的提供商,将直接冲击 Intel、AMD 和高通在 PC 市场的地位。
A new era of PC. 25.0528, 121.5990
Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型,该模型采用混合专家(MoE)架构,在包含 38T token 的数据集上训练完成。
通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。
面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。
Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。
面壁智能开源其新一代端侧大语言模型MiniCPM5-1B。该模型仅1B参数,在AA-Index榜单上超越所有2B参数以下模型,相比3个月前的Qwen3.5-2B效果更优且参数量减半。经INT4量化后权重仅0.5GB,支持在手机和浏览器上运行。其Base Model版本由面壁智能自主研发的AI训练框架ForgeTrain预训练完成,现已全面开源模型权重、训练数据集与部署方案。
华为何庭波在ISCAS 2026上提出“韬定律”,并介绍逻辑折叠(LogicFolding)技术。该技术通过三维空间拓扑重组提升芯片性能,不依赖新光刻工艺。在麒麟2026芯片测试中,晶体管密度从155 MTr/mm²提升至238 MTr/mm²,性能核心能效提高41%,最大时钟频率提升近13%。论文显示,麒麟2027芯片已进入Silicon状态,后续规划包括麒麟2028、2029。AI芯片方面,昇腾990计划在2030年左右引入逻辑折叠,硬件集成预计到2035年提高超过100倍。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN,这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术,使模型内存占用相比BF16降低约6倍,可高效部署于手机、电脑、车载设备等边缘端。更关键的是,整个训练全栈(从量化算子到框架)均在昇腾上原生构建与验证,而非简单移植。该模型家族(0.5B-8B)在多项基准测试上保持了全精度模型95-97%的性能,为资源受限环境下部署和复现大模型提供了可落地的解决方案。
🚀 BitCPM-CANN by ModelBest × @Tsinghua_Uni × OpenBMB is here - and it's not about stacking parameters. Memory costs are...
关联讨论 1 条IT之家(RSS)Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API,使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制,迈向能够理解情境并实时响应用户需求的AI原生智能家居。