A decade of endpoint security has meant scanning content for keywords and file types, then alerting after the data already left. Ent runs local models that read intent instead: who's in the meeting, what's on screen, what shouldn't be visible externally, and covers it before the screen share goes out. On-device, nothing leaves the boundary. From the RiskIQ and Security Copilot team.

译Ent 发布业内首个 intent-aware 工作空间安全平台，结束隐身模式。传统端点安全在数据外泄后扫描关键词告警，Ent 直接在设备端运行本地模型，实时理解会议参与者、屏幕内容，在屏幕共享前自动遮盖不应外露的信息。所有处理在设备本地完成，数据不离开边界。该产品来自 RiskIQ 与 Security Copilot 团队成员。

MiniMax (official)@MiniMax_AI · 6月16日38

Nice demo from @atomic_chat_hq: M3 Q4 ran locally with MLX-VLM, and completed a US customs form entirely on a Mac Studio M3 Ultra.

译MiniMax 官方展示开源模型 M3 Q4（4-bit 量化版）本地运行能力：使用 MLX-VLM 部署在 Mac Studio M3 Ultra 上，模型读取驾照照片和扫描文档后，自动完成一份美国海关申报表。处理耗时约 31 秒，输入 1,847 tokens，输出 736 tokens。过程中模型流式输出推理链，并调用 write_field、mark、sign 三个工具，无需人工干预。

凡人小北@frxiaobei · 6月16日56

Google 最近做了个很有意思的实验。把退休手机组成计算集群。他们最初想解决的其实是碳排放问题。很多手机被淘汰的时候，芯片、内存和存储依然能够正常工作，与其生产新的服务器，不如把已经存在的设备继续利用。看到 Google 这个项目，我想起了两件老事。第一件是很多年前的 SETI@home。那时候很多人会在电脑上装一个小程序，电脑闲着的时候，就把算力贡献出来帮 NASA 和天文学家分析射电信号。睡觉的时候电脑风扇还在转，你知道它正在参与某个遥远星系的搜索。这比 QQ 挂太阳有荣誉感多了。第二件是 Google 大数据时代最有名的那组论文。 GFS、MapReduce、Bigtable。今天大家都知道这是 Google 的三驾马车，但回头看，实质上是在解决一个问题：单机不够用了，怎么办？答案是把大量廉价机器组织起来。后来云计算兴起，超大规模数据中心成为主流。大家逐渐忘了，互联网历史上很多突破，都是在算力紧张时，对已有资源进行重新组织。现在 AI 时代，熟悉的故事似乎又出现了。训练需要几万张 GPU。推理需求每天都在增长。能源开始成为新的瓶颈。于是 Google 开始研究把退休手机重新变成计算节点。历史总是在重复。二十年前，Google 研究如何把大量廉价服务器组织成一个超级计算机。二十年后，Google 研究如何把大量退休手机组织成一个超级计算机。技术在进步。问题其实没变。每当算力开始紧张，人类都会重新思考一个问题：我们身边那些已经存在的计算资源，还能不能再榨出一点价值。 AI 时代最有意思的创新，未必来自下一代 GPU。也可能来自抽屉里那台吃灰三年的旧手机。

译Google 正实验将退休手机组成计算集群，以减少碳排放——淘汰手机的芯片、内存等仍可正常工作，无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力，以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下，重新利用抽屉里的旧手机或成创新方向。

Berryxia.AI@berryxia · 6月15日60

一个12B的本地模型，直接把Fable 5的推理链条蒸馏进去了，现在你能在消费级显卡上离线跑顶级coding能力。这个Gemma 4 12B Coder GGUF是基于Google的gemma-4-12B-it微调的，专门针对代码生成和复杂推理。训练数据里用了Composer 2.5的真实通过案例，还让Fable 5帮着补全那些难搞的case，结果就是每一步推理都导向能真正跑通的代码。最爽的是它走GGUF格式，12GB显卡就能顺畅跑，甚至CPU也能用。调试、补全代码、生成复杂算法、做链式思考提示，全都本地搞定，不用交API费、不用担心导出管制。以前大家觉得前沿模型要么云端用要么根本跑不了，现在开源社区直接把Fable 5的思考方式打包成能塞进你笔记本的版本。模型还在快速迭代，下载量已经破六千，社区反馈它在本地coding场景里特别能打。这波操作把“强大但受限”和“本地可用”之间的鸿沟给填上了。真正的AI生产力，从来不是等大厂放行，而是社区自己动手把能力解放出来。

译Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型，训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行，甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化，无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构，目前下载量已破六千，社区反馈其在本地 coding 场景表现出色，填补了云端模型与本地可用之间的鸿沟。

小互@xiaohu · 6月15日55

AMD 推出了一款和Mac mini 大小差不多的本地 AI 开发平台对标英伟达的 DGX Spark（GB10） 128GB 统一内存，无需联网可在本地跑最高 2000 亿参数的大模型所有模型运行环境都配置好了，宣称：从开机到出 token 只要几分钟... 能跑GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型配置置带 Wi-Fi 7、蓝牙 5.4、10GbE 有线网口、4 个 USB-C 口（其中一个用于供电）、一个 HDMI 2.1b 输出。售价 3999 美元起

译AMD发布Mac mini尺寸本地AI开发平台，对标NVIDIA DGX Spark。配备128GB统一内存，无需联网可本地运行最高2000亿参数大模型，环境预配置，开机几分钟可出token。支持GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型。接口含Wi-Fi 7、蓝牙5.4、10GbE、4个USB-C、HDMI 2.1b。售价3999美元起。

Berryxia.AI@berryxia · 6月14日50

Agent-skills则把全栈开发技能打包成可调用的模块，开发者直接就能让agent干完整的工程活。 open-notebook是本地版的NotebookLM，能在自己电脑上跑知识整理和生成. 最狠的是Headroom，直接把AI API账单砍掉90%，不改代码就能省钱。这些项目都不是什么前沿大模型，而是实打实的工具层优化。开源、免费、能马上用，还把本地化、成本控制、agent能力三件事一次性解决了。以前大家觉得AI好用就得砸钱上大模型，现在这些小而美的开源项目直接证明：真正改变生产力的，往往是把现有能力包装成开发者能直接拿来用的东西。这波分享一出，开发者手里又多了好几把能立刻提升效率的利器。 Github 项目地址，见评论区👇🏻

译Berry Xia 推荐四个开源 AI 项目：/last30days（新搜索引擎）、agent-skills（将全栈开发技能打包成可调用模块）、open-notebook（本地版 NotebookLM，可离线运行知识整理与生成）、headroom（不改代码即可将 AI API 账单降低 90%）。这些项目聚焦工具层优化，免费开源，一次性解决本地化、成本控制和 agent 能力三个痛点，让开发者能直接拿来提升效率。

MiniMax (official)@MiniMax_AI · 6月13日47

We love what the community is building with M3 open weights ♥️ Excited for what’s next

译MiniMax M3 支持已添加到 mlx-vlm，包含 MSA 实现！🚀 在 M3 Ultra 512GB 上测试，运行速度 24 tps，峰值内存约 240GB。目前正在优化性能并添加大量测试 💪 模型：https://huggingface.co/mlx-community/MiniMax-M3-4bit PR：https://github.com/Blaizzy/mlx-vlm/pull/1374 我们喜爱社区用 M3 开放权重构建的一切 ♥️ 期待下一步

Berryxia.AI@berryxia · 6月13日73

直接有人开源一键开启国行的Mac Siri AI，逻辑就是修改地区伪装美区。地址：https://github.com/SkyBlue997/enableMacosAI

译开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具，通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关，关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤，证明该 AI 能力早已内置，仅被等候名单屏蔽。

MiniMax (official)@MiniMax_AI · 6月12日29

Here today at the AiOS meet up. Thank you for being together such an incredible group @rudrank @RayFernando1337 @ronaldmannak And for such an incredible panel @awnihannun @peterfriese The discussion on local models continue to be one of the hottest topics in the room Glad we could support the incredible iOS community. #WWDC26 #iOS #AppleDev #AI

译今天在 AiOS 聚会上。感谢你们，@rudrank @RayFernando1337 @ronaldmannak，如此出色的一群人。也感谢 @awnihannun @peterfriese，如此精彩的圆桌讨论。关于本地模型的讨论仍然是会场最热门的话题之一。很高兴我们能支持这个令人惊叹的 iOS 社区。 #WWDC26 #iOS #AppleDev #AI

MiniMax (official)@MiniMax_AI · 6月12日14

Here today at the AiOS meet up. Thank you for being together such an incredible group @rudrank @RayFernando1337 @ronaldmannak And for such an incredible panel @awnihannun @peterfriese The discussion on local models continue to be one of the hottest topics in the room Glad we could support the incredible iOS community. #WWDC26 #iOS #AppleDev #AI

译今天在 AiOS 聚会上。感谢你们能与如此出色的团队在一起 @rudrank @RayFernando1337 @ronaldmannak 以及如此精彩的讨论会 @awnihannun @peterfriese 关于本地模型的讨论仍然是现场最热门的话题之一很高兴我们能支持这个令人惊叹的 iOS 社区。 #WWDC26 #iOS #AppleDev #AI

Berryxia.AI@berryxia · 6月11日76

Prince Canuma直接把Google刚发布的DiffusionGemma和Cohere North Mini Code当天塞进Mac本地MLX，零等待直接把玩咯！ mlx-vlm v0.6.3刚上线，DiffusionGemma这个新架构直接生成256 token整块、双向注意力+迭代自纠错，26B MoE只激活3.8B，量化后18GB就能跑。 North Mini Code 30B MoE也只要3B active，BF16下66 tok/s起步。全靠和Google DeepMind、Cohere的深度合作，Day-0支持拉满！一键安装即可体验啊~ 地址：https://huggingface.co/collections/mlx-community/diffusiongemma

译mlx-vlm v0.6.3 上线，首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构：以 256 token 块为单位并行生成、双向注意力、迭代自纠错；26B MoE 仅激活 3.8B，量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE，仅激活 3B，BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持，可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

SemiAnalysis@SemiAnalysis_ · 6月10日58

Local LLMs are the Great Leap Forward for Inference. Every laptop is it's own datacenter, sovereignty over your own tokens, and the people can seize the means of token generation. And that's why it's destined for poor results. (1/4)🧵

译本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心，对你自己的token拥有主权，人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。(1/4)🧵

Elon Musk@elonmusk · 6月10日30

Tesla AI chip design engineering reviews are so great! Team is awesome. Our AI6 chip might set a record for most amount of usable intelligence from a wafer when factoring in yield.

译Tesla AI芯片设计工程评审太棒了！团队很出色。我们的AI6芯片在考虑良率后，可能会创下每晶圆可用智能量最高的记录。

MiniMax (official)@MiniMax_AI · 6月10日36

MiniMax is headed to Cupertino for AiOS Meetup — WWDC ’26 Edition on June 11. Apple platforms. On-device AI. AI-native apps. A room full of builders fresh off WWDC. Speakers include @awnihannun, co-creator of MLX, and @peterfriese, sharing more on Gemini models via Firebase and Apple Foundation Models. Every attendee gets $50 in credits to try MiniMax M3. Hosted by @rudrank, @ronaldmannak, @rayfernando, and @CommunityKit. See you there. Details in the comments. #WWDC26 #MLX #Firebase #AppleAI #OnDeviceAI

译MiniMax 宣布参加 6 月 11 日在 Cupertino 举办的 AiOS Meetup（WWDC'26 版），聚焦 Apple 平台、端侧 AI 与 AI 原生应用。演讲嘉宾包括 MLX 联合创始人 Awni Hannun 和 Peter Friese，将分享 Gemini 模型（通过 Firebase）及 Apple Foundation Models。每位参会者可获得 $50 积分用于体验 MiniMax M3。活动由 CommunityKit 等多位人士主办。

小互@xiaohu · 6月9日74

http://x.com/i/article/2064329494736011265 # 揭秘苹果全新 Siri AI 背后模型：苹果如何将 200 亿参数的模型塞进手机里苹果在 WWDC 2026 上发布了全新的 Apple Intelligence（苹果智能）和独立的 Siri AI。本次更新背后，都是由它的第三代 Apple Foundation Models（苹果基础模型，下面简称 AFM 3）驱动。 Apple Foundation Models 是苹果给自家 Apple Intelligence 做的一整套自研基础模型，从能跑在手机上的小模型，到跑在云端的大模型都有。这次一口气来了五个。本次最大的看点是，苹果把一个 200 亿参数的大模型真的塞进了你的手机里，用了一套挺巧的工程办法。这篇文章一次讲清楚： - 五个模型分别是谁、各管什么 - 手机装不下大模型这个老难题，苹果这次怎么绕过去的 - 这些模型到底能让你用上哪些新功能 - 苹果公布的评测数据该怎么看 - 一个反常的点：最在意隐私和自研的苹果，这次最强的算力全靠 Google 和 NVIDIA ## 先看看本次 WWDC 都更新了什么 ## Siri AI 新在哪：它终于像个 AI 助手了旧 Siri 的能力基本停在“听一句指令、做一件事”。这次的 Siri AI 由 Apple Intelligence 驱动，补上了过去几年最被人诟病的几块短板。 - 能正经对话。可以开放式提问、帮你头脑风暴、来回多轮地聊，而不是说错一个词就得重来。 - 懂你的个人上下文。翻几年前的某张照片、找埋在收件箱深处的某封邮件、调出之前随手记的某条笔记，一句话的事。 - 能在 App 里替你动手。基于你当下在做的事，直接在 Messages、Music、Reminders 等 App 里操作：把刚发出去的消息改一下，把车里听到的歌加进健身歌单。 - 有了世界知识。能联网查最新信息，问事实、问菜谱、问旅行建议都行。关键变化是：过去 Siri 答不上来就把你甩去网页搜索，现在它自己答，并标注信息来源。 - 有了独立的 Siri App。所有对话集中一处，iPhone 上问一半、换 iPad 接着聊，常用对话还能 pin 住。这是苹果第一次把 Siri 做成一个像 ChatGPT 那样的“目的地 App”，而不只是个唤醒词。 - CarPlay 里也能用。开车时直接问“朋友推荐的那个登山口在哪”，不用手离方向盘。 - 声音能自己调。音高、语速、语气、口音都能调到顺耳为止。不过表现力声音这类完整体验，需要 iPhone 17 Pro、17 Pro Max 或 iPhone Air。 ## Visual Intelligence：看到什么就能问什么过去只在 iPhone 上的视觉识别能力 Visual Intelligence，这次扩展到了 iPad、Mac 和 Apple Vision Pro。 - 相机里的 Siri 模式。抬手一拍，就能问眼前这东西是什么、有什么营养。 - 新的智能操作。吃完饭对着账单分账、查面前菜品的营养信息、把一张卡片导入 Apple Wallet，都能一步完成。 - 各设备的用法。 Mac 上截屏后直接搜索或操作；iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西；Apple Vision Pro 上看着某个真实物体就能问。 ## Apple Intelligence 这一轮还更新了什么这批功能大多随秋季系统一起来，跟 Siri AI 本体的时间表不一样。 - 照片编辑更强：拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。 - Image Playground 能出写实图了：支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图（已上线）。 - 随处可写、边写边校：Write with Siri 能在几乎任何输入框里从零起草或帮你改稿，在 Messages 和 Mail 里还会模仿你的文风、标点和语气；Proofread 则随时检查语法拼写。 - Safari 更聪明：标签页能按主题自动分组；Notify Me 帮你盯着某个页面的降价、补货，到点提醒；还能做扩展来自定义网页内容。 - 密码一键修：Passwords App 发现弱密码或已泄露的密码，能直接替你改掉。 - 描述一句就能办事：用大白话说需求，Shortcuts 自动把跨 App 的动作串成一条快捷指令；日历也能“把午餐会改成喝咖啡”这样直接改。 - 几个先出英文的功能：Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation，都标注“先出英文”。 - 已经上线的部分：实时翻译 Live Translation（Messages、FaceTime 字幕、电话、AirPods 对话）现已可用；家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。 ## 再把五个模型说清楚五个模型和 Google 合作定制开发，按跑在哪里分成两组。端侧（直接在你设备上跑）两个： - AFM 3 Core：上一代那个 30 亿参数稠密模型的升级版，主要是质量更好了。 - AFM 3 Core Advanced：苹果最强的端侧模型，原生支持多模态。200 亿参数，属于 MoE（Mixture of Experts，混合专家模型），每次根据任务只激活其中 10 到 40 亿。服务器（跑在苹果的 Private Cloud Compute 上）三个： - AFM 3 Cloud：服务端的主力，主打快和稳。 - ADM 3 Cloud（图像）：专门做图像生成和编辑的模型，注意名字是 ADM 不是 AFM，单独一条线。 - AFM 3 Cloud Pro：最强的服务器模型，专门接 Agent 工具调用、复杂推理这种最吃性能的活。一句话记住分工：日常的、轻的、要保护隐私的，尽量在手机上用 Core 系列解决；真正难的、重的，才送到云端的 Cloud 系列。 ## 核心看点：手机装不下大模型，苹果怎么解决先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快，但有个硬约束：手机的内存（就是那块动不动 8GB、16GB 的 RAM，业内叫 DRAM）就那么大。模型越大、参数越多，占的内存就越多，一个真正大的模型，根本塞不进手机内存。 ## 先说为什么装不下：内存太小手机里有两种存数据的地方，性格正好相反。一种是内存（DRAM），读写极快，但容量小又贵，iPhone 上通常就几 GB，还得分给系统和所有 app。另一种是闪存（NAND），就是平时存照片、装应用的那块，容量大得多也便宜得多，但读写慢，尤其往内存里搬数据时，那条通道的带宽远远不够快。模型要跑起来，它的权重（也就是模型里那几百亿个数字）必须待在内存里，芯片才能随时取用。传统大模型不管什么架构，都默认把全部权重一次性塞进内存。一个 200 亿参数的模型，光权重就要占十几 GB，手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因，再大就溢出了。这就像，想把一整座图书馆的书全摊在一张小书桌上，桌子太小，摊不开。 ## 业界省内存的常规思路，在手机上偏偏行不通这个常规思路叫混合专家（Mixture-of-Experts，MoE）。它把一个大模型拆成很多个“专家”，可以理解成一堆各有所长的小网络；回答某个问题时只挑其中几个上场，其余的歇着。这样每次计算只动用一小部分参数，又快又省算力。但 MoE 省的是“每次算多少”，没省“总共要放多少”。标准 MoE 仍然要求全部专家都待在内存里随时待命，因为它每生成一个字（token）就要重新挑一批专家。换得这么勤，专家就必须近在手边。这在数据中心的 GPU 上不是问题，显存大、专家又都连在一起；可搬到手机上就卡死了：要是专家存在慢速的闪存里，每吐一个字都得去闪存搬一批权重进内存，那条慢通道根本喂不动，模型会卡到没法用。 ## 苹果的解法：换个地方放，换个频率取苹果的解法分两步。第一步，把完整模型挪出内存，存到闪存里。完整模型不放 DRAM 内存，而是存到闪存（NAND）里，就是平时存照片、存 App 的那块，空间大得多（一般 256GB 起步）。需要哪几个专家，再从闪存搬进 DRAM 来用，就像书放在图书馆的书架里，用哪本取哪本。第二步，把路由决策从“按 Token”改成“按 Prompt”。这步是整套设计的关键，它得先解决一个绕不开的硬约束：闪存到内存的搬运带宽，远远跟不上模型逐字生成的速度。要是照搬普通 MoE“每个 Token 换一批专家”的做法，光等专家从闪存搬进内存，就慢到没法用了。为此苹果自研了一套 Instruction-Following Pruning（指令跟随剪枝，简称 IFP）技术，解决两件事：权重放在哪、以及多久换一次。它是一个轻量的稠密小模块，在开始处理你这条问题时就一次性选定一批专家，整段生成里只周期性地再调整，而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是：你问一句话，模型先用极短的时间判断这题归哪几支专家管，把它们调进内存，接下来这一整段回答基本就靠这批专家了。专家本身还分两类，进一步省搬运： - 共享专家（shared experts）：不管什么任务都常驻在内存里； - 路由专家（routed experts）：只在跟当前任务相关时才临时搬进来。打个比方：一个手艺人有几千件工具，工作台（内存）小得只摆得下几件，于是他把全套工具锁进隔壁又大又慢的仓库（闪存），工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢，没法每拧一颗螺丝就跑一趟换工具，那样活儿没法干。他改了两条规矩，正对应苹果的两个设计： - 按整单活备料，不按每颗螺丝。每接一单活（一次完整的 prompt），开工前先看一眼整张工单，一次性把这单大概率用得上的工具搬上工作台，干的过程中隔一阵再补一次。对应到模型，就是那个轻量模块在开始处理时一次性选定一组专家，生成过程中周期性重选，而不是像标准 MoE 那样每个字都重挑。 - 常用工具一直摆台上。有些工具几乎每单活都用，干脆固定放在工作台不收回去，对应常驻内存的共享专家；少量按需调入的，才是路由专家。合起来就是：完整的 200 亿参数躺在闪存里，当模型的“账面身家”；内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大，跑起来却只占一小块内存。这套设计还白捡一个好处：按难度伸缩。苹果把它叫推理时弹性（inference-time elasticity）。既然专家是按需调入的，那激活多少参数就也能随任务难度变：简单的问题少调几个专家、少激活参数，复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值，而是按每次请求的难度临时定的。于是同一个模型，既能轻快地应付日常小事，又能在难题上把参数顶上去，延迟还都压得住。在我看来，这才是这代端侧模型真正的工程突破，比 200 亿这个数字本身更重要。 ## 那它还解决不了什么？端侧再巧，单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活，还是得交给云端的 Cloud Pro 大模型来处理。 ## 那么 Google 到底参与了多少？这是整件事的关键，也是外界误读最深的地方。 Subramanya（苹果 AI 副总裁）在发布会上称：上面四个为 Apple 芯片定制的模型，是用苹果自研数据训练，再“从 Google 的 Gemini 前沿模型蒸馏（distillation）精炼”而来。蒸馏的意思是，用一个更强的模型当老师，把它的能力压缩进自己更小的学生模型里，Gemini 只在训练环节出现，不进入成品。 Federighi（苹果软件工程高级副总裁）更直接：“我们用到的 Google Assistant 的量是零。” 具体拆开是三个“不用”： - 不用 Gemini App，用户交互时不碰任何 Google 客户端代码； - 不用 Google 部署给自家客户的那些模型，也不用它的部署基础设施； - 查询世界知识不用 Google 的搜索，用苹果自建多年的 World Knowledge Service。唯一真正用到 Google 的，是 AFM 3 Cloud Pro 云端模型。这个模型为了上线，苹果联合 Google 和 NVIDIA，把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为“与 Gemini 前沿模型相当”。换句话说，被大家解读成“苹果的 Siri 大脑由 Gemini 驱动”的那些报道，落到产品上就是五个模型里的一个跑在 Google 的硬件上，其余四个从头到尾是苹果自己的。 ## 云端的两处架构升级端侧那个模型的看点是怎么把大模型塞进小内存，云端的看点则是怎么把规模和质量做上去。三个云端模型里，主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。 AFM 3 Cloud：把去年的 PT-MoE 又拧紧了一圈。 AFM 3 Cloud 是云端主力，接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构，叫并行轨道混合专家（Parallel-Track Mixture-of-Experts，PT-MoE）。大体上，它把一个大模型拆成几条并行的“轨道”，每条轨道是个更小的、自带专家路由的子模型，输入分别在各条轨道里走，轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少，专家可以铺得更多，质量上去了，延迟和成本却没跟着失控。这一代不是换架构，而是在 PT-MoE 上做了几处关键调校，效果落在两点：训练更稳，规模拉大时不容易崩；以及在它的上下文窗口里，对信息的推理和准确召回更强。后面这点对服务端格外要紧，复杂的查询往往要模型在一大段上下文里翻找、对照、推断，记不住或记岔了，整个回答就废了。 ADM 3 Cloud：一个底模，挂一堆适配器。先留意这个模型叫 ADM，不是 AFM，它是苹果这套体系里专门的图像模型，管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率：既要做到你说什么它画什么、改哪儿动哪儿，又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作，不挑尺寸，并且会借助更大的 AFM 家族来给创作和编辑当参谋。它的搭法是另一个重点：基础模型本身原生就会生图、编辑、Genmoji 这些通用能力；而像照片里的 Spatial Reframing（空间重构）、用手指直接在图上涂改、Image Playground 里的个性化，这些更具体的功能不是各训一个模型，而是在同一个底模上挂不同的适配器（adapter）。适配器是一小块外接的、专门微调过的权重，按功能换上即可。一个底模配一组小适配器，比为每个功能各养一个大模型省得多，往后加一个新的图像玩法也更快。 ## 隐私：连苹果都看不到三个云端模型都跑在 Private Cloud Compute 上。它的承诺是：用户数据从不被存储、从不被共享，连苹果自己都看不到，只在处理这一次请求时用一下。这个承诺不是口头的，第三方研究者可以持续验证。即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro，同样的隐私保证也不打折。Google 也在合作宣布当天确认，不会从这笔 Siri 交易里拿到苹果用户的数据。训练这一层同样划了线：不使用用户的私人数据和交互数据，并尊重网站发布者退出训练的权利。 ## 训练怎么做的 - 预训练：在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座，再分化成各自的架构和用途，分别加上音频、图像理解、长上下文推理、视觉生成等能力。 - 后训练：监督微调（supervised fine-tuning）加多阶段强化学习。 - 压缩上线：用量化感知训练（Quantization Aware Training）大幅压缩模型，同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。 ## 评测数字苹果用人工评分给出了一组对比，挑几个有代表性的： - AFM 3 Core（端侧文本）：在 45.6% 的提示上被偏好，上一代是 23.3%。 - AFM 3 Cloud（云端文本）：在 64.7% 的提示上被偏好，对比 2025 年的服务器模型只有 8.7%，差出一整个代际。 - 语音（5 分制 MOS 评分）：AFM 3 Core Advanced 拿到 4.15，现役系统 3.87；在对话场景下差距更大，4.24 对 3.82。苹果特别提到，MOS 评分涨 0.1 用户就能明显感知，0.28 和 0.42 的差是实打实的。 - 听写：整体质量上 AFM 3 Core Advanced 被偏好 44.7%，旧听写系统 17.6%。需要说明的是，这些都是苹果自己的人工评测，不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告，含更新的评测和基准，到时候才好横向比。 ## 写在最后苹果这次确实把 Siri 该有的样子端出来了：能对话、有世界知识、有独立 App，第一次正面站到了 ChatGPT 和 Gemini 对面（哪怕这身本事有一半是 Gemini 教出来的）。虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已，甚至还不如豆包… 但是从这次底层模型来看，起码基础牢固了，苹果并没有直接去用Google的模型来全盘替代，还是坚持走自己的路线。延续了苹果一贯的稳扎稳定（挤牙膏）的作风… 基本盘还是很稳的… 所以这依旧是很苹果的一次更新：不抢第一，慢，被骂挤牙膏，但每步都踩在自己能长期攥住的地方。短期看，Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子，未必讨好；长期看，基本盘反倒是这场牌局里最稳的几家之一。官方介绍：https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

译苹果在WWDC 2026发布全新Siri AI，由第三代Apple Foundation Models（AFM 3）驱动，共五个模型：端侧AFM 3 Core（30亿）和AFM 3 Core Advanced（200亿MoE，每次激活10-40亿）；服务器AFM 3 Cloud、ADM 3 Cloud（图像）、AFM 3 Cloud Pro（Agent/推理）。核心创新将200亿参数模型塞入手机：权重存闪存，自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token，大幅降低搬运次数。最强算力依赖Google和NVIDIA。

Chubby♨️@kimmonismus · 6月9日70

Apple's new foundation models are genuinely exciting. The standout is AFM 3 Core Advanced, a 20-billion (!) parameter model that runs entirely on-device. Read that again. 20-billion, on-device, iPhone 17 Pro. It pulls this off by keeping the full model in flash memory and loading only a small slice of "experts" into active memory for each prompt, just 1 to 4 billion parameters at a time. That's a clever way to get around the usual DRAM wall, and it's what unlocks things like expressive voices and much sharper dictation right on the device. The whole family of five models was built in collaboration with Google. It spans these on-device models all the way up to server-based ones running on Private Cloud Compute, with the most demanding cloud model running on NVIDIA GPUs. Kudos, Apple!

译Apple 发布全新基础模型家族，亮点是 AFM 3 Core Advanced：200 亿参数，完全运行在 iPhone 17 Pro 设备端。通过将完整模型存于闪存，每次仅加载 1-4B 专家参数到活跃内存，巧妙绕过 DRAM 瓶颈，实现设备端更生动的语音和更精准的听写。共 5 个模型，与 Google 合作打造，覆盖从设备端到 Private Cloud Compute 的云端模型，最高性能云端模型运行在 NVIDIA GPU 上。

AYi@AYi_AInotes · 6月9日64

iOS 27 的新 Siri 强的一逼，而且是质变级别的强，可以直接从你的个人数据里提取上下文，Damn！看视频这个老哥的演示，竟然能识别出这是关于水瓶的需求， 1️⃣自动关联到妈妈的聊天记录，弹出卡片显示：「Your mom mentioned that she really wanted a LARQ bottle.」 2️⃣还附上了妈妈的具体消息片段（「OMG… what a fun care package!!」）这已经不是简单搜索啦，已经涉及到个人语义理解 + 跨应用上下文召回，除了Messages，也支持照片/视频的文本解读，整个过程据回复是本地处理为主，速度快、隐私相对更好。以前 Siri 连设置个定时器都经常出错，现在能处理这种带个人记忆的自然查询，真的让人眼前一亮，我看评论区很多人感慨：我们曾经为 Siri 能正确设定时器而庆祝🤣

译iOS 27 的新 Siri 实现质变级升级。演示中用户提及水瓶需求，Siri 自动关联妈妈聊天记录，弹出卡片显示「Your mom mentioned that she really wanted a LARQ bottle.」并附上消息片段。这涉及个人语义理解和跨应用上下文召回，支持 Messages、照片/视频文本解读。本地处理为主，速度快、隐私更好。

小互@xiaohu · 6月9日57

苹果全新Siri AI演示视频感觉还是非常基础的升级，端侧模型+云端模型端侧负责处理手机本地的信息调用本机个人信息和感知场景云端复制处理和执行复杂任务，基于Gemini 模型定制的，而不是完全采用Gemini的模型演示感觉毫无激情可言😂 Siri 变成一个独立 App：能自然对话、记得你的上下文、跨应用替你动手，还能看懂屏幕上和镜头前的东西。照片、Safari、密码、快捷指令全都加了 AI。拍完的照片能重新构图，浏览器标签自动归类，弱密码一键改，快捷指令用一句话就能搭出来。

译苹果发布全新Siri AI演示，定位为端侧+云端双模型架构。端侧负责调用本机个人信息与感知场景，云端基于Gemini模型定制（非完全采用）以处理复杂任务。Siri升级为独立App，支持自然对话、上下文记忆、跨应用操作，并能理解屏幕内容和摄像头画面。同时，照片、Safari、密码、快捷指令均加入AI功能：照片可重新构图，浏览器标签自动归类，弱密码一键修改，快捷指令一句话生成。

Berryxia.AI@berryxia · 6月9日69

Apple的AI领先水平远远超乎人们的想象啊！不信你看这个图就知道了！

译Tim Cook最后一次主持WWDC，9月1日交棒John Ternus，AI为核心。端侧3B模型AFM 3 Core，进阶层20B MoE仅限iPhone 17 Pro/M4设备，数据端到端加密。四大能力：个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别，上线独立App，仅英语且中国欧盟暂不可用。Image Playground支持写实生成；Xcode可选多模型；照片处理速度提升70%，AirDrop提速80%，应用启动加速30%。Agent多步任务自动化仍薄弱。

Chubby♨️@kimmonismus · 6月9日35

Even though I want to test Apple's Intelligence myself: it looks very promising and could finally provide real access to AI for the millions of Apple users.

译尽管我想亲自测试Apple Intelligence：它看起来很有前景，可能最终为数百万苹果用户提供真正的AI访问。

歸藏(guizang.ai)@op7418 · 6月9日53

昨晚苹果 WWDC 唯一的亮点就是这个灵动岛的新 Siri AI 了。而且本地端侧模型居然只支持 17Pro 这一款设备，当然欧洲和中国还是不可用。

Berryxia.AI@berryxia · 6月9日75

Kimi 终于更新了一些新东西啊！ Kimi Work直接在你本地桌面塞进300个AI代理并行狂奔它刚上线，macOS和Windows都能跑，配上WebBridge扩展，Agent自己就能在浏览器里搜、滚、点、打字，把整件事干完。专门为财经场景调教好，Yahoo Finance、世界银行数据直接原生调用，零配置拉全球市场和经济情报。更狠的是它自带记忆系统，会默默记下你的偏好、每一次决定，下次就越来越懂你该怎么干。 300个子Agent自动拆任务、协作执行，最后直接把现成的PPTX、Word、PDF、Excel扔到桌面。以前大家以为agent必须靠云端大模型才能真正干活，结果Kimi Work用本地swarm+原生工具+长记忆，直接把生产力拉到桌面原生体验。这套东西一上手，你电脑就多了一整个懂你的秘书团。

译Kimi Work 是一款桌面 AI 代理，支持在本地最多 300 个代理并行执行任务，已适配 macOS（Apple Silicon）和 Windows。配合 WebBridge 扩展，代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化，原生调用 Yahoo Finance 和世界银行数据，无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。

Berryxia.AI@berryxia · 6月9日67

没有熬夜的兄弟们来看，WWDC 2026 速览！另插一嘴，Apple真的没有特别的新东西。一、历史性时刻 1库克谢幕：Tim Cook最后一次以CEO身份主持WWDC，9月1日将交接给硬件工程副总裁John Ternus 2基调延续：发布会保持苹果一贯稳健风格，AI成为绝对核心主题。二、AI架构革命 1双轨模型战略 ◦基础层：3B端侧模型（AFM 3 Core） ◦进阶层：20B MoE模型（仅限iPhone 17 Pro/M4芯片设备） ◦隐私承诺：数据端到端加密+处理即焚机制 2四大核心能力 ◦个人上下文理解（整合照片/邮件/备忘录） ◦世界知识检索（联网实时查询） ◦App Actions（调用第三方应用） ◦屏幕感知（实时界面交互）三、Siri AI进化 1功能升级 ◦连续对话/跨设备同步/视觉识别 ◦独立App上线（支持对话历史回溯） ◦WatchOS/VisionOS多端覆盖 2现存局限 ◦仅支持英语，中国/欧盟暂不可用 ◦复杂任务处理能力弱于ChatGPT 四、应用生态智能化应用核心升级 Safari 智能标签分组/网页变更监控密码全自动密码更新电话 Call Context来电智能识别快捷指令自然语言生成工作流五、影像创作突破 1Image Playground：支持写实风格生成+手势编辑 2空间重构：拍照后重新调整构图（基于Vision Pro技术）六、开发者工具 1Xcode支持多模型选择（含Gemini） 2Core AI Framework开放本地模型部署七、遗留问题 1中国区功能缺失（需等待监管审批） 2Agent能力未达预期（多步任务自动化薄弱）数据亮点： •照片处理速度提升70% •AirDrop传输提速80% •应用启动加速30% （以上数据来自卡兹克@Khazix0918 公众号总结）

译Tim Cook 最后一次以 CEO 身份主持 WWDC，AI 成绝对核心。苹果推出双轨模型：基础层 3B 端侧 AFM 3 Core，进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力：个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App，仅限英语，中国/欧盟暂不可用。应用生态：Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像：Image Playground 写实生成与空间重构。开发者工具：Xcode 支持多模型，Core AI Framework 开放本地部署。遗留问题：中国区功能缺失，Agent 多步自动化能力薄弱。

karminski-牙医@karminski3 · 6月9日70

教你如何10秒钟训练一个小模型! 教大家如何从0训练一个(电)小(子)模(鹦)型(鹉)! (不包熟啊.....逃...) 只需要10秒钟! 而且完全不用搭建环境! 全程在网页训练! 首先你需要有个Mac, 我试了下N卡应该也行, 但是貌似有点问题适配的不好(我的3080Ti它适配失败了WarpSize不支持), 所以建议还是使用 Apple Silicon (M1-M5) 的 Mac 训练. 然后使用llmistanbul直接把你的纯文本文档拖进去就行, 尽量不要包含奇怪的格式, 比如markdown或者json啥的, 不然输出会很奇怪. 我这里直接把哈利波特1-7拖了进去 (注意, 你私下炼作为研究没人管, 但不要把别人的著作炼完了发出去, 请尊重原作者). 然后按照我这个图1：

译推文介绍了如何使用 llmistanbul 在网页上10秒内训练一个小模型（电子鹦鹉）。只需将纯文本文档（如哈利波特1-7）拖入即可，建议使用 Apple Silicon Mac（M1-M5），避免 markdown/json 等格式。N 卡（3080Ti）适配不佳。提醒尊重版权，勿公开发布他人作品。

Chubby♨️@kimmonismus · 6月9日73

Apple: “Our most powerful on-device AI model runs on iPhone 17 Pro.” Me: Great, I have one. Apple: “Do you live in Europe?” Me: …

译Apple 在 WWDC 2026 推出基于 Google Gemini（多年度协议，据报约每年 10 亿美元定制大模型）与自研端侧 Foundation Models 的全新 Siri AI，支持屏幕感知、个人上下文搜索、跨应用操作及独立 Siri app（iCloud 同步对话历史）。Apple Intelligence 还包括 Photos Spatial Reframing、Safari 页面监控、Messages 一键建议、Image Playground 照片级生成等功能。最强端侧 AI 模型仅运行在 iPhone 17 Pro 上，且初期不在欧盟推出。隐私端强调数据仅用于执行请求，可被外部专家验证。

jason@jxnlco · 6月9日41

its like the codex app (windows) but on macos!

译就像 Windows 上的 Codex 应用，但在 macOS 上！

Ethan Mollick@emollick · 6月9日54

Last time around Apple released a lot of information about how their AI version of Siri worked between local and cloud models, not so much this time It is nice to have a Gemma-like model on device, but it is extremely limited unless it can call a smarter cloud model when needed.

译上次苹果发布了很多关于其AI版Siri在本地和云端模型之间如何工作的信息，这次则没有那么多。在设备上拥有一个类似Gemma的模型很好，但除非它能根据需要调用更智能的云端模型，否则其能力极其有限。

Chubby♨️@kimmonismus · 6月9日48

Apple Intelligence sounds like a very good update. But did I miss all the relevant (nerd) stuff like paramters, evals in benchmarks and what not? Hopefully on their website

译Apple Intelligence 听起来是一个非常好的更新。但我是否错过了所有相关的（极客）内容，比如参数、基准评测等等？希望官网上有。

Chubby♨️@kimmonismus · 6月9日32

Interesting: New Apple Intelligence Siri only available on iPhone 17 Pro. Of course not be available in the EU (god damn)

译有趣：新的 Apple Intelligence Siri 仅限 iPhone 17 Pro 使用。当然在欧盟不可用（该死）

Chubby♨️@kimmonismus · 6月9日63

What many misunderstand: Apple doesn't actually need the best model in the world. It's similar to Meta. Their model only needs to be good enough for 99% of everyday use cases. They don't even want to compete with Frontier Labs, but primarily reach the consumer market. And Apple actually has a good chance there. Because a well-adapted Gemini model, based on (3.1/3.5?) and well integrated into the OS, could achieve exactly the use case that many need: AI that simplifies their daily work.

译苹果在WWDC 2026上承认无法独立构建前沿AI，转而与Google合作。新Siri将基于定制1.2T参数Gemini模型（版本或为3.1/3.5），每年花费约10亿美元（Gurman）。Siri作为独立应用，支持iMessage式聊天、动态岛弹窗、扩展系统及邮件/日历/网页查询，运行在Private Cloud Compute上，Google不会用查询数据训练。苹果策略类似Meta——模型只需满足99%日常场景。iOS 27被定位为“雪豹”式清理更新，放弃iPhone 11和SE2支持，并可能允许用户选择AI引擎（Gemini或Claude）。

Kimi.ai@Kimi_Moonshot · 6月8日76

Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents running in parallel on your local machine. 🔹Browser use: Paired with WebBridge extension, your agent will navigate websites in your browser: search, scroll, click, type and complete tasks. 🔹Built for Finance: Native global market data tool call from Yahoo Finance and World Bank - no complex API setup required. 🔹Memory system: Kimi Desktop keeps a running diary of your preferences, past decisions, and context to know you better. Available for macOS (Apple Silicon) and Windows. 🔗Try it now: https://www.kimi.com/products/kimi-work

译Kimi发布Kimi Work，一款本地运行的桌面AI智能体。支持最多300个AI智能体同时在本地机器并行运行；配合WebBridge浏览器扩展，智能体可在浏览器中导航、搜索、点击、填写并完成任务；内置全球市场数据工具，可直接调用Yahoo Finance和世界银行数据，无需复杂API设置；记忆系统会记录用户偏好、过往决策和上下文。支持macOS（Apple Silicon）和Windows。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月8日65

WWDC26 不影響 Apple 2H26 股價正向趨勢，但將揭露多頭敘事的續航力 ‒‒ 1. Apple 目前的多頭核心敘事，是一個近乎直覺、沒什麼人反駁的市場共識：「即使 Apple 在 AI 進度上暫時落後，最終仍能後來居上」。 2. 根據最新的供應鏈調查，我認為 Apple 的業績將會好到今年底，而這會進一步強化多頭核心敘事成為：「Apple 沒有 AI 都這麼好，有了 AI 還得了！」 3. 因此，無論 Apple 在 WWDC26 上講什麼，只要這個多頭核心敘事沒有被破壞，Apple 2H26 的股價正向趨勢就不易改變。 4. 上述多頭核心敘事並非沒有破綻，但我認為至少有機會維持到 2026 年底。至於能維持多久，就是這次 WWDC26 真正值得觀察的地方。 5. 這次 WWDC26 的重點，不在於發表會結束後的短線股價反應，而是：同樣使用 Gemini，Apple 能否做出比 Google 更好的 AI 應用、agentic workflow、裝置端與雲端混合體驗。 6. 如果答案是肯定的，將有利於延長 Apple 的多頭核心敘事；如果答案是否定的，意味著「Gemini 決定了 Apple AI 體驗的上限」，則股價雖未必會轉空，但「Apple 終究會後來居上」的多頭核心敘事，將開始被更多人重新檢視。

译郭明錤指出，Apple 當前多頭核心敘事是「AI 雖落後但最終後來居上」。供應鏈調查顯示其業績將好到今年底，進一步強化此敘事。WWDC26 上無論發布什麼，只要該敘事不被破壞，Apple 2H26 股價正向趨勢就不易改變。真正觀察點在於：Apple 能否用 Gemini 做出比 Google 更好的 AI 應用、AI 智能體工作流及設備端+雲端混合體驗。答案肯定則利好敘事延續；否則「Gemini 決定 Apple AI 上限」的質疑將削弱「後來居上」共識。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月8日60

WWDC26 won't change Apple's positive 2H26 share-price trend, but it will test the staying power of the bull narrative ‒‒ 1. Apple's core bull narrative right now is an almost intuitive market consensus that few people push back on: "Even if Apple is temporarily behind on AI, it will ultimately catch up and come out ahead." 2. Based on my latest supply-chain checks, I believe Apple's business momentum will remain strong through year-end, which should further reinforce the narrative into something like: "If Apple is doing this well without AI, just imagine once it has AI." 3. So regardless of what Apple says at WWDC26, as long as this core bull narrative stays intact, Apple's positive 2H26 share-price trend is unlikely to change. 4. That core bull narrative has its weak spots, but I think it has a good chance of holding at least through end-2026. How much longer it can last is what makes WWDC26 genuinely worth watching. 5. The key takeaway from WWDC26 will not be the short-term share-price reaction after the event. It will be whether Apple, using the same Gemini, can deliver better AI applications, agentic workflows, and on-device & cloud hybrid experiences than Google. 6. If the answer is yes, it would help extend Apple's core bull narrative. If the answer is no, it would suggest that Gemini sets the ceiling for Apple's AI experience. The stock may not necessarily turn bearish, but the "Apple will ultimately come out ahead" narrative would start to face growing scrutiny.

译郭明錤指出，苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲，强化“无AI已不错，有AI更想象”叙事。故无论WWDC26内容，只要叙事不变，苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能，叙事延续；若不能，Gemini设定AI上限，“苹果最终领先”将受质疑。

Rohan Paul@rohanpaul_ai · 6月8日68

A longer context window does not solve the real memory problem in AI work. Kocoro just made AI memory a local Mac feature. It’s an open-source Mac AI agent framework at the engine level. Kocoro works by running a local agent on your Mac that can read your past sessions, files, apps, browser, screen, and terminal, then compress useful facts into memory so it can continue work without you repeating everything. Its security model is mostly local-first control: tool actions need permission, risky commands are blocked or re-asked, actions are audit-logged, secrets are auto-redacted, and memory/session sync is opt-in rather than always uploaded. Its Episodic Memory turns past sessions into selected project facts, decisions, collaborators, deadlines, and habits, so the agent can resume work like a teammate rather than a help desk ticket. Every night it distills your workday into a local knowledge graph — projects, decisions, open tasks. Next morning it picks up exactly where you left off. No context re-pasting. Github links in comments

译Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端，将有用事实压缩为记忆，使 agent 无需重复上下文即可继续工作。安全模型以本地优先：工具操作需授权，危险命令被拦截或二次确认，行为可审计，秘密自动脱敏，记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱，次日直接恢复进度。

Rohan Paul@rohanpaul_ai · 6月8日61

SK hynix and NVIDIA just formed a multi-year memory partnership to build the chips behind the next wave of AI factories. So SK hynix is being pulled deeper into AI servers, personal AI, and physical AI. SK hynix will codevelop memory for NVIDIA Vera Rubin AI supercomputers, Vera CPUs, RTX Spark-powered PCs and Jetson Thor platforms, and will use NVIDIA CUDA-X, PhysicsNeMo, Omniverse, OpenUSD and cuOpt to accelerate chip design, semiconductor simulations and autonomous fab digital twins. Memory can no longer be designed after the GPU is finished, because advanced DRAM and high-bandwidth memory need years of co-design, fabrication planning, and capital spending. The partnership also moves AI into chipmaking itself, using CUDA-X, PhysicsNeMo, and simulation tools to speed semiconductor physics, lithography, and internal engineering code. SK hynix also plans fab digital twins, which are software copies of factories where robots, tools, wafers, and logistics can be tested before changes hit the real production line. It reinforces SK Hynix's position as a key supplier in the AI hardware supply chai

译SK海力士与英伟达达成多年内存合作，将为英伟达下一代AI超级计算机Vera Rubin、Vera CPU、RTX Spark PC及Jetson Thor平台联合开发内存。合作强调内存设计需提前数年与GPU协同设计、制造规划及资本投入，不能再于GPU完成后才设计。双方还将把AI引入芯片制造，利用NVIDIA CUDA-X、PhysicsNeMo、Omniverse、OpenUSD、cuOpt加速芯片设计和半导体仿真，并计划建立工厂数字孪生，在软件中模拟机器人、晶圆和物流后再投入产线。该合作进一步巩固了SK海力士在AI硬件供应链中的关键地位。

Berryxia.AI@berryxia · 6月8日54

我靠，这不直接抢了苹果的活儿啊！ 6.6B的小模型直接把Siri和一堆云端巨头干到闭嘴，还只吃7GB内存就跑在Mac本地。 CJ Zafir他们搞的Mac-1，不光参数小到离谱，还一次性接了487个Mac原生工具，能链式调用、自动推理、连发邮件订会议都行，速度65 tok/s，UI还是纯Mac风。以前大家都觉得agent要靠大模型+云端才能靠谱，结果这个本地小家伙直接把“模型越大越强”的理论快要掀桌子了。它真正厉害的地方是把应用层做成了Mac原生体验，人用着舒服，Agent后台自己干活。云端SaaS的agent时代，可能还没真正开始，就已经被本地小模型+原生工具的组合终结了。感觉苹果没有做成的事儿，被这家公司嘿干了啊！完了实际测测支持中文方便是否也丝滑～

译CJ Zafir团队发布Mac-1模型（6.6B参数），可在任何Mac本地运行，仅需7GB内存（12GB更佳）。它支持487个MacOS原生工具，能执行多工具链式调用，推理开启，输出速度约65 tok/s。应用层基于Mac原生UI/UX设计。作者认为这种本地小模型+原生工具的组合直接挑战云端SaaS agent，甚至可能抢了苹果Siri的活儿。

Chubby♨️@kimmonismus · 6月7日66

Tomorrow could be Apple’s most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri relevant again. If the leaks are right, Apple is rebuilding Siri around a custom Google Gemini model, reportedly around 1.2 trillion parameters. For context: Apple’s own on-device AI model is roughly 3B parameters. The biggest rumor: Apple’s new Siri will reportedly be powered in the background by Google Gemini. Not as a Google-branded chatbot, but as an Apple-controlled intelligence layer running behind Siri, likely tied to Apple’s privacy-first infrastructure. So the new Siri likely becomes a hybrid system: • small Apple model locally on your device • large Gemini-class model in the cloud • Siri as the orchestration layer • Apple controlling the UI, app access and privacy layer What to further expect: • a much more conversational Siri • deeper personal context across apps, messages, files, calendar, photos and contacts • screen awareness • actions inside apps • a dedicated Siri app with chat history • voice chat, file uploads and multimodal interaction • better integration with Dynamic Island • optional support for other AI services like ChatGPT, Claude or Gemini Apple wants to turn Siri into the private AI layer of the operating system. A system agent that can search, understand, write, edit, summarize, organize and act across your iPhone, Mac and iPad. We may also see new Apple Intelligence features for: • AI photo editing • smarter Camera / Visual Intelligence • improved Writing Tools • natural-language Shortcuts • better Wallet and Health integrations • more privacy controls around AI data Either way, WWDC 2026 could define Apple’s position in the AI race. Exciting how the new CEO will handle all of this. Images: Bloomberg, Mark Gurman

译据传 WWDC 2026 苹果将彻底重构 Siri，底层集成 Google Gemini 模型（约 1.2 万亿参数）作为云端智能层，与自有 3B 参数设备端模型组成混合系统。Siri 担任编排层，控制 UI、隐私和应用权限。预期新 Siri 支持更自然对话、跨应用上下文、屏幕感知、应用内操作、专用 Siri app、语音/文件/多模态交互、动态岛增强，并可选接入 ChatGPT/Claude 等第三方 AI。同时可能推出 AI 修图、智能相机、写作工具、自然语言快捷指令等新 Apple Intelligence 功能。

AYi@AYi_AInotes · 6月7日78

http://x.com/i/article/2063531614047444992 # “我在田里雇了一名工程师，它叫 Codex” —— 北海道一个西兰花农的 8 个真实 AI 用法想看 AI 怎么真正落到一线生产里的朋友，做农业的，这篇非常值得看。北海道农民富安弘毅，用 ChatGPT 和 Codex 解决了一堆农场里的实际问题：拍照诊断作物病害、拉卫星数据监测农田、用 Codex 搭温室远程控制、给农场群聊做机器人……8 个用法，每个都带着他当时问 AI 的原始提示词。以下编译自 ChatGPT Pro Community，原文链接我放评论区。我们每周都会和 ChatGPT Pro 的订阅用户聊聊，看他们如何把这个产品用在生活和工作里。今天要介绍的是富安弘毅——一位在北海道务农的日本人，他用 ChatGPT 和 Codex 学习新技术、排查问题，还亲手搭建工具，把农场里的一部分活儿自动化。前不久我们有机会在东京和弘毅坐下来聊了聊，听他讲一个公务员出身的人是怎么自学务农的。希望他的故事能给你一些启发。在东京近郊长大的富安弘毅，从没想过自己会成为一名农民。他没有继承土地，没学过农业，早年还做着公务员的工作。但二十多岁时，一些与日本稻作文化有渊源的朋友，开始把他带进乡村社区。最初只是好奇，渐渐变成了信念。"不知不觉间，"他说，"我就成了一个农民。" 大约十年前，弘毅加入了一个小团体，在冈山县修复被废弃的梯田——这是当时一场更大行动的一部分，旨在重新唤醒那些正在日本乡村各地消失的老化农田。这份工作既辛苦又理想主义，但这群人因为一个共同的信念凝聚在一起：他们能做出更大的事。"我们想：为什么不干脆成立自己的合作社，经营一座完整的农场呢？" 这份雄心最终把他们带向了北方，来到日本的农业腹地北海道。在那里，弘毅靠亲手去做来学习务农。一季又一季，他自学开拖拉机、管理作物、经营大规模农田。如今，他打理着约 100 公顷的土地，种着西兰花、南瓜、大葱和大豆。这种规模的现代农业是不留情面的：体力消耗巨大、运营复杂，还很难招到人。于是弘毅开始自己琢磨怎么把一部分工作自动化。传统的农业自动化往往需要昂贵的专有机械和专业工程师——这些资源通常只有规模大得多的农场才用得起。但他说，像 ChatGPT 和 Codex 这样的 AI 工具改变了这道等式。"感觉就像身边随时有一位超级厉害的工程师。" 现在，弘毅会在工余时间折腾 AI、软件和联网传感器，去解决农场里实打实的问题：监测温室温度、追踪田间状况、让日常运营更顺畅。在网上，他把这个过程记录成一个持续更新的实验系列——一个农民如何一步一步、自学着把它搭出来。下面是弘毅用 ChatGPT 和 Codex 在农场里做自动化、排查问题、辅助决策的八种方式（提示词由日文翻译而来）： ## 1. 识别蔬菜的病害 > 我注意到收获的西兰花上出现了黑斑。我想知道这是不是一种病害，以及我该怎么处理。这次对话价值在哪？ "农活中发现的异常，可以当场拍下来和 ChatGPT 讨论。它会给出指引——从不需要找专家的轻微症状，到需要紧急干预的病害，都涵盖在内。" ## 2. 学习如何用卫星监测农田 > 如果要用卫星来做农田监测，可能会用上哪些系统和机制？这次对话价值在哪？ "我搭了一套系统，基于我们自己的农田数据去拉取卫星数据，并定期获取像 NDVI 这样的植被指数数据。现在我们能看到把卫星影像叠加在真实农田上的地图，为每块地的决策提供了更多数据。它被干净地整合进了我们之前已经做好的地图应用里，让卫星数据用起来既方便又顺手。" ## 3. 给照片加上技术标注 > 这是我正在搭建的塑料大棚卷帘机控制面板的内部。我希望你做一张图，说明每个部件是什么、属于哪台机器、整个系统是怎么运作的。左上角可见的部件是接线端子，中间的是电机驱动器，右上角是 ESP32，右下角和左下角各有开关。这次对话价值在哪？ "这是我为管理塑料大棚温度而搭建的控制箱的接线图。日文输出得非常完美，我是真的惊到了。" ## 4. 用 Codex 给温室电机做一个远程遥控 > 我想用 ESP32 控制一台温室卷帘电机。配置如下：ESP32、BTS7960 电机驱动器、24V 直流卷帘电机、Cloudflare Workers、LINE 机器人、D1 数据库、用于手动操作的 ON-OFF-ON 开关。 > 我的想法是：当我通过 LINE 发送"开""关"或"停"时，希望指令被存进 Cloudflare Workers。ESP32 应该定期轮询指令，并据此驱动电机。请清晰地解释整体架构和控制流程，包括安全方面的考量。这次对话价值在哪？ "我用 Codex 搭出了一套系统，把温室里的卷帘控制自动化了。现在我能通过 LINE（一款即时通讯软件）远程管理温室，工作轻松了一大截。" 实际效果就是这条推： ## 5. 用 Codex 给农场的群聊做一个机器人 > 我想给农田作业做一个机器人。目的是：查看每个塑料大棚的温度、操作卷帘通风口、查看工作排期。为了不让现场的人困惑，请按以下条件设计 LINE 的快捷菜单和对话流程：按钮数量保持精简、使用清晰易懂的日文、方便在手机上点按、不容易误操作。这次对话价值在哪？ "我们把这个机器人加进了农场的群聊里，让这个团队每天本来就在用的群聊变得更有用了。它能处理更新数据库、查看排期、拉取温度数据这类事情。" ## 6. 用 Codex 根据群聊记录追踪播种情况 > 根据我们群聊历史里的这些记录，前三轮我们每一轮各播了多少盘西兰花？这次对话价值在哪？ "它从农场聊天工具的历史记录里把数据扒出来，精确算出了到目前为止一共播了多少株西兰花苗。只要日志存在我们日常用的群聊里，AI 就能回头把数据挖出来，真是帮了大忙。" ## 7. 学习拖拉机的 GPS 自动转向系统是怎么运作的 > 我想请你解释一下，基于 RTK-GPS 的系统是如何让拖拉机自动保持直线行驶的。我想评估一下自己能不能动手做一套。这次对话价值在哪？ "在投钱买昂贵的专有自动转向系统之前，我想先弄懂背后的技术原理。通过问 ChatGPT，我了解了 RTK（实时动态定位）校正的原理、所需的部件，以及有哪些开源项目存在。结果我意识到，自建一套系统几十万日元就能搞定，这一下子把我的可选项拓宽了很多。" ## 8. 为农场管理应用设计数据库 > 请帮我为一个农场管理应用设计数据库。我想管理的内容包括：地块、作物、计划中的任务、已完成的任务、工人、物料、农药、肥料、塑料大棚、传感器数据。 > > 假设以 Airtable 作为平台，请建议：要创建哪些表、每张表需要的字段、表与表之间的关系。目标是能回答农民可能在群聊里问出的这些问题："今天有哪些活儿？""这块地下一步该干什么？""这个大棚现在多少度？" 这次对话价值在哪？ "这次对话成了我们把农场信息整理进一套互联系统的起点。现在我有了一个基于 Airtable 的结构，把地块、工作排期、日常记录、物料和传感器数据都连了起来，还配了一个消息界面，让我能随时调取任务和大棚温度信息。它减少了在一堆零散记录里翻找的时间，让运营信息更容易获取。"

译日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题，涵盖 8 个用法：拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及，“如同身边有一位超级工程师”。

凡人小北@frxiaobei · 6月6日48

懒猫家这个摄像头好看啊

译懒猫发布第三款智能硬件——懒猫AI摄像头，星际太空人科幻外观，从零开模打磨一年半，头围与蔚来Nomi一致，可互换头饰。后期将结合懒猫AI算力舱，支持用户自定义AI大模型，实现100%隐私的家庭AI摄像头。该摄像头为NAS界第一款智能摄像头，扫码即用，无需破解Token。正式售价399元，预售价360元。将抽取10台免费赠送。

Rohan Paul@rohanpaul_ai · 6月6日68

Google just made Gemma 4 much easier to run on phones and laptops by releasing QAT (Quantization-Aware Training) checkpoints that shrink the smallest model from 11.4GB to 1.1GB, or 0.84GB for text-only use. Normal PTQ (Post-Training Quantization.) compresses after training and can damage quality because the model never learned to survive that rounding. QAT fixes this by simulating compression during training, so Gemma 4 learns while its weights are being squeezed, making the final compressed model less likely to lose reasoning quality. Google also built a mobile-focused format with static activations, channel-wise quantization, targeted 2-bit quantization, and KV cache optimization, which means the phone does less scaling work, stores some token-generation parts more aggressively, and keeps long chats from eating memory too fast.

译Google 发布 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 缩小至 1.1GB（纯文本版 0.84GB），便于手机和笔记本运行。常规 PTQ（训练后量化）因模型未学会应对舍入而损伤质量；QAT 在训练中模拟压缩，让模型在权重被挤压时学习，压缩版不易丢失推理能力。Google 还构建了移动端优化格式，包含静态激活、通道量化、定向 2-bit 量化及 KV 缓存优化，减少手机缩放计算并防止长对话过快消耗内存。