AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 301 条
全部一手资讯X论文
标签「端侧」清除
Rohan Paul@rohanpaul_ai · 5月6日49

Nvidia and Span is turning homes into small AI data centers, using spare household electrical capacity to run compute nodes while giving hosts cheaper power and internet. The idea starts with a mismatch: many homes are wired for 200 amps, but they often use far less than that, so Span wants its smart panel to measure unused capacity and feed an XFRA Node without overloading the house. Each node is serious hardware, with 16 Nvidia RTX Pro 6000 Blackwell GPUs, 4 AMD EPYC CPUs, and 3TB RAM, which means this is not a hobby server but a rented slice of AI infrastructure. The battery matters because AI workloads hate interruptions, so it buffers demand spikes, supports demand-response events, and shifts work away if a home loses power. The business claim is that distributed nodes can avoid the slowest part of data center growth: getting land, permits, utility approval, grid upgrades, and power access. Span plans a 100-node proof of concept in Q3-26, then aims for more than 1GW of annual capacity from 2027. --- pv-magazine-usa .com/2026/04/15/span-and-nvidia-to-develop-ai-data-centers-in-your-backyard-lowering-electric-bills/

译NVIDIA与Span计划利用家庭未充分利用的电力容量,将住宅转变为分布式AI计算节点。其核心是配备16块NVIDIA RTX Pro 6000 Blackwell GPU和4颗AMD EPYC CPU的XFRA节点,并内置电池以确保AI负载稳定运行。该模式旨在规避传统数据中心在土地、审批和电网升级方面的扩张瓶颈。Span计划于2026年第三季度启动100个节点的概念验证,目标是从2027年起实现年容量超过1吉瓦的分布式算力网络,同时为参与家庭降低电费成本。

Berryxia.AI@berryxia · 5月5日68

手机内卷到AI届?而且竟然非主流芯片厂商拿到AI巨头的订单? OpenAI 终于不满足于只卖模型了,他们要直接造手机,而且是专为 AI Agent 量身打造的硬件底座。 最新产业调查更新:OpenAI 正加速首款 AI Agent 手机开发,最快 2027 上半年量产。背后动机可能包括年底 IPO 叙事 + AI Agent 手机竞争白热化。 供应链细节已经清晰: - 联发科大概率独家拿下处理器订单,基于天玑 9600 的客製版本 - 台积电 N2P 工艺在 2026 下半年投产 - 规格焦点是强化 ISP 实现高动态范围真实世界视觉感知 - 双 NPU 架构做 AI 算力分层 - LPDDR6 + UFS 5.0 彻底缓解记忆体瓶颈 - pKVM + inline hashing 强化安全性 若开发顺利,2027-2028 年预计出货约 3000 万台。 这不是又一款“带 AI 的手机”,而是第一次把 Agent 能力从 App 层直接推到系统层,让手机真正成为可感知、可决策、可长期执行的随身 Agent 底座。 当 OpenAI 从云端模型玩家变成硬件玩家,手机行业的下一场战争,才真正开始了。 你觉得 OpenAI 这款 AI Agent 手机,会把整个行业卷成什么样?

译OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。

Chubby♨️@kimmonismus · 5月5日45

This is one of the coolest things ive seen in a while: MIT Hackathon Team Builds A Wearable AI System That Can Guide Your Physical Movements

译这是我最近见过最酷的事情之一: MIT Hackathon Team Builds A Wearable AI System That Can Guide Your Physical Movements

meng shao@shao__meng · 5月5日66

KroWork 最值得关注的点,是它的 chat-to-software:利用内置 20+ Skills 端到端自动化执行完成任务。 每一次对话都会变成本地运行的 Kro App,像本地软件一样安装使用,一键复用——节省 token 和时间。 想法进,软件出。原生桌面级体验。零代码。

译KroWork的核心创新在于“chat-to-software”模式,旨在超越仅能提供建议或代码的传统AI聊天机器人。它是一个桌面AI智能体,能通过20多种内置技能端到端自动化执行任务,并将完整工作流转化为名为“Kro App”的持久性本地应用程序。该应用可一键安装至系统菜单,像常规软件一样运行,且重复使用无需消耗token或重新构建。所有操作均在用户本地设备上完成,保障数据隐私,无需云端依赖,用户也无需具备编程背景即可创建属于自己的可复用软件。

Chubby♨️@kimmonismus · 5月5日72

Everyone's building AI coding tools. KroWork does something different: it turns conversations into actual local desktop apps. Not code snippets. Not cloud links. Real software on your machine. They call it app solidification, and nothing else does this yet. Sounds intersting

译KroWork是一款创新的桌面AI智能体,其核心在于“应用固化”能力,能将对话直接转化为持久可用的本地软件。它不止于生成代码建议,而是端到端自主执行任务,并将完整工作流保存为名为“Kro App”的独立应用。用户一键安装后,该应用即可像常规软件一样运行,无需重复消耗tokens或重建流程。所有操作均在本地设备完成,无需编程背景,且数据完全脱离云端。这标志着AI从对话助手向能构建并交付实体软件的工具转变。

Berryxia.AI@berryxia · 5月3日60

兄弟们!苹果又在偷偷干一件大事。 表面上看只是Mac mini“涨价”了:599美元的256GB低配直接没了,新起步价799美元/512GB。 但如果你跑本地大模型,就该警醒了——这不是简单的存储升级,而是一场系统性的配置屠杀。 3月份,Mac Studio的512GB统一内存选项悄无声息地消失了,那可是苹果自己宣传能跑600B+参数模型的配置。 同时256GB统一内存升级价暴涨400美元。 现在Mac mini的廉价入门款也彻底砍掉。 你可以说这是“存储升级”,但MacBook Neo上256→512GB才加100美元,还送Touch ID,这解释根本站不住脚。 真正的原因是内存经济学在作祟。 TrendForce数据显示:常规DRAM合约价环比涨90-95%,PC DRAM涨超100%,服务器DRAM也涨90%。 AI超大规模数据中心把全球内存供货吃得干干净净,连苹果自己的Mac mini和Mac Studio都开始供货紧张好几个月,Tim Cook 亲自点名“AI和智能体工具需求超预期”。 苹果最聪明的地方在于:他们从来不喜欢直接给老产品涨标价。 于是就把低配砍掉、极端高配砍掉,剩下的配置阶梯悄无声息地整体上移。 如果你还在等一台性价比高的统一内存机器来跑本地推理,这个窗口可能正在快速关闭,至少短期内不会回来了。 本地AI的硬件红利期,比我们想象中结束得更快。 当AI巨头把内存变成稀缺资源时,普通玩家还能抢到多少“便宜牛逼”的本地算力? 这波操作,你觉得苹果是在保护利润,还是被AI浪潮逼得不得不这样调整?

译苹果近期悄然调整Mac产品线内存配置与定价。Mac mini取消599美元256GB入门款,起售价升至799美元/512GB;Mac Studio也移除了512GB统一内存选项,且256GB升级价暴涨400美元。这并非简单存储升级,而是因AI数据中心导致全球DRAM供应紧张、价格飙升。Tim Cook指出AI需求超预期,导致Mac供货紧张数月。苹果通过砍掉低配和高配、整体上移配置阶梯变相提价,对依赖统一内存进行本地大模型推理的用户而言,高性价比硬件窗口期可能快速关闭。

Orange AI@oran_ge · 5月3日34

做马桶的 Toto 也是 AI 概念股了 但做智能马桶的做芯片好像也挑不出毛病?

-Zho-@ZHO_ZHO_ZHO · 5月2日48

两年过去,模式依旧可行,不过自然多了些新想法,除了经典的 iPod shuffle 之外,这次结合 iPod Nano 4 来做尝试 美将重生|AiPod:改造计划|Zho

译作者提出一种名为iA的AI硬件设计构想,其核心是手机与专用AI硬件配合使用的过渡方案。该硬件主体设计灵感来源于iPod Shuffle,具备小巧、可夹持的特性,并设有语音交互按键和调用手机功能的按键。作者认为,未来手机与AI硬件终将融合,但目前阶段分离设计有助于避免增加手机复杂度。此次构想是继经典的iPod shuffle方案后,结合iPod Nano 4进行的新尝试。

宝玉@dotey · 5月2日52

为了省 $25,不值得…

译一位中国开发者在跨大西洋航班上,为节省25美元机上WiFi费用,利用MacBook Pro M4本地离线运行Llama 3.3 70B大模型,自主处理客户任务长达11小时。他编写了一个具备资源感知能力的编排器,该系统明确知晓自身处于离线状态,且受限于电池和内存。它能自动从队列获取任务,通过本地推理服务处理,并定期保存检查点。当电池低于5%时,系统会暂停并等待切换至充电宝后恢复运行,最终在无人干预下清空所有任务。这一案例展示了完整的“自我感知计算”离线AI工作流。

TestingCatalog News 🗞@testingcatalog · 5月1日55

APPLE 🍎: “AFM Plus 150B Instruct” Apple Foundation Model has been spotted in the internal AFM Playground app. This app is being used internally by Apple employees to test Apple Foundation models. WWDC26 will be hot 🔥

译苹果 🍎: “AFM Plus 150B Instruct” Apple Foundation Model 在内部的 AFM Playground 应用中被发现。 这个应用正在被苹果员工内部使用,以测试 Apple Foundation 模型。 WWDC26 将会很火爆 🔥

Tencent Hy@TencentHunyuan · 4月29日67

We're open-sourcing Hy-MT1.5-1.8B-1.25bit — a 440MB translation model that runs fully offline on your phone, supports 33 languages, and outperforms Google Translate. At 1.8B parameters, it matches commercial translation APIs and 235B-scale models on standard benchmarks. By quantizing to 1.25-bit, memory drops from 3.3GB (FP16) to 440MB — 25% smaller and ~10% faster than prior 1.67-bit approaches, with no accuracy loss. Covers 33 languages, 5 dialects, and 1,056 translation directions including minority languages like Tibetan and Mongolian. Our translation model has won 30 first-place rankings in international MT competitions and is already deployed across multiple Tencent products.🏆 📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk 🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit 🔗GitHub: https://github.com/tencent/AngelSlim 📄Paper: https://arxiv.org/abs/2601.07892

译腾讯开源了Hy-MT1.5-1.8B-1.25bit翻译模型,其参数量为18亿,经量化后仅440MB,可在手机上完全离线运行。该模型支持33种语言、5种方言及1056个翻译方向,包括藏语、蒙古语等少数语言。在标准测试中,其性能媲美商业翻译API和2350亿参数的大模型。通过量化至1.25比特,模型内存占用从FP16格式的3.3GB大幅降低,比之前的1.67比特方法体积缩小25%、速度提升约10%,且无精度损失。该模型已在国际机器翻译竞赛中获得30项第一,并部署于腾讯多个产品中。

Qwen@Alibaba_Qwen · 4月29日60

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

Qwen@Alibaba_Qwen · 4月29日66

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

ginobefun@hongming731 · 4月29日49

NVIDIA 发布 Nemotron 3 Nano Omni,这是一款面向长上下文的多模态模型,能够处理文本、图像、音频和视频。 它在文档分析、自动语音识别、音视频理解及智能体计算机使用等实际应用中表现出色,并在多项基准测试中展现了领先的准确性和效率。

译NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。

Berryxia.AI@berryxia · 4月29日65

🚀 OpenBMB 重磅发布!MiniCPM-o 4.5 技术报告来了! 9B 参数多模态模型实现突破性实时交互: • Omni-Flow 框架:原生全双工流式交互(视频+音频+文本毫秒级同步) • Native Full-Duplex + Proactive Interaction(无需VAD,可主动提醒) • 多模态基准接近 Gemini 2.5 Flash(MMBench 87.6 / MathVista 80.1) • 极致 Edge AI:完全离线运行,一键安装 Windows / macOS(12G VRAM 即可) • 100% 本地隐私 + 免费社区 API 真正的实时、自然人机交互时代来了!🔥 技术报告、GitHub、HuggingFace、Web Demo 已开放。

译OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

Berryxia.AI@berryxia · 4月29日58

Google Gemma 官方教你本地跑 Coding Agent! 本地完美组合来了: • Pi Agent • Gemma 4 26B 模型 • LM Studio / Ollama / llama.cpp 等 serving engine 完全离线运行、零 API 费用、100% 隐私保护、零延迟!本地开发者 Agentic 开发神器! 附 @patloeber 详细一步步搭建教程👇 https://patloeber.com/gemma-4-pi-agent/

Berryxia.AI@berryxia · 4月29日45

Apple Vision Pro “首次”用于真实手术!👀 世界首例白内障手术诞生! 这里我补充一下其实AVP在几年前刚出来那会就已经有国内沈阳那边的医院用于做手术,国内北大好像也有并非首例! 纽约 SightMD 眼科医生 Dr. Eric Rosenberg 使用 Apple Vision Pro + ScopeXR 混合现实平台,于2025年10月完成全球首例,至今已成功实施数百例。 支持3D立体显微视野、实时数据叠加 + 远程专家协作,空间计算正式进入手术室! ```

译纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

Rohan Paul@rohanpaul_ai · 4月29日40

A San Diego ophthalmologist performed cataract surgery while wearing an Apple Vision Pro. The headset overlays real-time 3D imagery from a digital microscope and patient data directly in his field of view. No more glancing away at separate monitors.

译圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。 该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。 无需再转头查看单独的显示器。

Chubby♨️@kimmonismus · 4月29日51

Sigma: A fully private AI browser that runs agents locally on your machine. -No cloud. -No data leaving your device. -Open Source Qwen, Gemma, Nemotron – all running right in your browser. This is the direction browser AI should go!

译Sigma:一款完全私密的AI浏览器,可在您的设备上本地运行智能体。 -无需云端。 -数据不会离开您的设备。 -开源 Qwen、Gemma、Nemotron——全部直接在浏览器中运行。这才是浏览器AI应有的发展方向! [引用 @Sigma_Browser]:搭载OpenClaw智能体的私密AI浏览器,基于免费本地模型运行 在浏览器中直接使用Qwen、Gemma或Nemotron运行您的智能体 开源。私密。在您的本地设备上运行

AK@_akhaliq · 4月29日59

Nvidia released Nemotron 3 Nano Omni made a gradio app for it on Hugging Face

译Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

Chubby♨️@kimmonismus · 4月29日46

My current daily driver is Brave Browser. A fully private AI browser that runs agents locally on your machine, no cloud, no data leaving your device sounds freaking awesome. Qwen, Gemma, Nemotron - all running directly in the browser, open source. This is the direction browser AI should go! Ngl, love to work with them.

译作者推崇将AI智能体完全本地化运行的浏览器模式,认为这是浏览器AI应有的发展方向。这种模式的核心在于隐私保护与开源,所有数据处理均在用户设备本地完成,无需依赖云端,确保数据不外泄。当前,已有如Sigma Browser等产品实现了这一理念,支持在浏览器内直接运行Qwen、Gemma、Nemotron等开源模型。作者对此表示高度赞赏,并表达了强烈的合作意愿。

Rohan Paul@rohanpaul_ai · 4月29日59

Sigma (@Sigma_Browser) just announced an open-source private AI browser that runs the OpenClaw agent and local models like Qwen, Gemma, and Nemotron on your device. Most AI browsers send page context and task steps to remote servers, which adds delay and creates a privacy gap. Sigma’s proposal is to place a local LLM inside a Chromium browser, then let it read pages, understand intent, and act on the web directly. That changes the browser from a passive viewer into a working surface where AI can click, type, summarize, and automate routine online tasks. Because the browser already holds your real working context: tabs, forms, searches, accounts, and all the messy state of a task in progress. Once an agent lives there, the interface shifts from asking for information to delegating action.

译Sigma发布了一款开源私有AI浏览器,其核心是将本地大语言模型(如Qwen、Gemma、Nemotron)与Chromium浏览器深度集成。该浏览器通过内置的OpenClaw智能体,能直接读取页面内容、理解用户意图,并执行点击、输入、总结等自动化操作,从而将浏览器从被动查看工具转变为能直接处理任务的AI工作界面。此举旨在解决多数AI浏览器需将数据发送至远程服务器导致的延迟和隐私风险,所有计算均在用户本地设备完成,确保了隐私安全和响应速度。

TestingCatalog News 🗞@testingcatalog · 4月29日55

Now you can run a private OpenClaw Agent powered by local models directly inside a Sigma browser. > Gemma 4, Qwen, 3.5, or Nemotron 3 models are available. All your browser data stays on your machine. > Private AI Agent can manage tabs, navigate to pages, and more!

译现在你可以在Sigma浏览器内直接运行由本地模型驱动的私有OpenClaw智能体。 > 可选Gemma 4、Qwen、3.5或Nemotron 3模型。所有浏览器数据均保留在本地设备。 > 私有AI智能体可管理标签页、跳转页面,功能丰富!

Ant Ling@AntLingAGI · 4月29日59

It was quite a journey from #elephantalpha 🐘to our release of the APIs on OpenRouter, to today we finally open sourcing our models on Hugging Face / ModelScope. Thanks to our launching partner @novita_labs, a pioneer and community builder 😼

译AntLingAGI宣布将其模型Ling-2.6-flash正式开源,该模型此前在OpenRouter平台上曾以“Elephant Alpha”为名提供API服务。目前,模型已在Hugging Face和ModelScope平台全面开放,供公众自由使用与构建。模型关键参数为总参数量1040亿,激活参数量74亿,在Artificial Analysis基准测试中输出速度约为每秒215个token,并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs,以及lmsysorg的SGLang团队和vllm项目的技术支持。

阿绎 AYi@AYi_AInotes · 4月28日43

holy shit, 兄弟们,这才是程序员的终极形态啊,太牛逼了😲😲😲 Beff刚刚转发的这个演示,直接给我看麻了,忍不住喊了好几声卧槽,把我家猫都吓一激灵🤣🤣🤣 Even Realities的G2智能眼镜出了Terminal Mode, 把一个完整的Claude终端, 直接浮在了你的眼球上🤯🤯🤯 你不用再坐下来,不用再开电脑, 不用再等笔记本加载。 在公园散步的时候,边走边让AI帮你写接口。 坐火车的时候,窗外的风景上飘着终端,AI在实时输出设计规范。 深夜走在街头,霓虹灯旁边就是正在生成的3D交互逻辑。 你说一句话,AI就自动适配眼镜的硬件限制,直接给你代码、逻辑、动画描述。真正做到了走到哪,写到哪。 Beff说的太对了,你可能不喜欢, 但这就是巅峰性能的样子。 它直接把开发环境从电脑里,搬进了你的眼睛里,把上下文切换成本干到了零,damn🤨🤨🤨 以后vibe coding再也不是梗了, 直接变成了真实的工作流。 以前你需要专门腾出时间进入coding状态,现在你任何碎片时间都能迭代产品。 等咖啡的两分钟,地铁上的半小时,散步放空的时候,全都是生产力。 对于solo founder来说,这就是核弹级的武器。 当然也有人吐槽,说这样再也没有真正的下班了,注意力边界会彻底消失。 但Beff那句“You may not like it”已经说透了, 老派的生活方式注定要被淘汰, 你喜欢不喜欢,历史的车轮都会碾过去。 这已经不是一个新功能了兄弟们,一个新物种诞生了! 一个可以边走边思考,边看世界边创造的后人类程序员诞生了! 而且我认为眼镜也只是过渡, 下一步,就是直接连到大脑🤯🤯🤯

译Even Realities推出的G2智能眼镜具备“终端模式”,可将完整的Claude AI终端直接投射到用户视野中。开发者能在移动场景(如散步、通勤)中通过语音与AI交互,实时获取代码、设计规范等内容,实现开发环境与物理世界的无缝融合。该技术彻底消除了上下文切换成本,将碎片时间转化为生产力,被视为“vibe coding”的终极形态。尽管引发工作与生活界限的担忧,但这代表了程序员工作流的革命性变革,被形容为“巅峰性能”和“新物种”的诞生。

歸藏(guizang.ai)@op7418 · 4月28日74

小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T Token 计划。 这个太牛批了!如果你有自己 Vibe Coding 一些东西可以去领一下。 包含两部分: 分别是面向 AI builder 的『百万亿 Token 创造者激励计划』,与面向 Agent 框架团队的『Agent 生态共建计划』。 百万亿 Token 创造者激励计划: 申请通过的 AI builder 用户最高将获得 Max 档位的 Token Plan,包含 16 亿 Credits ,价值 659 元。 Agent 生态共建计划: 将为你的 agent 框架提供 MiMo token 限免支持,让你的用户免费接入并体验 MiMo 系列模型。

译小米正式开源MiMo-V2.5系列模型,采用宽松的MIT协议,允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型:专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro,以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时,小米推出Orbit 100T Token计划,包含面向AI开发者的“百万亿Token创造者激励计划”,提供最高价值659元的Credits,以及面向Agent框架团队的“Agent生态共建计划”,为其用户提供MiMo token限免支持。

OpenClaw🦞@openclaw · 4月28日50

OpenClaw 2026.4.26 🦞 🎙️ Google Live Talk 🦙 Better Ollama/local models 🧳 Bring over Claude + Hermes setups 🔐 One-command Matrix E2EE Big release. Local models eat well. https://github.com/openclaw/openclaw/releases/tag/v2026.4.26

译OpenClaw 2026.4.26 🦞 🎙️ Google 直播访谈 🦙 更好的 Ollama/本地模型 🧳 迁移 Claude + Hermes 配置 🔐 单命令 Matrix 端到端加密 重大发布。本地模型享用盛宴。 https://github.com/openclaw/openclaw/releases/tag/v2026.4.26

meng shao@shao__meng · 4月28日75

Xiaomi MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro:1T/42B(MoE),1M 上下文 · MiMo-V2.5:310B/15B (MoE),1M 上下文 同时还发布了 100T Token 创造者激励计划,在这申请,赠完即止: https://100t.xiaomimimo.com/ MiMo-V2.5 架构关键点:三件套支撑万亿稀疏 + 百万长文 1. 混合注意力(Hybrid Attention) SWA(局部滑动窗口)与 GA(全局注意力)按 6:1(Pro)或 5:1(V2.5)交错堆叠,滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7,长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。 2. 多 Token 预测(MTP,3 层) 原生集成而非外挂的投机解码:训练即推理,3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍,同时还能加速 RL 训练时的 rollout。 3. 稀疏 MoE Pro 共 70 层(1 dense + 69 MoE),384 个路由专家,每个 token 激活 8 个,每次只跑 42B 参数。Hidden size 6144,128 个注意力头(GQA:8 个 KV 头)。 训练规模与方法 1. MiMo-V2.5-Pro · Pre-training:27T tokens,FP8 混合精度,原生 32K 序列 · 后训练:SFT → 大规模 Agentic RL → MOPD 2. MiMo-V2.5 · Pre-training:~48T tokens(含多模态) · 后训练:同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展 后训练的核心是 MOPD(Multi-Teacher On-Policy Distillation):先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强,再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash,是 V2.5 全系能"既宽又深"的关键。 模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

Ethan Mollick@emollick · 4月28日50

The new LLM trained only on pre-1931 text is small enough that it can potentially run on device, so, with the right tools, you can get a fully vintage version of Siri, but from the era of Downton Abbey. Here, I asked for it to arrange for sushi delivery in Philadelphia. Hmmm...

译这款仅基于1931年前文本训练的新LLM体积小巧,甚至可能在设备上直接运行,因此借助合适的工具,你能获得一个完全复古版的Siri,不过是来自《唐顿庄园》时代的版本。 在此,我让它为我在费城安排寿司外卖。嗯……

宝玉@dotey · 4月28日69

转译原推:OpenAI 或将重新定义智能手机;联发科、高通与立讯精密,可能成为其 AI 智能体手机的关键伙伴 • 最新产业调研显示: OpenAI 正在与联发科(MediaTek)和高通(Qualcomm)合作开发智能手机处理器,立讯精密(Luxshare)则是独家系统共同设计与制造伙伴。该产品预计将在 2028 年进入量产。 • AI 智能体将重新定义智能手机: 用户真正想要的,并不是在手机里打开一堆 App。用户想要的是通过手机完成任务、满足需求。这个变化会从根本上改变人们对智能手机的理解。 我做了一版智能手机界面的概念设计,放在这篇文章最后,用 iPhone 作为例子,和今天的手机使用模式做对比。 • OpenAI 为什么要做手机? 只有同时完全掌控操作系统和硬件,OpenAI 才能提供完整的 AI 智能体服务。 智能手机是唯一能够持续捕捉用户完整实时状态的设备,而这些实时状态,正是 AI 智能体进行实时推理时最重要的输入。 在可预见的未来,智能手机仍将是规模最大的设备品类。 • 云端 AI 与端侧 AI 将深度结合: 手机需要持续理解用户所处的上下文。因此,功耗、内存层级管理,以及基础小模型的运行能力,都会成为处理器设计时的关键考量。 更复杂、计算量更大的任务,则会交给云端 AI 来处理。 • OpenAI 的优势,在于它的消费级品牌、长期积累的用户数据,以及领先的 AI 模型。 智能手机硬件本身已经非常成熟,所以 OpenAI 可以借助供应链来开发设备。 在商业模式上,OpenAI 可能会把订阅服务和硬件绑定在一起,并与开发者共同建立一个新的 AI 智能体生态系统。 • 联发科和高通是处理器共同开发伙伴,未来可能受益于长期换机需求: 规格和供应商预计将在 2026 年底或 2027 年第一季度敲定。 以“联发科 × Google TPU Zebrafish”为例,单颗芯片带来的收入贡献,大约相当于 30–40 颗 AI 智能体手机处理器。假如初期目标锁定全球高端智能手机市场,而这个市场每年出货量约为 3 亿到 4 亿台,那么未来的换机周期可能会成为另一个重要增长引擎。 • 无论立讯精密多努力,要在苹果供应链中超越鸿海的组装地位,都会非常困难。 也正因为如此,这个项目对立讯精密尤其重要。 如果它能在早期就卡位这一供应链,就有机会成为下一代智能手机浪潮中的核心受益者。

译据报道,OpenAI正与联发科和高通合作开发智能手机处理器,立讯精密为独家设计与制造伙伴,目标2028年量产。此举旨在通过完全掌控硬件与操作系统,提供完整的AI智能体服务。智能手机被视为能持续捕捉用户实时状态的关键设备,是AI实时推理的重要输入。未来手机将深度结合云端与端侧AI,处理器设计需重点考量功耗与上下文理解。该项目对联发科和高通意味着长期增长机会,对立讯精密则是切入下一代智能手机核心供应链的关键。

Berryxia.AI@berryxia · 4月28日64

一个完全本地的 Agent,就生活在你的浏览器里。 由 Gemma 4 E2B 和 WebGPU 驱动,它使用原生工具调用来实现: 🔍 搜索浏览历史 📄 阅读并总结页面内容 🔗 管理标签页 100% 本地运行!无需任何服务器!

meng shao@shao__meng · 4月27日63

用 Gemma 4 + Pi Agent 在本地跑一个 Coding Agent @patloeber 搭建了一个 100% 本地 Coding Agent: LM Studio(模型服务) + Gemma 4 26B A4B(Q4_K_M 量化)+ Pi(终端 Agent) # 模型选型:为什么是 Gemma 4 26B A4B Gemma 4 相比前代有三个关键升级,使其首次真正适合做 Agent: · 原生 function calling · 支持 system prompt · 具备 thinking mode 26B A4B:MoE 架构,总参数 26B,每 token 只激活 4B。质量接近大模型,速度接近小模型。 尽管激活只有 4B,但 26B 全量必须加载到显存(路由需要),所以显存占用仍按 26B Dense 模型估算。 不同显存量化建议: · Q4_K_M:18 GB,平衡推荐 · Q6_K:24 GB,更高质量 · Q8_0:28 GB,接近原版 # 上下文与显存的权衡(实战要点) 256K 上下文是上限,不是必须。Context 越大,额外 VRAM 占用越多,不同场景上下文推荐: · 单文件小改:16K · 标准编码:64K · 多文件重构:128K · 全仓库:256K 作者建议:显存允许就上 128K。Agent 会快速堆积上下文(文件内容、工具输出、对话历史),中途爆 context 非常糟心。 OOM 排错顺序:先降 context size,再调 GPU offload。 # Pi:极简主义的 Agent 框架 Pi(作者 Mario Zechner / badlogic)的设计哲学很值得关注——反堆砌: · 核心只给模型 4 个工具:read、write、edit、bash · 系统提示极短,token 高效 · 一切扩展能力通过 skills、extensions 注入 这对本地模型尤其重要:本地模型上下文窗口和理解能力都不如 GPT-5 / Claude,臃肿的 system prompt 会直接吃掉它的"工作内存"。Pi 把上下文预算尽可能留给真正的任务。 会话管理命令(缓解上下文压力): /compact —— 压缩历史 /new —— 全新会话 /tree —— 浏览历史快照 /fork —— 从某节点分叉,不丢主线 # 安装与连接(关键配置) npm install -g @ mariozechner/pi-coding-agent ~/.pi/agent/models.json 让 Pi 指向本地 LM Studio: { "providers": { "lmstudio": { "baseUrl": "http://localhost:1234/v1", "api": "openai-completions", "apiKey": "lm-studio", "models": [ { "id": "google/gemma-4-26b-a4b", "input": ["text", "image"] } ] } } } # 能力扩展:Skills vs Extensions · 形态:Markdown 指令包 vs. TypeScript 模块 · 能做:注入领域知识/流程 vs. 自定义工具、命令、UI、权限、子 Agent · 触发:/skill:name 或自动发现 vs. 启动加载 值得装的几个: · liteparse:本地解析 PDF/DOCX/PPTX。Gemma 只能读图,所以文档要先被它转格式 · pi-skills:作者维护的官方合集 · frontend-slides、grill-me 等 # 安全警告(容易被忽略的部分) Pi 默认 YOLO 模式,bash 命令不询问直接执行。 本地模型出现幻觉的概率高于云端旗舰模型,"幻觉一条 rm -rf 命令"的风险是真实存在的。 作者给的三层防护选项: · permission-gate 扩展:危险命令前弹确认(轻量) · cco:把命令丢容器里跑(中等) · sandbox 扩展:完整沙箱(重) 至少装第一个。 # 原文在这 https://patloeber.com/gemma-4-pi-agent/

译开发者@patloeber分享了一套完全本地的Coding Agent方案,核心是Pi Agent框架与Gemma 4 26B A4B模型。Gemma 4因原生支持function calling和thinking mode,首次真正适合作为Agent;其MoE架构在质量与速度间取得平衡。Pi框架设计极简,仅提供read、write等四个核心工具以节省宝贵的上下文窗口。文中强调了上下文长度与显存的权衡,并给出安全警告:本地模型可能产生危险命令幻觉,建议至少安装permission-gate等扩展进行防护。

阿绎 AYi@AYi_AInotes · 4月27日66

Damn,郭明錤扔的这个炸弹,有点把手机行业的下一个十年定调的感觉。 OpenAI正在和联发科高通合作开发手机专用AI处理器,立讯精密担任独家系统设计和制造伙伴,预计2028年量产。 跟豆包手机这种加个大模型的普通手机还不一样,OpenAI这款手机从根上推翻了现在所有手机的底层逻辑。 简单来说现在的手机是App容器, 你需要主动打开一个个应用完成操作, 未来的手机是AI Agent的执行平台, 你只需要说出你的意图,AI会自动跨应用跨云端帮你把所有事做完。 文章给的这张对比图蛮有冲击力的,左边是现在iPhone密密麻麻的App图标,右边只有一个极简的输入框和AI主动推送的任务卡片。 估计很多人看不懂OpenAI为什么放着好好的云端生意不做,非要下场做硬件, 我觉得其实这才是最致命的一步。 毕竟云端大模型再强, 也永远拿不到你手机里的实时状态,你的位置,你的传感器数据,你的日程,你的聊天记录,这些才是AI Agent能真正干活的核心输入。 因为第三方手机厂商永远不会把这些权限完全开放给OpenAI, 所以它必须自己做,从芯片到操作系统全栈掌控,形成真正的闭环。 这哪是和苹果谷歌抢手机销量,简直是直接掀了整个行业的桌子😆😆😆 如果Agent驱动的模式真的跑通,谁还会打开App Store下载应用,整个运行了十几年的App生态,都会被全新的Agent生态彻底取代。 这里面最意外的赢家其实是立讯精密,它在苹果的组装份额永远超不过鸿海,这次直接拿到了下一代手机的独家门票,很可能成为下一个时代的富士康哈哈😄 当然也有很多不确定性,隐私监管的压力,OpenAI的硬件执行力,还有苹果正在全力推进的端侧Agent反击。 但我觉得大趋势已经无法逆转了, AI硬件的战争,已经从云端彻底打到了咱们每个人的口袋了。 2007年乔布斯拿出第一代iPhone的时候, 没人知道功能机的时代会结束得这么快, 现在历史又要重演了, 只是这次站在舞台中央的人, 换成了@sama

译分析师郭明錤透露,OpenAI正与联发科、高通合作开发手机专用AI处理器,并由立讯精密独家负责系统设计与制造,预计2028年量产。此举旨在从根本上颠覆当前以App为中心的手机逻辑,将手机转变为AI Agent执行平台,用户只需表达意图,AI即可自动调用跨应用、跨云端服务完成任务。OpenAI选择自研硬件的核心原因在于,云端模型无法获取手机本地实时数据(如位置、传感器、日程等),而这些是AI Agent有效运作的关键。此举可能彻底重塑运行多年的App生态,并将AI硬件竞争从云端延伸至个人设备。

Kimi.ai@Kimi_Moonshot · 4月27日34

🎁 Here's a new limited-time top-up reward. Grab bonus vouchers and keep exploring Kimi K2.6. 🔹20% bonus for $100 – $299 🔹25% bonus for $300 – $999 🔹30% bonus for $1,000+ Ends May 3. 🔗Details:https://platform.kimi.ai/docs/pricing/promotion

译🎁 限时充值奖励上新。 领取奖励券,继续探索 Kimi K2.6。 🔹充值 $100 – $299 享 20% 奖励 🔹充值 $300 – $999 享 25% 奖励 🔹充值 $1,000+ 享 30% 奖励 活动截止于 5月3日。 🔗详情:https://platform.kimi.ai/docs/pricing/promotion

Berryxia.AI@berryxia · 4月27日38

据悉,古尔曼爆料! Tim 卸任之前给John Ternus 留下了6个前所未有的新产品! 据说过去10 年Tim只用了三个 哈哈… 🚨 除了可折叠iPhone,Gurman最新爆料更多猛料! Tim Cook留给新CEO John Ternus的超级产品管线里,还有 6大全新产品类别(全是AI驱动!): 🔹 AI AirPods(带Apple Intelligence智能耳机) 🔹 智能眼镜(Apple Glasses) 🔹 AI智能吊坠(Pendant,带摄像头+视觉计算) 🔹 智能显示屏(带屏HomePod / Smart Display) 🔹 桌面机器人(Tabletop Robot) 🔹 隐私安全摄像头(家庭安防新品) AI穿戴设备 + AI智能家居全面开花! PS: 我…… Ternus上任就要把苹果硬件推向全新高度? Power On 完整报道: https://www.bloomberg.com/news/newsletters/2026-04-26/new-apple-ceo-john-ternus-first-major-product-is-the-foldable-iphone-road-map-mofu521p 你最期待哪一个?👇

译据爆料人古尔曼透露,苹果前CEO Tim Cook在卸任前为新任CEO John Ternus规划了六个全新的产品类别,全部由AI驱动。这些产品包括AI AirPods(集成Apple Intelligence)、Apple Glasses智能眼镜、AI智能吊坠Pendant(带摄像头和视觉计算)、带屏HomePod智能显示屏、Tabletop Robot桌面机器人以及隐私安全摄像头。这些创新覆盖穿戴设备和智能家居领域,可能推动苹果硬件在Ternus领导下迈向新高度。

Nathan Lambert@natolambert · 4月26日23

Great meeting @_TobiasLee & Alex of @XiaomiMiMo (with @xeophon) I smell something big coming soon!

译与 @_TobiasLee 和 @XiaomiMiMo 的 Alex 会面非常愉快(还有 @xeophon) 我预感很快会有大事发生!

Berryxia.AI@berryxia · 4月25日57

是时候让你的Mac Studio 256G 可以开始使用DeepSeek4-Flash-4bit 量化版版本了! 至于速度嘛… https://github.com/ml-explore/mlx-lm/pull/1192

Chubby♨️@kimmonismus · 4月23日25

Apple’s M4 Mac mini lineup is becoming increasingly hard to buy, with all 256 GB variants now unavailable at the Apple Store and even higher-storage models facing six- to ten-week delays. However, this goes to a broader supply chain strain rather than a simple product transition. The situation reflects industry-wide shortages of memory and storage components, alongside Apple’s apparent decision to prioritize higher-demand MacBooks over desktop units. tl;dr ongoing semiconductor supply constraints are causing more and more problems.

译Apple M4 Mac mini全线供应紧张,256GB型号在官方商店已无货,更高存储型号也面临6至10周的发货延迟。这一状况并非简单的产品线过渡所致,而是反映了更广泛的供应链压力。核心原因在于行业范围内的内存和存储组件短缺,同时苹果似乎优先将资源分配给了需求更高的MacBook产品线,而非台式机。这表明持续的半导体供应限制正在引发更多问题。

Rohan Paul@rohanpaul_ai · 4月22日

OpenAI’s Chronicle makes one thing obvious: AI memory is becoming core infrastructure, but memory alone is not the product. AirJelly is taking it one-step further. This is an always-running desktop AI that understands what you are doing across your apps and then turns that understanding into useful action. It watches your on-screen activity, infers intent, and automatically creates tasks, timelines, reminders, and digests instead of waiting for you to manually brief it. The big deal is not just “AI that remembers your screen.” A lot of tools can capture information. AirJelly converts raw context into organized execution. It is not only trying to remember what you did, but also what now matters because of it. It continuously picks up your context, gets to work before you say a word, and closes the loop on tasks automatically. Many other memory-based tools are reactive instead. Their memory only activates when you directly prompt them. AirJelly remembers across apps like Figma, GitHub, and Obsidian, and keeps everything on-device for privacy. So instead of each app being a separate island, it is trying to build one continuous context layer around your work.

译AirJelly突破OpenAI Chronicle代表的"记忆基础设施"局限,成为始终运行的桌面AI代理。它不仅实时监测Figma、GitHub等跨应用屏幕活动,更主动推断用户意图,自动创建任务、时间线与提醒,将原始上下文转化为有组织的执行。与传统工具需人工提示才激活记忆不同,它在无需指令的情况下主动完成工作闭环。所有数据本地处理,在保护隐私的同时构建跨应用连续上下文层,实现从被动记录到主动执行的范式转变。

Chubby♨️@kimmonismus · 4月22日

Nice: One click and your self-improving AI agent is live 24/7 - main tagline Full Hermes power, zero terminal 43,200+ stars Hermes agent, now in a native interface Your 24/7 coworker, live! :))

译不错:一键部署,你的自我改进 AI agent 全天候运行——主标语 完整 Hermes 能力,零终端 43,200+ 星标的 Hermes agent,现已支持原生界面 你的全天候同事,上线运行!:))

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月6日
03:57
Rohan Paul@rohanpaul_ai
49
NVIDIA与Span合作将住宅变为小型AI数据中心,利用家庭富余电力

NVIDIA与Span计划利用家庭未充分利用的电力容量,将住宅转变为分布式AI计算节点。其核心是配备16块NVIDIA RTX Pro 6000 Blackwell GPU和4颗AMD EPYC CPU的XFRA节点,并内置电池以确保AI负载稳定运行。该模式旨在规避传统数据中心在土地、审批和电网升级方面的扩张瓶颈。Span计划于2026年第三季度启动100个节点的概念验证,目标是从2027年起实现年容量超过1吉瓦的分布式算力网络,同时为参与家庭降低电费成本。

产品更新端侧部署/工程
5月5日
23:14
Berryxia.AI@berryxia
68
OpenAI将推AI Agent手机,联发科获处理器订单

OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。

郭明錤|Ming-Chi Kuo: http://x.com/i/article/2048582573291606016

OpenAI端侧行业动态
10:48
Chubby♨️@kimmonismus
45
这是我最近见过最酷的事情之一: MIT Hackathon Team Builds A Wearable AI System That Can Guide Your Physical Movements
端侧行业动态
08:26
meng shao@shao__meng
66
KroWork:通过"对话生成软件"模式,将AI对话转化为本地持久应用

KroWork的核心创新在于“chat-to-software”模式,旨在超越仅能提供建议或代码的传统AI聊天机器人。它是一个桌面AI智能体,能通过20多种内置技能端到端自动化执行任务,并将完整工作流转化为名为“Kro App”的持久性本地应用程序。该应用可一键安装至系统菜单,像常规软件一样运行,且重复使用无需消耗token或重新构建。所有操作均在用户本地设备上完成,保障数据隐私,无需云端依赖,用户也无需具备编程背景即可创建属于自己的可复用软件。

KroWork: Your AI chatbot can't ship. It answers. It suggests. It generates code you still have to wire up yourself. Close the tab...

智能体产品更新开源/仓库端侧
01:18
Chubby♨️@kimmonismus
精选72
KroWork是一款创新的桌面AI智能体,其核心在于"应用固化"能力,能将对话直接转化为持久可用的本地软件。它不止于生成代码建议,而是端到端自主执行任务,并将完整工作流保存为名为"Kro App"的独立应用。用户一键安装后,该应用即可像常规软件一样运行,无需重复消耗tokens或重建流程。所有操作均在本地设备完成,无需编程背景,且数据完全脱离云端。这标志着AI从对话助手向能构建并交付实体软件的工具转变。

KroWork: Your AI chatbot can't ship. It answers. It suggests. It generates code you still have to wire up yourself. Close the tab...

智能体MCP/工具产品更新端侧

推荐理由:当别人还在帮你写代码,KroWork 直接把对话冻成 App 放在你桌面上。不建仓库不费 token,跟用 Excel 一样打开,这种 chat-to-software 的思路比所有 coding agent 都更接近普通人想要的 AI。
5月3日
23:13
Berryxia.AI@berryxia
60
兄弟们!苹果又在偷偷干一件大事

苹果近期悄然调整Mac产品线内存配置与定价。Mac mini取消599美元256GB入门款,起售价升至799美元/512GB;Mac Studio也移除了512GB统一内存选项,且256GB升级价暴涨400美元。这并非简单存储升级,而是因AI数据中心导致全球DRAM供应紧张、价格飙升。Tim Cook指出AI需求超预期,导致Mac供货紧张数月。苹果通过砍掉低配和高配、整体上移配置阶梯变相提价,对依赖统一内存进行本地大模型推理的用户而言,高性价比硬件窗口期可能快速关闭。

stevibe: The Mac mini price hike doesn't look like a one-off. It looks like a pattern, and if you run local LLMs, you should pay ...

现象/趋势端侧
06:19
Orange AI@oran_ge
34
做马桶的 Toto 也是 AI 概念股了 但做智能马桶的做芯片好像也挑不出毛病?
端侧行业动态
5月2日
16:14
-Zho-@ZHO_ZHO_ZHO
48
作者提出一种名为iA的AI硬件设计构想,其核心是手机与专用AI硬件配合使用的过渡方案。该硬件主体设计灵感来源于iPod Shuffle,具备小巧、可夹持的特性,并设有语音交互按键和调用手机功能的按键。作者认为,未来手机与AI硬件终将融合,但目前阶段分离设计有助于避免增加手机复杂度。此次构想是继经典的iPod shuffle方案后,结合iPod Nano 4进行的新尝试。

-Zho-: 简单基于Apple已有产品p了一下自己目前理想的 AI 硬件设计:iA 最基础想法:手机+AI硬件配合使用,因为离不开手机,同时不想增加手机复杂度(过渡时期想法,未来一定会合一) iA 主体:来自iPod Shuffle,可独立交互,小巧且...

大佬观点端侧
14:48
宝玉@dotey
52
一位中国开发者在跨大西洋航班上,为节省25美元机上WiFi费用,利用MacBook Pro M4本地离线运行Llama 3.3 70B大模型,自主处理客户任务长达11小时。他编写了一个具备资源感知能力的编排器,该系统明确知晓自身处于离线状态,且受限于电池和内存。它能自动从队列获取任务,通过本地推理服务处理,并定期保存检查点。当电池低于5%时,系统会暂停并等待切换至充电宝后恢复运行,最终在无人干预下清空所有任务。这一案例展示了完整的"自我感知计算"离线AI工作流。

huangserva: 这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,处理了完整的客户项目。 他坐在跨大西洋航班的靠窗位置,设备是 MacBook Pro M4,64GB 内存。机上 WiFi 要价...

Meta推理教程/实践端侧
5月1日
01:44
TestingCatalog News 🗞@testingcatalog
55
苹果 🍎: "AFM Plus 150B Instruct" Apple Foundation Model 在内部的 AFM Playground 应用中被发现。 这个应用正在被苹果员工内部使用,以测试 Apple Foundation 模型。 WWDC26 将会很火爆 🔥

MWR: ( #appleinternal ) Apple Internally uses an application that looks pretty similar to ChatGPT named AFM Playground, which...

端侧行业动态
4月29日
22:17
Tencent Hy@TencentHunyuan
精选67
腾讯开源Hy-MT1.5-1.8B-1.25bit翻译模型,440MB体积支持手机离线运行

腾讯开源了Hy-MT1.5-1.8B-1.25bit翻译模型,其参数量为18亿,经量化后仅440MB,可在手机上完全离线运行。该模型支持33种语言、5种方言及1056个翻译方向,包括藏语、蒙古语等少数语言。在标准测试中,其性能媲美商业翻译API和2350亿参数的大模型。通过量化至1.25比特,模型内存占用从FP16格式的3.3GB大幅降低,比之前的1.67比特方法体积缩小25%、速度提升约10%,且无精度损失。该模型已在国际机器翻译竞赛中获得30项第一,并部署于腾讯多个产品中。

Hugging Face开源生态模型发布端侧

推荐理由:440MB的模型能在手机上跑33种语言翻译,还宣称比谷歌翻译强,这个量化技术让离线翻译不再是‘能看不能用’,出差党可以试试看。
20:33
Qwen@Alibaba_Qwen
精选60
闪存QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

开源/仓库推理端侧

推荐理由:2 倍加速的背后是 Warp 特化流水线和自动 Copy 策略,像给手机 GPU 开了条专用跑道,做端侧 Agent 的可以直接拉代码试试。
20:33
Qwen@Alibaba_Qwen
精选66
闪速QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

GitHub开源/仓库推理端侧

推荐理由:Qwen 把线性注意力的推理效率压到了新台阶,2-3 倍加速对想做本地 Agent 的开发者是实打实的,不是论文灌水,是能跑在设备上的代码。
09:38
ginobefun@hongming731
49
NVIDIA发布多模态模型Nemotron 3 Nano Omni

NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。

多模态模型发布端侧
08:38
Berryxia.AI@berryxia
65
OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布
08:38
Berryxia.AI@berryxia
58
Google Gemma 官方教你本地跑 Coding Agent! 本地完美组合来了: • Pi Agent • Gemma 4 26B 模型 • LM Studio / Ollama / llama.cpp 等 serving engine 完全离线运行、零 API 费用、100% 隐私保护、零延迟!本地开发者 Agentic 开发神器! 附 @patloeber 详细一步步搭建教程👇 https://patloeber.com/gemma-4-pi-agent/

Google Gemma: Learn how to run a local coding agent! Use: - Pi agent - Gemma 4 26B - Serving engine of choice: e.g. LM Studio

智能体Google教程/实践端侧
07:38
Berryxia.AI@berryxia
45
Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

MacRumors.com: Apple Vision Pro Used in World-First Cataract Surgery https://www.macrumors.com/2026/04/28/apple-vision-pro-cataract-sur...

多模态现象/趋势端侧
07:07
Rohan Paul@rohanpaul_ai
40
圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。 该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。 无需再转头查看单独的显示器。
多模态端侧行业动态
06:07
Chubby♨️@kimmonismus
51
Sigma:一款完全私密的AI浏览器,可在您的设备上本地运行智能体。 -无需云端。 -数据不会离开您的设备。 -开源 Qwen、Gemma、Nemotron--全部直接在浏览器中运行。这才是浏览器AI应有的发展方向! 【引用 @Sigma_Browser】:搭载OpenClaw智能体的私密AI浏览器,基于免费本地模型运行 在浏览器中直接使用Qwen、Gemma或Nemotron运行您的智能体 开源。私密。在您的本地设备上运行

Sigma Browser: Private AI browser with the OpenClaw agent on free local models Run your agent on Qwen, Gemma, or Nemotron directly in t...

智能体开源/仓库端侧
05:39
AK@_akhaliq
59
Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用
多模态开源/仓库端侧
05:37
Chubby♨️@kimmonismus
46
作者推崇将AI智能体完全本地化运行的浏览器模式,认为这是浏览器AI应有的发展方向。这种模式的核心在于隐私保护与开源,所有数据处理均在用户设备本地完成,无需依赖云端,确保数据不外泄。当前,已有如Sigma Browser等产品实现了这一理念,支持在浏览器内直接运行Qwen、Gemma、Nemotron等开源模型。作者对此表示高度赞赏,并表达了强烈的合作意愿。

Sigma Browser: Private AI browser with the OpenClaw agent on free local models Run your agent on Qwen, Gemma, or Nemotron directly in t...

智能体产品更新开源生态端侧
05:37
Rohan Paul@rohanpaul_ai
59
Sigma推出开源私有AI浏览器,本地模型驱动智能体直接操作网页

Sigma发布了一款开源私有AI浏览器,其核心是将本地大语言模型(如Qwen、Gemma、Nemotron)与Chromium浏览器深度集成。该浏览器通过内置的OpenClaw智能体,能直接读取页面内容、理解用户意图,并执行点击、输入、总结等自动化操作,从而将浏览器从被动查看工具转变为能直接处理任务的AI工作界面。此举旨在解决多数AI浏览器需将数据发送至远程服务器导致的延迟和隐私风险,所有计算均在用户本地设备完成,确保了隐私安全和响应速度。

Sigma Browser: Private AI browser with the OpenClaw agent on free local models Run your agent on Qwen, Gemma, or Nemotron directly in t...

智能体产品更新开源生态端侧
04:39
TestingCatalog News 🗞@testingcatalog
55
现在你可以在Sigma浏览器内直接运行由本地模型驱动的私有OpenClaw智能体。 > 可选Gemma 4、Qwen、3.5或Nemotron 3模型。所有浏览器数据均保留在本地设备。 > 私有AI智能体可管理标签页、跳转页面,功能丰富!

Sigma Browser: Private AI browser with the OpenClaw agent on free local models Run your agent on Qwen, Gemma, or Nemotron directly in t...

智能体产品更新开源生态端侧
01:03
Ant Ling@AntLingAGI
59
AntLingAGI宣布将其模型Ling-2.6-flash正式开源,该模型此前在OpenRouter平台上曾以"Elephant Alpha"为名提供API服务。目前,模型已在Hugging Face和ModelScope平台全面开放,供公众自由使用与构建。模型关键参数为总参数量1040亿,激活参数量74亿,在Artificial Analysis基准测试中输出速度约为每秒215个token,并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs,以及lmsysorg的SGLang团队和vllm项目的技术支持。

Novita AI: Ling-2.6-flash is now officially open-sourced 🚀 (from @AntLingAGI) Was "Elephant Alpha" on OpenRouter. Now fully open f...

开源/仓库模型发布端侧
4月28日
22:35
阿绎 AYi@AYi_AInotes
43
G2智能眼镜终端模式引领程序员移动开发革命

Even Realities推出的G2智能眼镜具备“终端模式”,可将完整的Claude AI终端直接投射到用户视野中。开发者能在移动场景(如散步、通勤)中通过语音与AI交互,实时获取代码、设计规范等内容,实现开发环境与物理世界的无缝融合。该技术彻底消除了上下文切换成本,将碎片时间转化为生产力,被视为“vibe coding”的终极形态。尽管引发工作与生活界限的担忧,但这代表了程序员工作流的革命性变革,被形容为“巅峰性能”和“新物种”的诞生。

Beff (e/acc): You may not like it, but this is what peak performance looks like. Vibe coding everywhere, straight to your eyeballs. Ma...

产品更新端侧编码
10:42
歸藏(guizang.ai)@op7418
精选74
小米 MiMo-V2.5 系列模型全部开源

小米正式开源MiMo-V2.5系列模型,采用宽松的MIT协议,允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型:专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro,以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时,小米推出Orbit 100T Token计划,包含面向AI开发者的“百万亿Token创造者激励计划”,提供最高价值659元的Credits,以及面向Agent框架团队的“Agent生态共建计划”,为其用户提供MiMo token限免支持。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布端侧

推荐理由:小米把 MiMo-V2.5 全线 MIT 开源,Pro 版在 agent 和编码榜单冲到开源第一,百万亿 Token 激励计划更是直接送钱让你用,做 Vibe Coding 的人没理由不去薅一把。
10:21
OpenClaw🦞@openclaw
50
OpenClaw 2026.4.26 🦞 🎙️ Google 直播访谈 🦙 更好的 Ollama/本地模型 🧳 迁移 Claude + Hermes 配置 🔐 单命令 Matrix 端到端加密 重大发布。本地模型享用盛宴。 https://github.com/openclaw/openclaw/releases/tag/v2026.4.26
产品更新开源/仓库端侧
09:45
meng shao@shao__meng
精选75
小米开源MiMo-V2.5系列大模型

小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

Fuli Luo: Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). ...

智能体开源/仓库模型发布端侧

推荐理由:小米把万亿参数 MoE 做到开源且百万上下文,MTP 三层原生集成让推理速度翻三倍,这在国内大厂开源里是第一个真正敢放权重的万亿级模型,做 Agent 的值得认真看看。
09:34
Ethan Mollick@emollick
50
这款仅基于1931年前文本训练的新LLM体积小巧,甚至可能在设备上直接运行,因此借助合适的工具,你能获得一个完全复古版的Siri,不过是来自《唐顿庄园》时代的版本。 在此,我让它为我在费城安排寿司外卖。嗯……
现象/趋势端侧
07:53
宝玉@dotey
69
OpenAI 或将重新定义智能手机;联发科、高通与立讯精密,可能成为其 AI 智能体手机的关键伙伴

据报道,OpenAI正与联发科和高通合作开发智能手机处理器,立讯精密为独家设计与制造伙伴,目标2028年量产。此举旨在通过完全掌控硬件与操作系统,提供完整的AI智能体服务。智能手机被视为能持续捕捉用户实时状态的关键设备,是AI实时推理的重要输入。未来手机将深度结合云端与端侧AI,处理器设计需重点考量功耗与上下文理解。该项目对联发科和高通意味着长期增长机会,对立讯精密则是切入下一代智能手机核心供应链的关键。

郭明錤|Ming-Chi Kuo: http://x.com/i/article/2048582516391751680

OpenAI现象/趋势端侧行业动态
06:57
Berryxia.AI@berryxia
64
浏览器本地智能体Gemma 4 E2B发布

一个完全本地的 Agent,就生活在你的浏览器里。 由 Gemma 4 E2B 和 WebGPU 驱动,它使用原生工具调用来实现: 🔍 搜索浏览历史 📄 阅读并总结页面内容 🔗 管理标签页 100% 本地运行!无需任何服务器!

Google Gemma: A completely local agent that lives right inside your browser. Powered by Gemma 4 E2B and WebGPU, it uses native tool ca...

智能体Google产品更新端侧
4月27日
20:28
meng shao@shao__meng
63
用 Gemma 4 + Pi Agent 搭建本地编程助手

开发者@patloeber分享了一套完全本地的Coding Agent方案,核心是Pi Agent框架与Gemma 4 26B A4B模型。Gemma 4因原生支持function calling和thinking mode,首次真正适合作为Agent;其MoE架构在质量与速度间取得平衡。Pi框架设计极简,仅提供read、write等四个核心工具以节省宝贵的上下文窗口。文中强调了上下文长度与显存的权衡,并给出安全警告:本地模型可能产生危险命令幻觉,建议至少安装permission-gate等扩展进行防护。

Patrick Loeber: Lately I've been having fun with running coding agents fully locally. The setup I landed on is: - Pi agent - Gemma 4 26B...

智能体教程/实践端侧编码
14:21
阿绎 AYi@AYi_AInotes
66
OpenAI被曝携手芯片巨头研发AI手机处理器,欲颠覆手机生态

分析师郭明錤透露,OpenAI正与联发科、高通合作开发手机专用AI处理器,并由立讯精密独家负责系统设计与制造,预计2028年量产。此举旨在从根本上颠覆当前以App为中心的手机逻辑,将手机转变为AI Agent执行平台,用户只需表达意图,AI即可自动调用跨应用、跨云端服务完成任务。OpenAI选择自研硬件的核心原因在于,云端模型无法获取手机本地实时数据(如位置、传感器、日程等),而这些是AI Agent有效运作的关键。此举可能彻底重塑运行多年的App生态,并将AI硬件竞争从云端延伸至个人设备。

郭明錤|Ming-Chi Kuo: http://x.com/i/article/2048582573291606016

智能体OpenAI端侧行业动态
14:06
Kimi.ai@Kimi_Moonshot
34
🎁 限时充值奖励上新。 领取奖励券,继续探索 Kimi K2.6。 🔹充值 $100 - $299 享 20% 奖励 🔹充值 $300 - $999 享 25% 奖励 🔹充值 $1,000+ 享 30% 奖励 活动截止于 5月3日。 🔗详情:https://platform.kimi.ai/docs/pricing/promotion
端侧行业动态
09:19
Berryxia.AI@berryxia
38
古尔曼爆料苹果六大AI新品管线

据爆料人古尔曼透露,苹果前CEO Tim Cook在卸任前为新任CEO John Ternus规划了六个全新的产品类别,全部由AI驱动。这些产品包括AI AirPods(集成Apple Intelligence)、Apple Glasses智能眼镜、AI智能吊坠Pendant(带摄像头和视觉计算)、带屏HomePod智能显示屏、Tabletop Robot桌面机器人以及隐私安全摄像头。这些创新覆盖穿戴设备和智能家居领域,可能推动苹果硬件在Ternus领导下迈向新高度。

端侧行业动态
4月26日
20:53
Nathan Lambert@natolambert
23
与 @_TobiasLee 和 @XiaomiMiMo 的 Alex 会面非常愉快(还有 @xeophon) 我预感很快会有大事发生!
端侧行业动态
4月25日
09:09
Berryxia.AI@berryxia
57
是时候让你的Mac Studio 256G 可以开始使用DeepSeek4-Flash-4bit 量化版版本了! 至于速度嘛… https://github.com/ml-explore/mlx-lm/pull/1192

Prince Canuma: You can now run DeepSeek4-Flash on 256GB Mac. Next up speed 🚀 PR: https://github.com/ml-explore/mlx-lm/pull/1192

DeepSeek开源生态教程/实践端侧
4月23日
13:49
Chubby♨️@kimmonismus
25
M4 Mac mini全线缺货,存储芯片短缺波及苹果供应链

Apple M4 Mac mini全线供应紧张,256GB型号在官方商店已无货,更高存储型号也面临6至10周的发货延迟。这一状况并非简单的产品线过渡所致,而是反映了更广泛的供应链压力。核心原因在于行业范围内的内存和存储组件短缺,同时苹果似乎优先将资源分配给了需求更高的MacBook产品线,而非台式机。这表明持续的半导体供应限制正在引发更多问题。

端侧行业动态
4月22日
14:14
Rohan Paul@rohanpaul_ai
超越记忆基础设施:AirJelly让AI主动执行工作

AirJelly突破OpenAI Chronicle代表的"记忆基础设施"局限,成为始终运行的桌面AI代理。它不仅实时监测Figma、GitHub等跨应用屏幕活动,更主动推断用户意图,自动创建任务、时间线与提醒,将原始上下文转化为有组织的执行。与传统工具需人工提示才激活记忆不同,它在无需指令的情况下主动完成工作闭环。所有数据本地处理,在保护隐私的同时构建跨应用连续上下文层,实现从被动记录到主动执行的范式转变。

AirJelly: 🚨The world just started talking about AI Screen Context. We've been building something deeper - AirJelly can see your s...

智能体OpenAI产品更新端侧
08:38
Chubby♨️@kimmonismus
不错:一键部署,你的自我改进 AI agent 全天候运行--主标语 完整 Hermes 能力,零终端 43,200+ 星标的 Hermes agent,现已支持原生界面 你的全天候同事,上线运行!:))

atomicbot.ai: Hermes Agent by @NousResearch (100k+ ⭐) now inside Atomic Bot: - Free Local models: Qwen, Gemma or - Use your API keys f...

智能体开源/仓库端侧
‹ 上一页
1…5678
下一页 ›