Oracle reduced headcount by 13% in the last 12 months and mentioned AI deployment as part of the reason in its annual filing on Monday. The headcount drop takes Oracle from 162,000 full-time workers to 141,000, a 13% shrinkage that the company directly linked to AI deployment across its operations. Oracle spent $1.8B on restructuring, up from $374M, while capital expenditure rose 162% to $55.7B and free cash flow fell to negative $23.7 B. --- Source: its official SEC 10K d18rn0p25nwr6d .cloudfront.net/CIK-0001341439/0723dfa7-be5f-4227-9da6-eff3cce376a8.pdf

译甲骨文（Oracle）在最近12个月内裁员13%，员工数从16.2万降至14.1万，并在年度SEC 10-K文件中将AI部署列为部分原因。同期重组费用从3.74亿美元飙升至18亿美元，资本支出增长162%至557亿美元，自由现金流转为负237亿美元。

Ethan Mollick@emollick · 6月24日45

A case study in why organizations should both incentivized their employees to explore AI uses that help them & have a Lab of dedicated AI builders Here, Cornell's finance & AI teams created a /treasury Claude skill that recovered $100k in back payments. https://innovationhub.ai.cornell.edu/articles/how-cornell-recovered-100000-in-unidentified-payments-with-ai/

译一个案例研究，说明为什么组织既应激励员工探索对他们有帮助的AI用途，又应设立专门的AI构建者实验室。这里，康奈尔大学的财务和AI团队创建了一个/treasury Claude技能，收回了10万美元的欠款。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日56

Anthropic launched Claude Tag for Team and Enterprise users. Claude Tag works in Slack and can tackle more complex tasks, break them down into smaller milestones, and integrate with connected tools. A new AI coworker 👀

译Anthropic 为团队和企业用户推出了 Claude Tag。 Claude Tag 在 Slack 中运行，能够处理更复杂的任务、将其分解为更小的里程碑，并与已连接的工具集成。一位新的 AI 同事 👀

elvis@omarsar0 · 6月24日61

Very cool to see more focus on agent observability tools. I pointed Latitude at my Claude Code setup and immediately saw which tasks were actually eating my token budget. It's a great way to: > See what your agent does > Catch the failures that keep repeating, with the frequency and reason > Fix them without leaving your editor Open source and MIT licensed! Try it free at http://latitude.so

译DAIR.AI 创始人 Elvis Saravia 推荐开源（MIT 许可）工具 Latitude，用于 AI 智能体可观测性。将 Latitude 指向 Claude Code 配置后，可实时查看哪些任务消耗 token 预算，观察智能体行为、捕获重复失败及其频率与原因，并在编辑器中直接修复。引用推文指出：公司最被低估的数据源是 AI 智能体对话，Latitude 能捕捉这些被浪费的数据。免费试用地址：latitude.so。

Chubby♨️@kimmonismus · 6月24日70

Been waiting for someone in agent observability to do this properly. Latitude doesn't just hand you traces. It collapses repeated failures into one issue with frequency and reason, and lets you search production conversations in plain English. Open source, MIT licensed, self-hostable. Rare in this category. (and you know that i love open source) If you run agents in prod, the Claude Code token telemetry is the part I'd try first.

译Latitude 是一款开源的 AI agent 可观测性工具，MIT 许可、可自托管。它不局限于提供 traces，而是将重复失败自动归纳为单个 issue，显示频率和根本原因；还支持用自然语言搜索生产对话。引用推文指出，AI agent 对话是公司最被低估的数据源，Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

Berryxia.AI@berryxia · 6月24日43

刚刚，鹅厂上线开源来EdgeOne Makers！ AI Agent 一句话部署应用，云平台的玩法变了！必须得吹一波了😂赶紧丢给Agent学习就在刚刚，腾讯做了一件没人注意到的事。他们发布了一个叫EdgeOne Makers的平台。没有发布会。没有大佬站台。只有一条推文和一个GitHub仓库。这个平台的核心理念只有一句话：让AI Agent自己部署应用。过去，部署一个Web应用需要什么。登录控制台。选区域。配域名。设环境变量。点部署。看日志。排错。再点部署。每一步都是人在操作界面。 EdgeOne Makers把这件事倒过来了。你只需要告诉AI一句"把这个Next.js项目部署了"，它就会通过CLI自动完成全部流程。 Git推送。CI/CD触发。边缘函数部署。预览链接生成。全程不需要打开浏览器。它的底层是一套标准化的Skill系统。每个Skill对应一个能力模块：边缘函数、云函数、KV存储、中间件、AI Agent框架。 Claude Code、Cursor、CodeBuddy都能直接调用。 AI Agent读取Skill文档后，就知道怎么用代码操控整个部署流程。这背后有一个更深层的趋势。过去十年，云平台的设计逻辑是"为人服务"——图形界面、拖拽操作、可视化配置。但AI Agent不需要GUI。它需要的是API、CLI和结构化的文档。EdgeOne Makers本质上是第一个为Agent设计的云平台。腾讯没有大肆宣传这件事。但GitHub上已经有完整的开源仓库，支持Node.js、Go、Python三种语言的云函数，V8边缘运行时，以及LangGraph、Claude SDK、OpenAI Agents等主流Agent框架的集成。当其他云厂商还在优化控制台界面的时候，腾讯已经把控制台本身变成了可编程的接口。这可能是云计算的下一个范式转变——不是人去适应云，而是Agent直接操控云。地址： GitHub：http://github.com/TencentEdgeOne/edgeone-makers-tools

译腾讯低调发布EdgeOne Makers平台，无发布会，仅一条推文和一个GitHub仓库。核心理念：让AI Agent一句话部署应用——通过CLI自动完成Git推送、CI/CD触发、边缘函数部署及预览链接生成，无需打开浏览器。底层标准化Skill系统支持边缘函数、云函数、KV存储等能力模块，Claude Code、Cursor等Agent可直接调用。GitHub已开源，支持Node.js、Go、Python云函数和V8边缘运行时，集成LangGraph、Claude SDK、OpenAI Agents等主流框架。这标志着云平台从为人设计转向为Agent设计。

Rohan Paul@rohanpaul_ai · 6月24日67

The biggest weakness of AI agents: every useful run usually dies with the session. Imagine being able to turn an AI workflow into a desktop application that runs without consuming any tokens when restarted. i.e. non-technical users can create complete, deployable applications through natural language alone No programming background needed. Just open the app, describe what you need, done. No vibe-coding, instead it’s outcome-coding. Newly launched KroWork is turning an AI chat into a small desktop app you can reuse. Instead of getting a one-time answer, you get a workflow that can run again without rebuilding it. So with KroWork, you describe a task once, the AI agent builds the workflow, and then you can save it as software you actually keep. The conversation becomes something persistent, local, and reusable. Besides, it runs purely locally — your data never leaves your device. I want to monitor the market in real time and access stock information, but tools like Yahoo Finance, Seeking Alpha, and SEC filings are scattered, and paid tools with similar features are too expensive. KroWork can directly generate a reusable application to help me monitor the market for free. With just one command, installation and free deployment are complete.

译KroWork 新发布，解决 AI 智能体每次运行后会话即失效的痛点。用户用自然语言描述任务，AI 自动构建工作流并保存为可重用的桌面应用，无需编程背景。应用完全本地运行，数据不出设备。相比一次性回答，它生成持久、可复用的软件——例如一句指令即可生成免费市场监控应用，替代分散的付费工具。KroWork 将“氛围编码（vibe-coding）”转变为“结果编码（outcome-coding）”。

AYi@AYi_AInotes · 6月23日74

http://x.com/i/article/2069352641423896576 # 30 分钟给你的 Agent 搭好永久记忆：能 cat 能 git 能直接编辑，保姆级教程零门槛上手我最近搭Agent工作流有一个很大的感受，就是Openclaw、Hermes、以及Claude code、Codex等这些 Agent ，是不需要更大的上下文窗口的，它需要更好的记忆能力。我花了 30 分钟给常用的编码 Agent 接上持久记忆 —— 没开 Docker，没搭向量库集群，而且这次，它的大脑就是一堆我能直接打开、直接编辑的 Markdown 文件。 ## 一、你的 Agent，每天醒来都失忆做过 Agent 的人，大概都受过这个委屈：昨天它刚陪你定位完一个磨人的 bug，今天开个新会话，它对昨天发生的一切一无所知。你那些决策、工作流、好不容易踩明白的坑，没有一样跟着它走。上下文被锁在上一段对话里，关掉就蒸发了。我们的第一反应，通常是把 prompt 塞得更满。把历史记录、用户偏好、项目背景一股脑灌进上下文窗口，然后祈祷模型别忘。但这条路很快撞墙。窗口有上限，token 要花钱，更要命的是——你塞进去的那点"记忆"是一次性的，关掉窗口就没了。说到底，你缺的不是更大的 prompt，是一层持久记忆。这篇我会带你用大约半小时，给一个 Agent 接上 EverOS，一个开源、本地优先的记忆操作系统。不用搭 MongoDB，不用 Elasticsearch，也不用一整套向量数据库集群。最妙的一点是，它把记忆存成你能直接打开、阅读、甚至手动改的 Markdown 文件。跟着走完，你的 Agent 就有了跨会话的长期记忆，而这份记忆是透明的，是你的。那话不多说，咱们开始。 ## 二、为什么是 EverOS，而不是再自己搓一个向量库动手前，先花一分钟说清它跟"再写一个向量库"差在哪，因为这决定了这半小时值不值。大多数记忆方案是个黑箱，你把文本喂进去，它吐一串向量存进数据库，检索时再还你一堆相似度分数。那么问题来了：出错的时候，你根本不知道它到底"记住"了什么、为什么这么记，调试基本靠猜😂 EverOS 走的是另一条路，它的存储是一套本地三件套：Markdown 当唯一可信来源，SQLite 管状态和处理队列，LanceDB 管向量、BM25 全文索引和标量过滤。关键在第一件，你想知道 Agent 记住了什么？cat 一下就行，想改掉一条记错的？编辑器打开删掉就行，这种可检视性，是黑箱向量库怎么都给不了的。顺一句佐证，官方那几个跑分也不难看：LoCoMo 93\.05%、LongMemEval$\-S$ 83\.00%、HaluMem 大约 90%\+，都是官方口径，你自己掂量，但真正打动我的肯定不只是分数。说白了，我们的Agent 的大脑，就是一堆能打开的文件。好，理念讲完，咱直接上手操作。 ## 第一步：环境准备（约 5 分钟）一共三样东西。 Python 3\.10 以上，官方推荐 3\.12\+，一个叫 uv 的高性能包管理器，EverOS 用它管依赖和虚拟环境。还有两个 API key——默认配置下，一个 OpenRouter 管 LLM 和多模态，一个 DeepInfra 管向量化和重排。 uv 没装的话，一行搞定： key 这块先交个底：EverOS 兼容所有走 OpenAI 协议的端点。所以你手上要是已经有 OpenAI、自建 vLLM 或者本地 Ollama，完全可以换掉默认那两家，下一步配置我会讲怎么改。 ## 第二步：安装与初始化（约 5 分钟）两种装法，按目的二选一：想顺手读读代码、做点改造，从源码装：只想把它接进自己项目，直接装包：两种方式装完，用同一条命令初始化：它会生成一个起始 .env。打开，填进你那两个 key：这里插一句，别手滑：.env 里装着你的 key，记得先把它加进 .gitignore。提交进仓库这种事，翻一次车够你后悔半天。填完跑这两条确认没问题： ## 第三步：启动服务并验证（约 3 分钟）起服务：让它在这个终端保持运行。新开一个终端，做次健康检查：一切正常的话，你会看到：看到这行 ok，你的本地记忆服务就活了。小提醒：文档写的默认端口是 8000，但你本地起来后亲眼确认一下，别想当然。接下来是这篇的核心。 ## 第四步：第一条记忆——写进去，再搜回来（约 8 分钟）⭐ EverOS 最值钱的就一件事，我给它起了个名，叫核心循环：写入一条事实 → 落盘成持久的 Markdown → 通过本地索引搜回来。咱完整跑一遍。先写一条关于用户的事实。注意带上 user_id，它决定这条记忆归谁——这也是 EverOS 能在多用户、多 Agent 场景下不串味的关键。这里我得说句实在话。1\.0\.0 本地版写入/检索的确切调用方式（是 CLI 子命令还是 REST 请求体），请你一定以仓库根目录的 QUICKSTART.md 为准，README 自己也把权威示例指到了那儿。我不照搬旧版的接口字段，免得你跟着翻车。下面这条是示意，跑通后请换成你本地真实的命令：写完这一下，EverOS 在后台做了三件事：把这句话抽取成结构化记忆，落盘成 Markdown，同步进 SQLite 和 LanceDB 的本地索引。现在换个会话，假装是"第二天"，用大白话把它搜回来：跑通后，把你本地真实搜回来的那条结果贴在这——它该命中刚才那条偏好，还带着相关度。这背后是一套混合检索：BM25 抓关键词，向量 ANN 抓语义，标量过滤按 user_id 这类维度精确切片，三路由 LanceDB 统一撑着。所以你哪怕换个问法，它照样能搜回来。跑到这，你的 Agent 已经有跨会话记忆了。但 EverOS 最让我上头的，是下一步。 ## 第五步：掀开黑箱，看看记忆长啥样（约 5 分钟）⭐ 还记得开头那句"大脑就是一堆文件"吗？现在咱去把这堆文件翻出来。打开 ~/.everos： cat 一下 users/alice/user.md。你会发现刚才那条偏好，已经被结构化地写进了 Alice 的画像里，人能读，你也能直接改。对，就是字面意思——你的 Agent 的记忆，是一份你随手能打开的笔记。这就是"Markdown 作为唯一可信来源"的真正含义。更带感的是，你可以直接拿 Obsidian 打开整个 ~/.everos 目录，把 Agent 的记忆当成一座可视化知识库来逛。这个画面，强烈建议你截张图，它比任何一句文案都更能说明"透明记忆"是什么。你大概也注意到目录里有两条线，users/ 和 agents/，这正是 EverOS 的双轨记忆：用户轨记情景和画像（用户是谁、有啥偏好），Agent 轨记案例和技能（Agent 干过啥、学会了啥）。两条线分开抽取，互不污染。 ## 再往前一步，它还能玩什么这半小时咱只跑通了最核心那一圈，但 EverOS 能干的远不止这些，简单点几个方向，留给你接着探。多模态摄取——一次 API 调用，就能把 PDF、图片、文档、表格、网页 URL 吃进记忆。这里有个坑提前说：Office 文档的解析依赖系统装了 LibreOffice，没装的话 .docx/.pptx/.xlsx 会失败，但 PDF、图片、音频不受影响。自我演化——每个完成的任务被记成一个 Case，那些反复成功的模式会自我提升成可复用的 Skill，在整个 Agent 团队间共享，不用你手动整理。路线图上还有 Knowledge Wiki（把碎片记忆整理成可版本化的 wiki 页）和 Reflection（系统空闲时连接弱信号、压缩历史、改进画像）。方向我挺期待，但毕竟还在路上，这里只当个预告。 ## 几个容易翻车的点最大的一个坑，必须单拎出来说。网上很多"EverOS 教程"，其实讲的是它早期那个重型版本，要 docker-compose up 拉起 MongoDB、Elasticsearch、Redis 一整套。你要是照着抄，从第一步就翻车。本文这个 1\.0\.0 轻量版的全部价值，恰恰就是不需要这些——命令认准 everos init / everos server start 这套 CLI 就对了。剩下两个一句话带过：Office 文档解析记得装 LibreOffice；.env 一定进 .gitignore。 ## 收尾：记忆这件事，值得你认真对待半小时前，你的 Agent 每开一个会话都从零开始。现在，它有了一层跨会话的持久记忆——而且这份记忆不是黑箱里一串你看不懂的向量，是你能打开、能读、能改、能用 Git 版本化的文件。这正是我觉得它值得收藏的原因，它没把"记忆"做成一个玄乎的概念，而是给了开发者一套能跑、能看、能改的具体东西。如果你手上正有需要长期记忆的 Agent、LLM 应用或者编程助手，现在就把这个仓库收藏了，下次开新项目你会想起它： 👉 https://github\.com/EverMind\-AI/EverOS 本文基于 EverOS 1\.0\.0 轻量本地版整理，跑分均为官方口径。仓库更新较快，发布前请核对最新版本号、默认端口，以及 QUICKSTART\.md 里写入/检索的权威示例，并把你本地真实跑出的命令和返回替换进正文。

译EverOS 1.0.0是一款开源、本地优先的记忆操作系统，专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件（唯一可信来源），配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤，无需Docker或向量数据库集群。官方基准：LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取（PDF/图片/网页URL），任务可自我演化成可复用Skill，计划加入Knowledge Wiki和Reflection。用户通过CLI（everos init/server start）约30分钟上手。

AYi@AYi_AInotes · 6月23日73

全网都在吹日本Fugu跑分超GPT，但我敢说99%的人没看懂它真正炸场的地方。首先这玩意儿根本不是什么超大单体大模型，它全身上下只有0.6B参数，本职工作就其实就是个AI项目经理，简单任务自己处理，复杂任务自动拆分，从全球顶级模型池里挑最合适的选手，分配思考执行验证三种角色，多轮协作最后合成答案。你调用它和调普通模型没区别，一行API的事，但背后的编排策略是训练出来的，不是人手写prompt调路由磨出来的，它可以发掘出人类根本想不到的协作模式。我觉得最狠的还不是跑分超了Claude和GPT，关键是它直接绕开了scaling law的军备竞赛。不用堆万亿参数，不用砸超算中心，靠更聪明的协作机制就能摸到前沿模型的天花板，AI的竞争第一次从拼参数变成了拼管理。当然不是银弹，比如黑箱不透明，复杂任务延迟更高，简单题用它反而更贵。但这件事的信号意义比跑分数字重要一百倍，意味着多智能体编排从实验室玩具正式变成了可用的生产力工具。 orchestration layer这条新赛道，今天正式开跑咯🚀

译日本团队 Sakana AI 推出 Fugu（Fugu Ultra），一个仅 0.6B 参数的多智能体编排系统，通过统一 API 调用。它不是单体大模型，而是 AI“项目经理”：简单任务自处理，复杂任务自动拆分，从全球模型池选择模型分配思考、执行、验证角色，多轮协作输出答案。编排策略由训练生成，而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT，性能匹敌 Fable 和 Mythos，绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具，开启编排层赛道。

凡人小北@frxiaobei · 6月23日49

火山引擎 FORCE 大会现场看到个有意思的硬件，YoooClaw C-ONE，一张卡片大小的「AI 记忆卡」。它干两件事：一是录音。开会、聊天，声音进去，转文字。二是抓收集通知。只要你开了通知权限，手机上来的每条消息它都能拿到，实时喂进去。两路信息都汇到火山的 ArkClaw 做抽取和推理，中间那个龙虾，就是个一直被喂个人上下文的大脑。理论上知识会越来越丰富，龙虾也会越来越懂你。最有意思的是出口端，它跟飞书打通了。他们讲了个场景：老板跟投资人开完会，一句话，就把每个人接下来该干啥，分别发到了对应同事的飞书上。这个应该是除了 seedance2.5，我今天看到的另一个心动的产品。

译火山引擎在FORCE大会上展示YoooClaw C-ONE，一款卡片大小的「AI记忆卡」。它能录音转文字，也能抓取手机通知实时喂入，两路数据汇入火山引擎的ArkClaw做抽取和推理，形成个人知识大脑。出口端打通飞书，例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。

swyx@swyx · 6月23日56

i dont think anyone is correctly doing the math around how SpaceX, the NeoCloud+NeoLab, is currently going to market? SpaceX has already recouped about HALF its investment in Cursor, in compute deals. The other half is paid for if Composer 3 does well. No other company is simultaneously a leading model lab + neocloud (at least where GPUs is concerned). its a crazy effective combo iff you've adequately planned out gpu supply if inhouse training 1) goes very well 2) doesn't go very well

译SpaceX（NeoCloud+NeoLab）通过计算交易已收回对Cursor约一半投资，另一半若Composer 3表现良好即可回本。据CNBC报道，SpaceX与Reflection签署63亿美元计算协议，Reflection将立即获得GB300s用于训练开源模型，并从2026年7月1日起每月支付1.5亿美元直至2029年。SpaceX是唯一同时作为领先模型实验室和NeoCloud的公司，在规划好GPU供应时这一组合极为高效。

Greg Brockman@gdb · 6月23日57

OpenAI for Samsung:

译三星已向韩国所有员工及全球DX部门员工推出ChatGPT Enterprise和Codex，OpenAI称这是其最大规模的企业部署之一。

SemiAnalysis@SemiAnalysis_ · 6月23日42

AI demand is outstripping Moore's law in the short run Moore's law drove import prices of computers and semiconductors down by 52% between 2001 and 2020. (1/4)🧵

译AI demand is outstripping Moore's law in the short run 摩尔定律在2001年至2020年间使计算机和半导体的进口价格下降了52%。(1/4)🧵

AYi@AYi_AInotes · 6月23日51

以前漏洞从发现到修好要几周甚至几个月，现在AI几个小时就能出补丁，OpenAI这次直接改写了网络安全的时间规则。这次Daybreak计划的更新，核心不是模型又变强了，而是直接把安全工作的整个闭环给跑通了。写代码时有Codex安全插件边写边找漏洞边出修复方案，相当于给程序员配了实时安全助理。专门的GPT-5.5-Cyber模型，只开放给经过验证的可信防御者，用来做授权的渗透测试和漏洞复现。现在这些能力已经落地到了真实的核心项目里，Linux内核，cURL，Python，主流浏览器，网络基础设施，加密库，全都有AI发现并生成补丁的案例。这对整个行业的影响远不止多了个工具。开源项目维护者大多人手不足，很多关键漏洞拖着修不完，现在相当于给全球数字基础设施配了AI义工团队，底层安全问题的修复速度会大幅加快。以前攻击者有充足的时间差来利用零日漏洞，现在发现和修复的窗口被极度压缩，整个攻防的节奏都被打乱了。当然风险也真实存在，AI补的补丁可能引入新的问题，未来甚至需要专门的AI来监督AI的修复过程，这是更高阶的元安全命题。说到底这不是又一个炫技的AI功能，是AI从写代码聊天，真正开始帮人类守住数字世界的具体一步，速度和规模，才是这次更新真正的分量。

译OpenAI Daybreak 计划更新，推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型，实现从漏洞发现到补丁生成的自动闭环，将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口，但 AI 补丁可能引入新问题，未来或需更高阶 AI 监督修复进程。

Chubby♨️@kimmonismus · 6月23日64

SpaceX (xAI) becoming the next Oracle. Reflection is reportedly getting immediate access to Nvidia’s GB300 chips through SpaceX and will pay $150 million per month starting July 1, 2026. If the deal runs through 2029, the total value would reach about $6.3 billion.

译SpaceX（xAI）正在成为下一个 Oracle。据报道，Reflection 通过 SpaceX 获得了 Nvidia GB300 芯片的即时使用权，并将从 2026 年 7 月 1 日起每月支付 1.5 亿美元。如果该交易持续到 2029 年，总价值将达到约 63 亿美元。

SemiAnalysis@SemiAnalysis_ · 6月23日69

CUDA MOAT ALERT 🔥: In less than 70 days, GB200 NVL72 serving costs decreased by 2.5x through software improvements alone for the Kimi architecture, which is the same model architecture as xAI’s popular Cursor Composer 2.5. One of the key software optimizations was rewriting the NVFP4 MoE kernel using CuTe-DSL, which is additive to the existing wide-expert parallelism optimization. This takes advantage of NVL72’s copper backplane, which has 18x higher bandwidth than standard RoCEv2/InfiniBand. Great work by Xin Li, Jun Yang, & the NVIDIA team on decreasing serving costs by 2.5x in less than 70 days! 🔥

译SemiAnalysis发布CUDA MOAT警报：在不到70天内，通过纯软件优化，Kimi架构（与xAI的Cursor Composer 2.5相同模型架构）在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel，作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板，带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。

Rohan Paul@rohanpaul_ai · 6月23日57

Delos just launched Workers. Turns AI agents into always-available digital employees with their own email, phone, Slack, Teams, computer, memory, and company-specific training. Delos says each worker is trained on one business, so the system learns the company’s routines, tools, vocabulary, permissions, and handoff patterns instead of acting like a generic assistant dropped into a random workplace. The key point is the persistent identity plus long-term memory, because an AI employee only becomes useful if people can contact it like a coworker and trust it to remember past decisions, open loops, customer context, and internal procedures.

译Delos发布Workers，将AI智能体转化为拥有专属邮箱、电话、Slack、Teams、电脑、记忆及公司训练的“数字员工”。每个Worker针对单一企业训练，学习其常规、工具、词汇、权限和交接模式。核心是持久身份与长期记忆，使同事可像联络人类同事一样找到它，并信任其记住过往决策与客户上下文。引用推文透露上线数天内已实现100万美元ARR，指出大多数知识工作本不该存在——大量工作仅为流程（回复邮件、跟进、更新CRM等），而Workers能像人类队友一样跨组织执行任务，软件与劳动力界限消失。

Berryxia.AI@berryxia · 6月23日56

A社又是赚的盆满钵满了啊！ Micron直接和Anthropic签了战略大单，现在既是Anthropic的投资者、客户、合作伙伴，又是供应商。根据公告，双方达成多年期HBM、DRAM和SSD合作协议，要围绕Claude的工作负载共同设计内存和存储架构。同时Micron内部也会部署Claude，而且还参与了Anthropic的Series H融资。这已经不是普通的供需关系了。 Micron既给Anthropic供货，又投钱、用Claude、还一起改硬件设计。 Anthropic则把内存和存储的规划直接绑定到Micron身上。以前AI公司主要是和NVIDIA这种算力公司深度绑定，现在连内存和存储层也开始出现这种“全栈绑定”的趋势。硬件公司不只是卖货，而是直接参与AI实验室的架构设计和长期规划。这波操作把AI基础设施的垂直整合又往前推了一步。未来可能越来越多硬件巨头会选择和特定前沿实验室深度绑定，形成更紧密的生态闭环。来源见评论区👇

译Micron与Anthropic签署多年期HBM、DRAM和SSD合作协议，双方将围绕Claude工作负载共同设计内存和存储架构。Micron既是Anthropic的投资者（参与Series H融资）、客户（内部部署Claude）和供应商，又是合作伙伴。这一深度绑定将AI基础设施的垂直整合从计算层延伸至内存存储层，预示硬件巨头与前沿实验室的生态闭环趋势。

Rohan Paul@rohanpaul_ai · 6月23日73

CNBC: SpaceX just landed a new compute lease deal with Reflection, an open-source AI startup. Reflection will pay $150M/month from 07-26 for access to Nvidia GB300s, If the deal runs to 2029, total payments would be around $6.3 B. The deal can be cancelled by either company, with 90 days’ notice after the first 3 months. SpaceX is now selling its GPU capacity like a cloud provider, using Colossus as infrastructure for outsiders. Reflection’s current business model appears to be B2B/B2G frontier open-weight AI: build powerful models, then sell access, customization, and controlled deployment to governments, national labs, enterprises. Reflection needs SpaceX’s GB300 cluster because its product is the model itself, and it still has to train a frontier-class base model, adapt it for scientific and national-security customers. Anthropic cutting off Fable and Mythos gave Reflection a sharper sales argument: critical AI customers should not build core workflows on closed models that can be revoked, changed, or restricted by a vendor they cannot inspect or control. --- cnbc. com/2026/06/22/spacex-ai-colossus-data-center-reflection.html

译SpaceX完成857亿美元IPO后，与开源AI初创Reflection签署GPU计算租赁协议。Reflection自2026年7月起每月支付1.5亿美元，使用SpaceX Colossus数据中心的Nvidia GB300集群，若延续至2029年总支付约63亿美元，协议可于3个月后提前90天取消。Reflection采用B2B/B2G开放权重模式，构建前沿模型并向政府、国家实验室和企业出售定制化部署。该集群用于训练基础模型并适配科学和国家安全场景。Anthropic切断Fable和Mythos服务后，Reflection强调关键AI客户不应依赖可被撤销或受限的闭源供应商。

DogeDesigner@cb_doge · 6月22日55

NEWS: SpaceX signs $150 million-per-month AI compute deal with startup Reflection, as per CNBC. • The agreement could be worth about $6.3 billion through 2029 • Reflection will pay SpaceX $150 million every month to use its AI computing power • Reflection will get access to Nvidia’s latest GB300 AI chips • Payments begin on July 1, 2026 • Either company can end the deal with 90 days’ notice after the first three months • The compute capacity will come from SpaceX’s Colossus AI data center AI infrastructure is becoming a major new business for SpaceX.

译SpaceX与AI初创公司Reflection签订AI算力交易，每月1.5亿美元，至2029年合约总价值约63亿美元。Reflection将获得SpaceX的Colossus AI数据中心提供的算力，并使用英伟达最新GB300 AI芯片。付款自2026年7月1日起，双方在首三个月后均可提前90天通知终止协议。AI基础设施正成为SpaceX的重要新业务。

Berryxia.AI@berryxia · 6月22日64

兄弟们，睡前搞个小教程给大家！直接教你将免费或者低成本的模型接入到沉浸式翻译，不废话直接看视频操作，包你学会。操作步骤如下： 1. 打开沉浸式翻译，点击“设置” 2. 进入设置后，点击左侧的“翻译服务” 3. 点击右上角的“添加自定义翻译服务”，然后选择“自定义 AI” 4. 在自定义 AI 页面填入 API Key，以及你接入的大模型 API 接口地址 (a) 接口地址务必填对，不同的模型可能会有一些差别，可以查看对应的官方文档 (b) 选择对应的模型。如果你使用的是自定义模型，请勾选下方框中的“输入自定义模型名称” (c) 我这里以小米的 MiMo 模型为例，给大家进行视频演示（Base URL ：https://api.xiaomimimo.com/v1/chat/completions） 5. 填好后点击“测试服务”，如果测试通过，就完成了对应的配置如果你想要切换使用，直接在沉浸式翻译的服务选项中，选择你刚刚自定义的模型即可，非常方便。你学会了吗？记得一键三连啊，兄弟们！

译教程演示如何将免费或低成本模型接入沉浸式翻译。步骤：设置→翻译服务→添加自定义翻译服务→选择“自定义AI”→填入API Key和接口地址（以小米MiMo为例，Base URL: `https://api.xiaomimimo.com/v1/chat/completions`）→选择对应模型（可勾选“输入自定义模型名称”）→点击测试服务，通过即完成配置。后续可在服务选项中切换使用自定义模型。全程视频演示。

Emad@EMostaque · 6月22日20

What’s the best place to rent on demand B200s? Ideally CLI so agents can spin them up

译按需租赁 B200 的最佳地点在哪里？理想情况下支持 CLI，以便 AI 智能体可以快速启动它们。

Alibaba Cloud@alibaba_cloud · 6月22日53

🚀 Alibaba Cloud AI Gateway FinOps is live! ꔷ Real-time Token visibility & tracking ꔷ Flexible consumer quotas & limits ꔷ Prevent budget overruns instantly Make every token count. 💰 https://int.alibabacloud.com/m/1000414707/ #AlibabaCloud #AIGateway #FinOps #LLM #DevOps #AIEngineering

译🚀 阿里云AI网关FinOps已上线！ • 实时Token可见性与追踪 • 灵活的用户配额与限制 • 即时防止预算超支让每个Token都物有所值。💰 https://int.alibabacloud.com/m/1000414707/ #AlibabaCloud #AIGateway #FinOps #LLM #DevOps #AIEngineering

Ant Ling@AntLingAGI · 6月22日63

Ling & Ring 2.6 models are now available on OpenRouter — with a limited-time discount through July 31. Build with our latest 2.6 series models at up to 90% off: Ring-2.6-1T / Ling-2.6-1T - Input: $0.075 / 1M tokens - Output: $0.625 / 1M tokens - Cache read: $0.015 / 1M tokens Ling-2.6-flash - Input: $0.01 / 1M tokens - Output: $0.03 / 1M tokens - Cache read: $0.002 / 1M tokens Explore high-efficiency intelligence for real-world agentic workflows and complex tasks. Try Ling & Ring 2.6 on OpenRouter today.

译蚂蚁百灵在OpenRouter上架Ling & Ring 2.6系列模型。Ring-2.6-1T和Ling-2.6-1T定价：输入$0.075/1M tokens，输出$0.625/1M tokens，缓存读取$0.015/1M tokens。Ling-2.6-flash版价格更低：输入$0.01/1M tokens，输出$0.03/1M tokens，缓存读取$0.002/1M tokens。该系列面向真实智能体工作流与复杂任务，主打高效智能，提供最高90%限时折扣，优惠持续至7月31日。

AYi@AYi_AInotes · 6月22日71

Damn，这个开源工具直接减少了95%token消耗🤯 这可能是今年最狠的LLM降本神器， Netflix工程师开源的Headroom 把本地Agent套在Codex，Cursor，OpenClaw，Hermes或Claude code外面，数据进模型前自动压缩负载，不用改任何代码，就能直接生效，核心能力四个点 1️⃣智能压缩日志 JSON和代码完美保留逻辑准确性， 2️⃣全程100%数据本地化内容不会流出本地环境， 3️⃣避免顶级模型在样板代码上浪费大量令牌， 4️⃣适配主流AI编码工具开箱即用，上线没多久就拿下35k GitHub星标行业认可度拉满，说白了，以前你喂给 Claude code Codex的一大坨上下文里，有一半以上是冗余的， Headroom 在本地帮你剃干净了再发过去，LLM 收到的全是精肉。本质上是把降本的逻辑从改提示词换模型挪到了输入前置处理，不牺牲效果也不碰数据安全是目前最稳妥的降本思路之一，完全免费开源仓库链接放评论区了有需要的直接冲

译Netflix 工程师开源 Headroom，在 Codex、Cursor 等 AI 编码工具外包围本地 Agent，自动压缩日志、JSON 和代码，保留逻辑准确性，减少 95% token 消耗。数据本地化，无需改代码，已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。

Rohan Paul@rohanpaul_ai · 6月22日62

AI data center finance is becoming its own serious asset class. Investment-Grade bonds, project finance, private credit, high yield, now broadly syndicated loans. The Information just published piece on how Morgan Stanley is now pitching data center developers on the leveraged loan market. Not just project finance, not just bank loans, not just high-yield bonds — now the same loan market that usually funds LBOs (Leveraged Buyout) is being pulled into the AI infrastructure buildout. Morgan Stanley has estimated AI-related debt issuance could cross $570B in 2026. By end-May 2026, AI-linked borrowing had already reached about $236B, something like 4x the year-ago level. So this is no longer just hyperscalers issuing investment-grade bonds. The whole debt stack is widening. Just becasue the funding need is just massive. So it is more like: contracted AI infrastructure cash flows, packaged into leveraged credit. CLO (Collateralized Loan Obligation) managers are apparently interested in these data center loans because they get floating-rate exposure, better yield, and in many cases cash flows tied to long-term hyperscaler contracts. --- theinformation. com/articles/morgan-stanley-pitches-clients-new-market-data-center-loans

译摩根士丹利开始向数据中心开发商推销杠杆贷款市场。继投资级债券、项目融资、私人信贷、高收益债之后，通常用于LBO的杠杆贷款也涌入AI基建。摩根士丹利预计2026年AI相关债务发行或超5700亿美元，截至5月底已达约2360亿美元，是去年同期的4倍。NYU教授Damodaran对比互联网泡沫指出，AI资本支出规模史无前例，且大量由债务而非股权融资，一旦调整，违约将蔓延至社会，风险远超股价暴跌。

Chubby♨️@kimmonismus · 6月22日55

Today we’re publishing an exclusive interview with Geir Engdahl, Co-Founder and CTO, AI at @CogniteData . A very sharp conversation on why industrial AI usually doesn’t fail at the model layer, but on the plant floor. We talked about: Why impressive AI pilots often never survive real operations What “context” actually means when mistakes can become dangerous Where industrial agents should recommend, automate, or stay out Why the gap between a working demo and a trusted system is massive And Geir’s bold 2028 prediction for industrial companies without AI-driven process optimization One of the most sober and least hype-driven conversations I’ve had this year about AI in the real world. Read the full interview in today’s Superintelligence.

译Cognite CTO Geir Engdahl接受专访指出，工业AI失败的根源并非模型层，而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活，因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入，强调工作演示与可信系统之间存在巨大鸿沟。他预测，到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。

Berryxia.AI@berryxia · 6月22日65

必须收藏起来了！兄弟们～不废话，按头推荐了！以下是 10 个应该被认定为“非法拥有”的 GitHub 仓库（但实际上它们都是免费且开源的软件）。请将它们收藏起来以备后续使用： 1️⃣ Recordly – 一个免费的屏幕录制工具。支持自动缩放、流畅的鼠标操作、网络摄像头叠加功能，以及无需使用任何编辑器即可制作的精美演示文稿。开源许可证：AGPL-3.0 🔗https://github.com/webadderallorg/recordly) 2️⃣Stirling-pdf – 一个功能强大的 PDF 处理工具集，支持合并、分割、签名、内容编辑、OCR 转换、压缩等操作。所有功能都在本地运行，数据不会离开用户的计算机。开源许可证：MIT 🔗https://github.com/Stirling-Tools/stirling-pdf 3️⃣ Photogimp – 一个将 GIMP 软件升级为类似 Photoshop 功能的工具。它为 GIMP 添加了 Photoshop 的快捷键、布局设计等功能。 🔗: https://github.com/Diolinux/PhotoGimp 4️⃣ Open-notebook – 一个用于创建笔记和总结的工具，支持插入 PDF 文件、URL 或 YouTube 链接，甚至可以生成播客。支持多种数据源（18 种以上）。开源许可证：MIT 🔗: https://github.com/lfnovo/open-notebook 5️⃣ Odysseus – PewDiePie 自己开发的 AI 工作空间工具集，用于处理和分析大量数据。 🔗: https://github.com/pewdiepie/odysseus 这些工具都非常实用且开源，非常适合开发者或日常用户使用。功能列表： - 聊天功能（Chat） - 代理服务（Agent Services） - 深度研究工具（Advanced Research Tools） - 文档管理系统（Document Management） - 邮件功能（Email） - 记忆辅助工具（Memory Assistance） - 优先使用本地资源；支持用户自定义硬件与数据配置。（MIT开发）相关项目链接： 🔗: [pewdiepie-arch](http://github.com/pewdiepie-arch/) 免费资源： 6️⃣ 免费域名服务：为所有人提供免费的域名；可将其指向 Cloudflare 或任意 DNS 服务器，无需支付域名费用。（开源许可协议：AGPL-3.0） 🔗: [DigitalPlatDev](http://github.com/DigitalPlatDev/) 专门用于 AI 技术的工具： 7️⃣ Hyperframes：用于生成 MP4 视频的工具；能将 HTML/CSS 代码及动画内容转换为可预测的 MP4 格式，专为 AI 系统设计。（开源许可协议：Apache-2.0） 🔗: [heygen-com/hyp](http://github.com/heygen-com/hyp/) 网站转换工具： 8️⃣ Web-to-App Converter：可将任何网站直接转换为 Android 应用程序；支持自定义网页视图、APK 签名功能，同时支持 Node.js、PHP、Python 等编程语言的运行环境（无需远程构建）。 🔗: [shiaho777/web-…](http://github.com/shiaho777/web-) 多媒体处理工具： 9️⃣ ReClip：一个用于下载 YouTube、TikTok、X 及 Instagram 等平台视频/音频的工具；支持多种格式（MP4/MP3），基于 yt-dlp 技术实现。 🔗: [averygan/reclip](http://github.com/averygan/reclip) 创新绘图工具： 10️⃣ Excalidraw：一款替代 Miro、FigJam 和 LucidChart 的高效绘图工具，提供无限画布空间。（注：部分链接可能为临时或私有仓库链接，实际可用性请以最新更新为准。）支持手绘图表、线框图（wireframes）的创建；支持实时协作功能；所有数据传输均采用端到端加密技术。这款工具获得了超过 12 万个用户的好评（评价来自 MIT）。 🔗: http://github.com/excalidraw/exc… 实际上，大多数人都需要为那些本就可以免费使用的工具支付费用…… 但你完全没有这个必要。

译推荐10个免费开源GitHub仓库：Recordly（免费屏幕录制，AGPL-3.0）、Stirling-PDF（PDF工具集，50+功能，MIT）、PhotoGIMP（GIMP转Photoshop界面）、Open Notebook（自托管NotebookLM，支持PDF/URL/YouTube，18+数据源，MIT）、Odysseus（PewDiePie开发的AI工作空间，本地优先，MIT）、FreeDomain（免费域名指向Cloudflare，AGPL-3.0）、Hyperframes（HeyGen的HTML/CSS转MP4引擎，Apache-2.0）、Web-to-App（网站转Android应用，支持Node/PHP/Python运行时）、ReClip（基于yt-dlp的多平台视频/音频下载）、Excalidraw（无限画布手绘图表，端到端加密，12万+好评）。

Nathan Lambert@natolambert · 6月22日47

An hour in and first impression is definitely that GLM is really solid (very easy to set up on @FireworksAI_HQ, props to them for that, took me like 5min to get going in claude code).

译一小时下来，第一印象绝对是GLM非常扎实（在@FireworksAI_HQ上设置非常简单，夸他们一下，我在claude code里只花了5分钟就搞定了）。

Chubby♨️@kimmonismus · 6月21日48

No more tokenmaxxing at Meta Meta is preparing to curb internal AI usage after employee token consumption surged so sharply that the company now expects internal AI costs alone to reach billions of dollars in 2026 (looking at you Claude). The move marks a sharp reversal from Meta’s earlier push to reward “AI-driven impact,” as the company now builds an AI Gateway to track spending, impose token budgets, and shift employees toward in-house tools like MetaCode.

译Meta 内部不再 token 拉满了。 Meta 正准备限制内部 AI 的使用，原因是员工 token 消耗激增，以至于公司预计仅内部 AI 成本到 2026 年就将达到数十亿美元（说的就是你，Claude）。这一举措标志着 Meta 此前鼓励“AI 驱动影响力”的立场出现急剧反转，公司目前正在构建一个 AI Gateway 来追踪开支、设定 token 预算，并引导员工转向 MetaCode 等内部工具。

SemiAnalysis@SemiAnalysis_ · 6月21日18

POV: enjoying the von Neumann architecture during the great memory shortage of 2026

译POV：在2026年的大内存短缺期间享受冯·诺依曼架构

OpenBMB@OpenBMB · 6月20日50

Huge thanks to @aijoey for building back-office agent swarm with MiniCPM5-1B 👏 This is a fantastic real-world case of scaling small models into production-grade systems——moving beyond “model capability” into “practical multi-agent systems at scale”. We’re especially impressed by the technical setup: 🔷128 concurrent agents on DGX Spark 🔷vLLM continuous batching for serving efficiency 🔷6,604 chunks streamed across agents in just 1.48s 🔷Clear demonstration of how a 1B model can power high-throughput, multi-agent workflows in parallel Really impressive work on the back-office swarm setup and the 128-agent parallelization. Excited to see what else you build with MiniCPM in the future 🚀

译面壁智能OpenBMB感谢@aijoey用MiniCPM5-1B构建后端智能体集群。128个并发智能体在DGX Spark上运行，通过vLLM连续批处理提供服务，每个智能体独立处理发票审核、退款路由、合规检查等8种业务队列。系统在1.48秒内跨智能体流式传输6604个chunks。该案例表明，1B模型的价值在于同时做出大量有用业务决策——用一群小型廉价worker并行清理队列。

meng shao@shao__meng · 6月20日51

有密码保护的文档，怎么解析？这在企业 AI Agent 场景，也是一个绕不过去的问题，看看 LandingAI ADE 密码保护文档解析方案，怎么解决它？它支持在同一次请求中完成：解密 → 解析 → 结构化输出。只需在 Parse 或 Parse Jobs 调用里传入 password，无需在本地先解密再上传。前置条件：必须开启 ZDR 该能力仅对已启用 Zero Data Retention（零数据留存）的组织开放。 ZDR 的含义： · 文档仅在内存中处理，不落盘、不持久化 · 处理完成后立即丢弃，不用于模型训练 · 面向 HIPAA、PHI/PII 等合规场景为什么和密码解析绑定？密码本身属于敏感凭证；在 ZDR 模式下，解密与解析在同一受控、无留存链路中完成，降低密码与明文内容被长期存储的风险。支持的格式 · PDF：.pdf · 文本文档：.doc, .docx, .odt · 演示文稿：.ppt, .pptx · 电子表格：.xlsx 工程与安全要点 · 集成成本：单一可选参数，对非加密文件无影响 · 错误处理：缺密码 → 422，需在调用前判断或捕获 · 密码传输：经 HTTPS；ZDR 下服务端不持久化；仍建议最小权限 API Key、审计日志 · 与 ZDR 联动：开启 ZDR 后，单次只能传一个文件；Parse Jobs 须配合 output_save_url

译LandingAI Agentic Document Extraction（ADE）现支持在 Parse 或 Parse Jobs 调用中传入 password 参数，同一请求完成解密、解析及结构化输出。该功能要求启用 Zero Data Retention（ZDR）模式，文档仅在内存处理，不持久化，适用于 HIPAA/PHI/PII 合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。集成成本低：单一可选参数，非加密文件不受影响；缺密码返回 422 错误。密码经 HTTPS 传输，ZDR 下服务端不持久化，建议配合最小权限 API Key 与审计日志。REST API 及 Python/TypeScript 库均可用。

宝玉@dotey · 6月20日57

Codex 上线了一个跨设备任务迁移功能，叫 Handoff。你在笔记本上用 Codex 写代码写到一半，合上盖子之前，可以把正在进行的任务连同代码状态一起迁移到远程服务器上继续跑。回到家了，再把任务拉回来。这个功能有两个有意思的地方。第一，迁移操作不是在界面上点按钮，而是直接在聊天框里用自然语言下指令。比如你可以说： “我要离开办公室了，把我正在跑的线程迁移到远程主机上，确保它们在那边正常运行。” Codex 会自动帮你完成整个迁移流程。第二，迁移的不只是对话记录，而是完整的 Git 状态。你本地没提交的代码改动、当前所在的分支，都会跟着一起过去。到了远程机器上，代码接着你离开的那个位置继续。不过用起来有几个前提条件。首先你得在 Codex 的 Settings > Connections > SSH 里配置好远程主机连接，远程机器上也要装好 Codex 并开启“允许其他设备连接”，两边还得登录同一个 ChatGPT 账号。然后远程主机上要有同一个 Git 仓库的克隆，并在 Codex 里把它保存成项目。如果你本地打开的是仓库的某个子目录，远程那边也得保存同样的子目录路径，不然 Codex 找不到匹配的迁移目标。远程机器还得能访问同一个 Git 远程仓库，私有仓库的话需要提前配好 SSH key 或 GitHub 认证。我觉得这还是太麻烦了一点，不如办公室或者家里有台电脑常年开着方便。当然对于重度使用 AI 编程工具的开发者来说，这个功能解决了一个很实际的问题：AI 帮你改代码改到一半，你得走了，之前只能等它跑完或者放弃进度。现在可以把任务托管到云端服务器上，通勤路上它继续干活，你到家了再接手看结果。

译Codex 推出 Handoff 功能，支持用自然语言指令将正在进行的任务连同完整 Git 状态（未提交代码、当前分支）从笔记本迁移到远程服务器继续运行，之后可再拉回本地。前提：本地需在 Settings > Connections > SSH 配置远程主机；远程也需安装 Codex 并开启“允许其他设备连接”，双方登录同一 ChatGPT 账号；远程需有同一 Git 仓库的克隆并保存为项目，子目录路径需匹配。该功能解决了 AI 编程中途离开时任务进度的托管问题。

Orange AI@oran_ge · 6月20日45

独立开发者的实战经验分享

译独立开发者的实战经验分享 [引用 @MengkePM]：http://x.com/i/article/2067506549107691520

SemiAnalysis@SemiAnalysis_ · 6月20日47

Investors have increasingly framed AI networking as a binary debate between copper and optics. Thus they are constantly thinking and evaluating the rotation in and out each theme. We think that the networking landscape can actually be viewed from a simpler lens. As GPU clusters scale, the importance of connecting them efficiently only increases, and that drives demand for more networking content of all types. Copper and optics serve different but complementary roles. Copper remains the preferred solution where it can meet reach, power, cost, and reliability requirements, while optics becomes necessary where bandwidth and distance push beyond copper’s practical limits. Nvidia’s approach has been consistent: use copper where they can, and optics where they must. In other words, this is not an either-or market. The growth of optical interconnect does not mean copper goes away, and the durability of copper does not mean optics will not ramp. As AI systems scale in size and complexity, both copper and optical connectivity should benefit from the increasing importance of moving data between GPUs, switches, racks, and clusters.

译投资者常将AI网络视为铜缆与光缆的二元选择，但SemiAnalysis认为二者互补。GPU集群规模扩大，高效连接驱动各类网络需求增长。铜缆在满足距离、功耗、成本与可靠性时仍是首选，光缆则在带宽和距离超出铜缆极限时必需。Nvidia策略一致：能用铜缆用铜缆，必须用光缆才用。因此光学增长不取代铜缆，铜缆持久也不意味着光学不增长。随着AI系统规模与复杂度提升，两者都将受益于GPU、交换机、机架与集群间数据传输需求的增加。

Chubby♨️@kimmonismus · 6月20日40

China is simply unbeatable in terms of token price and plays in a different league than Western companies and models.

译关键AI模型的API价格（美国 vs 中国）对比显示，中国在模型 token 价格方面简直无敌，与西方公司和模型不在一个水平线上。

Rohan Paul@rohanpaul_ai · 6月20日66

Morgan Stanley estimates about $2.9 trillion capital expenditure of global data-center construction through 2028. With funding sources including $1.4T from hyperscaler cash flows, $200B corporate debt, $150B securitized credit, $800B private credit / asset-based finance / JV debt, and $350B other capital. i.e. AI capex is increasingly credit-funded, so losses could spill beyond shareholders.

译摩根士丹利估计，到2028年全球数据中心建设资本支出约2.9万亿美元，资金来源包括超大规模企业现金流1.4万亿美元、公司债2000亿、证券化信贷1500亿、私人信贷/资产融资/合资债务8000亿等。AI资本支出愈发依赖信贷，损失可能超出股东范围。NYU教授Damodaran指出，与互联网泡沫不同，AI资本支出规模史无前例且大部分由债务融资（尤其是私人资本），一旦调整，违约和困境将蔓延至整个社会，而非仅股东受损。

Ethan Mollick@emollick · 6月20日51

I suspect that companies underestimate the value of using higher intelligence for tasks where weaker AIs seem to be good enough to hit KPIs at a lower price. At least build architectures where you can flexibly experiment with smarter models to see whether it makes a difference.

译我怀疑企业低估了使用更高智能的价值，即便在较弱AI似乎能以更低价格达成KPI的任务中也是如此。至少应构建能灵活尝试更智能模型的架构，看看是否会带来不同。

Rohan Paul@rohanpaul_ai · 6月20日64

DeepAdapt has launched a runtime intelligence layer that cuts AI operating costs by up to 82% and 33X faster inference by shifting repetitive workloads from GPUs to standard CPUs. They are calling it Adaptive Continual Intelligence, ACI. ACI is a runtime learning layer where analytical learning, supervised learning, and reinforcement learning work together while the system is already in production. ACI is not caching, memory, a knowledge graph, routing, or a simple optimization trick. This technique learns from model decisions, corrections, labels, outcomes, and experience, then serves known decisions locally on CPU. Only new, uncertain, or complex requests are routed back to the underlying model. ACI can also be pre-trained for specific domains, making continual learning faster and cheaper. DeepAdapt is rolling out first for cloud-based LLM agents, but the same architecture becomes even more important on personal devices, where compute, battery, latency, and local inference reliability are much tighter constraints. In their benchmarks, ACI has shown up to 90% lower token consumption, 5.7X lower production-scale cost, 33X faster inference with 159 ms median latency, 96% accuracy vs. 85% without ACI, 85.7% lower energy per 1,000 decisions, and 4.8× fewer rule violations. DeepAdapt intercepts user requests, serving known answers instantly from a standard CPU to completely bypass the expensive GPU. New questions go to the GPU, but the system logs the output and any human corrections to learn for the next time. This keeps the underlying language model entirely frozen while the outer software layer handles all real-time learning and auditing. ACI requires zero training. No fine-tuning. No retraining pipelines. You wire it into your existing stack and it starts learning from real use on the very first request. Every improvement happens at runtime. The effect: GPU dependency and cost decrease as the system matures, and energy consumption drops proportionally. In ACI-native agents, everything else becomes a tool inside the ACI runtime: the LLM, memory, tools, knowledge graphs, prompts, workflows, APIs, and external systems. ACI decides what can be handled locally, what should be learned, what must be enforced, and when the system actually needs to fall back to the model. Inference is becoming one of AI’s biggest cost centers. Token prices may fall, but total AI bills keep rising because usage is exploding. The real leverage is avoiding unnecessary GPU calls altogether. With ACI, the LLM is no longer the center of the architecture, because ACI becomes the runtime intelligence layer that decides what can be inferred locally, what should be learned, what must be enforced, and when the model is actually needed. 🧵 1.

译DeepAdapt 发布 ACI（自适应持续智能）运行时学习层，通过将重复工作负载从 GPU 转移至标准 CPU，实现运营成本降低 82%、推理速度提升 33 倍（中位延迟 159 ms）。ACI 在推理时实时学习模型决策、人工修正与反馈，已知请求直接本地 CPU 处理，仅不确定或复杂请求回传底层 LLM。基准测试：token 消耗降 90%、生产级成本降 5.7 倍、准确率 96%（对比无 ACI 的 85%）、每千次决策能耗降 85.7%、规则违规减 4.8 倍。无需微调或重训，即插即用，GPU 依赖随系统成熟递减。该架构先用于云端 LLM 智能体，未来对个人设备同样重要。