6月16日,中国信通院联合华为云、蚂蚁数科等10家企业共同启动“Token服务能力攀登计划”并发布首批攀登结果。首批企业均达到企业级通用场景Token服务性能基线:每秒输出Token数≥55 Token/s,首Token时延≤0.9s,调用成功率99.9%。截至2026年3月,我国日均词元调用量已攀升至140万亿次以上,较2024年初的1000亿次实现千倍跃升,较2025年底的100万亿次三个月内增幅超四成。
6月16日,中国信通院联合华为云、蚂蚁数科等10家企业共同启动“Token服务能力攀登计划”并发布首批攀登结果。首批企业均达到企业级通用场景Token服务性能基线:每秒输出Token数≥55 Token/s,首Token时延≤0.9s,调用成功率99.9%。截至2026年3月,我国日均词元调用量已攀升至140万亿次以上,较2024年初的1000亿次实现千倍跃升,较2025年底的100万亿次三个月内增幅超四成。
微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。
传统企业内容管理系统依赖人工流程与孤立系统,效率低下。AI赋能的CMS将被动存储转变为主动编排,可在单一受管工作流中自动推荐资产、优化文案、标记本地化不一致、预测内容表现并路由审批。工作流自动化提升一致性,实时分析集成至发布层。德勤2025年对1800多名高管的调查显示,近半组织已利用AI简化工作流程,关键在于将AI嵌入内容创建、治理与发布系统,而非作为孤立工具。
本教程演示了利用 Docling Parse 对 PDF 文档进行结构化解析的流程。先搭建稳定 Python 环境并生成含文本、列、表格、矢量图形和嵌入图像的多页 PDF。再通过 Docling Parse 提取词、字符和行级文本及页面坐标,渲染可视化叠加图层,最后输出为 JSON 与 CSV 文件。该流程展示了底层 PDF 解析如何支持布局分析、阅读顺序还原、表格感知处理及检索就绪的文档预处理等文档 AI 任务。
华硕为 Ascent GX10 迷你超级计算机新增 128GB LPDDR5X 统一内存 + 4TB SSD 版本,定价 36999 元。该产品基于英伟达 GB10 超级芯片,融合 Arm 架构 20 核心 Grace CPU 与 Blackwell GPU(6144 CUDA 核心、第五代 Tensor Core,支持 FP4),AI 算力 1000 TOPS,可运行超 2000 亿参数大模型。主机尺寸 150×150×51 mm,内置超宽鳍片、五根热管和双 140×80mm 风扇散热系统,并支持通过 ConnectX-7 NIC 实现双终端互联。
IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。
Marvell在2026台北国际电脑展提出光互连愿景,计划将相隔数千公里的独立数据中心连接成统一调度的资源池,使云服务商能动态调用多地算力、存储和网络。CEO马特·墨菲称光连接将逐步成为跨区域数据中心协同的底层能力。Marvell提供Ara 1.6 Tb/s系列互连方案(采用3nm DSP)及Teralynx T100 102.4 Tb/s以太网交换机,支持512个200 Gb/s端口或64个1.6 Tb/s端口。
智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。
13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。
多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。
微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。
数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。
http://x.com/i/article/2066435928739217408
6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。
一篇讨论欧洲是否具备自持计算能力以训练前沿AI模型的文章在Hacker News引发关注。文章围绕欧洲现有算力基础设施能否支撑前沿模型训练展开,未提及具体模型、参数规模或 benchmark 数据。
MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。
一名开发者于6月15日在Hacker News上分享了其家庭实验室AI开发平台,该帖子获得106个HN Points。
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。
Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...
郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。
Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。
Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。
You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important laye...
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。
安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。
中国科学院深圳先进院自主研发的机器学习台风快速增强集成预报模型,在国家气象中心、香港天文台完成部署,成为国内首个实现落地应用的24小时台风快速增强预报模型,并配套上线12小时预报产品。该模型融合决策树、随机森林、AdaBoost、LightGBM四种算法,首次构建“海陆比”“对称比”指标。针对2016-2020年北大西洋热带气旋快速增强过程模拟回报,该模型比美国国家飓风中心最好预报系统命中率更高、误报率更低。
鸿海科技集团与施耐德电气宣布战略合作,共同打造并推动次世代 AI 数据中心的发展。双方将结合鸿海的制造优势和施耐德电气的能源智慧,打造集成式、可实时部署的解决方案,协助客户在全球更快速、高效地构建 AI 基础设施。合作生产将于今年稍晚启动。双方还将共同开发次世代 AI 数据中心参考架构,探索闭环式能源优化、模块化电力与冷却系统、标准化设计框架等创新方案,旨在打造可重复、高性能的 AI 工厂蓝图。
UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。
小米大家电部总经理单联瑜发文,总结小米空调2026年三件重要工作:超高APF(符合下一代能效标准)、强劲风系列纯热泵制热(比PTC更节能不干燥)、数字抽真空(用互联网+AI透明化服务)。他判断从27年起更多品牌采用纯热泵技术,从26年下半年起更多品牌加强抽真空监管并采用数字抽真空。今年5月,小米因两起空调安装抽真空造假事件,对涉事工程师永久拉黑清退,每单罚款1000元。
中国智造的 Model Y 在 2026 年 5 月成为日本进口车品牌单一车型新车注册量第一。特斯拉上海超级工厂生产的 Model 3 和 Model Y 零部件本土化率已超过 95%,与国内 400 余家供应链伙伴合作,其中超 60 家已纳入全球采购体系。特斯拉 2024 年研发投入 331 亿人民币,2025 年第一季度研发投入 103 亿人民币。
AMD发布Mac mini尺寸本地AI开发平台,对标NVIDIA DGX Spark。配备128GB统一内存,无需联网可本地运行最高2000亿参数大模型,环境预配置,开机几分钟可出token。支持GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型。接口含Wi-Fi 7、蓝牙5.4、10GbE、4个USB-C、HDMI 2.1b。售价3999美元起。
OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。
本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
据韩媒报道,SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E,首批样品最快本月出货,最迟不晚于下个月。HBM4E 计划明年正式量产,预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上,SK 展出了 HBM4E 晶圆,黄仁勋参观并留言“请多生产一些”。