微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。
微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。
传统企业内容管理系统依赖人工流程与孤立系统,效率低下。AI赋能的CMS将被动存储转变为主动编排,可在单一受管工作流中自动推荐资产、优化文案、标记本地化不一致、预测内容表现并路由审批。工作流自动化提升一致性,实时分析集成至发布层。德勤2025年对1800多名高管的调查显示,近半组织已利用AI简化工作流程,关键在于将AI嵌入内容创建、治理与发布系统,而非作为孤立工具。
本教程演示了利用 Docling Parse 对 PDF 文档进行结构化解析的流程。先搭建稳定 Python 环境并生成含文本、列、表格、矢量图形和嵌入图像的多页 PDF。再通过 Docling Parse 提取词、字符和行级文本及页面坐标,渲染可视化叠加图层,最后输出为 JSON 与 CSV 文件。该流程展示了底层 PDF 解析如何支持布局分析、阅读顺序还原、表格感知处理及检索就绪的文档预处理等文档 AI 任务。
华硕为 Ascent GX10 迷你超级计算机新增 128GB LPDDR5X 统一内存 + 4TB SSD 版本,定价 36999 元。该产品基于英伟达 GB10 超级芯片,融合 Arm 架构 20 核心 Grace CPU 与 Blackwell GPU(6144 CUDA 核心、第五代 Tensor Core,支持 FP4),AI 算力 1000 TOPS,可运行超 2000 亿参数大模型。主机尺寸 150×150×51 mm,内置超宽鳍片、五根热管和双 140×80mm 风扇散热系统,并支持通过 ConnectX-7 NIC 实现双终端互联。
IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。
Marvell在2026台北国际电脑展提出光互连愿景,计划将相隔数千公里的独立数据中心连接成统一调度的资源池,使云服务商能动态调用多地算力、存储和网络。CEO马特·墨菲称光连接将逐步成为跨区域数据中心协同的底层能力。Marvell提供Ara 1.6 Tb/s系列互连方案(采用3nm DSP)及Teralynx T100 102.4 Tb/s以太网交换机,支持512个200 Gb/s端口或64个1.6 Tb/s端口。
智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。
13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。
多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。
微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。
6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。
一篇讨论欧洲是否具备自持计算能力以训练前沿AI模型的文章在Hacker News引发关注。文章围绕欧洲现有算力基础设施能否支撑前沿模型训练展开,未提及具体模型、参数规模或 benchmark 数据。
一名开发者于6月15日在Hacker News上分享了其家庭实验室AI开发平台,该帖子获得106个HN Points。
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。
安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。
中国科学院深圳先进院自主研发的机器学习台风快速增强集成预报模型,在国家气象中心、香港天文台完成部署,成为国内首个实现落地应用的24小时台风快速增强预报模型,并配套上线12小时预报产品。该模型融合决策树、随机森林、AdaBoost、LightGBM四种算法,首次构建“海陆比”“对称比”指标。针对2016-2020年北大西洋热带气旋快速增强过程模拟回报,该模型比美国国家飓风中心最好预报系统命中率更高、误报率更低。
鸿海科技集团与施耐德电气宣布战略合作,共同打造并推动次世代 AI 数据中心的发展。双方将结合鸿海的制造优势和施耐德电气的能源智慧,打造集成式、可实时部署的解决方案,协助客户在全球更快速、高效地构建 AI 基础设施。合作生产将于今年稍晚启动。双方还将共同开发次世代 AI 数据中心参考架构,探索闭环式能源优化、模块化电力与冷却系统、标准化设计框架等创新方案,旨在打造可重复、高性能的 AI 工厂蓝图。
UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。
小米大家电部总经理单联瑜发文,总结小米空调2026年三件重要工作:超高APF(符合下一代能效标准)、强劲风系列纯热泵制热(比PTC更节能不干燥)、数字抽真空(用互联网+AI透明化服务)。他判断从27年起更多品牌采用纯热泵技术,从26年下半年起更多品牌加强抽真空监管并采用数字抽真空。今年5月,小米因两起空调安装抽真空造假事件,对涉事工程师永久拉黑清退,每单罚款1000元。
中国智造的 Model Y 在 2026 年 5 月成为日本进口车品牌单一车型新车注册量第一。特斯拉上海超级工厂生产的 Model 3 和 Model Y 零部件本土化率已超过 95%,与国内 400 余家供应链伙伴合作,其中超 60 家已纳入全球采购体系。特斯拉 2024 年研发投入 331 亿人民币,2025 年第一季度研发投入 103 亿人民币。
OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。
本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
据韩媒报道,SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E,首批样品最快本月出货,最迟不晚于下个月。HBM4E 计划明年正式量产,预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上,SK 展出了 HBM4E 晶圆,黄仁勋参观并留言“请多生产一些”。
富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。
三星造船事业部设计了一座功率达50兆瓦的海上浮动AI数据中心,从零开始建造专用船舶。该设施停靠近海时可通过海底电缆接入电网,驶往远海后借助液化天然气燃料电池自主发电,并直接抽取海水为服务器降温。三星已携手超微在真实河道与海洋环境中对高性能硬件进行极限测试。设计方案已获国际海事监管机构初步审批,去年秋季与OpenAI签署合作意向书。希腊航运企业Capital Clean Energy Carriers提供资金支持并协助选址。
Simon Willison 为 Datasette 探索了三种方案,使其能对任意 SQL 查询结果补充源表列信息。他使用 Claude Code(Opus 4.8)发现:利用 apsw 库、通过 ctypes 调用 SQLite 内部未暴露的 sqlite3_column_table_name() C 函数,以及分析 EXPLAIN 输出。这些方法可程序化识别 select users.name, orders.total from users join orders on orders.user_id = users.id 等查询中每个结果对应的源表.列,并支持 JOIN 和 CTE 等复杂语法。
Pyodide 314.0 发布后,开发者可将为 Pyodide 编译的 Python 包以 wheel 格式发布到 PyPI 并在运行时通过 micropip 安装。此前逾 300 个包需由 Pyodide 维护者统一构建托管。作者用 Codex + GPT-5.5 xhigh 将 Luau 的 WebAssembly 版本打包为 luau-wasm 并上传至 PyPI,wheel 仅 276KB,展示了完整流程。截至发布,已有 28 个 PyPI 包使用新 pyemscripten_202*_wasm32 标签。
使用 RTX 5080 和 RTX 3090 组合硬件,在 Qwen 3.6 27B Q8 模型推理中获得 80 Tok/s 的速度。
该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。
Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。
6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。
Meta 在一份面向 6000 名员工的内部备忘录中透露,仅内部使用 AI 的成本就将达到数十亿美元。从 2027 年起,预算、配额以及名为“AI Gateway”的中央仪表板将管控 token 消耗。CTO Andrew Bosworth 直言:“并非所有行动都是进步,单凭 token 使用量不能衡量任何影响。”
SpaceX完成IPO,首日收涨超19%,市值达2.11万亿美元,马斯克成全球首位万亿富豪。英伟达发文祝贺,马斯克回应称将把合作“提升到新水平”。SpaceX已公布首款AI计算卫星AI1,峰值计算载荷最高150千瓦,配备液冷散热器与微流星体防护。IPO前夕,SpaceX与谷歌签署云服务协议,获得相当于11万块英伟达GPU的计算能力,月费9.2亿美元;近期还与Anthropic签署协议,提供22万块H100、H200、GB200等GPU使用权限,月费12.5亿美元。
微软本周三在 GitHub 开源 SwiftStreamingMarkdown,面向 iOS 平台,专为大语言模型聊天场景的逐字流式渲染优化。采用 MIT 许可证,通过 Swift Package Manager 集成约增加 3 MB 体积,可避免主线程过载。支持 CommonMark 与 GFM 核心子集(标题、段落、粗斜体、删除线、行内代码、链接、代码块、引用块、列表、表格、LaTeX 公式及 LLM 溯源标记),图片仅显示替代文本,未实现语法降级为可读文本。内置过渡动画、数学公式渲染、可配置主题、上下文菜单及交互追踪钩子。在 iPhone XS 高负载测试中,主线程控制优于同类库。
6 月 12 日,MiniMax 新一代原生多模态模型 M3 开源,同日摩尔线程完成 MTT S5000 智算卡的 Day-0 适配。该卡凭借硬件级原生 FP8 加速,单卡稠密算力达 1000 TFLOPS,配备 80GB 显存与 1.6TB/s 带宽,支撑百万 token 级长序列。通过 MUSA C++ 与 Triton-MUSA 抽象层实现新算子快速迁移,同步拉起 vLLM 与 SGLang 推理框架,覆盖 FP8 至 FP64 全精度。开发者可基于 MUSA 软件栈与双框架部署。