This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue over 12 months, afte...
This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue over 12 months, afte...
埃隆·马斯克已获美国联邦贸易委员会(FTC)批准,收购由SpaceX前员工创立的Mesh Optical Technologies Corp.。Mesh主要设计面向AI数据中心的光通信收发器,可将电信号直接转换为光信号,解决传统铜缆在传输速度、带宽和发热上的物理瓶颈,实现服务器与GPU之间接近瞬时的数据传输。2026年2月,Mesh完成了5000万美元(约合3.4亿元人民币)A轮融资。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。
AI成本正困扰企业:Uber 4个月花光全年AI预算,微软等公司削减员工AI支出。前沿模型价格高昂,如GPT 5.5每百万输入/输出token分别收费5美元和30美元,作者用该模型修复50个TypeScript文件花费54美元。成本不可持续的原因包括:模型性能提升趋缓;开源权重模型GLM-5.2在编码测试中表现不输前沿模型,成本仅为GPT 5.5的1/10;专用芯片(TPU比H100便宜30-70%)和MoE架构改进持续降低推理成本;零转换成本使用户可瞬间切换模型;本地模型将在4-5年内因芯片进步和RAM降价普及,进一步压低云端需求。
PaddleOCR发布PP-OCRv6完整端到端部署基准。A100上PP-OCRv6_tiny达0.13秒/图;Intel CPU上用OpenVINO,PP-OCRv6_medium比PP-OCRv5_server快5.2倍,PP-OCRv6_tiny比PP-OCRv5_mobile快3.9倍;Apple M4上用ONNX Runtime跑出0.35秒/图。提供Tiny、Small、Medium三种尺寸,Medium/Small均支持50种语言,PP-OCRv6_medium英文准确率88.4%,拉丁字母准确率88.0%。官方总结认为,在专用OCR任务上,轻量架构+高质量训练数据比单纯堆参数更实用,是对大模型“暴力scaling”路线的反向验证。
🧵PP-OCRv6 Tech Deep Dive Ep.4:3.9x Faster on CPU, 0.13s per Image on A100 - PP-OCRv6 Deployment & Model Selection Guide...
openEuler 24.03 LTS SP4 于6月25至26日发布,基于6.6内核LTS,面向服务器、云计算、灵衢超节点和AI场景,升级弹性内存、64K内核、AI图编译器、虚拟化优化、低时延通信、Agent沙箱、推理软件适配和智能调优。哈萨克斯坦自由云加入社区成为首家境外实体生态伙伴。麒麟软件、麒麟信安、软通天鹤AIOS、超聚变FusionOS 26、天翼云CTyunOS、联通数科CUOS等伙伴展示了在智能运维、高可靠场景、AI原生OS等方向的落地应用。
面壁智能在第四届链博会上展示端侧AI全链能力,涵盖模型研发、芯片适配、终端部署到产业应用和生态协同。以“密度定律”提升单位参数智能密度,已围绕高效模型、端侧推理、软硬协同、多模态交互形成系统能力,完成多类主流芯片适配。现场展出智能体平台PilotDeck,可根据任务难度自动调度模型、控制推理成本,并能挂载端侧模型处理隐私敏感任务。面壁智能正与芯片、终端、行业伙伴共同推动端侧AI在汽车、手机、PC、机器人等设备上规模化落地。
在Flink Forward Asia Shenzhen 2026大会上,NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作:通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构,可应用于AI解说、实时图文信息流和交互式问答等场景。
阿里云宣布Qwen Live系列首期节目,主题为“Agent-First:当你的下一个用户不是人类”。节目将于2026年6月30日10:00(UTC+8)直播,由Qwen Cloud负责人林林孔、产品经理潘古和西觉共同主持。他们将探讨从零构建面向AI智能体的云平台、为非人类用户重新定义开发者体验,以及大规模人机协作的新范式。节目还提供Qwen Cloud平台入门链接。
百度千帆宣布Coding Plan产品升级,后续将逐步迁移至Token Plan个人版。即日起现有Coding Plan套餐停止续费,7月初通过Token Plan提供更丰富模型选择和灵活使用方式。已购买用户可继续使用至当前周期结束;自动续费用户自公告发布30日后自动失效。升级用户可一键迁移,获得Token Plan对应套餐完整权益,已使用的Coding Plan额度重置,原套餐剩余有效期顺延一个月。
高通与 Hugging Face 宣布扩大合作,携手构建从端到云无缝衔接的 AI 开发生态。Hugging Face 的 AI 存储和推理服务将适配高通 Dragonfly“飞龙”数据中心解决方案。其生态中百万量级 AI 模型将通过智能体接入高通平台,加速在芯片终端与数据中心机架上的部署。Hugging Face 还向使用高通芯片的客户提供 PRO 专业版访问权限。双方计划共同支持分布式 AI 框架,使智能体在端、云平台之间灵活流转。
腾讯云 EdgeOne 发布「EdgeOne Makers」,简化 AI Agent 开发与部署。用户在终端执行三行命令即可部署 Agent 框架:npm install -g edgeone;edgeone makers create --template openai-agents-starter-node;cd openai-agents-starter-node && npm install && edgeone makers dev。本地启动测试网站,可实时查看 Agent 对话与工具调用细节;线上支持绑定域名、关联 GitHub 实现持续迭代。产品处于 Beta 内测阶段,注册即免费领取 50 万 Token。
OpenAI 与 Broadcom(博通)合作开发的 LLM 优化 AI 推理 ASIC 芯片 Jalapeño 基于台积电 3nm 工艺制程,由台积电负责晶圆代工,目标在今年底实现初步部署。双方第二代 AI ASIC 项目则有望导入台积电 A16 节点,利用背面供电技术提升密度与性能。
在深圳举办的Flink Forward Asia 2026上,阿里云研究员、开放数据平台负责人Feng Wang指出,AI时代模型与数据共同决定Agent质量与效率。Apache Flink演进为Agentic Streaming for AI,与Agentic Lake协同,构建AI原生数据平台。下一代智能体建立在统一、实时的AI原生数据基础设施之上。
@QuantCapitalX @MiniMax_AI https://huggingface.co/nvidia/MiniMax-M3-NVFP4
6月25日,中国人工智能产业发展联盟正式启动词元服务工作组筹备,由中国信通院牵头,联合华为云、百度智能云、中国移动等22家单位。工作组致力于解决Token服务性能、安全可信、计量计费不规范等问题,将推进标准体系、能力攀登计划、跨境流动、国产自主可控等八项任务,覆盖生产、流通、应用、运营全流程,并构建绿色Token服务生态。
ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。
华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构,搭载UCM(推理记忆数据管理)技术,完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型,在8K至190K长序列场景下,Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟(TTFT)优化26%~62%,单NPU卡TPS在64K序列提升58%、128K提升78%;GLM-5.1下TTFT优化51%~93%,TPS提升56%~372%。
Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。
If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...
6️⃣ Things to Know about AI Engineer World's Fair 2026 - It's bigger than all previous AIEs - 4x Larger Expo with 4 Expo...
美国国会正在推进《Ratepayer Protection Act》,要求AI数据中心开发商承担新建电厂、输电线路和电网升级费用,而非转嫁给普通电力用户。法案鼓励各州设立“大负荷标准”,将高耗电数据中心单独分类,通过特殊关税、押金、担保或合同预先收费,防止普通家庭和企业补贴此类基础设施。科技公司此前已签署白宫承诺覆盖数据中心能源及输送基础设施,但该法案为各州提供了正式执行路径。这是首个将AI物理能耗成本内部化的联邦举措,可能使数据中心选址更侧重供电能力而非廉价土地。
Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。
We raised $8m to build self-healing software. In 2026, software moves fast. But monitoring and observability are still m...
IBM推出0.7nm芯片技术,采用新型nanostack架构将晶体管垂直堆叠,取代传统平面缩放。指甲盖大小面积可容纳近1000亿个晶体管,性能较其2nm节点提升50%,能效提升70%,SRAM缩小40%。该技术突破原子尺度工程极限,有望让AI芯片、手机、服务器等更快更省电。
Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。
福特汽车公司重新聘用了350名工程师,原因是其部署的AI系统未能有效保留资深工程师的专业知识,也无法对初级员工进行培训。据彭博社报道,福特曾尝试用AI替代部分经验传承和培训职能,但结果未达预期,因此不得不重新召回已离职或退休的资深工程师。此举凸显了当前AI在复杂工业领域知识转移和人才培养方面的局限性。