AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
6月16日周二
17:00IT之家(RSS)51华为云、蚂蚁数科在列,中国信通院联合10家企业启动"Token服务能力攀登计划"
16:00IT之家(RSS)50消息称微软为 GitHub 加购亚马逊 AWS 算力,应对 AI 时代提交量爆炸式增长
15:53Artificial Intelligence News(RSS)38AI赋能CMS平台如何变革企业内容运营
15:38MarkTechPost(RSS)68使用 Docling Parse 构建布局感知文档智能解析管道教程
15:00IT之家(RSS)59华硕 Ascent GX10 迷你超级计算机新增 128GB+4TB 版,36999 元
14:30公众号:火山引擎40双第一!火山引擎领跑中国智能体开发平台市场
14:00IT之家(RSS)46Marvell在2026台北国际电脑展发布光互连愿景,连接数千公里数据中心
13:58OpenRouter:Announcements(RSS)68精选智能体AI治理:你的API密钥就是护栏
13:58OpenRouter:Announcements(RSS)75精选免费LLM API比较:速率限制、模型与真实成本(2026)
13:33Alibaba Cloud34MiniMax与阿里云PolarDB探索AI原生数据库
13:27HuggingFace Daily Papers(社区热门论文)49Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型
12:37Hacker News 热门(buzzing.cc 中文翻译)76精选微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持
10:27HuggingFace Daily Papers(社区热门论文)47TokenPilot:面向LLM智能体的缓存高效上下文管理框架
09:19meng shao67AI代码审查(Agentic Code Review)实测:产出翻4倍,交付价值仅+10%
07:59IT之家(RSS)52AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径
05:36Hacker News 热门(buzzing.cc 中文翻译)59欧洲能否利用自身拥有的计算资源来训练前沿的人工智能模型?
04:49Rohan Paul43MiniMax Sparse Attention
03:02Hacker News 热门(buzzing.cc 中文翻译)66我的家庭实验室 AI 开发平台
02:33xAI:News(网页)47xAI 宣布 Grok 集成至 Warp 终端开发环境
02:32OpenRouter65同事件精选OpenRouter新增免费模型gpt-oss-20b和Gemma4 26B同一事件,精选展示《OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理》
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
00:59凡人小北56Google 探索退休手机集群计算
00:50郭明錤|Ming-Chi Kuo56联发科AI事业策略升级至系统级设计,锁定Google TPU PCBA及Musk公司AI机柜
00:13The Decoder:AI News(RSS)72精选Nvidia 加入 AI 债务热潮,发行 200 亿美元债券
6月15日周一
22:34Ethan Mollick58前沿模型原生框架能力远超API调用
22:25Berryxia.AI58Unsloth将Kimi K2.7 Code压缩至325GB本地运行
21:55Cloudflare Blog50Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
21:30公众号:百度智能云(文心)49百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%
21:30公众号:火山引擎38安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践
18:43IT之家(RSS)36国内首个24小时台风快速增强集成预报模型落地应用
17:43IT之家(RSS)42鸿海与施耐德电气围绕次世代 AI 数据中心展开战略合作,合作生产年内启动
17:41MarkTechPost(RSS)73精选Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上
17:33Alibaba Cloud15阿里云Qwen AI名片获人气磁石奖
15:42IT之家(RSS)21小米单联瑜:空调2026年聚焦超高APF、纯热泵制热与数字抽真空
15:42IT之家(RSS)14特斯拉:中国智造的 Model Y 成为 2026 年 5 月日本进口车品牌单一车型新车注册量第一
15:09小互55AMD推出Mac mini大小本地AI开发平台,对标DGX Spark
10:25Alibaba Cloud17阿里云AI基础设施迁移最高节省50%
08:14OpenAI:官网动态(RSS · 排除企业/客户案例)59精选OpenAI 推出合作伙伴网络 OpenAI Partner Network
08:00HuggingFace Daily Papers(社区热门论文)53多智能体LLM系统中并发异常的验证检测与预防
6月14日周日
20:38IT之家(RSS)47继三星之后,SK 海力士拟向客户提供 HBM4E 样品,最早本月发货
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
17:00
IT之家(RSS)
51
华为云、蚂蚁数科在列,中国信通院联合10家企业启动"Token服务能力攀登计划"

6月16日,中国信通院联合华为云、蚂蚁数科等10家企业共同启动“Token服务能力攀登计划”并发布首批攀登结果。首批企业均达到企业级通用场景Token服务性能基线:每秒输出Token数≥55 Token/s,首Token时延≤0.9s,调用成功率99.9%。截至2026年3月,我国日均词元调用量已攀升至140万亿次以上,较2024年初的1000亿次实现千倍跃升,较2025年底的100万亿次三个月内增幅超四成。

行业动态部署/工程
16:00
IT之家(RSS)
50
消息称微软为 GitHub 加购亚马逊 AWS 算力,应对 AI 时代提交量爆炸式增长

微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。

Microsoft编码行业动态部署/工程
15:53
Artificial Intelligence News(RSS)
38
AI赋能CMS平台如何变革企业内容运营

传统企业内容管理系统依赖人工流程与孤立系统,效率低下。AI赋能的CMS将被动存储转变为主动编排,可在单一受管工作流中自动推荐资产、优化文案、标记本地化不一致、预测内容表现并路由审批。工作流自动化提升一致性,实时分析集成至发布层。德勤2025年对1800多名高管的调查显示,近半组织已利用AI简化工作流程,关键在于将AI嵌入内容创建、治理与发布系统,而非作为孤立工具。

现象/趋势部署/工程
15:38
MarkTechPost(RSS)
68
使用 Docling Parse 构建布局感知文档智能解析管道教程

本教程演示了利用 Docling Parse 对 PDF 文档进行结构化解析的流程。先搭建稳定 Python 环境并生成含文本、列、表格、矢量图形和嵌入图像的多页 PDF。再通过 Docling Parse 提取词、字符和行级文本及页面坐标,渲染可视化叠加图层,最后输出为 JSON 与 CSV 文件。该流程展示了底层 PDF 解析如何支持布局分析、阅读顺序还原、表格感知处理及检索就绪的文档预处理等文档 AI 任务。

检索增强教程/实践部署/工程
15:00
IT之家(RSS)
59
华硕 Ascent GX10 迷你超级计算机新增 128GB+4TB 版,36999 元

华硕为 Ascent GX10 迷你超级计算机新增 128GB LPDDR5X 统一内存 + 4TB SSD 版本,定价 36999 元。该产品基于英伟达 GB10 超级芯片,融合 Arm 架构 20 核心 Grace CPU 与 Blackwell GPU(6144 CUDA 核心、第五代 Tensor Core,支持 FP4),AI 算力 1000 TOPS,可运行超 2000 亿参数大模型。主机尺寸 150×150×51 mm,内置超宽鳍片、五根热管和双 140×80mm 风扇散热系统,并支持通过 ConnectX-7 NIC 实现双终端互联。

产品更新端侧部署/工程
14:30
公众号:火山引擎
40
双第一!火山引擎领跑中国智能体开发平台市场

IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。

智能体行业动态部署/工程
14:00
IT之家(RSS)
46
Marvell在2026台北国际电脑展发布光互连愿景,连接数千公里数据中心

Marvell在2026台北国际电脑展提出光互连愿景,计划将相隔数千公里的独立数据中心连接成统一调度的资源池,使云服务商能动态调用多地算力、存储和网络。CEO马特·墨菲称光连接将逐步成为跨区域数据中心协同的底层能力。Marvell提供Ara 1.6 Tb/s系列互连方案(采用3nm DSP)及Teralynx T100 102.4 Tb/s以太网交换机,支持512个200 Gb/s端口或64个1.6 Tb/s端口。

行业动态部署/工程
13:58
OpenRouter:Announcements(RSS)
精选68
智能体AI治理:你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由:现在代理失控的风险越来越真实,这篇文章把复杂的治理问题简化为五个 API 密钥控制,五分钟就能落地,比那些大而无当的框架实用得多。
13:58
OpenRouter:Announcements(RSS)
精选75
免费LLM API比较:速率限制、模型与真实成本(2026)

13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由:免费 LLM API 不是免费的,这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了,想省钱的开发者值得花五分钟看一遍。
13:33
Alibaba Cloud@alibaba_cloud
34
MiniMax & 阿里云 PolarDB 正在探索 AI 原生数据库!🚀 面对海量数据与高并发挑战,PolarDB 为 MiniMax 提供了坚如磐石的基础。凭借多模态存储、秒级弹性以及智能冷热分层,我们同时提升了业务敏捷性与用户体验。📈 展望未来,我们将深化合作,共同构建更智能的 AI 生态!✨ #阿里云 #PolarDB #MiniMax #AINative
行业动态部署/工程
13:27
HuggingFace Daily Papers(社区热门论文)
49
Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型

多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。

推理论文/研究部署/工程
12:37
Hacker News 热门(buzzing.cc 中文翻译)
精选76
微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持

微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。

GitHubMicrosoft编码行业动态

推荐理由:微软因AI编码需求导致GitHub容量告急,转向竞争对手AWS租用算力,这信号很明确——AI开发工具已从软件功能战升级为超大规模基础设施竞赛,GitHub的可靠性危机可能加速开发者的平台迁移。
10:27
HuggingFace Daily Papers(社区热门论文)
47
TokenPilot:面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程
09:19
meng shao@shao__meng
67
AI代码审查(Agentic Code Review)实测:产出翻4倍,交付价值仅+10%

数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。

Addy Osmani: http://x.com/i/article/2066435928739217408

大佬观点编码部署/工程
07:59
IT之家(RSS)
52
AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径

6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。

数据/训练行业动态部署/工程
05:36
Hacker News 热门(buzzing.cc 中文翻译)
59
欧洲能否利用自身拥有的计算资源来训练前沿的人工智能模型?

一篇讨论欧洲是否具备自持计算能力以训练前沿AI模型的文章在Hacker News引发关注。文章围绕欧洲现有算力基础设施能否支撑前沿模型训练展开,未提及具体模型、参数规模或 benchmark 数据。

开源生态现象/趋势部署/工程
04:49
Rohan Paul@rohanpaul_ai
43
MiniMax Sparse Attention

MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。

推理论文/研究部署/工程
03:02
Hacker News 热门(buzzing.cc 中文翻译)
66
我的家庭实验室 AI 开发平台

一名开发者于6月15日在Hacker News上分享了其家庭实验室AI开发平台,该帖子获得106个HN Points。

教程/实践部署/工程
02:33
xAI:News(网页)
47
xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程
02:32
OpenRouter@OpenRouter
同事件精选65
OpenRouter 上新增免费容量,由 @eigenlabs 的 Darkbloom 提供:gpt-oss-20b 和 Gemma 4 26B。 今天就开始使用这些模型吧 ↓
产品更新部署/工程
同一事件,精选展示《OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理》
推荐理由:OpenRouter 免费层加了两个模型,其中一个名字暗示 Gemma 4,如果属实值得一看,否则就是一次普通的容量扩充,但对经常薅免费 API 的开发者来说多了选择。
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
00:59
凡人小北@frxiaobei
56
Google 探索退休手机集群计算

Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。

Google Research: Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...

Google大佬观点端侧部署/工程
00:50
郭明錤|Ming-Chi Kuo@mingchikuo
56
联发科AI事业策略升级至系统级设计,锁定Google TPU PCBA及Musk公司AI机柜

郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。

Google大佬观点部署/工程
00:13
The Decoder:AI News(RSS)
精选72
Nvidia 加入 AI 债务热潮,发行 200 亿美元债券

Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。

行业动态部署/工程

推荐理由:Nvidia发债200亿美元加入AI债务潮,这是自2021年来的首次,显示AI基建的烧钱速度在加速,属于行业层面的重要信号,但对开发者日常无直接影响。
6月15日
22:34
Ethan Mollick@emollick
58
API用户(例如企业IT部署)使用前沿模型时可能会忽略一点:模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力,而且随着模型变得更聪明,这变得更难。
AnthropicOpenAI大佬观点编码
22:25
Berryxia.AI@berryxia
58
Unsloth将Kimi K2.7 Code压缩至325GB本地运行

Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。

Unsloth AI: You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important laye...

开源/仓库编码部署/工程
21:55
Cloudflare Blog
50
Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程
21:30
公众号:百度智能云(文心)
49
百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。

智能体产品更新部署/工程
21:30
公众号:火山引擎
38
安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践

安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。

行业动态部署/工程
18:43
IT之家(RSS)
36
国内首个24小时台风快速增强集成预报模型落地应用

中国科学院深圳先进院自主研发的机器学习台风快速增强集成预报模型,在国家气象中心、香港天文台完成部署,成为国内首个实现落地应用的24小时台风快速增强预报模型,并配套上线12小时预报产品。该模型融合决策树、随机森林、AdaBoost、LightGBM四种算法,首次构建“海陆比”“对称比”指标。针对2016-2020年北大西洋热带气旋快速增强过程模拟回报,该模型比美国国家飓风中心最好预报系统命中率更高、误报率更低。

行业动态部署/工程
17:43
IT之家(RSS)
42
鸿海与施耐德电气围绕次世代 AI 数据中心展开战略合作,合作生产年内启动

鸿海科技集团与施耐德电气宣布战略合作,共同打造并推动次世代 AI 数据中心的发展。双方将结合鸿海的制造优势和施耐德电气的能源智慧,打造集成式、可实时部署的解决方案,协助客户在全球更快速、高效地构建 AI 基础设施。合作生产将于今年稍晚启动。双方还将共同开发次世代 AI 数据中心参考架构,探索闭环式能源优化、模块化电力与冷却系统、标准化设计框架等创新方案,旨在打造可重复、高性能的 AI 工厂蓝图。

行业动态部署/工程
17:41
MarkTechPost(RSS)
精选73
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由:Flash-KMeans 把 k-means 从离线预处理拉进了在线循环,200 倍加速不是纸面数字,而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。
17:33
Alibaba Cloud@alibaba_cloud
15
从企业AI到云与数据创新,ATxEnterprise2026是一场充满对话与合作的精彩一周。感谢所有到访阿里云新加坡展台的朋友。其中的亮点是我们的Qwen驱动AI名片激活,为我们赢得了人气磁石奖!
行业动态部署/工程
15:42
IT之家(RSS)
21
小米单联瑜:空调2026年聚焦超高APF、纯热泵制热与数字抽真空

小米大家电部总经理单联瑜发文,总结小米空调2026年三件重要工作:超高APF(符合下一代能效标准)、强劲风系列纯热泵制热(比PTC更节能不干燥)、数字抽真空(用互联网+AI透明化服务)。他判断从27年起更多品牌采用纯热泵技术,从26年下半年起更多品牌加强抽真空监管并采用数字抽真空。今年5月,小米因两起空调安装抽真空造假事件,对涉事工程师永久拉黑清退,每单罚款1000元。

行业动态部署/工程
15:42
IT之家(RSS)
14
特斯拉:中国智造的 Model Y 成为 2026 年 5 月日本进口车品牌单一车型新车注册量第一

中国智造的 Model Y 在 2026 年 5 月成为日本进口车品牌单一车型新车注册量第一。特斯拉上海超级工厂生产的 Model 3 和 Model Y 零部件本土化率已超过 95%,与国内 400 余家供应链伙伴合作,其中超 60 家已纳入全球采购体系。特斯拉 2024 年研发投入 331 亿人民币,2025 年第一季度研发投入 103 亿人民币。

其他部署/工程
15:09
小互@xiaohu
55
AMD推出Mac mini大小本地AI开发平台,对标DGX Spark

AMD发布Mac mini尺寸本地AI开发平台,对标NVIDIA DGX Spark。配备128GB统一内存,无需联网可本地运行最高2000亿参数大模型,环境预配置,开机几分钟可出token。支持GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型。接口含Wi-Fi 7、蓝牙5.4、10GbE、4个USB-C、HDMI 2.1b。售价3999美元起。

产品更新端侧部署/工程
10:25
Alibaba Cloud@alibaba_cloud
17
Agentic AI需要能够跟上步伐的基础设施。迁移到阿里云,获得一个为大规模智能自动化构建的AI就绪平台,成本比你现在支付的最高减少50%。 #AgenticAI #MigrateAndSave #阿里云 👉 https://int.alibabacloud.com/m/1000414312/
其他部署/工程
08:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选59
OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。

OpenAI行业动态部署/工程

推荐理由:OpenAI 砸 1.5 亿建合作伙伴网络,企业落地从模型能力转向生态整合,但这事离普通用户比较远,更像是给咨询公司派活。
08:00
HuggingFace Daily Papers(社区热门论文)
53
多智能体LLM系统中并发异常的验证检测与预防

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。

智能体论文/研究部署/工程
6月14日
20:38
IT之家(RSS)
47
继三星之后,SK 海力士拟向客户提供 HBM4E 样品,最早本月发货

据韩媒报道,SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E,首批样品最快本月出货,最迟不晚于下个月。HBM4E 计划明年正式量产,预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上,SK 展出了 HBM4E 晶圆,黄仁勋参观并留言“请多生产一些”。

行业动态部署/工程
‹ 上一页
1…1112131415…50
下一页 ›