AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
6月16日周二
16:00IT之家(RSS)50消息称微软为 GitHub 加购亚马逊 AWS 算力,应对 AI 时代提交量爆炸式增长
15:53Artificial Intelligence News(RSS)38AI赋能CMS平台如何变革企业内容运营
15:38MarkTechPost(RSS)68使用 Docling Parse 构建布局感知文档智能解析管道教程
15:00IT之家(RSS)59华硕 Ascent GX10 迷你超级计算机新增 128GB+4TB 版,36999 元
14:30公众号:火山引擎40双第一!火山引擎领跑中国智能体开发平台市场
14:00IT之家(RSS)46Marvell在2026台北国际电脑展发布光互连愿景,连接数千公里数据中心
13:58OpenRouter:Announcements(RSS)68精选智能体AI治理:你的API密钥就是护栏
13:58OpenRouter:Announcements(RSS)75精选免费LLM API比较:速率限制、模型与真实成本(2026)
13:27HuggingFace Daily Papers(社区热门论文)49Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型
12:37Hacker News 热门(buzzing.cc 中文翻译)76精选微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持
10:27HuggingFace Daily Papers(社区热门论文)47TokenPilot:面向LLM智能体的缓存高效上下文管理框架
07:59IT之家(RSS)52AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径
05:36Hacker News 热门(buzzing.cc 中文翻译)59欧洲能否利用自身拥有的计算资源来训练前沿的人工智能模型?
03:02Hacker News 热门(buzzing.cc 中文翻译)66我的家庭实验室 AI 开发平台
02:33xAI:News(网页)47xAI 宣布 Grok 集成至 Warp 终端开发环境
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
00:13The Decoder:AI News(RSS)72精选Nvidia 加入 AI 债务热潮,发行 200 亿美元债券
6月15日周一
21:55Cloudflare Blog50Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
21:30公众号:百度智能云(文心)49百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%
21:30公众号:火山引擎38安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践
18:43IT之家(RSS)36国内首个24小时台风快速增强集成预报模型落地应用
17:43IT之家(RSS)42鸿海与施耐德电气围绕次世代 AI 数据中心展开战略合作,合作生产年内启动
17:41MarkTechPost(RSS)73精选Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上
15:42IT之家(RSS)21小米单联瑜:空调2026年聚焦超高APF、纯热泵制热与数字抽真空
15:42IT之家(RSS)14特斯拉:中国智造的 Model Y 成为 2026 年 5 月日本进口车品牌单一车型新车注册量第一
08:14OpenAI:官网动态(RSS · 排除企业/客户案例)59精选OpenAI 推出合作伙伴网络 OpenAI Partner Network
08:00HuggingFace Daily Papers(社区热门论文)53多智能体LLM系统中并发异常的验证检测与预防
6月14日周日
20:38IT之家(RSS)47继三星之后,SK 海力士拟向客户提供 HBM4E 样品,最早本月发货
18:38IT之家(RSS)49富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片
08:37IT之家(RSS)54三星打造50兆瓦海上浮动AI数据中心,获国际海事初步审批
08:32Simon Willison 博客68将 SQLite 结果列映射回源表.列
08:32Simon Willison 博客64Pyodide 314.0 支持将 WASM wheel 发布到 PyPI
02:24Hacker News 热门(buzzing.cc 中文翻译)65RTX 5080 和 RTX 3090 配置:在 Qwen 3.6 27B Q8 上达到 80 Tok/s
01:32MarkTechPost(RSS)48如何构建QwenPaw智能体工作区:自定义技能、模型提供商、控制台访问与流式API测试
6月13日周六
22:21Hacker News 热门(buzzing.cc 中文翻译)43Google Research 利用旧手机打造低碳计算平台
18:36IT之家(RSS)42京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查
18:03The Decoder:AI News(RSS)55Meta 从"tokenmaxxing"转向 token 管理,内部 AI 成本据报达数十亿美元
17:36IT之家(RSS)43SpaceX历史性IPO后,马斯克称将深化与英伟达合作
15:36IT之家(RSS)69微软开源 iOS 流式 Markdown 渲染库 SwiftStreamingMarkdown
12:36IT之家(RSS)34摩尔线程 MTT S5000 完成 MiniMax M3 Day-0 适配
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
16:00
IT之家(RSS)
50
消息称微软为 GitHub 加购亚马逊 AWS 算力,应对 AI 时代提交量爆炸式增长

微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。

Microsoft编码行业动态部署/工程
15:53
Artificial Intelligence News(RSS)
38
AI赋能CMS平台如何变革企业内容运营

传统企业内容管理系统依赖人工流程与孤立系统,效率低下。AI赋能的CMS将被动存储转变为主动编排,可在单一受管工作流中自动推荐资产、优化文案、标记本地化不一致、预测内容表现并路由审批。工作流自动化提升一致性,实时分析集成至发布层。德勤2025年对1800多名高管的调查显示,近半组织已利用AI简化工作流程,关键在于将AI嵌入内容创建、治理与发布系统,而非作为孤立工具。

现象/趋势部署/工程
15:38
MarkTechPost(RSS)
68
使用 Docling Parse 构建布局感知文档智能解析管道教程

本教程演示了利用 Docling Parse 对 PDF 文档进行结构化解析的流程。先搭建稳定 Python 环境并生成含文本、列、表格、矢量图形和嵌入图像的多页 PDF。再通过 Docling Parse 提取词、字符和行级文本及页面坐标,渲染可视化叠加图层,最后输出为 JSON 与 CSV 文件。该流程展示了底层 PDF 解析如何支持布局分析、阅读顺序还原、表格感知处理及检索就绪的文档预处理等文档 AI 任务。

检索增强教程/实践部署/工程
15:00
IT之家(RSS)
59
华硕 Ascent GX10 迷你超级计算机新增 128GB+4TB 版,36999 元

华硕为 Ascent GX10 迷你超级计算机新增 128GB LPDDR5X 统一内存 + 4TB SSD 版本,定价 36999 元。该产品基于英伟达 GB10 超级芯片,融合 Arm 架构 20 核心 Grace CPU 与 Blackwell GPU(6144 CUDA 核心、第五代 Tensor Core,支持 FP4),AI 算力 1000 TOPS,可运行超 2000 亿参数大模型。主机尺寸 150×150×51 mm,内置超宽鳍片、五根热管和双 140×80mm 风扇散热系统,并支持通过 ConnectX-7 NIC 实现双终端互联。

产品更新端侧部署/工程
14:30
公众号:火山引擎
40
双第一!火山引擎领跑中国智能体开发平台市场

IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。

智能体行业动态部署/工程
14:00
IT之家(RSS)
46
Marvell在2026台北国际电脑展发布光互连愿景,连接数千公里数据中心

Marvell在2026台北国际电脑展提出光互连愿景,计划将相隔数千公里的独立数据中心连接成统一调度的资源池,使云服务商能动态调用多地算力、存储和网络。CEO马特·墨菲称光连接将逐步成为跨区域数据中心协同的底层能力。Marvell提供Ara 1.6 Tb/s系列互连方案(采用3nm DSP)及Teralynx T100 102.4 Tb/s以太网交换机,支持512个200 Gb/s端口或64个1.6 Tb/s端口。

行业动态部署/工程
13:58
OpenRouter:Announcements(RSS)
精选68
智能体AI治理:你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由:现在代理失控的风险越来越真实,这篇文章把复杂的治理问题简化为五个 API 密钥控制,五分钟就能落地,比那些大而无当的框架实用得多。
13:58
OpenRouter:Announcements(RSS)
精选75
免费LLM API比较:速率限制、模型与真实成本(2026)

13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由:免费 LLM API 不是免费的,这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了,想省钱的开发者值得花五分钟看一遍。
13:27
HuggingFace Daily Papers(社区热门论文)
49
Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型

多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。

推理论文/研究部署/工程
12:37
Hacker News 热门(buzzing.cc 中文翻译)
精选76
微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持

微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。

GitHubMicrosoft编码行业动态

推荐理由:微软因AI编码需求导致GitHub容量告急,转向竞争对手AWS租用算力,这信号很明确——AI开发工具已从软件功能战升级为超大规模基础设施竞赛,GitHub的可靠性危机可能加速开发者的平台迁移。
10:27
HuggingFace Daily Papers(社区热门论文)
47
TokenPilot:面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程
07:59
IT之家(RSS)
52
AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径

6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。

数据/训练行业动态部署/工程
05:36
Hacker News 热门(buzzing.cc 中文翻译)
59
欧洲能否利用自身拥有的计算资源来训练前沿的人工智能模型?

一篇讨论欧洲是否具备自持计算能力以训练前沿AI模型的文章在Hacker News引发关注。文章围绕欧洲现有算力基础设施能否支撑前沿模型训练展开,未提及具体模型、参数规模或 benchmark 数据。

开源生态现象/趋势部署/工程
03:02
Hacker News 热门(buzzing.cc 中文翻译)
66
我的家庭实验室 AI 开发平台

一名开发者于6月15日在Hacker News上分享了其家庭实验室AI开发平台,该帖子获得106个HN Points。

教程/实践部署/工程
02:33
xAI:News(网页)
47
xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
00:13
The Decoder:AI News(RSS)
精选72
Nvidia 加入 AI 债务热潮,发行 200 亿美元债券

Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。

行业动态部署/工程

推荐理由:Nvidia发债200亿美元加入AI债务潮,这是自2021年来的首次,显示AI基建的烧钱速度在加速,属于行业层面的重要信号,但对开发者日常无直接影响。
6月15日
21:55
Cloudflare Blog
50
Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程
21:30
公众号:百度智能云(文心)
49
百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。

智能体产品更新部署/工程
21:30
公众号:火山引擎
38
安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践

安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。

行业动态部署/工程
18:43
IT之家(RSS)
36
国内首个24小时台风快速增强集成预报模型落地应用

中国科学院深圳先进院自主研发的机器学习台风快速增强集成预报模型,在国家气象中心、香港天文台完成部署,成为国内首个实现落地应用的24小时台风快速增强预报模型,并配套上线12小时预报产品。该模型融合决策树、随机森林、AdaBoost、LightGBM四种算法,首次构建“海陆比”“对称比”指标。针对2016-2020年北大西洋热带气旋快速增强过程模拟回报,该模型比美国国家飓风中心最好预报系统命中率更高、误报率更低。

行业动态部署/工程
17:43
IT之家(RSS)
42
鸿海与施耐德电气围绕次世代 AI 数据中心展开战略合作,合作生产年内启动

鸿海科技集团与施耐德电气宣布战略合作,共同打造并推动次世代 AI 数据中心的发展。双方将结合鸿海的制造优势和施耐德电气的能源智慧,打造集成式、可实时部署的解决方案,协助客户在全球更快速、高效地构建 AI 基础设施。合作生产将于今年稍晚启动。双方还将共同开发次世代 AI 数据中心参考架构,探索闭环式能源优化、模块化电力与冷却系统、标准化设计框架等创新方案,旨在打造可重复、高性能的 AI 工厂蓝图。

行业动态部署/工程
17:41
MarkTechPost(RSS)
精选73
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由:Flash-KMeans 把 k-means 从离线预处理拉进了在线循环,200 倍加速不是纸面数字,而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。
15:42
IT之家(RSS)
21
小米单联瑜:空调2026年聚焦超高APF、纯热泵制热与数字抽真空

小米大家电部总经理单联瑜发文,总结小米空调2026年三件重要工作:超高APF(符合下一代能效标准)、强劲风系列纯热泵制热(比PTC更节能不干燥)、数字抽真空(用互联网+AI透明化服务)。他判断从27年起更多品牌采用纯热泵技术,从26年下半年起更多品牌加强抽真空监管并采用数字抽真空。今年5月,小米因两起空调安装抽真空造假事件,对涉事工程师永久拉黑清退,每单罚款1000元。

行业动态部署/工程
15:42
IT之家(RSS)
14
特斯拉:中国智造的 Model Y 成为 2026 年 5 月日本进口车品牌单一车型新车注册量第一

中国智造的 Model Y 在 2026 年 5 月成为日本进口车品牌单一车型新车注册量第一。特斯拉上海超级工厂生产的 Model 3 和 Model Y 零部件本土化率已超过 95%,与国内 400 余家供应链伙伴合作,其中超 60 家已纳入全球采购体系。特斯拉 2024 年研发投入 331 亿人民币,2025 年第一季度研发投入 103 亿人民币。

其他部署/工程
08:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选59
OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。

OpenAI行业动态部署/工程

推荐理由:OpenAI 砸 1.5 亿建合作伙伴网络,企业落地从模型能力转向生态整合,但这事离普通用户比较远,更像是给咨询公司派活。
08:00
HuggingFace Daily Papers(社区热门论文)
53
多智能体LLM系统中并发异常的验证检测与预防

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。

智能体论文/研究部署/工程
6月14日
20:38
IT之家(RSS)
47
继三星之后,SK 海力士拟向客户提供 HBM4E 样品,最早本月发货

据韩媒报道,SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E,首批样品最快本月出货,最迟不晚于下个月。HBM4E 计划明年正式量产,预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上,SK 展出了 HBM4E 晶圆,黄仁勋参观并留言“请多生产一些”。

行业动态部署/工程
18:38
IT之家(RSS)
49
富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片

富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。

推理行业动态部署/工程
08:37
IT之家(RSS)
54
三星打造50兆瓦海上浮动AI数据中心,获国际海事初步审批

三星造船事业部设计了一座功率达50兆瓦的海上浮动AI数据中心,从零开始建造专用船舶。该设施停靠近海时可通过海底电缆接入电网,驶往远海后借助液化天然气燃料电池自主发电,并直接抽取海水为服务器降温。三星已携手超微在真实河道与海洋环境中对高性能硬件进行极限测试。设计方案已获国际海事监管机构初步审批,去年秋季与OpenAI签署合作意向书。希腊航运企业Capital Clean Energy Carriers提供资金支持并协助选址。

OpenAI产品更新部署/工程
08:32
Simon Willison 博客
68
将 SQLite 结果列映射回源表.列

Simon Willison 为 Datasette 探索了三种方案,使其能对任意 SQL 查询结果补充源表列信息。他使用 Claude Code(Opus 4.8)发现:利用 apsw 库、通过 ctypes 调用 SQLite 内部未暴露的 sqlite3_column_table_name() C 函数,以及分析 EXPLAIN 输出。这些方法可程序化识别 select users.name, orders.total from users join orders on orders.user_id = users.id 等查询中每个结果对应的源表.列,并支持 JOIN 和 CTE 等复杂语法。

开源生态教程/实践部署/工程
08:32
Simon Willison 博客
64
Pyodide 314.0 支持将 WASM wheel 发布到 PyPI

Pyodide 314.0 发布后,开发者可将为 Pyodide 编译的 Python 包以 wheel 格式发布到 PyPI 并在运行时通过 micropip 安装。此前逾 300 个包需由 Pyodide 维护者统一构建托管。作者用 Codex + GPT-5.5 xhigh 将 Luau 的 WebAssembly 版本打包为 luau-wasm 并上传至 PyPI,wheel 仅 276KB,展示了完整流程。截至发布,已有 28 个 PyPI 包使用新 pyemscripten_202*_wasm32 标签。

产品更新开源生态部署/工程
02:24
Hacker News 热门(buzzing.cc 中文翻译)
65
RTX 5080 和 RTX 3090 配置:在 Qwen 3.6 27B Q8 上达到 80 Tok/s

使用 RTX 5080 和 RTX 3090 组合硬件,在 Qwen 3.6 27B Q8 模型推理中获得 80 Tok/s 的速度。

教程/实践端侧部署/工程
01:32
MarkTechPost(RSS)
48
如何构建QwenPaw智能体工作区:自定义技能、模型提供商、控制台访问与流式API测试

该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。

智能体教程/实践部署/工程
6月13日
22:21
Hacker News 热门(buzzing.cc 中文翻译)
43
Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。

Google论文/研究部署/工程
18:36
IT之家(RSS)
42
京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查

6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。

多模态行业动态部署/工程
18:03
The Decoder:AI News(RSS)
55
Meta 从"tokenmaxxing"转向 token 管理,内部 AI 成本据报达数十亿美元

Meta 在一份面向 6000 名员工的内部备忘录中透露,仅内部使用 AI 的成本就将达到数十亿美元。从 2027 年起,预算、配额以及名为“AI Gateway”的中央仪表板将管控 token 消耗。CTO Andrew Bosworth 直言:“并非所有行动都是进步,单凭 token 使用量不能衡量任何影响。”

Meta行业动态部署/工程
17:36
IT之家(RSS)
43
SpaceX历史性IPO后,马斯克称将深化与英伟达合作

SpaceX完成IPO,首日收涨超19%,市值达2.11万亿美元,马斯克成全球首位万亿富豪。英伟达发文祝贺,马斯克回应称将把合作“提升到新水平”。SpaceX已公布首款AI计算卫星AI1,峰值计算载荷最高150千瓦,配备液冷散热器与微流星体防护。IPO前夕,SpaceX与谷歌签署云服务协议,获得相当于11万块英伟达GPU的计算能力,月费9.2亿美元;近期还与Anthropic签署协议,提供22万块H100、H200、GB200等GPU使用权限,月费12.5亿美元。

行业动态部署/工程
15:36
IT之家(RSS)
69
微软开源 iOS 流式 Markdown 渲染库 SwiftStreamingMarkdown

微软本周三在 GitHub 开源 SwiftStreamingMarkdown,面向 iOS 平台,专为大语言模型聊天场景的逐字流式渲染优化。采用 MIT 许可证,通过 Swift Package Manager 集成约增加 3 MB 体积,可避免主线程过载。支持 CommonMark 与 GFM 核心子集(标题、段落、粗斜体、删除线、行内代码、链接、代码块、引用块、列表、表格、LaTeX 公式及 LLM 溯源标记),图片仅显示替代文本,未实现语法降级为可读文本。内置过渡动画、数学公式渲染、可配置主题、上下文菜单及交互追踪钩子。在 iPhone XS 高负载测试中,主线程控制优于同类库。

Microsoft开源/仓库部署/工程
12:36
IT之家(RSS)
34
摩尔线程 MTT S5000 完成 MiniMax M3 Day-0 适配

6 月 12 日,MiniMax 新一代原生多模态模型 M3 开源,同日摩尔线程完成 MTT S5000 智算卡的 Day-0 适配。该卡凭借硬件级原生 FP8 加速,单卡稠密算力达 1000 TFLOPS,配备 80GB 显存与 1.6TB/s 带宽,支撑百万 token 级长序列。通过 MUSA C++ 与 Triton-MUSA 抽象层实现新算子快速迁移,同步拉起 vLLM 与 SGLang 推理框架,覆盖 FP8 至 FP64 全精度。开发者可基于 MUSA 软件栈与双框架部署。

行业动态部署/工程
‹ 上一页
1…678910…35
下一页 ›