AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1389 条
全部一手资讯X论文
标签「部署/工程」清除
5月8日周五
14:16IT之家(RSS)48新华三发布面向万亿级大模型的全系列超节点 UniPoD S80000
13:16IT之家(RSS)58中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型
11:16IT之家(RSS)48电动车室内充电风险智能识别系统上线:零硬件改造,依托现有电表
09:16IT之家(RSS)48AMD 时隔四年重推 PCIe AIC 形态 Instinct 显卡:MI350P 规模砍半
09:16IT之家(RSS)53消息称软银与英伟达、富士康磋商,拟开发"日本制造"AI 服务器
09:16IT之家(RSS)61向 AI 优先运营模式转型,Cloudflare 裁员超 1100 人
08:16IT之家(RSS)60OpenAI 自研芯片项目遇阻:博通要求微软采购首批四成产能才愿出资
08:00HuggingFace Daily Papers(社区热门论文)69高效内存循环Transformer:在循环语言模型中解耦计算与内存
08:00HuggingFace Daily Papers(社区热门论文)55FlashEvolve:通过异步阶段编排加速智能体自我进化
08:00HuggingFace Daily Papers(社区热门论文)63大语言模型自我改进:用于测试时扩展的智能体发现框架
08:00HuggingFace Daily Papers(社区热门论文)65MISA:面向长上下文大模型推理的索引器稀疏注意力混合方法
07:30GitHub Blog72精选提升 GitHub Agentic Workflows 的 Token 使用效率
05:16Cloudflare Blog42Building for the future
04:30Simon Willison 博客78精选GitHub Repo Stats
04:30Simon Willison 博客62大文字工具
5月7日周四
22:38The Decoder:AI News(RSS)50Anthropic 如何以 80 倍的增长突破自身基础设施,直入马斯克的数据中心
18:22HuggingFace Daily Papers(社区热门论文)61何时思考,何时输出:学习大语言模型推理的披露策略
14:16IT之家(RSS)51联发科苗栗铜锣研发数据中心一期启用,基于英伟达 DGX B200
08:30Apple Machine Learning Research(RSS)64精选SpecMD: 关于推测性专家预取的综合研究
08:16IT之家(RSS)71马斯克:xAI 作为独立公司将被解散,更名为 SpaceXAI
08:00HuggingFace Daily Papers(社区热门论文)49专家联盟:面向大语言模型的高通信效率分布式推理架构
08:00HuggingFace Daily Papers(社区热门论文)63PrefixGuard:从LLM智能体轨迹到在线故障预警监控器
08:00HuggingFace Daily Papers(社区热门论文)56门控QKAN-FWP:一种可扩展的量子启发的序列学习框架
08:00HuggingFace Daily Papers(社区热门论文)65均值模式尖叫:用于千层扩散变换器的均值-方差分割残差方法
08:00HuggingFace Daily Papers(社区热门论文)49浅层预填充与深层解码:通过层非对称KV可见性实现高效长上下文推理
08:00HuggingFace Daily Papers(社区热门论文)58UniPrefill:通过分块动态稀疏化实现通用长上下文预填充加速
08:00HuggingFace Daily Papers(社区热门论文)67EMO:为涌现模块化预训练混合专家模型
07:16IT之家(RSS)63SpaceX 向 Anthropic 开放大型 AI 超级计算机 Colossus 1 使用权,包含超 22 万颗英伟达 GPU
06:04Hacker News 热门(buzzing.cc 中文翻译)76精选Show HN: Tilde.run - 具备事务性和版本控制文件系统的代理沙箱
03:36The Decoder:AI News(RSS)58OpenAI 联合 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 构建网络协议以解决 AI 超级计算机瓶颈
03:22Hugging Face:Blog(RSS)65精选vLLM V0 到 V1:在线强化学习中优先确保后端行为正确性
03:06The Decoder:AI News(RSS)71Anthropic 启用 SpaceX 的 Colossus-1 数据中心,配备 220,000 块 GPU 以驱动 Claude
01:34Hacker News 热门(buzzing.cc 中文翻译)71提高克劳德(Claude)的使用限额,并与SpaceX达成计算合作协议
01:10xAI:News(网页)68SpaceXAI与Anthropic达成新计算合作伙伴关系
00:35Cursor Blog53通过自动安装系统引导Composer开发
00:33Claude:Blog(网页)69精选Claude托管智能体新增功能:梦想、成果与多智能体编排
00:31Anthropic:Newsroom(网页)81精选Claude使用限制提升及与SpaceX达成算力合作
5月6日周三
20:16IT之家(RSS)58英伟达、康宁宣布在美国建三座新厂,专注研发 CPO 技术
19:37OpenAI:官网动态(RSS · 排除企业/客户案例)69精选通过 MRC(多路径可靠连接)解锁大规模 AI 训练网络
19:16IT之家(RSS)38江苏盐城积极引入无人机空中执法:预判当地易堵节点、全天候自动识别违停占道
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
14:16
IT之家(RSS)
48
新华三发布面向万亿级大模型的全系列超节点 UniPoD S80000

在NAVIGATE 2026峰会上,新华三发布了面向万亿级大模型的全系列超节点UniPoD S80000,覆盖32卡至1024卡,最高可扩展至16384卡,提供一站式智算解决方案。同时,围绕“AI in ALL”战略,推出了一系列全栈新品,包括:高密全液冷整机S90000,实现1U 6CPU业界最高密度;单芯片102.4T智算交换机,大幅提升带宽与利用率;AI原生存储X20000系列,单节点带宽达200GB/s;新一代AI智能云,支持超大规模纳管;业界最高性能AI防火墙M9000-X;以及凝聚了23年运维经验的灵犀运维智能体。

产品更新部署/工程
13:16
IT之家(RSS)
58
中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型

中国移动发布移动模型服务平台MoMA,接入超过300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎,通过智能路由与资源调度,实现单位Token成本降低约30%,资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略,并能实现故障秒级切换。平台还提供“机密模型”服务,通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。

产品更新推理部署/工程
11:16
IT之家(RSS)
48
电动车室内充电风险智能识别系统上线:零硬件改造,依托现有电表

在市场监管总局指导下,云南电网成功研发“电动车室内充电风险智能识别系统”。该系统无需硬件改造,依托现有智能电表的15分钟负荷曲线数据,通过人工智能算法识别电动自行车充电的独特“电化学指纹”,实现对高层建筑内违规入户充电行为的精准识别与预警。系统构建了大数据驱动的“技术+管理”协同治理模式,可将预警信息推送至电网、物业、社区等多方,形成闭环管理。目前已在50余个居民区试运行,识别准确率达88%。

产品更新部署/工程
09:16
IT之家(RSS)
48
AMD 时隔四年重推 PCIe AIC 形态 Instinct 显卡:MI350P 规模砍半

AMD近日发布了四年来首款采用PCIe AIC形态的Instinct MI350P加速卡,主要面向现有数据中心基础设施升级。该卡采用新封装,规格相较MI350X大幅缩减:XCD芯片数量减半至4个,HBM3E内存降至4堆栈144GB,性能下降约50%,晶体管数量减少约60%。产品采用双槽全高全长设计,最大功耗600W,支持无风扇被动散热。

产品更新部署/工程
09:16
IT之家(RSS)
53
消息称软银与英伟达、富士康磋商,拟开发"日本制造"AI 服务器

软银正与英伟达和富士康磋商,评估在日本本土制造AI服务器的可行性。该计划首先通过组装外购组件建立生产系统,目标是在2029年前逐步掌握完整的AI服务器制造流程。软银将打造配备高级GPU的高性能服务器,此蓝图已纳入公司中期经营计划,预计最快将于下周正式公布。软银CEO孙正义已向OpenAI投资超过300亿美元,显示出其在大型语言模型竞争中的全力投入。

行业动态部署/工程
09:16
IT之家(RSS)
61
向 AI 优先运营模式转型,Cloudflare 裁员超 1100 人

美国科技企业Cloudflare宣布裁员20%,涉及超过1100名员工,以推动公司向AI优先运营模式转型。公司CEO表示,此举并非仅为降本增效,而是为适应智能体时代重构公司架构。数据显示,Cloudflare的AI使用量在三个月内激增超过600%,公司内部日常运营已广泛依赖AI智能体对话。截至去年底,公司全职员工数为5156人,预计此次裁员将产生1.4亿至1.5亿美元的相关费用。

行业动态部署/工程
08:16
IT之家(RSS)
60
OpenAI 自研芯片项目遇阻:博通要求微软采购首批四成产能才愿出资

OpenAI与博通联合研发AI芯片项目“Nexus”陷入僵局。博通要求微软承诺采购首批芯片约40%的产能,才愿为首期建设出资。项目首期需1.3吉瓦算力,成本约180亿美元;总规模达10吉瓦,旨在2030年前上线以减少对英伟达依赖。OpenAI视自研芯片为降低运营成本关键,但微软尚未同意采购。若微软采购未达标,OpenAI需自行寻找其他买家。此前OpenAI与英伟达的类似千亿美元合作也已无果。

MicrosoftOpenAI数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
69
高效内存循环Transformer:在循环语言模型中解耦计算与内存

循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
FlashEvolve:通过异步阶段编排加速智能体自我进化

FlashEvolve 是一个高效框架,旨在解决基于大语言模型的智能体进化过程中因阶段同步和执行负载不均导致的时间瓶颈。它采用异步工作队列取代同步执行,允许不同进化阶段与步骤重叠运行。为处理异步引入的数据陈旧问题,框架追踪版本并对陈旧工件采取更新、丢弃或修补策略,并利用推测性阶段完成与自适应工作流控制进一步提升吞吐量与令牌效率。在 GEPA 基准测试中,其在本地 vLLM 上实现了 3.5 倍的提案吞吐量提升,在 API 服务上相比同步方法提升达 4.9 倍。该设计同样适用于 ACE 等任务。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
大语言模型自我改进:用于测试时扩展的智能体发现框架

研究团队提出环境驱动框架AutoTTS,将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成,通过Beta参数化使搜索可行,并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中,自动发现的策略在准确率-成本权衡上优于人工基线,并能泛化至未见过的任务和模型规模,整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
65
MISA:面向长上下文大模型推理的索引器稀疏注意力混合方法

MISA是DeepSeek稀疏注意力中索引器模块的即插即用替代方案。它将索引器的多个查询头视为专家混合池,通过一个轻量级路由器,仅根据查询激活少数几个头部进行昂贵的令牌级评分,从而大幅降低计算成本。无需额外训练,仅激活8个头时,MISA在DeepSeek-V3.2和GLM-5上就能达到与原始密集索引器相当的LongBench性能,同时分别减少八分之七和四分之三的头部使用量。该方法在128K上下文内能保持完整的“大海捞针”热力图,每层可恢复超过92%的原始索引器所选令牌,其内核在单H200 GPU上实现了约3.82倍的加速。

推理论文/研究部署/工程
07:30
GitHub Blog
精选72
提升 GitHub Agentic Workflows 的 Token 使用效率

GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。

智能体GitHubMCP/工具教程/实践

推荐理由:GitHub 把自己生产环境的 agentic workflow 扒了一遍,从 token 消耗里找浪费,再让 agent 自动修。不是 paper,是真踩过的坑,做 Copilot 集成的团队可以抄作业。
05:16
Cloudflare Blog
42
Building for the future

Cloudflare向全球团队发送内部邮件,宣布公司迎来一个重大时刻。公司秉持透明度这一核心价值观,决定直接向外界同步这一关键信息。此举标志着Cloudflare在战略发展上迈出了重要一步,旨在为未来构建更坚实的基础。

行业动态部署/工程
04:30
Simon Willison 博客
精选78
GitHub Repo Stats

作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。

GitHub产品更新部署/工程

推荐理由:Simon 这个 GitHub Repo Stats 工具虽小,但直接解决了移动端看不了 commit 数这个真实痛点,做开源评估的开发者可以立刻用起来。
04:30
Simon Willison 博客
62
大文字工具

Simon Willison 为配合其“氛围编码”macOS演示工具,快速开发了一个名为“Big Words”的网页工具。该工具通过URL参数(如文本、渐变、大小)动态生成可自定义的幻灯片页面,解决了演示工具仅能嵌入URL内容的需求。用户可双击页面访问设置表单,自由调整文本内容、颜色、背景(支持纯色或渐变)、字体、字重、大小等多种视觉选项。所有设置均可生成一个特定的URL以便保存和分享,从而快速创建用于演示的文本幻灯片。

开源/仓库部署/工程
5月7日
22:38
The Decoder:AI News(RSS)
50
Anthropic 如何以 80 倍的增长突破自身基础设施,直入马斯克的数据中心

Anthropic 将接入埃隆·马斯克的 Colossus 1 超级计算机。这一出人意料的合作源于 Anthropic 自身面临的计算资源紧张、即将到来的 IPO 压力,以及马斯克立场的显著转变。公司近期的 80 倍规模增长已远超其现有基础设施的承载能力。

AnthropicxAI行业动态部署/工程
18:22
HuggingFace Daily Papers(社区热门论文)
61
何时思考,何时输出:学习大语言模型推理的披露策略

针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题,本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策,允许模型在同一上下文中交错进行私有推理和部分内容披露,仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调,并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明,该方法在AIME25和GPQA-Diamond基准测试中,有效改善了准确性、内容产出与延迟之间的帕累托权衡。

arXiv推理论文/研究部署/工程
14:16
IT之家(RSS)
51
联发科苗栗铜锣研发数据中心一期启用,基于英伟达 DGX B200

联发科技苗栗铜锣研发数据中心一期正式启用,这是台湾首座基于英伟达 DGX B200 平台驱动的 AI 高算力计算平台,并首次大规模导入浸没式冷却技术,PUE 低至 1.1。数据中心配套晶圆厂等级供电系统,上方设有 235kW 光伏电池板,可满足 67 个家庭用电需求,冷却系统采用再生水。项目始于2023年,未来将按需逐步扩展二、三期。

行业动态部署/工程
08:30
Apple Machine Learning Research(RSS)
精选64
SpecMD: 关于推测性专家预取的综合研究

研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由:MoE推理的缓存策略一直靠经验摸,Apple给的标准化框架能系统比较不同策略,做分布式推理的可以省些心力。
08:16
IT之家(RSS)
71
马斯克:xAI 作为独立公司将被解散,更名为 SpaceXAI

马斯克宣布,其人工智能公司xAI将结束独立运营,完全并入SpaceX并更名为SpaceXAI,成为后者的AI产品部门。此举源于今年2月SpaceX对xAI的收购,旨在整合人工智能、航天火箭及天基互联网等技术,最终目标是在太空部署数据中心。同时,SpaceX已与AI公司Anthropic达成协议,后者将可使用SpaceX旗下拥有超过22万颗英伟达GPU的Colossus 1数据中心全部算力,双方还计划合作开发规模达数吉瓦的轨道AI算力。

Anthropic行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
专家联盟:面向大语言模型的高通信效率分布式推理架构

针对混合专家模型分布式推理中专家间通信开销巨大的问题,本研究提出“专家联盟”架构。该架构将Transformer层的MoE模块重组为多个MoE集群,每个集群仅负责一个键值头并在内部应用专家并行。集群间通过对注意力后残差求和来同步信息,驱动下一MoE块的路由。在单节点设置中,该方案完全消除了GPU间的全对全通信;在多节点设置中,则将此类通信限制在节点内部,大幅降低开销。在LongBench上的实现表明,该架构显著提升了单节点与多节点环境下的推理吞吐量与延迟,端到端前向传播延迟最高降低5.2倍,同时保持了与同规模MoE模型相当的生成质量。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
PrefixGuard:从LLM智能体轨迹到在线故障预警监控器

PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤,从原始轨迹样本中推导出确定性的类型化步骤适配器,并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中,其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557,平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限,并指出强排名不等同于部署实用性:例如在WebArena上难以实现低误报预警,而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。

智能体arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
56
门控QKAN-FWP:一种可扩展的量子启发的序列学习框架

本研究提出门控QKAN-FWP,一种将快速权重编程器与量子启发的Kolmogorov-Arnold网络相结合的新型框架。它采用单量子位数据重上传电路作为可学习激活函数,并引入了标量门控的快速权重更新规则以稳定参数。在时间序列预测任务中,一个仅含12.5k参数的模型,在太阳活动周期长期预测上,其性能超越了一系列参数规模大得多的经典循环模型。该模型成功在IonQ和IBM量子处理器上部署,在1024次测量下预测精度与无噪声模拟器差距在0.1%以内,证明了其在含噪声量子设备上的兼容性与可扩展性。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
65
均值模式尖叫:用于千层扩散变换器的均值-方差分割残差方法

研究发现,当扩散变换器扩展到数百层时,会因结构脆弱性进入“均值主导崩溃”状态,即表征同质化且中心化变异被抑制,此现象被定义为均值模式尖叫。其触发机制源于残差写入器的均值相干反向冲击。为解决此问题,研究提出了均值-方差分割残差方法,它将独立增益的中心化残差更新与泄漏主干均值替换相结合。在400层单流扩散变换器上,该方法有效防止了基线模型的崩溃性发散,性能显著优于LayerScale等各向同性门控方法。最终,研究成功训练了一个1000层的扩散变换器,验证了该架构在极深尺度下仍能保持稳定训练。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
浅层预填充与深层解码:通过层非对称KV可见性实现高效长上下文推理

研究团队提出SPEED方法,一种阶段非对称的KV可见性策略,以降低仅解码器语言模型的长上下文推理成本。该方法在预填充阶段,仅让非锚点的提示词KV状态在模型下层生成和缓存;而在解码生成阶段,则对所有令牌进行完整的深度计算。在Llama-3.1-8B的指令调优实验中,当仅使用75%的层处理提示词时,SPEED在基准测试中取得了与完整深度基线近乎持平的平均得分(51.2 vs. 51.4)。同时,它显著提升了推理效率:首令牌时间减少33%,每个输出令牌时间减少22%,并在128K上下文长度下将活跃KV内存降低25%。分析表明,该方法保留了完整深度模型中关键的提示词选择和表征稳定功能。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
58
UniPrefill:通过分块动态稀疏化实现通用长上下文预填充加速

针对长上下文处理效率问题,研究团队提出了通用预填充加速框架UniPrefill。该框架直接在令牌级别加速模型计算,适用于线性/全注意力混合、滑动窗口/全注意力混合等几乎所有架构。UniPrefill被实现为连续批处理算子,并扩展了vLLM的调度策略,原生支持预填充-解码协同处理与张量并行,从而能无缝集成到vLLM等现代推理引擎中。实验表明,该框架可将首令牌生成时间最高加速2.1倍,且加速效果随并发请求数量增加而愈发显著。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
67
EMO:为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型,旨在实现模块化部署,允许独立使用和组合专家子集,而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家,仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当,但关键优势在于支持选择性使用专家:仅保留25%的专家仅导致1%的绝对性能下降,保留12.5%时下降3%,而标准MoE在相同设置下会失效。此外,EMO中的专家子集在语义层面(如数学、代码等领域)实现专业化,不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv推理论文/研究部署/工程
07:16
IT之家(RSS)
63
SpaceX 向 Anthropic 开放大型 AI 超级计算机 Colossus 1 使用权,包含超 22 万颗英伟达 GPU

SpaceX与Anthropic达成协议,后者将获得其大型AI超算Colossus 1的全部算力使用权。该超算配备超过22万颗英伟达H100、H200及下一代GB200 GPU。Anthropic将利用这些算力显著提升Claude付费订阅用户的服务容量,包括将Claude Code的五小时速率限制提高一倍、取消高峰时段限速,并大幅提高Claude Opus模型的API速率限制。此外,双方还计划合作开发吉瓦规模的轨道AI算力设施。

Anthropic推理行业动态部署/工程
06:04
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Show HN: Tilde.run - 具备事务性和版本控制文件系统的代理沙箱

Tilde.run 发布了一款代理沙箱,其核心特点是具备事务性和版本控制功能的文件系统。该系统支持事务操作,确保文件更改的原子性,同时提供完整的版本历史记录。该工具旨在为开发者提供一个安全、可回溯的代码执行环境,适用于需要高可靠性的自动化代理或脚本测试场景。目前该项目已在 Hacker News 上获得 102 点关注度。

智能体产品更新部署/工程

推荐理由:Agent 沙箱里的文件操作终于有了事务和版本回滚,对自动化链路调试是个实在的改进,搞 LLM 工具调用的可以试试。
03:36
The Decoder:AI News(RSS)
58
OpenAI 联合 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 构建网络协议以解决 AI 超级计算机瓶颈

OpenAI 与 AMD、Broadcom、英特尔、微软和英伟达共同开发了开源网络协议 MRC。该协议能在 GPU 间通过数百条路径同时传输数据,仅需两层交换机即可连接超过 10 万个 GPU,相比传统方案减少了交换机层级,从而降低了功耗与成本。MRC 协议目前已应用于 OpenAI 的 Stargate 超级计算机上运行。

OpenAI开源生态行业动态部署/工程
03:22
Hugging Face:Blog(RSS)
精选65
vLLM V0 到 V1:在线强化学习中优先确保后端行为正确性

为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后,在线强化学习训练结果与 V0 参考运行一致,团队优先修复后端行为而非调整 RL 目标。关键修复包括:将日志概率模式设为 processed_logprobs 以匹配采样器分布;禁用 V1 特有的前缀缓存和异步调度等运行时默认值;调整权重更新路径以匹配 V0 的缓存保留行为;并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差,使 V1 在 KL 散度、熵等指标上与 V0 达成一致。

Hugging Face推理教程/实践部署/工程

推荐理由:vLLM V1迁移时踩的四个坑全在这里,从logprob语义到fp32投影头,修完才调RL目标,做在线RL的团队可以直接抄这份配置清单。
03:06
The Decoder:AI News(RSS)
71
Anthropic 启用 SpaceX 的 Colossus-1 数据中心,配备 220,000 块 GPU 以驱动 Claude

Anthropic 将全面接管 SpaceX 的 Colossus-1 数据中心全部算力,该设施提供超过 300 兆瓦电力并配备超过 22 万块 NVIDIA GPU,预计在一个月内上线。同时,公司已将 Claude Code 的速率限制提升一倍,并大幅提高了 Opus 模型的 API 调用上限。

Anthropic行业动态部署/工程
01:34
Hacker News 热门(buzzing.cc 中文翻译)
71
提高克劳德(Claude)的使用限额,并与SpaceX达成计算合作协议

Anthropic公司宣布提高其AI助手Claude的使用限额,允许用户更频繁地访问服务,同时与SpaceX达成计算合作协议,将利用SpaceX的计算资源支持Claude的性能扩展。这一举措旨在增强用户体验和模型能力,消息在技术社区引发关注,在Hacker News上获得125点投票。

Anthropic产品更新部署/工程
01:10
xAI:News(网页)
68
SpaceXAI与Anthropic达成新计算合作伙伴关系

SpaceXAI与Anthropic签署协议,提供对Colossus 1超级计算机的访问权限。Colossus 1是全球最大、部署最快的AI超算之一,拥有超过22万个NVIDIA GPU,包括H100、H200和下一代GB200加速器,专为AI训练、微调、推理及高性能计算工作负载设计。Anthropic计划利用此计算能力直接提升Claude Pro和Claude Max订阅者的服务容量。此外,Anthropic表示有兴趣合作开发多个千兆瓦的轨道AI计算容量,以应对地球资源限制。SpaceX凭借其高发射频率、轨道经济性和星座运营经验,可能使轨道计算在近期成为工程计划,而非仅停留于研究概念。

AnthropicxAI行业动态部署/工程
00:35
Cursor Blog
53
通过自动安装系统引导Composer开发

团队开发了Composer自动安装系统,利用早期模型(如Composer 1.5)为强化学习训练自动配置可运行环境。该系统分两阶段工作:先由智能体设定成功环境的目标命令与描述,再由另一智能体执行具体配置,包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中,该系统成功处理了稀疏文档和复杂依赖。采用此方法后,Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%,为后续训练提供了更优基础。

智能体教程/实践编码部署/工程
00:33
Claude:Blog(网页)
精选69
Claude托管智能体新增功能:梦想、成果与多智能体编排

Anthropic为其Claude托管智能体平台推出三项核心更新。“梦想”功能通过回顾会话历史提取模式,使智能体能够自我改进。“成果”功能允许开发者设定成功标准,智能体据此进行自我评估与修正,内部测试显示其显著提升了任务成功率和输出质量。“多智能体编排”功能支持主智能体将复杂任务分解,并分配给配备专用工具的子智能体并行处理。这些更新旨在以最小人工干预,增强智能体处理复杂任务的能力。

智能体Anthropic产品更新部署/工程

推荐理由:Anthropic给托管Agent加了dreaming、outcomes和multiagent,这是Agent从完成任务到自我改进和协作的质变。dreaming让Agent能跨session复盘,做Agent产品的团队现在多了一个必须研究的模块。
00:31
Anthropic:Newsroom(网页)
精选81
Claude使用限制提升及与SpaceX达成算力合作

Anthropic与SpaceX达成合作,获得其Colossus 1数据中心超300兆瓦(含逾22万块NVIDIA GPU)的算力。此举使Claude Code的Pro、Max等多档计划的五小时速率限制立即翻倍,并取消了高峰时段限流;Claude Opus的API速率也大幅提升。公司还公布了与亚马逊、谷歌、微软等科技巨头的一系列大规模算力协议,总投资额巨大。为满足企业客户的合规需求,算力扩张计划也将覆盖亚洲和欧洲地区。

Anthropic产品更新部署/工程

推荐理由:跟 SpaceX 搞轨道算力是长期故事,但今天起 Claude Code 速率翻倍、API 限制松绑,对重度用户是立刻能摸到的甜头,即日生效不用等。
5月6日
20:16
IT之家(RSS)
58
英伟达、康宁宣布在美国建三座新厂,专注研发 CPO 技术

英伟达与康宁宣布在美国北卡罗来纳州和得克萨斯州合作新建三座先进制造工厂,专注于研发共封装光学技术。新工厂将创造至少3000个就业岗位,并使康宁在美国的光通信制造产能提升10倍、光纤产能提升50%以上。康宁向英伟达发行了总价5亿美元的认股权证。该技术旨在用玻璃光纤替代传统铜缆,以提升人工智能系统的数据传输速度并降低能耗。消息公布后,康宁股价暴涨14%,英伟达股价上涨近3%。

行业动态部署/工程
19:37
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选69
通过 MRC(多路径可靠连接)解锁大规模 AI 训练网络

OpenAI 发布了名为 MRC 的新型超级计算机网络协议,旨在提升大规模 AI 训练集群的韧性与性能。该协议通过开放计算项目公开,支持在数千个 GPU 间建立高效、可靠的多路径连接,能自动绕过故障链路,将网络有效带宽提升最高达 30%,同时显著降低训练作业因网络问题中断的概率。MRC 的设计目标是应对万卡级集群的复杂网络挑战,为下一代大模型训练提供基础设施支持。

OpenAI产品更新部署/工程

推荐理由:虽然只是个网络协议,但MRC在超大规模训练集群里解决的是真实痛点,OpenAI自己内部用了才放出来,做万卡级训练的团队确实该看看。
19:16
IT之家(RSS)
38
江苏盐城积极引入无人机空中执法:预判当地易堵节点、全天候自动识别违停占道

江苏盐城构建“空地一体”智慧警务体系,通过部署44套自动机场和75架便携式4G无人机,实现超150公里范围覆盖。该系统能“分钟级”处警,在节假日实时检测路况、预判易堵节点并辅助调整信号灯;在高速上通过搭载LED屏的无人机传递路况信息。同时,无人机可全天候自动识别违停占道、低速行驶等违法行为,精准抓拍号牌并自动固定证据、推送提示短信。

行业动态部署/工程
‹ 上一页
1…2021222324…35
下一页 ›