AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月20日周三
08:00HuggingFace Daily Papers(社区热门论文)51用生成式AI拓宽交通安全数据的可及性:一种面向空间自然语言查询的基于数据模式的框架
08:00HuggingFace Daily Papers(社区热门论文)53Q-ARVD: 面向自回归视频扩散模型的量化框架
07:03SemiAnalysis63AI市场:泡沫还是经济重塑?--产业链瓶颈与前沿议题全解析
06:55IT之家(RSS)57OpenAI 为应对算力紧缺推出"保证容量"服务:客户可锁定 1 至 3 年长期算力,年消费越高折扣越大
06:33Greg Brockman67OpenAI推出算力保障计划:以折扣换长期承诺
06:10Claude Code:GitHub Releases(RSS)64精选Claude Code v2.1.145版本更新
04:30MarkTechPost(RSS)63谷歌在I/O 2026发布Antigravity 2.0:全新Agent优先开发平台
04:14Sam Altman62OpenAI推长期算力保障,折扣激励提前锁定
04:14OpenAI67精选OpenAI推出长期算力保障服务
04:04HuggingFace Daily Papers(社区热门论文)68OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转
01:32SemiAnalysis56AMD MI355在GLM5架构上推理成本显著低于NVIDIA B200
01:30Chubby♨️43GPT-4o处理海量token,规模惊人
00:39Hacker News:AI 热帖70精选InsForge:面向编程智能体的一体化开源后端平台
00:02Berryxia.AI78精选NVIDIA开源首个4-bit超长视频生成基础设施
00:02凡人小北57AI提效后,组织协作面临新挑战
5月19日周二
23:59Chubby♨️56AI赋能制药研发:从噱头到落地的实质性突破
22:35DogeDesigner42马斯克称太空数据中心比想象中更可行
22:31ClaudeDevs60Claude托管代理新增两项安全功能
22:26向阳乔木56坚果云三大实用场景,性价比高
20:57Anthropic:Newsroom(网页)62精选毕马威与Anthropic建立全球联盟,全面整合Claude AI模型
20:07歸藏(guizang.ai)59谷歌AI Studio移动端开放预注册,可替代Gemini进行AI开发
20:00Huawei Cloud46Ninja Van携手华为云重塑东南亚物流
18:33🚨 AI News | TestingCatalog72Anthropic 在伦敦"Code with Claude"活动中推出 Claude 托管代理自托管沙盒和MCP隧道新功能
17:58Rohan Paul52AI成网络攻击新向量,防御速度远落后于威胁
17:51IT之家(RSS)35极摩客 EVO-X3 迷你主机现身,提供原生 OCuLink 接口
17:09Claude:Blog(网页)77精选Claude智能体托管平台新增自托管沙箱与MCP隧道功能
16:57Alibaba Cloud56Apache RocketMQ 5.x 优化AI推理流量治理
16:24MarkTechPost(RSS)562026年最佳企业级自主AI平台榜单
16:03Claude72Claude推出自托管沙箱与MCP隧道功能
15:51IT之家(RSS)52腾讯云智能体平台 Hy3 preview 与 DeepSeek-V4-Pro 模型结束免费公测转商用
11:51HuggingFace Daily Papers(社区热门论文)66LongLive-2.0:用于长视频生成的NVFP4并行基础设施
11:51HuggingFace Daily Papers(社区热门论文)71精选训练后 MoE 可通过自蒸馏跳过一半专家
10:59歸藏(guizang.ai)57英伟达首款自研CPU Vera交付
10:51HuggingFace Daily Papers(社区热门论文)61SNLP: 通过结构化牛顿校正的层并行推理
10:45IT之家(RSS)73精选谷歌联手黑石组建 AI 云公司:50 亿美元起步,2027 年冲刺 500 兆瓦
09:45IT之家(RSS)38中国移动发布"超千兆宽带":可升级至 2000Mbps
09:45IT之家(RSS)65英伟达宣布向 Anthropic、OpenAI、SpaceXAI、甲骨文交付首批 Vera CPU
09:45IT之家(RSS)29我国高端医疗装备大突破,全球首台宽体光子计数 CT 在沈阳下线
08:45IT之家(RSS)62Anthropic 收购 Stainless,谷歌和 OpenAI 失去关键 AI SDK 工具
08:00Apple Machine Learning Research(RSS)46EpiCache:面向资源受限环境的长程对话场景式KV Cache管理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
08:00
HuggingFace Daily Papers(社区热门论文)
51
用生成式AI拓宽交通安全数据的可及性:一种面向空间自然语言查询的基于数据模式的框架

交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。

搜索论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
53
Q-ARVD: 面向自回归视频扩散模型的量化框架

自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。

arXiv视频论文/研究部署/工程
07:03
SemiAnalysis@SemiAnalysis_
63
AI市场:泡沫还是经济重塑?--产业链瓶颈与前沿议题全解析

本期探讨AI市场究竟是暂时泡沫,还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局,涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争,以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题,并结合宏观趋势、机器人技术和“总Token产量”等指标,对市场热度与潜在风险进行犀利点评。

推理现象/趋势部署/工程
06:55
IT之家(RSS)
57
OpenAI 为应对算力紧缺推出"保证容量"服务:客户可锁定 1 至 3 年长期算力,年消费越高折扣越大

OpenAI 宣布推出“保证容量”服务,允许企业客户签订一至三年合约,长期锁定其AI算力资源。该服务根据客户的年消费水平提供阶梯式折扣,确保其生产系统、客户应用及AI智能体的专用算力供应。此举旨在应对当前算力紧缺环境,使企业能够将算力扩展与长期业务增长和AI部署规划相匹配,客户可在OpenAI支持的云服务商及模型范围内灵活使用所承诺的额度。

OpenAI产品更新部署/工程
06:33
Greg Brockman@gdb
67
OpenAI面向企业客户推出了"Guaranteed Capacity"算力保障服务。该服务通过提供折扣代币价格和确定的未来容量供应,鼓励客户签订1至3年的长期使用协议。OpenAI预判,随着AI模型实用性持续提升,全球算力将在一段时间内持续紧张。此项新服务旨在帮助客户提前规划关键业务负载,确保其能够稳定、可靠地获取所需的计算资源,与OpenAI长期投资于基础设施和产能规划的战略相呼应。

OpenAI: Introducing OpenAI Guaranteed Capacity: a new offering that enables customers to guarantee long-term access to OpenAI co...

OpenAI产品更新部署/工程
06:10
Claude Code:GitHub Releases(RSS)
精选64
Claude Code v2.1.145版本更新

本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。

智能体Anthropic产品更新部署/工程

推荐理由:Claude Code 这次版本把可编程性和可观测性提升了一大截,尤其 `claude agents --json` 和 OTEL 改进,做自动化脚本和监控的可以直接更新了。
04:30
MarkTechPost(RSS)
63
谷歌在I/O 2026发布Antigravity 2.0:全新Agent优先开发平台

在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。

智能体GoogleMCP/工具产品更新
04:14
Sam Altman@sama
62
OpenAI推出Guaranteed Capacity服务,允许客户通过长期承诺锁定未来算力访问权限。此举旨在应对因AI模型能力持续提升而引发的全球性算力短缺问题。公司表示已通过基础设施和合作进行长期投资,并提供1-3年期承诺的折扣令牌,以鼓励客户提前规划,从而在算力受限的世界中为关键业务负载提供确定性。该服务旨在实现客户与OpenAI的双赢。

OpenAI: Introducing OpenAI Guaranteed Capacity: a new offering that enables customers to guarantee long-term access to OpenAI co...

OpenAI产品更新部署/工程
04:14
OpenAI@OpenAI
精选67
推出 OpenAI Guaranteed Capacity:一项新服务,让客户能够保障长期获取 OpenAI 算力。 我们已在基础设施、合作伙伴关系和容量规划方面进行了长期投资,以帮助客户可靠地扩展。 现在,Guaranteed Capacity 帮助客户在算力受限的环境中提前规划关键工作负载。 http://openai.com/guaranteed-capacity
OpenAI产品更新部署/工程

推荐理由:OpenAI 开始卖「算力期货」了,在 GPU 抢破头的当下,能锁定长期计算容量对做模型服务的公司是定心丸。
04:04
HuggingFace Daily Papers(社区热门论文)
68
OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转

针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。

推理论文/研究部署/工程
01:32
SemiAnalysis@SemiAnalysis_
56
AMD MI355在GLM5架构上推理成本显著低于NVIDIA B200

最新基准测试显示,在GLM5架构下,AMD MI355单节点FP8推理成本较NVIDIA B200降低了约40%。这一成果建立在SGLang v0.12针对CUDA与ROCm平台进行的非MTP、MTP及投机解码等多维度优化之上,团队认为性能速度是构建核心壁垒的关键。后续重点将是推动MI355X在生产级推理优化(如FP4)及分布式推理领域追赶CUDA的生态与性能,通过多卡协同提升单卡算力效率,从而进一步降低百万Token的推理成本。

推理行业动态部署/工程
01:30
Chubby♨️@kimmonismus
43
这太疯狂了。处理的token数量达到了惊人的规模!

Chubby♨️: Io starts now!

产品更新部署/工程
00:39
Hacker News:AI 热帖
精选70
InsForge:面向编程智能体的一体化开源后端平台

InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。

智能体MCP/工具开源/仓库部署/工程

推荐理由:这个项目把后端全家桶变成 MCP 工具,AI 代理可以直接管理数据库和部署,对于正在折腾 agent 的团队,比东拼西凑要快得多。
00:02
Berryxia.AI@berryxia
精选78
NVIDIA开源首个4-bit超长视频生成基础设施

NVIDIA研究员开源LongLive 2.0,这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速,在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署,旨在解决以往长视频生成速度慢或仅限短片的瓶颈。

Yukang Chen: 🚀 Excited to release LongLive 2.0! 🎬 An end-to-end infrastructure for long video generation, with FP4 and parallelism ...

开源/仓库部署/工程

推荐理由:NVIDIA研究员把4-bit长视频生成的全套设施端出来了,45.7FPS跑5B模型,做视频工程的可以直接拿来魔改,这是把长视频的成本打下来的关键一步。
00:02
凡人小北@frxiaobei
57
AI提效后,组织协作面临新挑战

核心问题在于,AI大幅提升个人效率后,团队协作反而可能变得更困难。因为组织层面的AI应用并非个人提效的简单放大,而是需要解决如何将AI深度嵌入现有协作结构、打破信息壁垒的问题。当前很少有团队关注后者。Lucius AI 正尝试解决这一痛点,其核心是构建组织的“上下文层”,旨在减少团队中超过30%时间被浪费在重复重建已有决策上下文上的现象,从而弥合个人高效与组织协同之间的鸿沟。

Lucius: We raised $3M to build Lucius AI - the Context Layer for Your Organization. Backed by Future Capital Discovery Fund, we'...

现象/趋势部署/工程
5月19日
23:59
Chubby♨️@kimmonismus
56
AI赋能制药研发:从噱头到落地的实质性突破

过去三年,主流药企的AI合作大多停留在公关层面,未实质改变研发流程。Edison Scientific为Incyte部署的Kosmos系统是例外:它作为生产级工具,单次运行可处理1500篇文献并生成42,000行代码,且结果具有79%的可复现性,结论均可溯源。这标志着AI首次从理论演示进入实际研发管线,真正压缩研发周期,有望加速新药问世进程。

产品更新部署/工程
22:35
DogeDesigner@cb_doge
42
马斯克称太空数据中心比想象中更可行

基于SpaceX现有的1万颗在轨卫星,以及未来使用Starship将实现每年发射超万颗更强通信卫星的计划,埃隆·马斯克认为太空通信能力将百倍提升。他指出,尽管通信能力大幅增长,但这将远不及未来AI卫星的吨位规模。因此,他用物理学的极限思维进行推演,得出结论:建设太空数据中心的可行性比普遍认知的要高得多。

xAI大佬观点现象/趋势部署/工程
22:31
ClaudeDevs@ClaudeDevs
60
我们为Claude Managed Agents增加了两项安全改进。 自托管沙箱将代理的执行环境保留在您的基础设施或托管沙箱提供商处。 MCP隧道让代理能够连接到您安全边界内的服务。
Anthropic产品更新部署/工程
22:26
向阳乔木@vista8
56
坚果云三大实用场景,性价比高

用户分享了坚果云在数字工作流中的三个实用场景:同步本机.agents目录至其他电脑以保持Skill配置一致;作为Obsidian数据同步工具替代官方服务;通过其WebDAV功能,无缝兼容CC Switch配置的各种API。此外,坚果云支持随时共享文件夹或文件给他人。个人用户年费199元,与AI订阅套餐相比具有显著的价格优势。

教程/实践部署/工程
20:57
Anthropic:Newsroom(网页)
精选62
毕马威与Anthropic建立全球联盟,全面整合Claude AI模型

毕马威宣布与Anthropic建立全球联盟,将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限,并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架,旨在通过负责任、可治理的AI部署,加速企业数字化转型。

Anthropic行业动态部署/工程

推荐理由:KPMG 不是在做实验,而是直接把 Claude 嵌进 Digital Gateway 并推向 27.6 万员工,这是四大里 AI 落地最扎实的案例,企业服务领域的 AI 渗透正在从口号变成真动作。
20:07
歸藏(guizang.ai)@op7418
59
谷歌AI Studio移动端应用已上线Google Play开启预注册,为开发者提供了新的移动端AI开发工具。该应用旨在让用户能够随时随地捕捉灵感并进行创作,无需受限于桌面环境。其核心功能是允许用户通过自然语言描述来构建自定义工具、游戏或应用,将"想法"直接转化为现实。这被视为对现有移动端AI体验(如Gemini)的一种补充或替代,为需要在移动端进行原型设计或快速开发的用户带来了新的便利。

🚨 AI News | TestingCatalog: GOOGLE 🔥: A new AI Studio mobile app is now available on Google Play for pre-registration! > "Your next big idea is jus...

Google产品更新部署/工程
20:00
Huawei Cloud@HuaweiCloud1
46
Ninja Van正通过与华为云合作部署云原生和AI技术,重塑东南亚物流行业。其运营变得更智能、更快速、可扩展性更强,实现了资源利用率提升60%、基础设施成本降低30%。 了解#华为云如何助力#NinjaVan在东南亚实现更智能、更快速的#物流扩展:https://tinyurl.com/muspx766 #华为 #华为云亚太 #AI #数字化转型
行业动态部署/工程
18:33
🚨 AI News | TestingCatalog@testingcatalog
72
Anthropic 在伦敦举办的"Code with Claude"活动上宣布,为 Claude 托管代理推出两项新功能:自托管沙盒(公测版)和 MCP 隧道(研究预览版)。自托管沙盒允许用户在自己的基础设施或托管沙盒提供商中运行代理,从而将敏感文件、软件包和服务保留在私有环境中,确保数据安全。MCP 隧道使代理能够安全访问用户私有网络内的 MCP 服务器,无需将其暴露于公共互联网,增强了访问控制。这两项功能共同支持代理在用户自有的安全边界内执行任务,并默认应用用户的安全策略,有效提升了隐私保护和操作灵活性。

Claude: Live from Code with Claude London: we're launching self-hosted sandboxes (public beta) and MCP tunnels (research preview...

智能体AnthropicMCP/工具产品更新
17:58
Rohan Paul@rohanpaul_ai
52
BoozAllen CEO Horacio Rozanski:"2026年将是网络与AI交汇处高度复杂的一年,因为AI作为一种攻击向量" AI能在几分钟内突破网络,远快于CISA标准的两周补丁修复时间。防御速度严重滞后。
安全/对齐部署/工程
17:51
IT之家(RSS)
35
极摩客 EVO-X3 迷你主机现身,提供原生 OCuLink 接口

在2026年5月19日的AMD AI开发者日活动上,AMD董事会主席兼首席执行官苏姿丰亲自签名确认了极摩客(GMKtec)的新品迷你主机EVO-X3和EVO-X2。其中,EVO-X3首次公开亮相,基于AMD锐龙AI Max+ 395处理器,支持高达128GB的LPDDR5X-8000内存,并提供原生OCuLink接口,增强了外部设备连接能力。展机还搭载了江波龙的AI存储智能体方案,进一步提升了存储智能和效率。这次发布不仅突显了极摩客在硬件配置上的显著升级,也为迷你主机市场带来了更高性能的选择,适合开发者和对计算能力有要求的用户。

产品更新端侧部署/工程
17:09
Claude:Blog(网页)
精选77
Claude智能体托管平台新增自托管沙箱与MCP隧道功能

Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。

AnthropicMCP/工具产品更新部署/工程

推荐理由:自托管沙箱把agent执行挪到企业自己的基础设施里,敏感数据不再离开边界,这是让金融医疗等合规行业敢用AI agent的关键能力。MCP隧道补上了内网服务连接,组件已经完整。
16:57
Alibaba Cloud@alibaba_cloud
56
AI推理任务耗时长且不可预测--传统消息队列限流已力不从心。📉 Apache RocketMQ 5.x 引入 LiteTopic,实现细粒度、毫秒级流量治理。 立即掌握您的AI流量!🔗 https://int.alibabacloud.com/m/1000413081/ #RocketMQ #AI
产品更新部署/工程
16:24
MarkTechPost(RSS)
56
2026年最佳企业级自主AI平台榜单

2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。

智能体评测/基准部署/工程
16:03
Claude@claudeai
72
来自Code with Claude伦敦现场:我们正在Claude Managed Agents中推出自托管沙箱(公测版)和MCP隧道(研究预览版)。 在您自己的安全边界内运行代理,默认应用您的安全控制。
AnthropicMCP/工具产品更新部署/工程
15:51
IT之家(RSS)
52
腾讯云智能体平台 Hy3 preview 与 DeepSeek-V4-Pro 模型结束免费公测转商用

腾讯云宣布,其智能体开发平台提供的 Hy3 preview 与 DeepSeek-V4-Pro 模型,将于2026年5月27日10:00起结束限时免费公测,转为正式商用服务。后续将根据模型调用量按需计费。该平台采用“订阅+增购包”的收费模式,提供免费版及多款付费套餐(如专业版188元/月、企业版4880元/月),用户还可选购预付费资源包,年付套餐可享8.33折优惠。

DeepSeek行业动态部署/工程
11:51
HuggingFace Daily Papers(社区热门论文)
66
LongLive-2.0:用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程
11:51
HuggingFace Daily Papers(社区热门论文)
精选71
训练后 MoE 可通过自蒸馏跳过一半专家

本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。

推理论文/研究部署/工程

推荐理由:把训练好的MoE直接改成动态的,推理时跳过一半专家,速度提升20%而精度几乎没掉,做模型部署的值得认真看一下这个一行代码不改的蒸馏方案。
10:59
歸藏(guizang.ai)@op7418
57
英伟达首款自研CPU Vera交付

英伟达正式开始交付其首款自研通用CPU——NVIDIA Vera。该芯片专门针对AI Agent时代高并发、高吞吐的长期运行场景进行优化,核心功能是作为Agent编排与工具调用的调度中枢。它旨在将原本由GPU承担的密集调度与I/O任务分离,由CPU专门处理,从而构建更高效的AI系统。首批Vera CPU由英伟达高管亲自送至Anthropic、OpenAI、xAI及甲骨文云(OCI),其中xAI由马斯克亲自接待。此举标志着英伟达正从GPU主导的推理市场,深入布局为AI Agent时代定制计算基础设施的新赛道。

NVIDIA: NVIDIA's Ian Buck hand-delivered the first-ever NVIDIA Vera CPUs to our partners @AnthropicAI, @OpenAI, @SpaceX, and @Or...

智能体AnthropicOpenAI产品更新
10:51
HuggingFace Daily Papers(社区热门论文)
61
SNLP: 通过结构化牛顿校正的层并行推理

研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。

推理论文/研究部署/工程
10:45
IT之家(RSS)
精选73
谷歌联手黑石组建 AI 云公司:50 亿美元起步,2027 年冲刺 500 兆瓦

谷歌与黑石集团宣布合作成立一家新的AI云服务公司,黑石率先投入50亿美元股权资本,结合后续杠杆,总投资规模预计约250亿美元。该公司计划依托谷歌自研的TPU芯片和云基础设施,与CoreWeave等算力服务商展开竞争,并争取在2027年上线容量达500兆瓦的数据中心,相当于一座中等城市的用电规模。此举标志着谷歌迄今最大规模的对外芯片商业化尝试,将加剧与英伟达等公司在AI算力市场的角逐。

Google行业动态部署/工程

推荐理由:谷歌第一次把TPU武装到对外市场,拉黑石砸250亿美元建云公司,要正面抢英伟达的算力饭碗,做AI基础设施生意的人必须盯着这件事。
09:45
IT之家(RSS)
38
中国移动发布"超千兆宽带":可升级至 2000Mbps

中国移动于5月15日推出“超千兆宽带”,速率可从传统千兆升级至2000Mbps,并依托Wi-Fi 7与FTTR技术实现全屋高速覆盖。同日,浙江移动推广万兆光网,温州试点小区实测下行速率超9000Mbps,计划2026年建成1000个万兆小区。此外,移动同步升级了爱家亲情网、服务及灵犀智屏,增强家庭互联与智能体验。

行业动态部署/工程
09:45
IT之家(RSS)
65
英伟达宣布向 Anthropic、OpenAI、SpaceXAI、甲骨文交付首批 Vera CPU

英伟达向Anthropic、OpenAI、SpaceXAI和甲骨文交付首批Vera CPU,标志其专为Agentic AI设计的处理器正式量产。Vera是英伟达首款定制CPU,采用88个自研核心,内存带宽达1.2TB/s,单核性能较前代Grace提升50%,并搭载1.5TB内存。甲骨文计划2026年起部署数十万颗,该芯片将用于独立服务器及Vera Rubin平台,支持高吞吐推理与智能体工作负载。

xAI产品更新推理部署/工程
09:45
IT之家(RSS)
29
我国高端医疗装备大突破,全球首台宽体光子计数 CT 在沈阳下线

5月18日,东软医疗自主研发的中国首台宽体光子计数CT在沈阳下线,即将交付兰州大学第二医院。这标志着国产光子计数CT正式迈入量产交付阶段。该设备采用碲锌镉探测器等全链核心技术,实现了超高清(50lp/cm空间分辨率)、超低剂量及原生多能谱三大突破,其8cm宽体探测器可实现一次心跳冻结冠脉。此前,该设备已在华西医院等多家顶尖医院完成临床验证。

产品更新部署/工程
08:45
IT之家(RSS)
62
Anthropic 收购 Stainless,谷歌和 OpenAI 失去关键 AI SDK 工具

Anthropic 宣布收购专注自动化生成与维护多语言 SDK 的初创公司 Stainless,据称交易金额超过 2.8 亿欧元(约合 22.18 亿元人民币)。Stainless 的技术能将 API 规格直接转换为可部署工具,并自动同步更新,此前被多家 AI 实验室共用。收购完成后,Stainless 将停止对外服务,相关资源全部整合至 Anthropic 内部,不再与 OpenAI、谷歌等竞争者共享。这被视为 Anthropic 锁定关键开发基础设施、增强产品控制力的战略举措。

Anthropic行业动态部署/工程
08:00
Apple Machine Learning Research(RSS)
46
EpiCache:面向资源受限环境的长程对话场景式KV Cache管理

现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。

论文/研究部署/工程
‹ 上一页
1…3031323334…50
下一页 ›