AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1389 条
全部一手资讯X论文
标签「部署/工程」清除
5月24日周日
08:00HuggingFace Daily Papers(社区热门论文)53CONF-KV:基于置信度的 KV 缓存驱逐与混合精度存储方案
03:35MarkTechPost(RSS)69腾讯开源TencentDB Agent Memory:面向AI智能体的四层本地记忆流水线
01:57Hacker News 热门(buzzing.cc 中文翻译)63从第一性原理出发,让深度学习"嗡嗡"作响
01:27The Decoder:AI News(RSS)67DeepSeek 将 75% 折扣永久化,输出 token 定价至少低于 GPT-5.5 的 34 倍
5月23日周六
20:09IT之家(RSS)64DeepSeek API 完成输出提速与服务扩容,默认支持 500 并发同时在线
19:46Mistral AI:News(网页)68Emmi加入Mistral以加速原生AI工业发展
17:46Mistral AI:News(网页)64加倍投入科学以赢得工业AI
13:27Hacker News 热门(buzzing.cc 中文翻译)79精选微软称,使用人工智能的成本高于支付人工工资
10:57Hacker News 热门(buzzing.cc 中文翻译)67CODA: 将Transformer模块重写为GEMM-Epilogue程序
04:16HuggingFace Daily Papers(社区热门论文)65现场音乐扩散模型:交互式扩散音乐生成器的高效微调与后训练
00:30Dwarkesh Patel:Podcast & Blog(RSS)51Reiner Pope - 从底层构建芯片设计
00:16HuggingFace Daily Papers(社区热门论文)65通过自我调节的模拟规划实现高效智能体推理
5月22日周五
16:09IT之家(RSS)47Lightmatter 公布业界首款液冷激光网卡 Guide DR,可节省 75% 机架占用
15:56Hacker News 热门(buzzing.cc 中文翻译)61多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文
12:09IT之家(RSS)63国家发改委:指导国产大模型加大力度适配国产算力芯片
10:09IT之家(RSS)42海盗船发布企业 AI 硬件产品线 CORSAIR PRO,含工作站与服务器
10:09IT之家(RSS)73同事件精选智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
08:08IT之家(RSS)54联想集团 2025/26 财年营收 830.75 亿美元同比增长 20%,Q4 净利润 5.21 亿美元同比增长 479%
08:00HuggingFace Daily Papers(社区热门论文)60FastKernels:面向生产环境的GPU内核生成基准测试
04:30Simon Willison 博客46datasette-agent-sprites 0.1a0版本发布
03:28Tomer Tunguz 博客(VC 分析)69精选SpaceX的无限野心:AI企业集团
01:43Claude:Blog(网页)65精选Claude现已支持更多安全合规工具
01:09OpenAI:官网动态(RSS · 排除企业/客户案例)41AdventHealth携手OpenAI推进全人医疗
5月21日周四
22:07IT之家(RSS)55消息称 Anthropic 正洽谈使用微软 AI 芯片
21:58TechCrunch:AI(RSS)45铝价上涨20%,回收初创公司押注AI以获利
18:06IT之家(RSS)41AMD 携手多家中国台湾地区 OSAT 企业推进新一代 EFB 技术研发
18:06IT之家(RSS)70腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署
18:06IT之家(RSS)44SpaceX 277 页的 IPO 招股书,读起来就像科幻小说
18:06IT之家(RSS)14绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆
16:28Artificial Intelligence News(RSS)67英伟达的Vera芯片是黄仁勋不想让你忽视的200亿美元赌注
15:59IT之家(RSS)61惹上环保官司还不收手,马斯克的 xAI 计划斥资 28 亿美元加购高污染发电机组
15:59IT之家(RSS)53一年裁掉千名开发者,育碧全力拥抱 AI 优化游戏研发
14:10HuggingFace Daily Papers(社区热门论文)69OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存
13:58IT之家(RSS)67英伟达确认新一代超级AI芯片Vera Rubin下半年推出,黄仁勋称其必将超越前代
11:58IT之家(RSS)64ACIE 成英伟达新增长引擎:连接全球约 25 万家客户,AI 云收入同比增长超 3 倍
10:58IT之家(RSS)63瞄准 AI 数据中心功耗难题,新供电芯片让 48 伏转 4.8 伏效率达 96.2%
10:30公众号:智谱(GLM)44下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?
10:16Claude Code:GitHub Releases(RSS)51Claude Code v2.1.146 更新
08:00HuggingFace Daily Papers(社区热门论文)51ThriftAttention:用于长上下文FP4注意力的选择性混合精度
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月24日
08:00
HuggingFace Daily Papers(社区热门论文)
53
CONF-KV:基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数,以此动态分配每一步的缓存预算:在模型不确定时保留更多上下文,自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序,并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明,在生成长度达 4K 时,其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中,CONF-KV 达到 91.4% 的准确率,远高于滑动窗口(53.8%)和 H2O(80.6%)。在 75 个 VisualWebArena 任务中,它以 2.8 倍更低的峰值内存,保留了完整 KV 缓存 95.3% 的成功率。

arXiv推理论文/研究部署/工程
03:35
MarkTechPost(RSS)
69
腾讯开源TencentDB Agent Memory:面向AI智能体的四层本地记忆流水线

腾讯近期开源了TencentDB Agent Memory,这是一个基于MIT许可证的本地化AI智能体记忆系统。该系统创新地将工具日志处理为符号化的短期记忆,并采用由“会话→原子→场景→人格”构成的四层长期记忆金字塔。它以OpenClaw插件和Hermes Docker镜像形式发布,默认使用本地SQLite与sqlite-vec数据库,并融合了混合BM25与向量检索策略。性能基准测试表明,该系统在WideSearch任务中实现了超过60%的token节约和51%以上的相对通过率提升,同时将人格记忆的准确率从48%显著提高至76%。

智能体开源/仓库部署/工程
01:57
Hacker News 热门(buzzing.cc 中文翻译)
63
从第一性原理出发,让深度学习"嗡嗡"作响

文章介绍了一项名为“让深度学习嗡嗡作响”的技术探索,该项目从计算机体系结构的第一性原理出发,深入分析并优化深度学习计算流程。作者通过底层硬件视角审视现代深度学习框架,指出了当前系统中存在的计算瓶颈与效率损失,并提出了针对性的软硬件协同优化思路。该研究旨在通过理解计算本质来释放硬件潜力,最终实现深度学习任务执行效率的显著提升。

教程/实践部署/工程
01:27
The Decoder:AI News(RSS)
67
DeepSeek 将 75% 折扣永久化,输出 token 定价至少低于 GPT-5.5 的 34 倍

DeepSeek 将针对其旗舰模型 V4-Pro 的 75% 折扣调整为永久性降价。调整后,输入 token 的价格为每百万 0.435 美元,相比 GPT-5.5 至少便宜 11.5 倍;输出 token 的价格优势更为显著,至少低 34 倍。如此激进的定价策略,对于 token 消耗量巨大的智能体系统而言,将对西方人工智能服务商构成显著的价格压力。

DeepSeekOpenAI行业动态部署/工程
5月23日
20:09
IT之家(RSS)
64
DeepSeek API 完成输出提速与服务扩容,默认支持 500 并发同时在线

DeepSeek 宣布其API完成输出提速与服务扩容,服务更加稳定,默认支持500个并发同时在线,企业用户可申请更高并发。同时,DeepSeek-V4-Pro模型API价格将于2026年5月31日优惠结束后调整为原定价的1/4,具体价格调整为:输入(缓存命中)0.025元/百万Tokens,输入(缓存未命中)3元/百万Tokens,输出6元/百万Tokens。

DeepSeek产品更新部署/工程
19:46
Mistral AI:News(网页)
68
Emmi加入Mistral以加速原生AI工业发展

Mistral AI已与物理学AI先驱Emmi AI达成收购协议,旨在巩固其作为工业企业首要AI转型伙伴的地位。通过整合Emmi AI的先进模型及其超过30人的顶尖研究员和工程师团队,Mistral AI将大幅提升其在工程物理建模、实时仿真和数字孪生方面的能力,打造业界领先的工程师智能体。此次收购将加速Mistral AI的科学研究路线图,使其能为航空航天、汽车和半导体等高风险行业的客户提供全面集成的平台,以解决复杂工程挑战并革新核心研发流程。

行业动态部署/工程
17:46
Mistral AI:News(网页)
64
加倍投入科学以赢得工业AI

Mistral AI宣布与物理AI先驱Emmi AI达成最终收购协议,旨在加强其在工业AI领域的领导地位。通过整合Emmi AI在物理仿真与数字孪生方面的专长,Mistral AI将提升其工程解决方案能力,并加速科学研发路线。Emmi AI的30余名研究员与工程师将加入Mistral AI团队,共同构建由物理AI驱动的综合技术栈。此次合作将为航空航天、汽车等高风险行业提供实时仿真与复杂问题解决平台,推动工业研发的突破性进展。

行业动态部署/工程
13:27
Hacker News 热门(buzzing.cc 中文翻译)
精选79
微软称,使用人工智能的成本高于支付人工工资

微软发布报告指出,在特定工作场景中,部署和使用人工智能(AI)的成本目前已高于支付相应的人工工资。报告分析了基于“tokens”(令牌)和“agents”(智能体)的AI使用模式,发现其综合开销超过了雇佣人类员工完成同类任务的费用。这一发现揭示了当前企业应用AI技术面临的现实经济挑战。

Microsoft现象/趋势部署/工程

推荐理由:微软自己出来说AI比人贵,是在给市场打预防针,对烧钱上Agent的公司是冷水,但人力成本极低的国内账本得另算。
10:57
Hacker News 热门(buzzing.cc 中文翻译)
67
CODA: 将Transformer模块重写为GEMM-Epilogue程序

论文提出CODA技术,旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作(如注意力机制、前馈网络)统一抽象并重写为“通用矩阵乘法(GEMM)+ 后续操作(Epilogue)”的程序化组合。这种方法能够更高效地映射到现代硬件(如GPU)上执行,通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv,并在Hacker News社区获得关注(100点热度),反映了业界对大模型底层计算优化的持续探索。

论文/研究部署/工程
04:16
HuggingFace Daily Papers(社区热门论文)
65
现场音乐扩散模型:交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现,传统的分块外扩扩散流程在推理时效率较低。为此,提出了现场音乐扩散模型(LMDMs),通过引入分块KV缓存优化生成过程,显著提升了推理效率。同时,LMDMs采用ARC-Forcing范式实现稳定的后训练对齐,减少了误差累积,无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景,并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行,为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程
00:30
Dwarkesh Patel:Podcast & Blog(RSS)
51
Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始,逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角,剖析不同硬件的设计逻辑与演化路径。

推理教程/实践部署/工程
00:16
HuggingFace Daily Papers(社区热门论文)
65
通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题,本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型,其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中,v1.0-30B以25.8%-95.3%更少的推理token,达到了与更大参数量系统相当的性能。引入强化学习后,模型规划深度提升22.8%,而频率仅增2.0%,表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程
5月22日
16:09
IT之家(RSS)
47
Lightmatter 公布业界首款液冷激光网卡 Guide DR,可节省 75% 机架占用

Lightmatter于5月21日发布了业界首款液冷激光网卡Guide DR。该产品采用液冷设计,将数十个激光器集成在符合OCP NIC 3.0标准的机箱内,最多可通过64根光纤驱动256条200Gbps通道,每根光纤提供200mW光功率。相比传统外部激光小型可插拔模块,Guide DR在提供同等204.8 Tbps CPO交换带宽时,可将机架占用从4RU缩减至1RU,节省高达75%的空间。该产品将于2026年第四季度出样。

产品更新部署/工程
15:56
Hacker News 热门(buzzing.cc 中文翻译)
61
多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性,为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程
12:09
IT之家(RSS)
63
国家发改委:指导国产大模型加大力度适配国产算力芯片

国家发改委政策研究室副主任李超在新闻发布会上明确指导方向:针对人工智能领域技术与需求的快速增长,发改委将指导国产大模型加大力度适配国产算力芯片。此举旨在推动人工智能与经济社会各领域深度融合的同时,确保我国AI发展的自主可控与向善发展。此前,发改委已联合国家能源局发布相关指导意见,推动AI在电网等关键领域的深度应用。

政策/监管部署/工程
10:09
IT之家(RSS)
42
海盗船发布企业 AI 硬件产品线 CORSAIR PRO,含工作站与服务器

传统消费级硬件厂商海盗船(CORSAIR)正式进军企业AI市场,推出全新产品线CORSAIR PRO。该产品线专为支持从模型开发、微调到推理与生产部署的全周期AI工作负载设计,包含FlexPrime工作站和FlexGrid服务器两大类别。其中FlexPrime V80B工作站搭载NVIDIA GB300 Grace Blackwell Ultra桌面超级芯片,面向高要求的AI训练与仿真任务。系统预装经验证的PyTorch、TensorFlow等框架及Docker、Kubernetes等工具,提供开箱即用的AI开发与部署环境。

产品更新部署/工程
10:09
IT之家(RSS)
同事件精选73
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把旗舰模型拉到 400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看,延迟敏感场景的选型参数要重写了。
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
08:08
IT之家(RSS)
54
联想集团 2025/26 财年营收 830.75 亿美元同比增长 20%,Q4 净利润 5.21 亿美元同比增长 479%

联想集团发布2025/26财年业绩,全年营收830.75亿美元创历史新高,同比增长20%;归母净利润19.12亿美元,增长38%。第四财季表现尤为强劲,营收215.88亿美元增长27%,净利润5.21亿美元,同比大幅增长479%。AI相关业务是核心增长引擎,第四季度相关收入同比增长84%,占总收入比例达38%。智能设备、基础设施方案和方案服务三大业务集团均实现双位数收入增长。全年经营现金流同比提升近74%,盈利质量与财务状况持续向好。

端侧行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
60
FastKernels:面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程
04:30
Simon Willison 博客
46
datasette-agent-sprites 0.1a0版本发布

Datasette Agent生态推出了一款新插件datasette-agent-sprites的首个预览版本(0.1a0)。该插件的核心功能是允许Agent在Fly Sprites提供的安全沙盒环境中执行命令,旨在增强数据处理与交互过程中的隔离性与安全性。此次发布标志着沙盒技术在AI Agent工具链中的进一步集成与应用。

智能体开源/仓库部署/工程
03:28
Tomer Tunguz 博客(VC 分析)
精选69
SpaceX的无限野心:AI企业集团

SpaceX在提交S-1文件后,展现为一家AI时代的企业集团。公司由三大业务构成:Starlink(星链)、太空业务与AI业务。2025年总营收达187亿美元。其中,星链是绝对的核心与现金引擎,贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%,而AI业务(含X平台与xAI)虽仅占17%且处于巨额投入阶段,但代表了未来的战略方向。整体上,星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。

xAI行业动态部署/工程
关联讨论 1 条TechCrunch:AI(RSS)
推荐理由:SpaceX的S-1文件罕见披露了AI业务的财务底牌,Tunguz的拆解很精炼,让你看懂Starlink怎么为烧钱的AI和Starship供血,太空AI算力这个叙事值得关注。
01:43
Claude:Blog(网页)
精选65
Claude现已支持更多安全合规工具

Anthropic宣布为Claude企业版及平台新增28项安全与合规工具集成。这些集成均通过Claude Compliance API实现,允许企业安全团队统一获取Claude的对话内容与活动事件,从而将其纳入现有的DLP、SIEM等监控与合规流程。新增合作伙伴包括Cloudflare、CrowdStrike、Microsoft Purview等28家供应商,覆盖数据安全、身份验证等多个关键领域,帮助企业快速将Claude接入现有安全平台,实现跨组织工具的统一治理与可视化监控。

Anthropic产品更新部署/工程
关联讨论 1 条Cloudflare Blog
推荐理由:企业安全团队终于能像治理其他SaaS一样治理Claude了,28个主流安全工具集成,说明Anthropic认真在打企业牌,CSO们可以打开文档了。
01:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
AdventHealth携手OpenAI推进全人医疗

AdventHealth正在采用OpenAI的ChatGPT for Healthcare解决方案,旨在优化医疗工作流程,减轻医务人员行政负担,从而将更多时间还给患者护理。该合作利用人工智能技术处理文档、协调等非临床任务,以提升整体医疗效率与患者体验。

OpenAI行业动态部署/工程
5月21日
22:07
IT之家(RSS)
55
消息称 Anthropic 正洽谈使用微软 AI 芯片

Anthropic为应对旗下人工智能产品算力需求增长,正与微软洽谈租用搭载其自研AI芯片的服务器。若合作达成,将助力微软突破英伟达在AI算力市场的主导地位。目前双方磋商仍处初步阶段,尚未确定能否形成正式协议。

AnthropicMicrosoft行业动态部署/工程
21:58
TechCrunch:AI(RSS)
45
铝价上涨20%,回收初创公司押注AI以获利

随着铝价上涨20%,回收初创公司正积极利用人工智能技术提高铝等关键矿物的回收率。这些公司致力于通过AI优化回收流程,旨在建立大规模的铝资源供应体系,从而在当前有利的市场条件下实现盈利。

行业动态部署/工程
18:06
IT之家(RSS)
41
AMD 携手多家中国台湾地区 OSAT 企业推进新一代 EFB 技术研发

AMD宣布与日月光、矽品等多家中国台湾地区OSAT企业合作,共同研发新一代高架扇出桥(EFB)先进封装技术。这是对其在Instinct MI200系列中使用的2.5D异构集成方案的演进升级。新一代EFB技术旨在显著提升互连带宽与功耗效率,以支持“Venice”架构CPU。同时,AMD还与力成合作成功验证了业界首款2.5D面板级EFB互连技术,该技术可用于构建更高效率的AI系统。

行业动态部署/工程
18:06
IT之家(RSS)
70
腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
18:06
IT之家(RSS)
44
SpaceX 277 页的 IPO 招股书,读起来就像科幻小说

SpaceX 提交的 277 页 IPO 招股书风格独特,在传统财务披露中穿插了大量科幻配图与未来构想。文件详细阐述了微重力低温推进剂加注、轨道人工智能算力中心、小行星采矿等尚未落地的前沿概念,旨在描绘推动人类成为多星球文明的宏大愿景。该招股书被评价为近年最有趣的 S-1 文件,展现了马斯克将科幻与尖端科技结合的企业风格。

行业动态部署/工程
18:06
IT之家(RSS)
14
绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆

随着个人数据量的飞速增长,NAS私有云成为存储管理的重要方案。绿联科技推出新款四盘位NAS产品DXP4800 GT,其核心亮点是配备了同价位产品中罕见的双万兆网口,提升网络传输性能。该产品搭载AMD Ryzen Embedded R2514处理器(4核8线程,最高睿频3.7GHz)并集成Radeon Vega 8显卡,提供强大的本地处理与影音能力。机身采用简约一体化铝合金设计,接口包括HDMI、USB 3.2、SD卡槽及U.2固态硬盘支持,扩展丰富。官方配套希捷酷狼4TB硬盘,强调易于上手的初次配置流程,适合家庭及进阶用户使用。

评测/基准部署/工程
16:28
Artificial Intelligence News(RSS)
67
英伟达的Vera芯片是黄仁勋不想让你忽视的200亿美元赌注

英伟达在最新财报中公布第一季度营收816.2亿美元,超出分析师预期的788.6亿美元,并给出第二季度910亿美元的强劲指引,远超华尔街预测的868.4亿美元。尽管这一业绩表现亮眼,但公司旗下代号为“Vera”的芯片产品线,一项涉及200亿美元的战略投资,却在此次财报中被业绩数字所掩盖。该芯片对于英伟达未来的竞争格局至关重要,是首席执行官黄仁勋希望市场予以高度关注的核心布局之一。

产品更新部署/工程
15:59
IT之家(RSS)
61
惹上环保官司还不收手,马斯克的 xAI 计划斥资 28 亿美元加购高污染发电机组

马斯克旗下的人工智能公司 xAI,在因违规运行高污染发电机组而面临美国全国有色人种协进会起诉及美国环保署违法裁定之际,仍计划在未来三年内斥资28亿美元采购涡轮发电机组以扩建AI基础设施。该公司目前实际运行的46台机组远超获批的15台许可数量,每台年排放污染物超2000吨,且正试图以“移动设备”为由钻法规空子。其母公司SpaceX在招股文件中承认,若遭禁令,AI业务将受严重影响。

xAI行业动态部署/工程
15:59
IT之家(RSS)
53
一年裁掉千名开发者,育碧全力拥抱 AI 优化游戏研发

育碧在过去一年的业务重组中裁员超过1000名游戏开发人员。为扭转经营困境,该公司正全面转向利用人工智能优化游戏研发流程,包括推进自研生成式AI项目“育碧同伴”,并开发辅助质检、高智能NPC等智能工具。育碧计划借助AI精简开发环节、提升玩家体验,预计到2029年推出丰富的新作阵容,其当前重点作品《刺客信条:黑旗重制版》将于今年7月发售。

行业动态部署/工程
14:10
HuggingFace Daily Papers(社区热门论文)
69
OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究
13:58
IT之家(RSS)
67
英伟达确认新一代超级AI芯片Vera Rubin下半年推出,黄仁勋称其必将超越前代

英伟达公布第一季度财报,营收达创纪录的816亿美元,同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出,第三季度开始交付,第四季度上量加速。CEO黄仁勋表示,Vera Rubin开局良好,推理市场份额增长迅速,肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产,试产计划于2026年6月启动,首批产品7月将运往微软、谷歌等北美大客户,其AI服务器机柜价值约1.8亿美元。

产品更新推理部署/工程
11:58
IT之家(RSS)
64
ACIE 成英伟达新增长引擎:连接全球约 25 万家客户,AI 云收入同比增长超 3 倍

英伟达在最新财季首次采用新的业务披露口径,将数据中心收入拆分为超大规模客户与ACIE(AI云、工业、企业)两大板块。ACIE板块当季贡献约370亿美元收入,环比增长31%,其AI云收入同比增长超过3倍,连接全球约25万家客户。黄仁勋判断,受益于广阔的工业与企业市场,ACIE未来增速有望超过超大规模客户。同期,边缘计算收入为64亿美元,同比增长29%。

行业动态部署/工程
10:58
IT之家(RSS)
63
瞄准 AI 数据中心功耗难题,新供电芯片让 48 伏转 4.8 伏效率达 96.2%

加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片,以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件,设计出混合架构的降压转换器。实验室测试表明,该原型芯片能将48伏电压降至4.8伏,峰值转换效率达到96.2%,输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗,缓解高功耗GPU带来的散热与供电压力,但目前仍处于研究阶段,尚未达到商用水平。

论文/研究部署/工程
10:30
公众号:智谱(GLM)
44
下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?

智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程
10:16
Claude Code:GitHub Releases(RSS)
51
Claude Code v2.1.146 更新

本次更新主要调整了功能命名与交互逻辑,将 /simplify 命令更名为 /code-review 并支持分级,同时优化了自动模式与用户提问的交互。重点修复了多项影响稳定性与体验的 Bug,包括 Windows 系统上通过 winget 安装 PowerShell 后工具失效、终端全屏闪烁、后台会话权限重复请求、主题编辑器响应异常,以及 MCP 分页数据丢失等关键问题。此外,更新还改进了自动更新功能的网络容错能力,并提升了大文件差异渲染的性能。

Anthropic产品更新编码部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
51
ThriftAttention:用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。

推理论文/研究部署/工程
‹ 上一页
1…1516171819…35
下一页 ›