AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月22日周五
19:20Alibaba Cloud69Qwen3.7-Max上线Model Studio享五折优惠
18:26Rohan Paul70Google为开发者提升Gemini速率限制
16:50Alibaba Cloud56DeepSeek V4-Flash云端部署性价比实测对比
16:09IT之家(RSS)47Lightmatter 公布业界首款液冷激光网卡 Guide DR,可节省 75% 机架占用
15:56Hacker News 热门(buzzing.cc 中文翻译)61多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文
12:09IT之家(RSS)63国家发改委:指导国产大模型加大力度适配国产算力芯片
10:09IT之家(RSS)42海盗船发布企业 AI 硬件产品线 CORSAIR PRO,含工作站与服务器
10:09IT之家(RSS)73同事件精选智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
10:08Huawei Cloud44华为云Stack金融方案发布
09:56Chubby♨️54东京大学研发超低功耗芯片,效率提升千倍但十年后才能商用
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
09:38Huawei Cloud50华为展示AI驱动金融变革新图景
08:08IT之家(RSS)54联想集团 2025/26 财年营收 830.75 亿美元同比增长 20%,Q4 净利润 5.21 亿美元同比增长 479%
08:00HuggingFace Daily Papers(社区热门论文)60FastKernels:面向生产环境的GPU内核生成基准测试
07:30ginobefun63BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家
05:56Google AI Developers58Antigravity付费版Gemini速率限制提升三倍
05:13Deedy64Modal获3.55亿美元C轮融资,估值46.5亿美元
05:05SemiAnalysis62AI降价非首次,关键在于创造新世界
04:30Simon Willison 博客46datasette-agent-sprites 0.1a0版本发布
03:36swyx🛬 SFO33AI基础设施从业者终获丰厚回报
03:28Tomer Tunguz 博客(VC 分析)69精选SpaceX的无限野心:AI企业集团
03:07Epoch AI63HBM成本占比持续攀升,成AI芯片最大支出项
02:26Rohan Paul65微软正向Anthropic推销Maia 200 AI芯片
01:43Claude:Blog(网页)65精选Claude现已支持更多安全合规工具
01:26AK68Mix-Quant:智能体LLM的量化预填充与精确解码
01:13向阳乔木71AI秒变顶级运维:一键搞定VPS与域名配置
01:09OpenAI:官网动态(RSS · 排除企业/客户案例)41AdventHealth携手OpenAI推进全人医疗
5月21日周四
22:07IT之家(RSS)55消息称 Anthropic 正洽谈使用微软 AI 芯片
21:58TechCrunch:AI(RSS)45铝价上涨20%,回收初创公司押注AI以获利
21:56Rohan Paul69澄清AI数据中心用水误解
21:28SemiAnalysis18英伟达分层内存方案应对大模型KV缓存存储压力
18:06IT之家(RSS)41AMD 携手多家中国台湾地区 OSAT 企业推进新一代 EFB 技术研发
18:06IT之家(RSS)70腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署
18:06IT之家(RSS)44SpaceX 277 页的 IPO 招股书,读起来就像科幻小说
18:06IT之家(RSS)14绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆
16:28Artificial Intelligence News(RSS)67英伟达的Vera芯片是黄仁勋不想让你忽视的200亿美元赌注
15:59IT之家(RSS)61惹上环保官司还不收手,马斯克的 xAI 计划斥资 28 亿美元加购高污染发电机组
15:59IT之家(RSS)53一年裁掉千名开发者,育碧全力拥抱 AI 优化游戏研发
15:56Chubby♨️78Anthropic月付SpaceX12.5亿美元算力费
14:10HuggingFace Daily Papers(社区热门论文)69OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
19:20
Alibaba Cloud@alibaba_cloud
69
Qwen3.7-Max现已在Model Studio上线,限时五折(5月22日至6月22日)! 可靠的跨框架支持。专为一键部署和无缝集成到现有技术栈而设计。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
模型发布部署/工程
18:26
Rohan Paul@rohanpaul_ai
70
Google为开发者带来好消息。 所有付费Antigravity层级现在都将获得永久的3倍Gemini速率限制。

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google产品更新部署/工程
16:50
Alibaba Cloud@alibaba_cloud
56
寻找部署 DeepSeek V4-Flash 最具性价比的方式?🚀 我们通过实际基准测试和定价数据,对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能! 📺 立即观看:https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI
DeepSeek教程/实践部署/工程
16:09
IT之家(RSS)
47
Lightmatter 公布业界首款液冷激光网卡 Guide DR,可节省 75% 机架占用

Lightmatter于5月21日发布了业界首款液冷激光网卡Guide DR。该产品采用液冷设计,将数十个激光器集成在符合OCP NIC 3.0标准的机箱内,最多可通过64根光纤驱动256条200Gbps通道,每根光纤提供200mW光功率。相比传统外部激光小型可插拔模块,Guide DR在提供同等204.8 Tbps CPO交换带宽时,可将机架占用从4RU缩减至1RU,节省高达75%的空间。该产品将于2026年第四季度出样。

产品更新部署/工程
15:56
Hacker News 热门(buzzing.cc 中文翻译)
61
多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性,为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程
12:09
IT之家(RSS)
63
国家发改委:指导国产大模型加大力度适配国产算力芯片

国家发改委政策研究室副主任李超在新闻发布会上明确指导方向:针对人工智能领域技术与需求的快速增长,发改委将指导国产大模型加大力度适配国产算力芯片。此举旨在推动人工智能与经济社会各领域深度融合的同时,确保我国AI发展的自主可控与向善发展。此前,发改委已联合国家能源局发布相关指导意见,推动AI在电网等关键领域的深度应用。

政策/监管部署/工程
10:09
IT之家(RSS)
42
海盗船发布企业 AI 硬件产品线 CORSAIR PRO,含工作站与服务器

传统消费级硬件厂商海盗船(CORSAIR)正式进军企业AI市场,推出全新产品线CORSAIR PRO。该产品线专为支持从模型开发、微调到推理与生产部署的全周期AI工作负载设计,包含FlexPrime工作站和FlexGrid服务器两大类别。其中FlexPrime V80B工作站搭载NVIDIA GB300 Grace Blackwell Ultra桌面超级芯片,面向高要求的AI训练与仿真任务。系统预装经验证的PyTorch、TensorFlow等框架及Docker、Kubernetes等工具,提供开箱即用的AI开发与部署环境。

产品更新部署/工程
10:09
IT之家(RSS)
同事件精选73
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把旗舰模型拉到 400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看,延迟敏感场景的选型参数要重写了。
10:08
Huawei Cloud@HuaweiCloud1
44
在 #HiFS2026 上,华为推出了 #HuaweiCloudStack 金融解决方案--提供一种新的弹性、开放、智能的架构,帮助金融机构从封闭系统转向基于云的分布式智能基础设施。 ✅ 弹性云基础设施,用于虚拟机替换 ✅ 核心应用无缝云迁移 ✅ 智能数据湖,用于营销、风控和运营
行业动态部署/工程
09:56
Chubby♨️@kimmonismus
54
东京大学研发超低功耗芯片,效率提升千倍但十年后才能商用

东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。

论文/研究部署/工程
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
09:38
Huawei Cloud@HuaweiCloud1
50
华为展示AI驱动金融变革新图景

华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。

智能体行业动态部署/工程
08:08
IT之家(RSS)
54
联想集团 2025/26 财年营收 830.75 亿美元同比增长 20%,Q4 净利润 5.21 亿美元同比增长 479%

联想集团发布2025/26财年业绩,全年营收830.75亿美元创历史新高,同比增长20%;归母净利润19.12亿美元,增长38%。第四财季表现尤为强劲,营收215.88亿美元增长27%,净利润5.21亿美元,同比大幅增长479%。AI相关业务是核心增长引擎,第四季度相关收入同比增长84%,占总收入比例达38%。智能设备、基础设施方案和方案服务三大业务集团均实现双位数收入增长。全年经营现金流同比提升近74%,盈利质量与财务状况持续向好。

端侧行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
60
FastKernels:面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程
07:30
ginobefun@hongming731
63
BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

智能体AnthropicOpenAI推理
05:56
Google AI Developers@googleaidevs
58
所有付费Antigravity层级的Gemini速率限制已永久提升三倍。我们还重置了所有人的每周配额。⤵️

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google产品更新部署/工程
05:13
Deedy@deedydas
64
Modal获3.55亿美元C轮融资,估值46.5亿美元

AI基础设施平台Modal宣布完成C轮融资,以46.5亿美元估值融资3.55亿美元,由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载(训练、推理、沙箱等)运行服务,以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主,公司展现出高人均营收的运营效率。

Erik Bernhardsson: Today we're announcing our Series C funding: $355M at a $4.65B valuation, led by some great investors @generalcatalyst a...

行业动态部署/工程
05:05
SemiAnalysis@SemiAnalysis_
62
AI并非首个价格下降多个数量级的技术。当螺丝还是手工制作时,产量以百或千计。如今产量已达万亿。 这场革命并非来自让过去使用的少量螺丝变得更便宜,而是来自构建一个在螺丝价格高出1500倍时无法想象的现代世界。
现象/趋势部署/工程
04:30
Simon Willison 博客
46
datasette-agent-sprites 0.1a0版本发布

Datasette Agent生态推出了一款新插件datasette-agent-sprites的首个预览版本(0.1a0)。该插件的核心功能是允许Agent在Fly Sprites提供的安全沙盒环境中执行命令,旨在增强数据处理与交互过程中的隔离性与安全性。此次发布标志着沙盒技术在AI Agent工具链中的进一步集成与应用。

智能体开源/仓库部署/工程
03:36
swyx🛬 SFO@swyx
33
所有从事AI基础设施*的人终于都赚得盆满钵满,看到他们成功真是太好了 *不是那些性感的AI研究工作,只是"无聊"的基础设施
大佬观点部署/工程
03:28
Tomer Tunguz 博客(VC 分析)
精选69
SpaceX的无限野心:AI企业集团

SpaceX在提交S-1文件后,展现为一家AI时代的企业集团。公司由三大业务构成:Starlink(星链)、太空业务与AI业务。2025年总营收达187亿美元。其中,星链是绝对的核心与现金引擎,贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%,而AI业务(含X平台与xAI)虽仅占17%且处于巨额投入阶段,但代表了未来的战略方向。整体上,星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。

xAI行业动态部署/工程
关联讨论 1 条TechCrunch:AI(RSS)
推荐理由:SpaceX的S-1文件罕见披露了AI业务的财务底牌,Tunguz的拆解很精炼,让你看懂Starlink怎么为烧钱的AI和Starship供血,太空AI算力这个叙事值得关注。
03:07
Epoch AI@EpochAIResearch
63
对于前沿AI芯片而言,内存是最大且增长最快的组件成本。 高带宽内存(HBM)在AI芯片组件总支出中的占比,已从2024年第一季度的52%增长至2025年第四季度的63%。
行业动态部署/工程
02:26
Rohan Paul@rohanpaul_ai
65
微软正向Anthropic推销Maia 200 AI芯片

据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。

AnthropicMicrosoft推理行业动态
01:43
Claude:Blog(网页)
精选65
Claude现已支持更多安全合规工具

Anthropic宣布为Claude企业版及平台新增28项安全与合规工具集成。这些集成均通过Claude Compliance API实现,允许企业安全团队统一获取Claude的对话内容与活动事件,从而将其纳入现有的DLP、SIEM等监控与合规流程。新增合作伙伴包括Cloudflare、CrowdStrike、Microsoft Purview等28家供应商,覆盖数据安全、身份验证等多个关键领域,帮助企业快速将Claude接入现有安全平台,实现跨组织工具的统一治理与可视化监控。

Anthropic产品更新部署/工程
关联讨论 1 条Cloudflare Blog
推荐理由:企业安全团队终于能像治理其他SaaS一样治理Claude了,28个主流安全工具集成,说明Anthropic认真在打企业牌,CSO们可以打开文档了。
01:26
AK@_akhaliq
68
Mix-Quant 量化预填充,精确解码,面向智能体LLM
智能体论文/研究部署/工程
01:13
向阳乔木@vista8
71
AI秒变顶级运维:一键搞定VPS与域名配置

推文展示了AI工具(如Codex和Claude Code)在服务器运维领域的强大能力。仅需提供SSH账号密码,AI即可自动配置海外VPS,无需手动安装宝塔等控制面板。若域名使用Cloudflare,提供DNS API权限后,AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务,显著降低技术门槛,使普通人也能轻松管理服务器与域名。

智能体教程/实践部署/工程
01:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
AdventHealth携手OpenAI推进全人医疗

AdventHealth正在采用OpenAI的ChatGPT for Healthcare解决方案,旨在优化医疗工作流程,减轻医务人员行政负担,从而将更多时间还给患者护理。该合作利用人工智能技术处理文档、协调等非临床任务,以提升整体医疗效率与患者体验。

OpenAI行业动态部署/工程
5月21日
22:07
IT之家(RSS)
55
消息称 Anthropic 正洽谈使用微软 AI 芯片

Anthropic为应对旗下人工智能产品算力需求增长,正与微软洽谈租用搭载其自研AI芯片的服务器。若合作达成,将助力微软突破英伟达在AI算力市场的主导地位。目前双方磋商仍处初步阶段,尚未确定能否形成正式协议。

AnthropicMicrosoft行业动态部署/工程
21:58
TechCrunch:AI(RSS)
45
铝价上涨20%,回收初创公司押注AI以获利

随着铝价上涨20%,回收初创公司正积极利用人工智能技术提高铝等关键矿物的回收率。这些公司致力于通过AI优化回收流程,旨在建立大规模的铝资源供应体系,从而在当前有利的市场条件下实现盈利。

行业动态部署/工程
21:56
Rohan Paul@rohanpaul_ai
69
澄清AI数据中心用水误解

Greg Brockman指出,公众对AI数据中心用水量的认知存在偏差,主要源于混淆了“取水量”与“耗水量”。他解释,现代数据中心多采用闭环冷却系统,如同“密封水池”,水在系统内循环吸热,而非像“流水龙头”般持续消耗新鲜水源。因此,系统可容纳大量水,但日常补充的新鲜水很少。OpenAI的Stargate项目博客也证实,其站点采用闭环冷却,全面运行后年耗水量仅相当于一栋办公楼或约四个家庭的用水量。公众辩论常因不了解冷却技术差异而过度简化。

Naval: The latest IQ test involves data centers and water.

OpenAI大佬观点部署/工程
21:28
SemiAnalysis@SemiAnalysis_
18
英伟达分层内存方案应对大模型KV缓存存储压力

针对现代AI智能体与长上下文窗口带来的大模型KV缓存存储瓶颈,英伟达提出了分层内存扩展方案。该方案将高速但容量有限的HBM(G1)作为基础,依次扩展至通过PCIe访问的主机DRAM(G2)、节点共享的SSD/NVMe(G3),以及提供近乎无限容量的网络存储(G4)。在GTC 2026上,英伟达更宣布与SpaceX及AnthropicAI合作,提出了通过Starlink连接的近地轨道HDD阵列这一概念性G5层级,旨在将存储边界进一步推向分布式网络架构。

其他部署/工程
18:06
IT之家(RSS)
41
AMD 携手多家中国台湾地区 OSAT 企业推进新一代 EFB 技术研发

AMD宣布与日月光、矽品等多家中国台湾地区OSAT企业合作,共同研发新一代高架扇出桥(EFB)先进封装技术。这是对其在Instinct MI200系列中使用的2.5D异构集成方案的演进升级。新一代EFB技术旨在显著提升互连带宽与功耗效率,以支持“Venice”架构CPU。同时,AMD还与力成合作成功验证了业界首款2.5D面板级EFB互连技术,该技术可用于构建更高效率的AI系统。

行业动态部署/工程
18:06
IT之家(RSS)
70
腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
18:06
IT之家(RSS)
44
SpaceX 277 页的 IPO 招股书,读起来就像科幻小说

SpaceX 提交的 277 页 IPO 招股书风格独特,在传统财务披露中穿插了大量科幻配图与未来构想。文件详细阐述了微重力低温推进剂加注、轨道人工智能算力中心、小行星采矿等尚未落地的前沿概念,旨在描绘推动人类成为多星球文明的宏大愿景。该招股书被评价为近年最有趣的 S-1 文件,展现了马斯克将科幻与尖端科技结合的企业风格。

行业动态部署/工程
18:06
IT之家(RSS)
14
绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆

随着个人数据量的飞速增长,NAS私有云成为存储管理的重要方案。绿联科技推出新款四盘位NAS产品DXP4800 GT,其核心亮点是配备了同价位产品中罕见的双万兆网口,提升网络传输性能。该产品搭载AMD Ryzen Embedded R2514处理器(4核8线程,最高睿频3.7GHz)并集成Radeon Vega 8显卡,提供强大的本地处理与影音能力。机身采用简约一体化铝合金设计,接口包括HDMI、USB 3.2、SD卡槽及U.2固态硬盘支持,扩展丰富。官方配套希捷酷狼4TB硬盘,强调易于上手的初次配置流程,适合家庭及进阶用户使用。

评测/基准部署/工程
16:28
Artificial Intelligence News(RSS)
67
英伟达的Vera芯片是黄仁勋不想让你忽视的200亿美元赌注

英伟达在最新财报中公布第一季度营收816.2亿美元,超出分析师预期的788.6亿美元,并给出第二季度910亿美元的强劲指引,远超华尔街预测的868.4亿美元。尽管这一业绩表现亮眼,但公司旗下代号为“Vera”的芯片产品线,一项涉及200亿美元的战略投资,却在此次财报中被业绩数字所掩盖。该芯片对于英伟达未来的竞争格局至关重要,是首席执行官黄仁勋希望市场予以高度关注的核心布局之一。

产品更新部署/工程
15:59
IT之家(RSS)
61
惹上环保官司还不收手,马斯克的 xAI 计划斥资 28 亿美元加购高污染发电机组

马斯克旗下的人工智能公司 xAI,在因违规运行高污染发电机组而面临美国全国有色人种协进会起诉及美国环保署违法裁定之际,仍计划在未来三年内斥资28亿美元采购涡轮发电机组以扩建AI基础设施。该公司目前实际运行的46台机组远超获批的15台许可数量,每台年排放污染物超2000吨,且正试图以“移动设备”为由钻法规空子。其母公司SpaceX在招股文件中承认,若遭禁令,AI业务将受严重影响。

xAI行业动态部署/工程
15:59
IT之家(RSS)
53
一年裁掉千名开发者,育碧全力拥抱 AI 优化游戏研发

育碧在过去一年的业务重组中裁员超过1000名游戏开发人员。为扭转经营困境,该公司正全面转向利用人工智能优化游戏研发流程,包括推进自研生成式AI项目“育碧同伴”,并开发辅助质检、高智能NPC等智能工具。育碧计划借助AI精简开发环节、提升玩家体验,预计到2029年推出丰富的新作阵容,其当前重点作品《刺客信条:黑旗重制版》将于今年7月发售。

行业动态部署/工程
15:56
Chubby♨️@kimmonismus
78
Anthropic每月向SpaceX支付12.5亿美元用于算力。每月。 这意味着每年有150亿美元流向一家年总收入为180亿美元的公司。一家AI实验室即将占据SpaceX商业收入的大部分。 我们之所以知道此事,是因为SpaceX今天提交了IPO申请,必须披露相关条款。该交易数周前已宣布,但未附带财务细节。来源:Axios
Anthropic行业动态部署/工程
关联讨论 5 条X:Elon Musk (@elonmusk, xAI)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客IT之家(RSS)The Verge:AI(RSS)
14:10
HuggingFace Daily Papers(社区热门论文)
69
OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究
‹ 上一页
1…2829303132…50
下一页 ›