AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月16日周六
23:33Chubby♨️3830天130万token竞争激烈
22:54Berryxia.AI61长上下文LLM竞争已转向:从堆token转向精细的架构优化
22:43IT之家(RSS)70精选杭州基地启用,机器人有了国家级职业技能训练场
22:41Peter Steinberger 🦞57Lossless为OpenClaw实现"无限"上下文记忆
22:22meng shao56硅谷管理者如何亲自动手:四类工作与关键禁忌
22:01Hacker News 热门(buzzing.cc 中文翻译)70精选Δ-Mem:适用于大型语言模型的高效在线内存
16:25The Decoder:AI News(RSS)56研究人员训练出仅需12.5%专家模块即可实现近乎全性能的AI模型
11:42IT之家(RSS)63上海电信发布 Token 资费套餐:1 元对应 25 万额度点,支持手机账单付
08:57Simon Willison 博客58datasette-llm-limits 0.1a0 发布
08:42IT之家(RSS)53供不应求:国产光纤光模块卖爆全球,部分特种光纤价格一年涨10倍
08:00HuggingFace Daily Papers(社区热门论文)57全注意力反击:百步训练内实现高效稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)54S-Bus:用于多智能体LLM状态协调的自动读集重建
08:00HuggingFace Daily Papers(社区热门论文)61E-PMQ:基于合并权重锚定的专家指导后合并量化框架
08:00HuggingFace Daily Papers(社区热门论文)56CompactAttention:基于块联合键值选择的分块预填充加速
07:09SemiAnalysis57DeepSeek V4发布MegaMoE优化内核
01:01Claude:Blog(网页)67精选在法律行业全面部署Claude:产品指南与实施路线图
01:01Hacker News 热门(buzzing.cc 中文翻译)62英国主权LLM推理
00:31Hacker News 热门(buzzing.cc 中文翻译)54面临提高人工智能使用率压力的亚马逊员工正在编造工作任务
5月15日周五
23:44宝玉71Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?
23:37OpenRouter74精选OpenRouter BYOK三大升级 支持多密钥轮换
22:42IT之家(RSS)54高德推出"华为鸿蒙 HarmonyOS 首个生成式 UI 开源框架"AGenUI,利用通用协议适配多终端界面
21:33公众号:百度智能云(文心)38让 Agent 真正跑起来,百度智能云升级了什么?
21:20OpenClaw🦞60OpenClaw新版本速度提升约3.5倍
20:30Hacker News 热门(buzzing.cc 中文翻译)78精选Show HN: 根据基准测试排名,为您的硬件寻找最适合的本地 LLM
16:54ginobefun64Agent 工程化的全面落地
12:06Orange AI61开源一个月的时间,飞书 CLI 在 Github 破万星了。 相比同期的一些 CLI,飞书这个确实是群里口碑最好的。 为 Agent 做软件这件事,飞书践行得很好。
11:30Hacker News 热门(buzzing.cc 中文翻译)49除了配重之外,GGUF里还包含什么--又还缺少什么?
10:54歸藏(guizang.ai)69ChatGPT手机端现可远程控制Codex
09:30Anthropic:Newsroom(网页)75精选普华永道全球部署Claude,助力客户构建技术、执行交易并重塑企业职能
09:08SemiAnalysis58Cerebras上市首日暴涨 无人机安保引热议
08:41IT之家(RSS)21美国陆军揭晓 NGC2 战场网络,让直升机、无人机与地面部队实现数据互联
08:41IT之家(RSS)57不用守电脑:手机端 ChatGPT 解锁 Codex,能实时远程控制 Mac 端 AI 任务
08:00HuggingFace Daily Papers(社区热门论文)62面向数据流的代理式大语言模型强化学习系统AstraFlow
08:00HuggingFace Daily Papers(社区热门论文)53开放大语言模型中最大激活值的度量研究
05:12Epoch AI61AI数据中心服务器成本占比达六成
03:18Tomer Tunguz 博客(VC 分析)65精选AI电子邮件的成本分析
02:00Claude:Blog(网页)73精选在大型代码库中高效运用Claude Code:最佳实践与入门指南
01:40AYi69吴恩达新课拆解Transformer,聚焦LLM生产落地与优化
01:09Google Developers Blog(RSS)62精选Genkit 推出中间件系统:增强智能体AI应用的可控性与可靠性
01:08SemiAnalysis60谷歌发布新型推理TPU 单集群可扩展至1152芯片
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月16日
23:33
Chubby♨️@kimmonismus
38
这就是你要面对的竞争。 30天130万token。 燃烧更多token,否则你将无法成功。 【引用 @steipete】:The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

大佬观点部署/工程
22:54
Berryxia.AI@berryxia
61
长上下文LLM竞争已转向:从堆token转向精细的架构优化

长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。

Sebastian Raschka: New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...

推理现象/趋势部署/工程
22:43
IT之家(RSS)
精选70
杭州基地启用,机器人有了国家级职业技能训练场

国家人工智能应用中试基地(具身智能)5月16日在浙江杭州挂牌启用,为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台,旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规,支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家,2025年具身智能产业集群产值达1068亿元。

具身智能行业动态部署/工程

推荐理由:杭州这个国家级具身智能训练场不是「又一个基地」,它是把散点技术拢成产业链标准化的关键一步,做机器人的可以盯着政策红利和开放场景了。
22:41
Peter Steinberger 🦞@steipete
57
Lossless为OpenClaw引入了一个实现"无限"上下文窗口或记忆的有趣概念。其核心机制是将对话内容压缩成可引用的数据块,并构建树状结构以检索历史信息。最新发布的lossless-claw 0.10.0版本旨在确保长对话的持久性,关键改进包括:采用全局压缩替代增量压缩以减少缓存抖动,保护高频提示缓存,修复启动与重启时的转录异常,并简化了新安装的配置流程。

Josh Lehman: lossless-claw 0.10.0 - the "long chats survive" release 🧵 recall spans rotated conversation segments 🧹 full-sweep comp...

智能体产品更新部署/工程
22:22
meng shao@shao__meng
56
硅谷管理者如何亲自动手:四类工作与关键禁忌

硅谷资深管理者普遍被要求亲自动手使用AI工具,以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作,具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务,以免因日程碎片化成为瓶颈,导致交付或管理失败。

Julie Zhuo: What kind of IC work can you do if you are a manager? Attended two dinners with dozens of senior Bay Area tech managers ...

现象/趋势部署/工程
22:01
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Δ-Mem:适用于大型语言模型的高效在线内存

研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。

推理论文/研究部署/工程

推荐理由:Δ-Mem 把 LLM 的在线记忆开销压得够低,如果实验结果稳得住,长上下文推理的成本结构又要改写了。
16:25
The Decoder:AI News(RSS)
56
研究人员训练出仅需12.5%专家模块即可实现近乎全性能的AI模型

艾伦人工智能研究所和加州大学伯克利分校的研究团队开发了名为EMO的混合专家模型。该模型创新性地让专家模块专注于内容领域而非词汇类型,从而在移除75%专家模块的情况下,性能损失仅约1个百分点。这一突破使混合专家模型首次有望应用于内存受限的实际场景,大幅提升了部署效率。

arXiv论文/研究部署/工程
11:42
IT之家(RSS)
63
上海电信发布 Token 资费套餐:1 元对应 25 万额度点,支持手机账单付

上海电信率先推出Token算力资费套餐,成为上海首个提供此类服务的运营商。套餐支持按量订购,1元对应25万额度点,以Kimi K2.5大模型为例,约可支持调用25万输入Tokens。用户可按需购买,多买享折扣,并支持话费账单支付。上海电信手机用户可获2500万额度点免费体验一个月。6月起,“美好家”用户家庭数字空间将上线Token会员权益。用户购买额度点后,可通过API接口调用30余款主流大模型,集成AI能力至自有应用或流程中。

行业动态部署/工程
08:57
Simon Willison 博客
58
datasette-llm-limits 0.1a0 发布

新插件 datasette-llm-limits 0.1a0 发布,需与 datasette-llm 及 datasette-llm-accountant 配合使用。该插件允许在 Datasette 内为每位用户或全局配置大语言模型(LLM)使用的支出限额。配置示例显示,可为用户设置滚动24小时窗口内的使用额度,金额上限为1.00美元。这为团队管理LLM调用成本提供了细粒度的控制工具。

MCP/工具产品更新部署/工程
08:42
IT之家(RSS)
53
供不应求:国产光纤光模块卖爆全球,部分特种光纤价格一年涨10倍

国产光纤光模块全球需求激增,供不应求。一季度相关产品出口量实现两位数增长,企业订单排至2028年。特种光纤G.657.A2价格一年内上涨10倍,核心原材料光纤预制棒产能缺口高达46%。同时,光模块出口同比增长约30%,1.6T产品在北美市场需求旺盛。面对供需失衡,中国企业正加速布局空芯光纤等下一代技术,以保持竞争优势。

现象/趋势行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
全注意力反击:百步训练内实现高效稀疏注意力

针对大型语言模型长上下文推理中全注意力机制的计算瓶颈,本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性:仅少数注意力头需要完整长上下文处理;长程检索主要依赖低维子空间,可通过轻量级索引器实现;且有用令牌预算高度依赖查询。基于此,RTPurbo仅对检索类注意力头保留完整KV缓存,并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性,该方法仅需数百步训练即可完成稀疏化。实验显示,RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速,同时保持近乎无损的推理准确率。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
S-Bus:用于多智能体LLM状态协调的自动读集重建

针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件,本研究提出S-Bus,一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制,能自动重建智能体的读集,提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中,与PostgreSQL及Redis均实现零数据腐败;形式化验证覆盖超2076万状态无违规。同时指出,该机制的适用性与系统拓扑相关,在单分片协作写入中可能传播矛盾。

智能体arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
E-PMQ:基于合并权重锚定的专家指导后合并量化框架

针对模型量化与合并结合时,量化偏差与合并偏差相互耦合导致性能下降的难题,本文提出了E-PMQ框架。该框架在逐层校准过程中,利用源模型的权重提供专家指导的输出目标,并引入合并权重锚定机制以稳定校准过程,从而有效整合合并模型的行为。实验结果表明,E-PMQ显著提升了量化后模型的性能:在CLIP-ViT-B/32的8任务合并中,4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%;在更具挑战性的20任务CLIP-ViT-L/14设置上,准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
56
CompactAttention:基于块联合键值选择的分块预填充加速

现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表,通过联合选择生成最小化块表,实现所选键值块的原地访问,避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上,在128K上下文中实现了接近密集注意力的精度,同时带来最高2.72倍的注意力计算加速。

arXiv推理论文/研究部署/工程
07:09
SemiAnalysis@SemiAnalysis_
57
正如我们对DeepSeek发布的期待,DeepSeek V4带来了更多炫目的ML系统优化。 这次是MegaMoE,一个1400行融合CUDA内核,可计算整个MoE前向传播。 让我们看看它是如何工作的(1/4)🧵
DeepSeek大佬观点数据/训练部署/工程
01:01
Claude:Blog(网页)
精选67
在法律行业全面部署Claude:产品指南与实施路线图

2026年报告显示,法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作,法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程,并通过多款产品组合提升效率:Chat用于即时研究,Claude Cowork处理跨文件协作,Microsoft 365插件集成办公套件,Platform支持定制应用开发。Anthropic同步发布法律行业部署指南,涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图,并解答数据托管与权限保护等关键问题。

智能体Anthropic教程/实践部署/工程

推荐理由:Anthropic法律团队亲自下场写路线图,从合同红笔到隐私评估,把Claude全家桶怎么用、什么时候用讲透了,律所和法务部可以直接照着推。
01:01
Hacker News 热门(buzzing.cc 中文翻译)
62
英国主权LLM推理

英国发布了主权大型语言模型推理服务relax.ai。该服务旨在提供基于英国本土基础设施的AI推理能力,确保数据主权和合规性。其核心变化在于将模型推理过程完全保留在英国境内,以满足对数据安全和隐私有严格要求的政府与企业客户。目前该服务已上线,相关技术文档可通过其官方网站获取。

产品更新部署/工程
00:31
Hacker News 热门(buzzing.cc 中文翻译)
54
面临提高人工智能使用率压力的亚马逊员工正在编造工作任务

亚马逊员工因面临提高人工智能使用率的压力,开始编造虚假工作任务。公司内部指标要求员工将60%的日常工作与AI工具结合,部分员工为达成目标,不得不为AI生成无意义的任务,例如要求AI总结已完成的会议记录或生成已知答案的问题。这一现象揭示了企业在强制推行AI应用过程中可能引发的效率悖论和形式主义问题。

行业动态部署/工程
5月15日
23:44
宝玉@dotey
71
Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?

Forward Deployed Engineer(FDE)是AI落地应用的关键角色,负责在客户现场部署和集成AI系统。近期,OpenAI成立独立部署公司,Anthropic与华尔街巨头合作,Google也简化流程大力招聘,显示行业重心正从模型竞赛转向商业落地。FDE工作介于工程师与顾问之间,需写代码、调试并深度理解业务。此岗位为毕业生提供了接触企业级项目的机会,也帮助资深工程师贴近业务需求,成为推动AI创造实际价值的重要力量。

现象/趋势部署/工程
23:37
OpenRouter@OpenRouter
精选74
OpenRouter BYOK 三项重大升级 🔑 1/ 可在同一工作空间为同一服务商添加多个密钥,并设置调用顺序。 便于在速率限制间轮换、区分开发与生产凭证,或在团队账户间分配使用量!
产品更新部署/工程

推荐理由:OpenRouter这次BYOK升级很实在,多了多密钥管理和顺序设置,做API分发的团队终于能告别手工切换凭证的痛了。
22:42
IT之家(RSS)
54
高德推出"华为鸿蒙 HarmonyOS 首个生成式 UI 开源框架"AGenUI,利用通用协议适配多终端界面

高德发布鸿蒙系统首个生成式UI开源框架AGenUI。该框架基于谷歌A2UI协议,以C++为核心,能将AI大模型生成的界面意图直接转化为鸿蒙原生组件,实现手机、平板、车机等多终端无缝适配。它深度适配鸿蒙全场景架构,直连系统渲染与分布式能力,无中间层损耗。性能上,相比iOS和Android版本,其渲染性能提升20%,内存占用降低18%。AGenUI已全面开源,旨在推动生成式UI成为鸿蒙生态的系统级标准能力。

开源/仓库部署/工程
21:33
公众号:百度智能云(文心)
38
让 Agent 真正跑起来,百度智能云升级了什么?

百度智能云对Agent相关功能进行了升级,旨在推动Agent从概念走向实际运行。具体升级内容尚未披露。

智能体产品更新部署/工程
21:20
OpenClaw🦞@openclaw
60
最新版OpenClaw速度提升约3.5倍 🦞 我们每6小时通过真实消息渠道(此处使用Telegram,采用全新的机器人间通信)对所有已发布的npm版本进行端到端RTT测试。不再有静默回归。 所有运行器均在@useblacksmith CI上运行。 在您察觉之前捕捉减速问题。
产品更新部署/工程
20:30
Hacker News 热门(buzzing.cc 中文翻译)
精选78
Show HN: 根据基准测试排名,为您的硬件寻找最适合的本地 LLM

一个名为“WhichLLM”的开源工具已在GitHub发布,可根据用户硬件配置推荐最适合的本地大语言模型。该工具通过基准测试对各类模型进行排名,帮助用户依据自身设备的性能指标选择最优模型。项目在Hacker News上获得116点热度,显示出社区对本地化AI部署效率工具的积极关注。

开源/仓库端侧部署/工程

推荐理由:选本地 LLM 不再靠猜,这个工具把基准测试和硬件匹配做得像查配置表,刚接触端侧的人也能立刻上手。
16:54
ginobefun@hongming731
64
Agent 工程化的全面落地

近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。

智能体AnthropicOpenAI开源生态
12:06
Orange AI@oran_ge
61
开源一个月的时间,飞书 CLI 在 Github 破万星了。 相比同期的一些 CLI,飞书这个确实是群里口碑最好的。 为 Agent 做软件这件事,飞书践行得很好。
智能体开源/仓库部署/工程
11:30
Hacker News 热门(buzzing.cc 中文翻译)
49
除了配重之外,GGUF里还包含什么--又还缺少什么?

GGUF 文件格式在存储机器学习模型权重的基础上,还包含了模型架构、超参数配置、分词器信息等关键元数据,提升了模型部署的便利性。然而,该格式目前仍缺乏标准化验证工具、完善的版本控制机制以及跨平台兼容性支持,限制了其广泛应用。文章在 Hacker News 上获得 101 点关注,反映了开发者对模型格式标准化与改进的持续讨论。

开源生态教程/实践部署/工程
10:54
歸藏(guizang.ai)@op7418
69
ChatGPT手机端现可远程控制Codex

Codex现已支持通过手机上的ChatGPT应用进行远程控制,实现了跨设备对话同步与指令操作。用户需在桌面端Codex客户端内启动设置,并完成多重因素验证(推荐使用Google Authenticator)。绑定后,手机ChatGPT App将出现Codex侧边栏,可查看并控制已绑定桌面设备的所有对话,直接发送命令。目前该功能仅支持Mac版Codex,Windows版本仍在开发中。

智能体OpenAI教程/实践部署/工程
09:30
Anthropic:Newsroom(网页)
精选75
普华永道全球部署Claude,助力客户构建技术、执行交易并重塑企业职能

普华永道与Anthropic宣布扩大战略联盟,将在全球数十万员工中部署Claude AI工具。双方将联合建立卓越中心,并培训认证3万名专业人员。合作聚焦三大高杠杆领域:智能体技术构建、AI原生交易执行以及企业职能重塑。普华永道已率先成立基于Claude的财务业务组。实际应用显示,Claude在保险承保、网络安全等多个领域能将交付时间缩短最高达70%,例如将保险承保周期从十周压缩至十天。

Anthropic行业动态部署/工程

推荐理由:PwC要把Claude推到数十万员工手里,从保险核保到网络安全都在跑生产,企业级AI落地的硬骨头这次真被啃动了,金融医疗的合规高墙破了个大洞。
09:08
SemiAnalysis@SemiAnalysis_
58
Cerebras今日IPO涨幅达90%,团队早有预判--但乔丹首先讨论了特朗普访华期间无人机警察小队追访福克斯新闻记者的事件。
行业动态部署/工程
08:41
IT之家(RSS)
21
美国陆军揭晓 NGC2 战场网络,让直升机、无人机与地面部队实现数据互联

美国陆军在“常春藤集丛”演习中测试了下一代指挥与控制(NGC2)战场网络系统。该系统旨在通过云计算软件取代旧网络,实现直升机、地面部队、无人机及后勤单位间的近实时数据共享。演习模拟了电子干扰与远程攻击环境,验证了AH-64E阿帕奇直升机与分布式小规模单位在共享侦察与目标数据下的协同作战能力。NGC2将作为多域作战的数字骨干,整合陆、空、网络、电子及天基系统,并探索利用人工智能辅助指挥官决策。

行业动态部署/工程
08:41
IT之家(RSS)
57
不用守电脑:手机端 ChatGPT 解锁 Codex,能实时远程控制 Mac 端 AI 任务

OpenAI于5月15日宣布,用户现可通过手机端ChatGPT应用远程控制Mac桌面端的Codex。用户升级应用后,可在手机上实时查看对话线程、审批请求、插件状态及项目上下文,并直接审批任务、发起新指令或更换模型。所有文件与权限仍保留在原电脑,但截图、终端输出等更新内容会实时推送至手机。连接时,Mac端Codex会生成二维码供手机扫描配对。目前该功能仅支持Mac版,Windows版将在未来推出。

智能体OpenAI产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
面向数据流的代理式大语言模型强化学习系统AstraFlow

为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题,我们提出AstraFlow。该系统采用数据流导向的组件化架构,替代了传统以训练器为中心的控制模式,将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练,并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中,AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明,在多策略协同训练下,它相比现有框架能达到相当或更好的任务准确率,并将训练速度提升2.7倍。

智能体数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
53
开放大语言模型中最大激活值的度量研究

本研究对8个开源模型系列的27个检查点进行了统一的激活值动态范围测量。研究发现:在相近参数规模下,全局最大激活值跨幅近四个数量级,其中混合专家模型峰值较稠密模型低14.0-23.4倍,且全局最大值多出现在残差流中。激活值大小并非简单的规模缩放产物,而是由模型系列、架构和训练阶段共同决定。研究建议在模型部署前应测量并公开该特性。代码已开源。

论文/研究部署/工程
05:12
Epoch AI@EpochAIResearch
61
服务器占有一座1吉瓦AI数据中心总持有成本的60%。 典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。
数据/训练论文/研究部署/工程
03:18
Tomer Tunguz 博客(VC 分析)
精选65
AI电子邮件的成本分析

使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。

推理现象/趋势部署/工程

推荐理由:Tunguz 给 AI 邮件算了一笔账,SOTA 模型月费 22-130 美元,但他更重要的判断是推理分割可以把成本压到百分之一,这对做 AI 软件的定价逻辑是个关键风向。
02:00
Claude:Blog(网页)
精选73
在大型代码库中高效运用Claude Code:最佳实践与入门指南

Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。

智能体AnthropicMCP/工具教程/实践

推荐理由:这是 Anthropic 官方出的 Claude Code 大型代码库配置指南,把 CLAUDE.md、hooks、skills 的层级和分工讲得比社区经验更系统,做工程落地的团队可以当作部署手册。
01:40
AYi@AYi_AInotes
69
吴恩达新课拆解Transformer,聚焦LLM生产落地与优化

吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。

Andrew Ng: New course: Transformers in Practice. You'll get a practical view of how transformer-based LLMs work, so you can reason ...

推理教程/实践部署/工程
01:09
Google Developers Blog(RSS)
精选62
Genkit 推出中间件系统:增强智能体AI应用的可控性与可靠性

Google开源框架Genkit近日推出其核心中间件系统,旨在提升智能体AI应用的可靠性与可控性。该系统允许开发者在生成调用、模型及工具层进行拦截,以注入自定义行为,如重试机制、模型回退以及人工介入的工具审批流程。通过创建并堆叠自定义中间件,开发者能够实现对模型输出的确定性控制。所有中间件的执行流程均可通过专用的开发者界面进行实时查看与调试,有效支持使用TypeScript、Go、Dart和Python构建生产就绪的智能体应用。

智能体Google产品更新部署/工程

推荐理由:Genkit 的中间件系统把 agent 行为变成可编程的拦截点,重试、fallback、人机审批都能挂上,对用 Genkit 上生产的团队来说,是个能让应用更「硬」的更新。
01:08
SemiAnalysis@SemiAnalysis_
60
在拉斯维加斯举行的最近一次Google Cloud Next大会上,谷歌发布了专注于推理的新型TPU,其采用名为"Broadfly"的新型网络拓扑结构。 通过采用高基数设计,谷歌可在单个集群中扩展至1,152个TPU。 与Ironwood相比,这使集群规模扩大4.5倍,同时减少网络直径,任意两芯片间最多仅需7次跳转。(1/3) 🧵
Google产品更新部署/工程
‹ 上一页
1…3233343536…50
下一页 ›