AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月13日周三
10:44HuggingFace Daily Papers(社区热门论文)56企业系统是否需要学习型世界模型?上下文对推断动态的重要性
10:34OpenRouter65Claude Opus 4.7快速模式上线OpenRouter
09:49ginobefun71构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK)
09:39IT之家(RSS)24海尔打造东南亚最大中央空调智造基地
09:05SemiAnalysis36生成式AI演示易做,生产部署难行
08:49ginobefun43AI Agent落地实践的三大核心层面
08:39IT之家(RSS)50谷歌联手 SpaceX 推进太空数据中心项目,计划 2027 年发射原型卫星
08:13Satya Nadella68精选微软推出多模型AI安全系统,集成超百智能体高效发现漏洞
08:00HuggingFace Daily Papers(社区热门论文)61KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务
08:00HuggingFace Daily Papers(社区热门论文)56HodgeCover:高阶拓扑覆盖驱动稀疏专家混合模型的压缩
07:53Simon Willison 博客40datasette 1.0a29 版本发布
05:53Claude Code:GitHub Releases(RSS)70精选v2.1.140 版本更新
02:33MiniMax (official)44M2.7模型接入更顺畅,合作助力团队应用
01:55Hacker News 热门(buzzing.cc 中文翻译)65亚马逊员工因被迫使用人工智能工具而进行"tokenmaxxing"
01:05Google Developers Blog(RSS)73精选使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体
01:04SemiAnalysis61聚合多台B200 GPU机器,吞吐量提升7倍并显著降低成本
5月12日周二
23:37Artificial Intelligence News(RSS)37JBS Dev:关于不完美数据与人工智能最后一公里--从模型能力到成本可持续性
22:41Perplexity56Qwen3模型在GB200平台实现高效推理
21:44HuggingFace Daily Papers(社区热门论文)69键值均值注意力机制
19:36IT之家(RSS)61孙正义豪赌 AI:软银拟投千亿美元在法国建晶圆厂与数据中心
19:36IT之家(RSS)57三星 SDS 牵头财团拿下韩国国家 AI 算力项目,目标 2028 年部署 1.5 万颗 AI 芯片
18:36IT之家(RSS)46车用电池承压拖累业绩,松下押注 AI 业务提振利润
18:00公众号:小红书技术(dots.llm)34QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾
17:58Alibaba Cloud22EventHouse:企业AI数据核心能力解析
14:25Hacker News 热门(buzzing.cc 中文翻译)71AWS 上的 Claude 平台
13:36IT之家(RSS)46瑞声科技高功率液冷 CDU 规模化量产,开启全球批量交付
13:36阿绎 AYi64Theo警告:新型供应链攻击肆虐,AI加剧安全危机
11:36IT之家(RSS)65AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能
10:36IT之家(RSS)57智元董事长邓泰华:具身智能有望成为未来最大单品工业品,甚至超过手机数量
10:31OpenRouter65OpenRouter助力Claude平台在AWS发布
08:49ginobefun71Claude Code推智能体视图,OpenAI成立部署公司,AI英雄主义时代终结
08:49ginobefun72OpenAI 推出 OpenAI 部署公司
08:35meng shao68Claude Platform on AWS 正式上线
08:00HuggingFace Daily Papers(社区热门论文)64Orthrus:基于双视图扩散的内存高效并行令牌生成
08:00HuggingFace Daily Papers(社区热门论文)62观点:应将大语言模型推理评估为"能量到Token的生产过程"
07:43Hugging Face:Blog(RSS)58精选在AWS上进行基础模型训练与推理的核心构建模块
06:49Berryxia.AI78Anthropic推出Claude Platform on AWS,消除企业采用障碍
01:57ClaudeDevs76Anthropic在AWS上正式推出Claude平台
01:53Chubby♨️65Anthropic推出AWS版Claude平台,简化企业采购与部署流程
01:29OpenCode49DeepSeek V4 Flash限时免费体验
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
10:44
HuggingFace Daily Papers(社区热门论文)
56
企业系统是否需要学习型世界模型?上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程
10:34
OpenRouter@OpenRouter
65
Opus 4.7 快速模式已在 OpenRouter 上线! 只需将您的模型设置为 `anthropic/claude-opus-4.7-fast` 具备完整的 Opus 4.7 智能,吞吐量提升约 2.5 倍
Anthropic产品更新部署/工程
09:49
ginobefun@hongming731
71
构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK)

Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。

智能体Google教程/实践部署/工程
09:39
IT之家(RSS)
24
海尔打造东南亚最大中央空调智造基地

海尔集团在泰国罗勇工业园奠基了东南亚规模最大的中央空调智造基地。该基地总投资超10亿元,占地约180亩,是海尔在海外首座中央空调AI智能体工厂。此举旨在应对东南亚城市化带来的商用暖通需求增长,预计到2030年区域订单需求将突破22万台。此前,海尔磁悬浮中央空调已实现全球市场8连冠,并在国内市场占据超45%份额。去年,海尔在泰国投产的年产600万套家用空调基地,已成为中国品牌在东南亚最大的家用空调制造基地。

行业动态部署/工程
09:05
SemiAnalysis@SemiAnalysis_
36
构建生成式AI演示只需数小时,但部署到生产环境才是大多数客户碰壁之处。
现象/趋势部署/工程
08:49
ginobefun@hongming731
43
AI Agent落地实践的三大核心层面

AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。

智能体Google现象/趋势部署/工程
08:39
IT之家(RSS)
50
谷歌联手 SpaceX 推进太空数据中心项目,计划 2027 年发射原型卫星

据《华尔街日报》报道,谷歌正与SpaceX谈判火箭发射协议,以推进其名为“Project Suncatcher”的太空数据中心计划,目标是在2027年前发射原型卫星。谷歌是SpaceX的早期投资者,持有其6.1%股份。为支撑这一愿景,SpaceX已申请发射多达100万颗卫星,旨在解决地面数据中心面临的土地与能耗问题。此外,SpaceX在筹备大规模IPO的同时,近期还宣布收购xAI等多项重大投资与合作。

Google行业动态部署/工程
08:13
Satya Nadella@satyanadella
精选68
微软推出多模型AI安全系统,集成超百智能体高效发现漏洞

微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。

智能体Microsoft产品更新部署/工程

推荐理由:微软把多模型代理系统用到安全漏洞挖掘上,100多个专业代理协作,在CyberGym基准拿了第一,做安全的朋友值得看看实际效果。
08:00
HuggingFace Daily Papers(社区热门论文)
61
KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
56
HodgeCover:高阶拓扑覆盖驱动稀疏专家混合模型的压缩

研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。

开源生态论文/研究部署/工程
07:53
Simon Willison 博客
40
datasette 1.0a29 版本发布

datasette 发布了 1.0a29 版本。本次更新新增了用于创建“_r”字典的 TokenRestrictions.abbreviated() 工具方法。界面改进方面,现在即使表格行数为零,表头和列选项也会正常显示,并修复了移动版 Safari 上列操作对话框的显示问题。此外,还解决了一个严重的段错误 bug,该问题源于 Datasette.close() 方法在多线程环境下可能引发的竞态条件。开发者通过 Codex CLI 配合 GPT-5.5 xhigh 创建了能复现问题的 Dockerfile,从而定位并修复了此问题。

产品更新开源/仓库部署/工程
05:53
Claude Code:GitHub Releases(RSS)
精选70
v2.1.140 版本更新

本次更新包含多项错误修复与体验优化。核心改进包括:增强了Agent工具的subagent_type匹配逻辑,现对大小写和分隔符不敏感;修复了/goal命令在特定钩子设置下无响应的问题,现会显示明确提示;解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外,还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、/loop命令调度冗余以及Read工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。

AnthropicGitHub产品更新部署/工程

推荐理由:Claude Code 这次修了一批烦人小 bug,尤其是 /goal 不再装死、/loop 不再空转,用着难受的开发者可以立刻更新试试。
02:33
MiniMax (official)@MiniMax_AI
44
M2.7 现在有了更顺畅的接入途径。感谢 @LilacML 帮助更多团队将其投入使用。🙌

Lilac: We're excited to announce our partnership with @MiniMax_AI! Read more at https://getlilac.com/blog/minimax-m2-7-partners...

产品更新部署/工程
01:55
Hacker News 热门(buzzing.cc 中文翻译)
65
亚马逊员工因被迫使用人工智能工具而进行"tokenmaxxing"

亚马逊员工因公司强制使用人工智能工具而进行“tokenmaxxing”,即通过优化输入策略以最大化AI工具输出,应对绩效压力。这一行为揭示了AI技术集成到工作流程中时,员工被迫适应新系统带来的挑战,可能影响工作效率和职场动态。报道在Hacker News上获得110点关注,显示科技社区对该议题的重视。

现象/趋势部署/工程
01:05
Google Developers Blog(RSS)
精选73
使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体

本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。

智能体Google教程/实践部署/工程

推荐理由:Google 官方手把手教你把无状态 chatbot 升级成能跨天跨周的持久化 agent,状态机和持久会话是两个关键切入点,做过生产环境 agent 的都懂这东西有多刚需。
01:04
SemiAnalysis@SemiAnalysis_
61
聚合多台B200 GPU机器,吞吐量提升7倍并显著降低成本

通过RoCEv2 CX-7以太网和Tomahawk交换机连接多台B200 8-GPU机器,并采用名为PD disaggregation的推理优化技术,单GPU的token吞吐量最高可提升7倍。吞吐量的大幅提升使得每百万token的成本也相应降低了最多7倍。这一成果得益于Inferact和vLLM项目开发的开源引擎,以及NVIDIA团队构建的动态推理编排器。未来针对B200 disaggregation的性能还将有进一步改进。

推理行业动态部署/工程
5月12日
23:37
Artificial Intelligence News(RSS)
37
JBS Dev:关于不完美数据与人工智能最后一公里--从模型能力到成本可持续性

JBS Dev总裁Joe Rose指出,在部署生成式与代理AI系统时存在一个普遍误解,即认为数据必须完美无缺才能开展相关工作。文章结合AI Fieldbook近期内容,探讨了AI应用从模型能力提升到实现成本可持续性的实际挑战,强调在真实场景中应对不完美数据是突破AI落地“最后一公里”的关键。

数据/训练现象/趋势部署/工程
22:41
Perplexity@perplexity_ai
56
我们发布了关于如何在NVIDIA GB200 NVL72 Blackwell机架上部署训练后Qwen3 235B模型的新研究。 GB200不仅是训练平台,更为大型MoE模型的高吞吐量推理带来了重大升级,相比Hopper实现显著进步。
论文/研究部署/工程
21:44
HuggingFace Daily Papers(社区热门论文)
69
键值均值注意力机制

研究团队提出键值均值注意力机制,这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层,仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异,仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现,无需定制内核,支持分块并行化训练与预填充,兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存,并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择,也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。

开源/仓库论文/研究部署/工程
19:36
IT之家(RSS)
61
孙正义豪赌 AI:软银拟投千亿美元在法国建晶圆厂与数据中心

软银集团CEO孙正义正商讨在法国投资高达1000亿美元,建设专注于人工智能的半导体晶圆厂与数据中心。该计划是其“伊邪那岐计划”的延伸,旨在依托旗下Arm的芯片设计技术,打造独立的人工智能半导体生态体系。法国因其有利的监管环境和充足的核电产能被选为核心选址。软银预计自身出资约300亿美元,其余资金可能由中东主权财富基金支持。此举被视为孙正义构建AI商业帝国的关键一步,但也引发了市场对其财务风险的担忧。

数据/训练行业动态部署/工程
19:36
IT之家(RSS)
57
三星 SDS 牵头财团拿下韩国国家 AI 算力项目,目标 2028 年部署 1.5 万颗 AI 芯片

韩国科技部选定由三星SDS牵头的财团,负责运营国家人工智能计算中心项目。该财团已落实4000亿韩元初始资本,计划今年三季度启动建设,总投资将达2.5万亿韩元。项目目标是在2028年前部署1.5万颗高端AI芯片,建成后将向韩国本土初创企业、中小企业和科研机构提供低成本、具全球竞争力的AI算力。项目还包括配套研发专区,旨在支持本土神经网络处理器的验证与商业化,完善韩国AI半导体产业生态。

行业动态部署/工程
18:36
IT之家(RSS)
46
车用电池承压拖累业绩,松下押注 AI 业务提振利润

松下控股宣布将大力发展人工智能相关业务以提升整体利润,目标在2029年3月财年实现调整后营业利润7500亿日元及以上,其中AI相关基础设施业务计划贡献1300亿日元利润增量。与此同时,其电动汽车电池部门因美国关税、新工厂投产成本及日本本土销量下滑等因素承压,上一财年营业利润大幅下滑42%至698亿日元,且在2024年1至3月季度录得38亿日元亏损。为应对AI需求,公司已开始在美国和日本工厂生产数据中心专用电池电芯。

行业动态部署/工程
18:00
公众号:小红书技术(dots.llm)
34
QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾

小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。

智能体教程/实践部署/工程
17:58
Alibaba Cloud@alibaba_cloud
22
🔍 是什么让EventHouse成为企业真正需要的AI数据支柱? 我们为您解析: ✅ EventHouse的核心能力 ✅ 其在AI时代的定位 ✅ 它如何帮助企业以前所未有的速度释放数据价值--并在快速变化的市场中推动增长 👉 了解更多:https://int.alibabacloud.com/m/1000412862/ #EventBridge #EventHouse #Cloudnative #AI #AIAgent
其他部署/工程
14:25
Hacker News 热门(buzzing.cc 中文翻译)
71
AWS 上的 Claude 平台

Claude 平台现已在 AWS 上正式发布,使开发者能够通过亚马逊云服务直接访问 Anthropic 的先进 AI 模型。这一集成将 Claude 平台扩展至 AWS 生态系统,提升了部署灵活性和可扩展性,可能支持更高效的 AI 应用开发。该公告在 Hacker News 上获得了 104 点关注,反映了科技社区对此的高度兴趣。

Anthropic产品更新部署/工程
13:36
IT之家(RSS)
46
瑞声科技高功率液冷 CDU 规模化量产,开启全球批量交付

瑞声科技旗下远地科技实现ATAHORAN系列2.2MW/2.6MW集中式液冷CDU的规模化量产,并启动全球批量交付。该产品为当前商用顶级高功率规格,专为AI智算中心与超算集群设计。公司月交付产能达400台,位居行业第一梯队及国内前三,已建成专用总装与测试产线,具备快速扩产能力。全球仅少数企业能实现此类产品的规模化量产。

行业动态部署/工程
13:36
阿绎 AYi@AYi_AInotes
64
Theo警告:新型供应链攻击肆虐,AI加剧安全危机

Theo发出严重警告,新型软件供应链攻击“Mini Shai-Hulud”通过污染GitHub Action缓存,在CI/CD环节注入恶意依赖,已毒化从TanStack扩散到UiPath、Mistral AI相关包等总计205个制品。攻击速度极快,6分钟内发布84个恶意版本,并利用窃取的凭证形成蠕虫式自我繁殖闭环。由于攻击发生在上游,恶意包拥有合法签名,使传统安全机制失效。AI编程助手和自动化工具的普及使得零人工审查成为常态,加剧了风险。当前,更新依赖已成为极高风险操作,必须采取强制lockfile、手动批准升级、轮转所有凭证等严格措施。

Theo - t3.gg: I hope you guys understand that this is going to keep getting worse

智能体安全/对齐部署/工程
11:36
IT之家(RSS)
65
AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能

AMD 发布 vLLM-ATOM 插件,旨在提升大语言模型在 AMD Instinct GPU 上的推理性能。该插件无需改动现有 vLLM 的命令、API 及工作流,即可为 DeepSeek-R1、Kimi-K2、Qwen3 等模型提供加速,覆盖 MoE、稠密模型及视觉语言模型场景。其三层架构在后台接管优化,重点面向 MI350、MI400 等系列 GPU,通过融合内核与注意力后端路由等技术,降低部署门槛,实现“零学习成本”的平滑迁移。

产品更新推理部署/工程
10:36
IT之家(RSS)
57
智元董事长邓泰华:具身智能有望成为未来最大单品工业品,甚至超过手机数量

在香港具身智能产业峰会上,智元机器人董事长邓泰华指出,具身智能产业潜力巨大,未来可能成为规模最大的单品工业品,市场规模可达“单车价格×手机数量”,长远甚至可能超过手机数量。他透露,智元已实现规模量产,3月底累计下线1万台机器人,2026年目标为数万台量产,并在香港落地行业首批7大部署态解决方案。同时,公司发布香港产业共创计划,未来5年将设立香港国际研发总部,通过“个十百千万”目标培育企业、发展伙伴,目标创造数千亿营收和数万亿港交所市值。

具身智能行业动态部署/工程
10:31
OpenRouter@OpenRouter
65
我们很荣幸能成为Anthropic的Claude平台在AWS发布的合作伙伴! 它已承载生产环境的OpenRouter流量,表现稳定,现已在所有适用的Claude模型中完成相应标注。
Anthropic行业动态部署/工程
08:49
ginobefun@hongming731
71
Claude Code推智能体视图,OpenAI成立部署公司,AI英雄主义时代终结

Claude Code发布智能体视图,将多会话管理集成于单一面板,旨在降低开发者并行工作的认知负担,标志着AI辅助编程进入“多线程”阶段。OpenAI宣布成立独立部署子公司,初始投入超四十亿美元,并派驻约150名前线部署工程师进入企业,表明AI竞争焦点已从模型能力转向实际落地能力。同时,行业观点认为,AI的“英雄主义时代”已经过去,当前稀缺的是靠谱、细致、负责任的工程执行力,而非天才洞察。

智能体AnthropicOpenAI行业动态
08:49
ginobefun@hongming731
72
OpenAI 推出 OpenAI 部署公司

OpenAI宣布成立独立子公司OpenAI Deployment Company,旨在解决企业AI落地难题。该公司通过收购AI咨询公司Tomoro,组建了约150名前线部署工程师团队,将常驻企业内部,识别高价值场景并将AI系统整合至工作流。OpenAI指出,当前企业AI的瓶颈已从模型能力转向实际业务落地。此轮融资超40亿美元,由TPG领投。此举标志着AI竞争焦点转向落地能力,OpenAI将该业务提升至战略层级,直接与主要云厂商的企业服务竞争。

OpenAI行业动态部署/工程
08:35
meng shao@shao__meng
68
Claude Platform on AWS 正式上线

Anthropic在AWS上正式推出Claude Platform,与现有的Claude on Amazon Bedrock形成两条独立产品线。平台版由双方共同运营,数据由Anthropic处理,但功能与原生API完全对齐且同步更新。其核心优势在于整合了AWS的IAM认证、CloudTrail审计、统一账单及承诺消费抵扣,同时提供Claude全功能套件,包括Managed Agents、Skills、联网搜索等。该服务适合需要完整功能并能接受数据由Anthropic处理的客户,而Bedrock版则面向对数据必须驻留AWS有严格合规要求的场景。

Claude: The Claude Platform on AWS is now generally available. AWS customers get the full set of Claude API features, with AWS a...

智能体Anthropic产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
Orthrus:基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
观点:应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv推理论文/研究部署/工程
07:43
Hugging Face:Blog(RSS)
精选58
在AWS上进行基础模型训练与推理的核心构建模块

本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。

开源生态教程/实践数据/训练部署/工程

推荐理由:这篇把AWS上训大模型的全套基础设施串了一遍,从GPU选型到网络存储再到Slurm/K8s编排,是做云端大规模训练的工程师的必读参考。
06:49
Berryxia.AI@berryxia
78
Anthropic推出Claude Platform on AWS,消除企业采用障碍

Anthropic正式在AWS上推出Claude Platform,使开发者能在其自有AWS环境中使用与原生API相同的模型和功能,包括Claude Managed Agents。关键突破在于工作负载、计费和IAM权限全部保留在企业自身的AWS账户内,无需数据出境。此举直接解决了大型企业以往采用前沿AI代理时面临的数据安全、采购流程和安全审查等核心障碍,为企业级应用扫清了最后的关键阻碍。

ClaudeDevs: We're introducing the Claude Platform on AWS. This gives developers access to the same models and features as our native...

智能体Anthropic产品更新部署/工程
01:57
ClaudeDevs@ClaudeDevs
76
Anthropic在AWS上正式推出Claude平台,使开发者能够在AWS环境中直接使用与原生API完全相同的Claude模型和全部功能,包括Claude托管智能体。该平台允许企业将计算负载、账单管理和IAM权限控制完全保留在AWS生态系统内部,同时由Anthropic负责平台的运营与维护。关键特性包括支持大规模构建和部署智能体,并能使用顾问策略、代码执行、网络搜索等高级功能。平台承诺所有新功能将在原生Claude API上线当日同步提供给AWS用户,确保了功能的一致性。

Claude: Build and deploy agents at scale with Claude Managed Agents, or use features like the advisor strategy, code execution, ...

智能体Anthropic产品更新部署/工程
01:53
Chubby♨️@kimmonismus
65
Anthropic推出AWS版Claude平台,简化企业采购与部署流程

Anthropic在AWS上推出了Claude平台,此举并非发布新模型,而是旨在简化企业采购与部署流程的战略举措。AWS客户现在可以直接通过AWS的身份验证、账单系统、承诺消费抵扣及治理工具访问原生Claude平台,无需强制使用Amazon Bedrock服务。该平台为客户提供完整的原生Claude体验,但服务本身由Anthropic运营,数据处理在AWS的边界之外进行。这显著降低了企业用户的采用门槛,是Anthropic推动其模型在企业市场广泛采用的关键一步。

Anthropic产品更新部署/工程
01:29
OpenCode@opencode
49
OpenCode x DeepSeek V4 Flash - 限时免费 DeepSeek V4 Flash目前是我们Go中最受欢迎的模型 如果还没尝试过,快来体验吧
DeepSeek产品更新部署/工程
‹ 上一页
1…3435363738…50
下一页 ›