AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月1日周五
02:15Claude:Blog(网页)64精选Claude Code 构建经验:提示缓存的优化实践
02:13Ant Ling76精选AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
02:00OpenRouter:Announcements(RSS)58精选OpenRouter 推出 Response Caching:相同请求零成本缓存
02:00OpenRouter:Announcements(RSS)39OpenRouter 响应缓存:相同请求零成本
02:00OpenRouter:Announcements(RSS)59精选Response Caching:相同请求零成本
01:15Claude56Claude Security公测启动 助力企业代码安全
4月30日周四
23:43TestingCatalog News 🗞61Manus AI发布全天候云端计算机Cloud Computer
23:14Ethan Mollick55前沿模型API与原生应用能力差距渐显
23:10IT之家(RSS)56三星和 SK 海力士纷纷警告:AI 导致的内存短缺问题可能持续至 2027 年及以后
20:10ginobefun51京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈
20:00Cursor Blog55精选持续优化智能体工具链:上下文演进与效果评估
18:39Alibaba Cloud44HiClaw v1.1.0发布:支持K8s原生与Hermes代理
17:10IT之家(RSS)62快手推出 AI 桌面智能体 KroWork,支持通过自然语言生成本地应用
16:09meng shao62OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?
15:09IT之家(RSS)52Counterpoint:联发科有望占据 AI 计算 ASIC 市场 1/4 份额,仅次于博通
15:09IT之家(RSS)51英特尔携手 AMD 发布 ACE 架构提升 AI 性能,x86 矩阵计算密度提升 16 倍
14:35IT之家(RSS)49英伟达高管称现阶段 AI 服务运营成本高于人力成本
11:34IT之家(RSS)37Linux 内核潜伏 9 年漏洞披露:732 字节脚本攻破 Ubuntu 等发行版,提权至 root 最高权限
10:43智谱:研究(网页内嵌数据)55精选超大规模编码代理推理实践
10:42HuggingFace Daily Papers(社区热门论文)54通过系统集成推测解码加速强化学习后训练中的生成过程
09:40ginobefun42通向AGI需持续学习,AI代理自动化交付链成型
09:34Simon Willison 博客47llm 0.32a0 发布
09:34IT之家(RSS)54亚马逊2026Q1净利润303亿美元同比增77%,AWS云业务增速创3年新高
08:40Berryxia.AI55智能体可自主完成Cloudflare账户管理
08:34IT之家(RSS)56168 小时试运行试验圆满完成:我国首个民营资本参股项目、长三角首台"华龙一号"核电机组投产发电
08:34IT之家(RSS)57消息称 OpenAI 调整"星际之门"计划:更大程度依赖算力租赁
08:30公众号:智谱(GLM)47Scaling Pain:智谱GLM超大规模Coding Agent推理实践
07:14OpenAI:官网动态(RSS · 排除企业/客户案例)74精选为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展
07:09OpenAI Developers63精选轻松构建网页应用
05:36Z.ai59模型规模化部署的挑战与GLM-5服务调试经验
03:34Simon Willison 博客68LLM 0.32a0 发布重大向后兼容重构
02:43LMSYS:Blog(Chatbot Arena 团队)74精选秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术
02:36Cloudflare Blog65精选Agents 现可创建 Cloudflare 账户、购买域名并部署
02:06Google AI52智能体时代启幕:谷歌发布第八代TPU,专为AI训练与服务打造
01:13Replit ⠕56Replit推出应用监控功能,运维难题迎刃而解
01:01OpenRouter54OpenRouter接入Stripe支付支持400+模型
00:39Google Developers Blog(RSS)57精选加速AI:通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch
00:39Hugging Face:Blog(RSS)50DeepInfra 登陆 Hugging Face 推理服务提供商 🔥
00:09Chubby♨️52Cursor发布SDK,将智能体运行时转为可编程基础设施
4月29日周三
23:42Ant Ling71精选Ling-2.6-1T万亿参数模型开源,主打令牌高效
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
02:15
Claude:Blog(网页)
精选64
Claude Code 构建经验:提示缓存的优化实践

Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。

智能体AnthropicMCP/工具教程/实践

推荐理由:Claude Code团队把提示缓存的坑和优化方法全盘托出,从提示顺序、工具加载到压缩技巧,每一个经验都是钱和延迟换来的,做agent的同行可以直接拿去做架构参考。
02:13
Ant Ling@AntLingAGI
精选76
AntLingAGI团队宣布Ling-2.6-1T模型正式开源,已登陆Hugging Face平台,并通过Novita Labs提供官方推理体验。该模型采用混合专家架构,总参数1万亿、激活参数630亿,核心优化方向为"令牌效率"以满足真实生产需求。具体表现为:低令牌开销,能在无需冗长推理链的情况下保持强大智能;可靠的多步执行能力,提升指令、工具、上下文和工作流的控制水平;生产就绪的部署特性,覆盖从代码生成到错误修复的任务,并广泛兼容各类智能体框架。团队旨在通过降低测试、部署、定制和构建的难度,为开发者创造价值。

Ant Ling: Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B activ...

智能体Hugging Face模型发布部署/工程

推荐理由:1T参数开源模型不是天天有,蚂蚁这个Ling-2.6-1T强调token效率和Agent能力,做Agent的可以直接去Hugging Face上跑一下,看看是不是真的在生产环境省token。
02:00
OpenRouter:Announcements(RSS)
精选58
OpenRouter 推出 Response Caching:相同请求零成本缓存

OpenRouter 新增 Response Caching 头部,用于缓存完全相同的 API 请求,使后续请求的响应时间大幅缩短,且缓存调用完全免费。

产品更新部署/工程

推荐理由:OpenRouter 这波缓存功能很实在,相同请求零费用,对频繁调用的开发者是省钱利器。可惜 42 天前的东西,现在只能当文档翻翻。
02:00
OpenRouter:Announcements(RSS)
39
OpenRouter 响应缓存:相同请求零成本

OpenRouter 推出 Response Caching header,允许缓存相同的 API 请求,使响应时间缩短至极小,且完全零成本。

产品更新部署/工程
02:00
OpenRouter:Announcements(RSS)
精选59
Response Caching:相同请求零成本

新推出的 Response Caching 头部实现了 API 请求的缓存机制,完全相同的请求可获得缓存响应,响应时间大幅缩短至微乎其微的水平,且不会产生额外成本。该功能通过自动识别并复用已生成的响应,显著提升了重复请求的处理效率。

产品更新部署/工程

推荐理由:OpenRouter 这次更新的响应缓存,直接让相同请求免费用,对频繁调用的场景是个省钱加速的好功能,用过 API 的人都能立刻明白它的价值。
01:15
Claude@claudeai
56
Claude Security 现已面向 Claude Enterprise 客户开启公开测试版。 Claude 会扫描您的代码库以查找漏洞,验证每个发现以减少误报,并建议您可以审查和批准的补丁。
Anthropic产品更新安全/对齐部署/工程
4月30日
23:43
TestingCatalog News 🗞@testingcatalog
61
Manus AI宣布推出Cloud Computer,这是一种作为基础设施的、7x24小时持续运行的云端计算机。用户可通过它托管Discord和Telegram的持久运行机器人,构建持久知识库,部署并托管任何开源工具,运行定时网络爬虫,以及使用命令行开发者工具。该服务现已面向付费个人用户开放网页版和移动版访问,团队计划即将推出。

Manus: Read the full launch post for everything you can build with your Cloud Computer! Team plan coming soon! https://manus.im...

智能体产品更新部署/工程
23:14
Ethan Mollick@emollick
55
我越来越认为,我们将看到前沿模型API与前沿实验室原生应用(如Codex、Claude Code)之间的能力差距。针对其原生框架开发和训练的模型,在其框架内具备更多功能。
智能体大佬观点部署/工程
23:10
IT之家(RSS)
56
三星和 SK 海力士纷纷警告:AI 导致的内存短缺问题可能持续至 2027 年及以后

三星电子和SK海力士两大存储巨头相继预警,由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年,甚至可能延续到2030年。短缺的核心是高带宽内存(HBM),其制造难度大、产能受限,需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜,已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产,但产能爬坡需时数年,难以追上AI需求增长。此次短缺推动厂商业绩飙升,三星半导体部门2026年第一季度营业利润达53.7万亿韩元,其中约94%来自AI存储芯片。

行业动态部署/工程
20:10
ginobefun@hongming731
51
京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

教程/实践数据/训练部署/工程
20:00
Cursor Blog
精选55
持续优化智能体工具链:上下文演进与效果评估

Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。

智能体AnthropicOpenAI教程/实践

推荐理由:Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一,从上下文管理到多 agent 调度,全是实战迭代的血泪经验,做 agent 的团队该逐字读。
18:39
Alibaba Cloud@alibaba_cloud
44
HiClaw v1.1.0 现已发布!🚀 🔹 K8s 原生:具备高可用和 RBAC 的生产就绪 Helm chart。 🔹 Hermes 支持:自主编码代理作为一等工作者。 🔹 轻量化:镜像大小减少约 1.7GB。 🔹 企业就绪:多租户隔离与可插拔存储。 立即升级以获得可扩展的 AI 编排能力! 了解更多:https://int.alibabacloud.com/m/1000412675/ #HiClaw #Kubernetes #AI
智能体产品更新部署/工程
17:10
IT之家(RSS)
62
快手推出 AI 桌面智能体 KroWork,支持通过自然语言生成本地应用

快手于4月30日发布AI桌面智能体KroWork。用户可通过自然语言指令驱动AI完成文件处理、浏览器自动化等任务,并能将重复性工作流固化为本地桌面应用,实现零token消耗、输出稳定且保障数据安全。该产品面向市场营销、财务等非技术用户,集成Qwen、Kimi等主流模型,支持沙箱执行和权限管控,旨在降低软件开发门槛,让个人能将日常需求转化为桌面工具。

智能体产品更新端侧部署/工程
16:09
meng shao@shao__meng
62
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?

OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

OpenAI Developers: ⚙️ We made agent loops faster with WebSockets in the Responses API As Codex got faster, the bottleneck moved from infere...

智能体OpenAI教程/实践部署/工程
15:09
IT之家(RSS)
52
Counterpoint:联发科有望占据 AI 计算 ASIC 市场 1/4 份额,仅次于博通

调研机构Counterpoint Research预测,联发科凭借与谷歌的合作,其AI服务器计算ASIC出货量有望在未来两年内实现数量级增长。到2028年,联发科预计将交付500万颗谷歌TPU芯片,占据该市场26%的份额,成为仅次于博通的第二大设计服务参与者。合作中,谷歌负责核心计算芯片设计,联发科提供I/O芯片,这种新模式有助于节省设计成本并避免HBM内存的加价。双方正共同推进TPU v8e项目,计划于2027年底量产,并可能采用英特尔的先进封装技术。

Google行业动态部署/工程
15:09
IT之家(RSS)
51
英特尔携手 AMD 发布 ACE 架构提升 AI 性能,x86 矩阵计算密度提升 16 倍

英特尔与AMD联合发布人工智能计算扩展(ACE)白皮书,将其确立为x86架构的标准矩阵加速方案。该扩展旨在突破现有SIMD扩展在计算密度与扩展性上的局限,通过引入基于外积运算的矩阵加速机制,无缝集成AVX10。据白皮书数据,在消耗相同数量输入向量的前提下,ACE的计算密度比等效的AVX10乘加运算高出16倍。它支持INT8、FP8、BF16等主流AI数据格式,并计划适配PyTorch、TensorFlow等机器学习框架,目标是为从笔记本电脑到超级计算机的全场景提供高效的矩阵加速支持。

推理端侧行业动态部署/工程
14:35
IT之家(RSS)
49
英伟达高管称现阶段 AI 服务运营成本高于人力成本

英伟达应用深度学习副总裁与Uber首席技术官指出,当前AI服务(如代码助手、自动化智能体)的运营成本已超过人力成本,挑战了“AI必然降本增效”的普遍预期。AI服务定价包括每月20美元订阅费或功能完备版200美元,但基于Token计费的编程助手等工具导致实际开支远超预算。尽管如此,许多企业CEO将高昂成本视为积极信号,认为这表明员工正深入使用AI工具推动自动化与创新,并将其重新定义为战略投资。

大佬观点部署/工程
11:34
IT之家(RSS)
37
Linux 内核潜伏 9 年漏洞披露:732 字节脚本攻破 Ubuntu 等发行版,提权至 root 最高权限

Linux内核曝出高危漏洞“Copy Fail”(CVE-2026-31431)。该漏洞源于2017年引入的代码优化,结合AF_ALG加密接口与splice()系统调用,允许攻击者通过一个仅732字节的Python脚本,稳定篡改系统可信二进制文件,从而在所有主流Linux发行版上轻松提权至root。其影响范围覆盖2017年至补丁发布前构建的内核版本,并能导致容器逃逸,严重威胁云原生环境。目前官方已发布修复补丁。

安全/对齐部署/工程
10:43
智谱:研究(网页内嵌数据)
精选55
超大规模编码代理推理实践

在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。

编码论文/研究部署/工程

推荐理由:智谱公开了超大规模Coding Agent推理的工程细节,KV Cache竞态的修复和分层存储方案可以直接用,做Agent infra的值得收藏。
10:42
HuggingFace Daily Papers(社区热门论文)
54
通过系统集成推测解码加速强化学习后训练中的生成过程

前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中,在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现,支持同步与异步流水线,允许在RL生成阶段进行推测。实验表明,在8B规模的同步RL推理任务中,推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测,在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。

arXiv推理论文/研究部署/工程
09:40
ginobefun@hongming731
42
通向AGI需持续学习,AI代理自动化交付链成型

DeepMind联合创始人Demis Hassabis指出,实现AGI不能仅依赖预训练和RLHF,必须补足持续学习与长程推理能力,并将时间节点锁定在2030年前后。同时,AI代理的自动化交付链条正在快速构建:OpenAI Codex已升级为高活跃度的并行工程平台,能自动分解任务;Cloudflare与Stripe合作推出新协议,使AI代理能自主完成开户、支付、部署等全流程,实现无人值守的软件交付。

智能体DeepMindOpenAI行业动态
09:34
Simon Willison 博客
47
llm 0.32a0 发布

Simon Willison 发布了其命令行工具 LLM 的 0.32a0 版本。此次更新为 alpha 预发布版本,主要变更与详细说明可通过 GitHub 的发布页面及作者博客上的注解式发布说明获取。该版本标志着 LLM 工具在功能或兼容性上的进一步迭代,通常涉及对大型语言模型(如 GPT、Claude、LLaMA 等)进行访问或操作的改进。

产品更新开源生态部署/工程
09:34
IT之家(RSS)
54
亚马逊2026Q1净利润303亿美元同比增77%,AWS云业务增速创3年新高

亚马逊2026财年第一季度业绩强劲,净销售额1815亿美元,同比增长17%;净利润达303亿美元,同比大涨77%。核心云业务AWS营收375.9亿美元,同比增长28%,创逾3年来最快增速。公司正大力投资人工智能,年度资本支出预算高达2000亿美元,导致过去12个月自由现金流骤降95%至12亿美元。同时,亚马逊宣布以约115.7亿美元收购Globalstar,以获取全球频谱资源并深化与苹果的合作。

行业动态部署/工程
08:40
Berryxia.AI@berryxia
55
越来越方便了,Agent来帮你完成Cloud Flare 中的创建账号,启动付费订阅,注册域名… 任务。

Cloudflare: Starting today, agents can now be Cloudflare customers. They can create a Cloudflare account, start a paid subscription,...

智能体产品更新部署/工程
08:34
IT之家(RSS)
56
168 小时试运行试验圆满完成:我国首个民营资本参股项目、长三角首台"华龙一号"核电机组投产发电

中广核浙江三澳核电项目1号机组已完成168小时试运行,正式投产发电,成为我国首个民营资本参股项目、长三角地区首台“华龙一号”核电机组。该机组预计年发电量超90亿千瓦时,可满足超100万居民的年度用电需求。项目规划建设6台“华龙一号”机组,目前已核准4台;全部建成后,年发电能力预计超540亿千瓦时,每年可减少标煤消耗超1635万吨、减排二氧化碳近5000万吨,相当于新增植树造林面积超12万公顷。

行业动态部署/工程
08:34
IT之家(RSS)
57
消息称 OpenAI 调整"星际之门"计划:更大程度依赖算力租赁

OpenAI正调整其“星际之门”AI基础设施建设计划,从原先侧重自建转向更大程度依赖算力租赁。公司将通过一系列大型双边交易来满足算力需求,具体将以Nscale→微软→OpenAI的间接方式,从原“星际之门·挪威”数据中心站点获取资源。微软同时将接手原计划作为首个站点扩建项目的美国得克萨斯州阿比林园区二期,以支持受此调整影响的企业。这一转变意味着OpenAI缩减了自建算力设施的规模。

OpenAI行业动态部署/工程
08:30
公众号:智谱(GLM)
47
Scaling Pain:智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。

推理教程/实践部署/工程
07:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

OpenAI行业动态部署/工程

推荐理由:这不是模型发布,但算力扩张才是 AGI 竞赛的真正底层,数据中心扩容直接关系到下一代模型能不能训出来,做基础设施的可以盯一下供应链。
07:09
OpenAI Developers@OpenAIDevs
精选63
你完全可以构建网络应用

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI教程/实践编码部署/工程

推荐理由:OpenAI开发者官方转发了这篇‘直接构建web应用’的文章,说明这可能是他们认可的实践路径,对想用AI快速搭应用的开发者算是个值得收藏的参考。
05:36
Z.ai@Zai_org
59
模型规模化部署的挑战与GLM-5服务调试经验

模型能力的提升遵循扩展定律,但其在生产环境中的可靠性取决于如何应对“规模化阵痛”。博客通过GLM-5大规模服务的调试实例,分享了处理罕见乱码输出、重复及生僻字符生成等问题的经验。关键工作包括追踪并消除KV Cache的竞态条件、修复HiCache同步问题,以及引入LayerSplit技术以实现最高132%的吞吐量提升。这些实践旨在帮助社区避免类似陷阱,构建更健壮的推理基础设施。

教程/实践部署/工程
03:34
Simon Willison 博客
68
LLM 0.32a0 发布重大向后兼容重构

LLM Python库和CLI工具发布0.32a0 alpha版本,进行了两项核心架构升级。首先,模型输入现支持表示为消息序列,能直接处理包含多轮对话历史的完整上下文,解决了此前难以载入已有对话的局限。其次,模型响应升级为支持由不同类型部分组成的流式输出,以更好地适配现代前沿模型处理多样化输入(如图像、音频)和输出(如结构化JSON、工具调用)的能力。此次重构旨在让该库的抽象层跟上LLM技术自2023年以来的快速演进。

GitHubMCP/工具开源/仓库部署/工程
02:43
LMSYS:Blog(Chatbot Arena 团队)
精选74
秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由:LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P,1T 参数模型传输快了 7 倍,做大规模 RL infra 的团队该认真看看这个工程方案。
02:36
Cloudflare Blog
精选65
Agents 现可创建 Cloudflare 账户、购买域名并部署

Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名,并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限,但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。

智能体产品更新部署/工程

推荐理由:Cloudflare 把 AI 代理当成真正客户,从注册到部署一气呵成,这比给个 API 更彻底,做 agent 框架的同学该看一眼。
02:06
Google AI@GoogleAI
52
智能体时代启幕:谷歌发布第八代TPU,专为AI训练与服务打造

在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。

Google产品更新推理部署/工程
01:13
Replit ⠕@Replit
56
构建应用很容易--让它们持续运行则不然 Replit应用监控正式推出 Replit代理现可监控您生产环境中的应用,排查问题并协助修复--让您无需亲力亲为
智能体产品更新部署/工程
01:01
OpenRouter@OpenRouter
54
`stripe projects add openrouter/api` 为 400 多种 LLM 及图像/视频/音频模型接受 @stripe 付款的便捷方式,现已向所有人开放!https://openrouter.ai/announcements/openrouter-on-stripe-projects

Stripe: Vibedeploy with Stripe Projects, now available to everyone: https://projects.dev/.

产品更新部署/工程
00:39
Google Developers Blog(RSS)
精选57
加速AI:通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch

Google Cloud推出了一项高性能集成方案,通过fsspec接口将Rapid Storage直接连接至PyTorch,以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术,可提供高达15 TiB/s的聚合吞吐量,并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码,即可将总训练时间缩短23%。

Google产品更新部署/工程

推荐理由:Google 把自家 Colossus 存储架构直接接进 PyTorch,号称零代码改动提速 23%,做大规模训练的团队值得评估一下,但对大多数人来说这更像 GCP 的护城河加固。
00:39
Hugging Face:Blog(RSS)
50
DeepInfra 登陆 Hugging Face 推理服务提供商 🔥

DeepInfra 作为高性能、低成本的推理服务提供商,现已在 Hugging Face 平台正式上线。该服务支持众多开源模型,包括 LLaMA、Mistral 等系列,并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号,显著降低了 AI 模型部署与调用的门槛,进一步推动了开源人工智能技术的普及与应用。

Hugging Face行业动态部署/工程
00:09
Chubby♨️@kimmonismus
52
Cursor正从集成开发环境转向平台化战略,通过发布SDK,将其智能体运行时转变为可编程基础设施。该基础设施可无头运行于CI/CD流水线、内部工具及第三方产品中。每次通过SDK启动的智能体都将消耗Cursor的计费代币,这意味着其收入模式将按计算量而非用户席位进行扩展。由于无需人工介入,使用量可大幅提升。此举旨在让开发者能利用驱动Cursor的相同运行时、工具链和模型来构建智能体。

Cursor: We're introducing the Cursor SDK so you can build agents with the same runtime, harness, and models that power Cursor. R...

智能体MCP/工具产品更新部署/工程
4月29日
23:42
Ant Ling@AntLingAGI
精选71
Ling-2.6-1T万亿参数模型开源,主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。

Ant Ling: 🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把万亿参数模型开源了,但强调的不是大,而是省 token,这对成本敏感的生产环境是真正的性价比之选,做 agent 的可以上手测测。
‹ 上一页
1…4142434445…50
下一页 ›