AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
5月1日周五
02:00OpenRouter:Announcements(RSS)58精选OpenRouter 推出 Response Caching:相同请求零成本缓存
02:00OpenRouter:Announcements(RSS)39OpenRouter 响应缓存:相同请求零成本
02:00OpenRouter:Announcements(RSS)59精选Response Caching:相同请求零成本
4月30日周四
20:00Cursor Blog55精选持续优化智能体工具链:上下文演进与效果评估
10:43智谱:研究(网页内嵌数据)55精选超大规模编码代理推理实践
08:30公众号:智谱(GLM)47Scaling Pain:智谱GLM超大规模Coding Agent推理实践
07:14OpenAI:官网动态(RSS · 排除企业/客户案例)74精选为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展
02:43LMSYS:Blog(Chatbot Arena 团队)74精选秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术
02:36Cloudflare Blog65精选Agents 现可创建 Cloudflare 账户、购买域名并部署
00:39Google Developers Blog(RSS)57精选加速AI:通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch
00:39Hugging Face:Blog(RSS)50DeepInfra 登陆 Hugging Face 推理服务提供商 🔥
4月29日周三
20:00OpenRouter:Announcements(RSS)50OpenRouter 集成 Stripe Projects,支持通过 CLI 一行命令创建账户并获取 API 密钥与计费
20:00OpenRouter:Announcements(RSS)60精选OpenRouter 推出 CLI 创建账户功能,集成 Stripe 计费
20:00OpenRouter:Announcements(RSS)65精选通过 Stripe Projects 命令行创建 OpenRouter 账户
19:07公众号:通义实验室(千问)53FlashQLA:让 Qwen 的注意力层跑得更快
06:35Claude Code:GitHub Releases(RSS)52版本v2.1.122更新摘要
01:11OpenAI:官网动态(RSS · 排除企业/客户案例)71精选OpenAI模型、Codex与托管智能体登陆AWS平台
4月28日周二
23:39Mistral AI:News(网页)68Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
19:07Qwen:Blog Retrieval(API)57精选FlashQLA: 面向GDN的CP-/Bwd友好型融合线性注意力内核
12:34Tomer Tunguz 博客(VC 分析)64精选GPU现货价格六周内暴涨114%
12:33Runway:News(网页)58精选无闲置GPU:Runway的研究计算管理
08:28Hugging Face:Blog(RSS)58精选Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI
00:46CMU:Machine Learning Blog58精选介绍ARFBench:基于真实事件的时间序列问答基准
4月27日周一
23:58GitHub Blog79精选GitHub Copilot 将转向基于使用量的计费模式
22:28Hugging Face:Blog(RSS)53如何利用OpenAI的Privacy Filter构建可扩展的Web应用
08:00OpenRouter:Announcements(RSS)46Opus 4.7 的新 Tokenizer:它到底花了多少钱
08:00OpenRouter:Announcements(RSS)57精选Opus 4.7新分词器对成本的实际影响
00:00Mistral AI:News(网页)51为运营业务的工作打造的工作流 Workflows 现已进入公开预览。2026年4月27日 Mistral AI
4月23日周四
08:00Google Developers Blog(RSS)59精选使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能
08:00蚂蚁百灵:Developer Blog(网页)67精选Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
4月22日周三
23:07OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 推出 Privacy Filter
21:00Cloudflare Blog提升 Rust Workers 可靠性:wasm-bindgen 中的 panic 与中止恢复
20:12Google Blog:AI(RSS)Google 推出两款面向智能体时代的专用 TPU
20:00OpenRouter:Announcements(RSS)42OpenRouter 推出 Workspaces
20:00OpenRouter:Announcements(RSS)52OpenRouter 推出 Workspaces 功能
20:00OpenRouter:Announcements(RSS)52工作空间简介
09:00公众号:蚂蚁百灵(Ling)40Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
4月21日周二
20:00Cursor Blog55精选保持 Cursor 应用稳定
4月20日周一
21:00Cloudflare Blog我们基于对外交付平台构建的内部 AI 工程栈
21:00Cloudflare Blog构建智能体云:Agents Week 2026 期间发布的所有产品
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
02:00
OpenRouter:Announcements(RSS)
精选58
OpenRouter 推出 Response Caching:相同请求零成本缓存

OpenRouter 新增 Response Caching 头部,用于缓存完全相同的 API 请求,使后续请求的响应时间大幅缩短,且缓存调用完全免费。

产品更新部署/工程

推荐理由:OpenRouter 这波缓存功能很实在,相同请求零费用,对频繁调用的开发者是省钱利器。可惜 42 天前的东西,现在只能当文档翻翻。
02:00
OpenRouter:Announcements(RSS)
39
OpenRouter 响应缓存:相同请求零成本

OpenRouter 推出 Response Caching header,允许缓存相同的 API 请求,使响应时间缩短至极小,且完全零成本。

产品更新部署/工程
02:00
OpenRouter:Announcements(RSS)
精选59
Response Caching:相同请求零成本

新推出的 Response Caching 头部实现了 API 请求的缓存机制,完全相同的请求可获得缓存响应,响应时间大幅缩短至微乎其微的水平,且不会产生额外成本。该功能通过自动识别并复用已生成的响应,显著提升了重复请求的处理效率。

产品更新部署/工程

推荐理由:OpenRouter 这次更新的响应缓存,直接让相同请求免费用,对频繁调用的场景是个省钱加速的好功能,用过 API 的人都能立刻明白它的价值。
4月30日
20:00
Cursor Blog
精选55
持续优化智能体工具链:上下文演进与效果评估

Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。

智能体AnthropicOpenAI教程/实践

推荐理由:Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一,从上下文管理到多 agent 调度,全是实战迭代的血泪经验,做 agent 的团队该逐字读。
10:43
智谱:研究(网页内嵌数据)
精选55
超大规模编码代理推理实践

在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。

编码论文/研究部署/工程

推荐理由:智谱公开了超大规模Coding Agent推理的工程细节,KV Cache竞态的修复和分层存储方案可以直接用,做Agent infra的值得收藏。
08:30
公众号:智谱(GLM)
47
Scaling Pain:智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。

推理教程/实践部署/工程
07:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

OpenAI行业动态部署/工程

推荐理由:这不是模型发布,但算力扩张才是 AGI 竞赛的真正底层,数据中心扩容直接关系到下一代模型能不能训出来,做基础设施的可以盯一下供应链。
02:43
LMSYS:Blog(Chatbot Arena 团队)
精选74
秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由:LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P,1T 参数模型传输快了 7 倍,做大规模 RL infra 的团队该认真看看这个工程方案。
02:36
Cloudflare Blog
精选65
Agents 现可创建 Cloudflare 账户、购买域名并部署

Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名,并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限,但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。

智能体产品更新部署/工程

推荐理由:Cloudflare 把 AI 代理当成真正客户,从注册到部署一气呵成,这比给个 API 更彻底,做 agent 框架的同学该看一眼。
00:39
Google Developers Blog(RSS)
精选57
加速AI:通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch

Google Cloud推出了一项高性能集成方案,通过fsspec接口将Rapid Storage直接连接至PyTorch,以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术,可提供高达15 TiB/s的聚合吞吐量,并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码,即可将总训练时间缩短23%。

Google产品更新部署/工程

推荐理由:Google 把自家 Colossus 存储架构直接接进 PyTorch,号称零代码改动提速 23%,做大规模训练的团队值得评估一下,但对大多数人来说这更像 GCP 的护城河加固。
00:39
Hugging Face:Blog(RSS)
50
DeepInfra 登陆 Hugging Face 推理服务提供商 🔥

DeepInfra 作为高性能、低成本的推理服务提供商,现已在 Hugging Face 平台正式上线。该服务支持众多开源模型,包括 LLaMA、Mistral 等系列,并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号,显著降低了 AI 模型部署与调用的门槛,进一步推动了开源人工智能技术的普及与应用。

Hugging Face行业动态部署/工程
4月29日
20:00
OpenRouter:Announcements(RSS)
50
OpenRouter 集成 Stripe Projects,支持通过 CLI 一行命令创建账户并获取 API 密钥与计费

运行 stripe projects add openrouter/api 即可从命令行获取 OpenRouter 账户、API 密钥和 Stripe 计费,AI 智能体同样可以执行此操作。

智能体产品更新部署/工程
20:00
OpenRouter:Announcements(RSS)
精选60
OpenRouter 推出 CLI 创建账户功能,集成 Stripe 计费

运行 stripe projects add openrouter/api 即可从命令行创建 OpenRouter 账户、获取 API 密钥并配置 Stripe 计费。AI 智能体同样可自动化完成该操作,无需手动注册。

智能体产品更新部署/工程

推荐理由:OpenRouter 把注册和计费全塞进一条 CLI 命令,Stripe Projects 加持,agent 都能自己开户了,重度 API 玩家可以省点事,不过就一工具链缝合,不打开也知道。
20:00
OpenRouter:Announcements(RSS)
精选65
通过 Stripe Projects 命令行创建 OpenRouter 账户

运行 stripe projects add openrouter/api 命令,即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行,实现了账户开通与支付配置的一站式集成。

产品更新部署/工程

推荐理由:OpenRouter 把账户创建搬到了 CLI,你的 agent 也可以直接开号了,这对于需要自动化计费流程的开发者是个便利小更新,但普通用户几乎感受不到变化。
19:07
公众号:通义实验室(千问)
53
FlashQLA:让 Qwen 的注意力层跑得更快
开源/仓库推理部署/工程
06:35
Claude Code:GitHub Releases(RSS)
52
版本v2.1.122更新摘要

本次更新主要新增了通过环境变量选择Bedrock服务层级的功能,并支持在/resume搜索框粘贴PR链接以定位创建该PR的原始会话。同时修复了多项关键问题:修正了源会话含时间线回退条目时,/branch命令可能创建失败分支的问题;解决了发送给新版模型的图像被错误调整为2576px(应为2000px上限)的问题;增强了OpenTelemetry日志记录,确保数字属性以数值类型输出;并修复了Vertex AI/Bedrock在生成会话标题等场景下可能返回无效请求错误的问题。此外,还包含对MCP工具显示、CLI命令退出行为等多项细节的优化与修正。

AnthropicMCP/工具产品更新部署/工程
01:11
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选71
OpenAI模型、Codex与托管智能体登陆AWS平台

OpenAI的GPT系列模型、代码生成模型Codex以及托管智能体现已正式上线亚马逊云科技。企业用户可直接在AWS环境中集成并调用这些AI服务,基于自身云基础设施构建安全、可控的定制化人工智能应用。此次合作将OpenAI的前沿模型能力与企业级云环境的安全性和可扩展性相结合,为企业部署生成式AI与自动化智能体提供了新的平台选择。

OpenAI行业动态部署/工程

推荐理由:OpenAI 终于上了 AWS,这意味着大量被云锁定的企业不用再绕道 API,直接在自家环境里跑 GPT 和 Codex,对做企业级 AI 产品的人来说是个真信号。
4月28日
23:39
Mistral AI:News(网页)
68
Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持

Mistral AI 正式推出 Workflows 公开预览版,该产品定位为企业AI的编排层,旨在通过提供持久性、可观察性和容错性,帮助AI驱动的工作流从概念验证可靠过渡到生产环境。它集成于Studio平台,允许开发者用Python编写工作流,并可发布至Le Chat供组织成员触发。其核心功能包括持久化执行(支持从断点恢复)、完整的步骤跟踪与审计,以及通过 wait_for_input() 等方法实现人工介入审批。目前已有ASML、ABANCA等企业客户使用其自动化货物放行、文档合规检查等关键业务流程,将原本耗时数小时的人工操作缩短至几分钟。

智能体产品更新部署/工程
19:07
Qwen:Blog Retrieval(API)
精选57
FlashQLA: 面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好,旨在提升训练效率。该技术通过优化内核融合策略,改进了注意力机制的计算性能,是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由:Qwen 团队发了一篇 fused linear attention 内核的工程论文,目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼,普通开发者可以略过。
12:34
Tomer Tunguz 博客(VC 分析)
精选64
GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据,NVIDIA B200 GPU的现货租赁价格在六周内飙升114%,从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关,这些模型需要Blackwell架构提供的内存支持。与此同时,B200与上一代H200的价差从0.28美元大幅扩大至1.80美元,不同云服务商之间的报价差距也扩大了一倍以上,反映出市场供应紧张。预计夏季B200价格将维持在5美元以上,云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由:Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑,做 AI infra 选型或算力采购的人该把这张图存下来,夏天 B200 破 5 刀基本板上钉钉。
12:33
Runway:News(网页)
精选58
无闲置GPU:Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器,将GPU利用率提升超过20%,同时保障团队容量。其核心机制是为关键工作预留配额,并设立共享队列借用闲置容量,当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群,支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中,团队拥有专用预留队列,而默认队列作为共享机会池,可借用闲置配额运行可中断工作负载。当预留队列需资源时,Kueue基于优先级和运行时间抢占默认队列中的任务,实现资源高效管理。

教程/实践部署/工程

推荐理由:Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记,利用率翻倍的方案和踩坑细节都有,做大规模训练集群调度的团队可以直接抄作业。
08:28
Hugging Face:Blog(RSS)
精选58
Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由:NVIDIA 把物理先验塞进超声成像管线,从原始射频数据直接出诊断结果,跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路,但离通用场景太远。
00:46
CMU:Machine Learning Blog
精选58
介绍ARFBench:基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由:CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准,结论很诚实,现有模型全拉胯。做 SRE Agent 的团队该看看,这比合成数据的 benchmark 有说服力得多。
4月27日
23:58
GitHub Blog
精选79
GitHub Copilot 将转向基于使用量的计费模式

自6月1日起,GitHub Copilot 的使用将开始消耗 GitHub AI Credits,计费模式正式从固定订阅制转变为基于实际使用量的计费。这一变化意味着用户的费用将与 AI 助手的具体调用量直接挂钩,而非统一的月费或年费。

编码行业动态部署/工程

推荐理由:GitHub Copilot 从订阅制转向按量计费,这是 AI 编程工具定价范式的标志性拐点,所有重度用户和竞品都得重新算账。
22:28
Hugging Face:Blog(RSS)
53
如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛,促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持,帮助在保障用户数据隐私的同时,高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI教程/实践部署/工程
08:00
OpenRouter:Announcements(RSS)
46
Opus 4.7 的新 Tokenizer:它到底花了多少钱

Anthropic 在 Opus 4.7 中更换了 tokenizer。OpenRouter 通过对比用户从 Opus 4.6 迁移到 4.7 的实际使用数据,精确测量了 tokenizer 变更对成本的影响。

Anthropic现象/趋势部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据,分析发现这一技术调整改变了文本转换为令牌的方式,直接影响API计价。相同的文本输入可能产生不同数量的令牌,从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力,但关乎运营开销,是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程

推荐理由:Opus 4.7 换了 tokenizer,大多数人只知道模型变强了,不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账,做成本预算的产品人值得扫一眼。
00:00
Mistral AI:News(网页)
51
为运营业务的工作打造的工作流 Workflows 现已进入公开预览。2026年4月27日 Mistral AI

Mistral AI 宣布其产品 Workflows 进入公开预览阶段。这是该公司提供的一款用于构建、测试和运行AI智能体与应用的工具,面向需要执行业务工作流的用户。

产品更新部署/工程
4月23日
08:00
Google Developers Blog(RSS)
精选59
使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架,旨在帮助移动开发者充分发挥神经处理单元(NPU)的效能,以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性,已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型,实现实时视频处理、动画生成与语音识别等高级功能。此外,平台还提供基准测试工具并具备跨平台兼容性,能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google产品更新端侧部署/工程

推荐理由:Google 把 LiteRT 从实验品推到生产级,统一 NPU 调用 API,做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念,但 Google Meet 和 Epic Games 已经在用,说明不是 PPT。
08:00
蚂蚁百灵:Developer Blog(网页)
精选67
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。

智能体模型发布部署/工程

推荐理由:蚂蚁百灵这次打的是「省 token」这张牌,104B 总参但只激活 7.4B,Agent 场景评测对齐同尺寸 SOTA,输出 token 消耗只有竞品的 1/10。做 Agent 产品、被推理成本卡脖子的团队值得认真看看这个路线。
4月22日
23:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 推出 Privacy Filter

OpenAI 发布 Privacy Filter,一款用于检测和脱敏文本中个人身份信息(PII)的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率,支持开发者本地部署和定制。作为开放权重模型,它可自动识别并编辑敏感个人信息,为企业数据隐私保护和合规处理提供高效的技术解决方案。

OpenAI开源/仓库数据/训练部署/工程
21:00
Cloudflare Blog
提升 Rust Workers 可靠性:wasm-bindgen 中的 panic 与中止恢复

Rust Workers 曾因 panic 导致整个实例崩溃。通过与 wasm-bindgen 上游项目合作,现已支持弹性关键错误恢复,包括利用 WebAssembly Exception Handling 实现 panic 展开。

产品更新部署/工程
20:12
Google Blog:AI(RSS)
Google 推出两款面向智能体时代的专用 TPU

Google 发布第八代 TPU,内含两款面向智能体时代的专用芯片。新处理器专为 AI 未来发展设计,针对智能体工作负载进行专门优化,提供更强算力支持。作为 Google AI 基础设施的最新升级,该系列芯片将助力下一代智能体应用的开发与部署。

智能体Google产品更新部署/工程
20:00
OpenRouter:Announcements(RSS)
42
OpenRouter 推出 Workspaces

OpenRouter 推出 Workspaces 功能,允许用户将项目组织到独立环境中。每个环境自带独立的 API 密钥、路由默认设置、护栏(guardrails)和可观测性(observability)配置。

产品更新部署/工程
20:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出 Workspaces 功能

OpenRouter 新增 Workspaces 功能,允许用户将项目组织为独立环境。每个工作区拥有独立的 API keys、路由默认值、guardrails 和可观测性配置,实现不同项目的资源隔离与管理。

产品更新部署/工程
20:00
OpenRouter:Announcements(RSS)
52
工作空间简介

OpenRouter 推出工作空间功能,支持用户将项目组织到相互独立的环境中。每个工作空间可配置专属的 API 密钥、自定义路由默认设置、防护规则以及观测性选项。这一功能有助于实现项目间的资源隔离与管理分离,提升多项目协作与安全管控的灵活性。

产品更新部署/工程
09:00
公众号:蚂蚁百灵(Ling)
40
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
模型发布部署/工程
4月21日
20:00
Cursor Blog
精选55
保持 Cursor 应用稳定

Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题,聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统,实时追踪版本发布后的崩溃指标。采用双重调试策略:自上而下关联功能与崩溃数据,监控大消息负载;自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来,全版本会话OOM率下降80%,自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏,以应对突发与渐进性内存耗尽。

现象/趋势编码部署/工程

推荐理由:Cursor 把自家 OOM 问题的排查方法论完整公开了,自顶向下加自底向上的双线调试思路对做桌面端 Agent 产品的人有参考价值,但本质上是工程复盘而非行业事件。
4月20日
21:00
Cloudflare Blog
我们基于对外交付平台构建的内部 AI 工程栈

该公司基于对外交付的同一产品平台构建了内部 AI 工程栈,实现真正的"自产自用"。该架构已通过 AI Gateway 路由 2000 万请求,处理 2410 亿 token,并依托 Workers AI 运行推理,为 3683 余名内部用户提供支持。这一实践验证了其平台在超大规模企业级场景下的稳定性与性能表现。

智能体教程/实践部署/工程
21:00
Cloudflare Blog
构建智能体云:Agents Week 2026 期间发布的所有产品

Agents Week 2026 活动正式收官,期间密集发布了构建智能体云的完整产品矩阵,涵盖计算基础设施、安全架构、智能体工具箱、平台开发工具及新兴智能体网络等关键领域,全面覆盖从底层算力到上层应用的工具链,系统性推进智能体云生态建设。

智能体产品更新部署/工程
‹ 上一页
1…45678…13
下一页 ›