AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月29日周五
01:52Replit ⠕64四步保障AI生成应用安全
00:34LMSYS:Blog(Chatbot Arena 团队)69精选SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
23:42The Decoder:AI News(RSS)60Google Cloud 以平台应对 AI 加速的网络攻击,旨在分钟级弥合安全缺口
23:05OpenRouter69精选OpenRouter 支持模型现可选 Flex 与 Priority 服务层级
22:42Rohan Paul65Musk澄清SpaceX与Anthropic的Colossus租约实为短期协议
22:42TechCrunch:AI(RSS)23在 TechCrunch Disrupt 2026 大会上:Databricks 联合创始人谈什么会搞砸企业 AI 交易
22:39ginobefun52阿里云部署Claude Code实现多用户隔离
22:00OpenRouter:Announcements(RSS)54OpenRouter 完成 1.13 亿美元 B 轮融资
22:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter 完成 1.13 亿美元 B 轮融资同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
21:36OpenClaw🦞64OpenClaw 2026.5.27 版本发布
21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体
20:11Rohan Paul62研究发现AI智能体"衰老"导致可靠性下降,提出新基准AgingBench
20:11Rohan Paul59NVIDIA发布Vera CPU基准测试报告
19:06Mistral AI62在卢浮宫发布工业AI解决方案
18:47Mistral AI:News(网页)61Mistral AI推出物理AI模型,加速工业工程
17:39ginobefun69腾讯提出解决方案应对Agent长任务上下文过载
17:12MarkTechPost(RSS)67Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍
16:28HuggingFace Daily Papers(社区热门论文)59Clark Hash:神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化
16:10MarkTechPost(RSS)70精选pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南
15:37Alibaba Cloud59Qwen3.7-Max 在 ITBench-AA 企业IT任务基准测试中位列第三
15:15IT之家(RSS)53阿里达摩院发布"敏迭"求解器 GPU 版
15:06Alibaba Cloud67阿里云发布首款AI智能体操作系统ANOLISA
14:06Krea64Krea 2现已登陆Replicate平台
12:41OpenRouter:Announcements(RSS)72精选OpenRouter 获得1.13亿美元B轮融资
11:35公众号:面壁智能(MiniCPM)61精选PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统
11:31Berryxia.AI65AI主动记忆整合实践:从被动指令到数字分身
11:15IT之家(RSS)29智能设备迭代更新,酒泉将精准"跟拍"神舟二十一号乘组回家影像
11:06Alibaba Cloud70阿里云发布首款AI智能体操作系统ANOLISA
10:36Alibaba Cloud71MuleRun登陆阿里云市场,提供全天候AI劳动力
10:28HuggingFace Daily Papers(社区热门论文)61OSP-Next:一种高效的高质量视频生成模型
10:14IT之家(RSS)36韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器
10:14IT之家(RSS)65小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
09:36Claude Code:GitHub Releases(RSS)67同事件精选Claude Code v2.1.153 版本更新同一事件,精选展示《Claude Code v2.1.163 发布》
09:09MarkTechPost(RSS)52Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为独立可训练去噪模块的分块训练框架
08:27Berryxia.AI69OpenAI推出Private MCP Tunnels,解决企业AI部署安全合规难题
08:00HuggingFace Daily Papers(社区热门论文)49MergePipe:通过预算专家读取实现可扩展的权重空间模型合并
08:00HuggingFace Daily Papers(社区热门论文)55VideoMLA:面向分钟级自回归视频扩散的低秩潜在 KV 缓存
08:00HuggingFace Daily Papers(社区热门论文)64内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距
07:09SemiAnalysis55手写CUDA内核为何不敌自动生成版本
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
01:52
Replit ⠕@Replit
64
如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持,便是隐患。以下是使用Replit发布应用时,如何避免留下后门的方法。 🧵展开阅读 ↓
教程/实践部署/工程
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:42
The Decoder:AI News(RSS)
60
Google Cloud 以平台应对 AI 加速的网络攻击,旨在分钟级弥合安全缺口

Google Cloud 推出“AI Threat Defense”平台,可自动发现、评估并修补企业系统中的安全漏洞。该平台整合了 Google 部分通过收购获得的技术,旨在快速响应由 AI 加速的网络攻击。

Google产品更新部署/工程
23:05
OpenRouter@OpenRouter
精选69
提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers
GoogleOpenAI教程/实践部署/工程

推荐理由:OpenRouter 这个 Flex/Priority 层级用法看似细枝末节,但你如果同时调 OpenAI 和 Vertex,知道怎么分层能免掉很多无谓的速率限制和成本焦虑。
22:42
Rohan Paul@rohanpaul_ai
65
Musk澄清SpaceX与Anthropic的Colossus租约实为短期协议

Elon Musk向投资者澄清,SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁,而是一份为期180天的租约,并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月,但Musk解释称,SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺,不宜长期外租。他强调,Colossus并非闲置资产,同一套计算基础设施将用于训练xAI模型、支持内部AI系统,或可能在未来发展为付费云服务,因此SpaceX需要保持运营灵活性。

AnthropicxAI行业动态部署/工程
22:42
TechCrunch:AI(RSS)
23
在 TechCrunch Disrupt 2026 大会上:Databricks 联合创始人谈什么会搞砸企业 AI 交易

企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。

大佬观点部署/工程
22:39
ginobefun@hongming731
52
阿里 ATA 这篇文章有点骚,把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用,并利用沙箱实现多用户隔离。
AnthropicMCP/工具教程/实践部署/工程
22:00
OpenRouter:Announcements(RSS)
54
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程
22:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程
同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
推荐理由:OpenRouter融了1.13亿美元,领投方CapitalG,跟投名单里几乎全是云计算巨头,这不是一家公司的钱,是基础设施层的一次战略布局,开发者选模型的路由成本可能因此改写。
21:36
OpenClaw🦞@openclaw
64
OpenClaw 2026.5.27 已上线 🦞 🔒 更严格的运行时/安全边界 ⚡ 更快的网关 + 回复路径 🧠 更稳定的 Codex/应用服务器内存 📡 更好的频道、提供商、Pixverse 视频 更少阻碍,更多掌控。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.27
智能体产品更新部署/工程
21:11
Cloudflare Blog
41
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程
20:11
Rohan Paul@rohanpaul_ai
62
研究发现AI智能体"衰老"导致可靠性下降,提出新基准AgingBench

论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。

智能体论文/研究部署/工程
20:11
Rohan Paul@rohanpaul_ai
59
NVIDIA发布Vera CPU基准测试报告

NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构,在Phoronix测试中,其整体性能比128核x86 CPU高1.5倍,比前代Grace CPU提升1.6倍(几何平均)。其每核心内存带宽是传统x86 CPU的4倍以上,使用LPDDR5X实现1.2TB/s带宽,内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU,并强调在智能体AI场景下,因涉及工具调用、文件读写、代码生成等复杂任务,CPU侧工作负载变得更重。

推理行业动态部署/工程
19:06
Mistral AI@MistralAI
62
我们正在攻克现实世界中最棘手的问题 🏗️🚚 🛫⚛️ 今天在卢浮宫举行的 AI Now 峰会上,我们宣布了面向航空航天、汽车、能源和物理学的 AI 解决方案。 已在 @Airbus、@BMW、@EDFofficiel 等公司投入生产部署。 详情如下:
产品更新部署/工程
18:47
Mistral AI:News(网页)
61
Mistral AI推出物理AI模型,加速工业工程

Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程
17:39
ginobefun@hongming731
69
腾讯提出解决方案应对Agent长任务上下文过载

腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。

智能体教程/实践部署/工程
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
16:28
HuggingFace Daily Papers(社区热门论文)
59
Clark Hash:神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下,它将一个余弦搜索向量存储为48字节的固定宽度标量量化码,相比使用f32格式的密集存储(需1536字节),实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示,其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程
16:10
MarkTechPost(RSS)
精选70
pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由:这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码,用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。
15:37
Alibaba Cloud@alibaba_cloud
59
由 Artificial Analysis 和 IBM Research 合作推出的首个评估模型处理真实企业IT任务能力的基准测试 ITBench-AA,聚焦于站点可靠性工程(SRE)任务。测试结果显示,通义千问(Qwen3.7-Max)以 42% 的分数排名第三。该测试中,所有前沿模型得分均低于 50%,其中 Claude Opus 4.7 以 47% 领先,GPT-5.5(xhigh)以 46% 紧随其后。在开源模型中,GLM-5.1(Reasoning)以 40% 领衔。该基准未来将扩展到财务运营(FinOps)等任务。

Artificial Analysis: Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...

智能体评测/基准部署/工程
15:15
IT之家(RSS)
53
阿里达摩院发布"敏迭"求解器 GPU 版

阿里达摩院发布“敏迭”求解器 GPU 版本。该版本利用 GPU 并行加速特性,并引入新算法缓解收敛的“长尾效应”。在约 2000 个通用线性规划算例测试中,其高精度稳定求解率超过 99%,并能支持亿级变量线性规划问题。相比业内主流产品,其在大规模问题上的成功率提升 14% 以上,速度平均提升 2.67 倍。在某数字广告平台案例中,该求解器仅用 1700 秒就对 3.3 亿变量的复杂问题求解到可靠精度。

产品更新部署/工程
15:06
Alibaba Cloud@alibaba_cloud
67
推出ANOLISA(阿里云Linux 4智能体版)--首款专为AI智能体设计的操作系统。随着智能体演变为"数字工作者",传统操作系统已成为瓶颈。ANOLISA改变了这一点。
智能体产品更新部署/工程
14:06
Krea@krea_ai
64
Krea 2现已登陆Replicate! 生成高保真、富有创意的图像,美学优先。

Replicate: Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.

产品更新图像生成部署/工程
关联讨论 1 条X:Krea AI (@krea_ai)
12:41
OpenRouter:Announcements(RSS)
精选72
OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 融了 1.13 亿美元,说明模型路由从「小工具」变成正经防线了,开发者选模型不再单一绑定,这个方向钱和战略意义都上来了。
11:35
公众号:面壁智能(MiniCPM)
精选61
PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由:PilotDeck把Agent从对话框解放进「工作舱」,记忆可见、成本锐减、能无人值守运行。已开源,值得所有被多任务折磨的开发者试试。
11:31
Berryxia.AI@berryxia
65
AI主动记忆整合实践:从被动指令到数字分身

推文指出,让AI主动记录和保存对话内容,是构建“数字分身”的关键,而非仅依赖被动下达指令。作者受罗胖发布会观点启发,将 Memory OS 2.0 与自己使用的 Bloom AI 进行了整合升级。实践表明,这种整合能触发AI的“主动性记忆点”,相比传统的“被动记忆”模式更具优势。作者将分享具体的整合过程、前后对比以及主动记忆的优势分析。

Berryxia.AI: http://x.com/i/article/2059820725276696576

教程/实践部署/工程
11:15
IT之家(RSS)
29
智能设备迭代更新,酒泉将精准"跟拍"神舟二十一号乘组回家影像
行业动态部署/工程
11:06
Alibaba Cloud@alibaba_cloud
70
推出ANOLISA(阿里云Linux 4智能体版)--首款专为AI智能体设计的操作系统。随着智能体演进为"数字员工",传统操作系统已成为瓶颈。ANOLISA改变了这一点。
智能体产品更新部署/工程
10:36
Alibaba Cloud@alibaba_cloud
71
在阿里云市场遇见 MuleRun--一个全天候的AI劳动力,用于研究、报告、代码、设计等。功能强大,适合个人使用;企业就绪,适合团队协作--支持SSO、RBAC、私有网络、团队知识管理和无缝集成。 想得更大。让 MuleRun 处理其余事务。 方案起价 $20/月 → https://int.alibabacloud.com/m/1000413520/ #AlibabaCloud #AIAgents #AIWorkforce #FutureOfWork #EnterpriseAI
智能体产品更新部署/工程
10:28
HuggingFace Daily Papers(社区热门论文)
61
OSP-Next:一种高效的高质量视频生成模型

OSP-Next是一种高效的文生视频模型,旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构,稀疏部分基于 Skiparse-2D 注意力。基于此,模型提出了稀疏序列并行策略,相较 Ulysses 序列并行降低了 75% 的通信量。此外,模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明,OSP-Next 在 VBench 上超越了 Wan2.1 基线,并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时,在 Ascend 950PR 上实现了显著的加速。

视频论文/研究部署/工程
10:14
IT之家(RSS)
36
韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器

韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器,目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈,并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化,专注于高带宽数据传输。博通方面表示,此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。

推理行业动态部署/工程
10:14
IT之家(RSS)
65
小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。

产品更新推理部署/工程
09:36
Claude Code:GitHub Releases(RSS)
同事件精选67
Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

AnthropicMCP/工具产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 的一次日常小修小补,但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug,且 /model 现在可以记住默认模型了,升级一下不亏。
09:09
MarkTechPost(RSS)
52
Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络(Residual Networks)的层更新过程解释为反向扩散(reverse diffusion)的去噪步骤,从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程
08:27
Berryxia.AI@berryxia
69
OpenAI推出Private MCP Tunnels,解决企业AI部署安全合规难题

OpenAI推出Private MCP Tunnels,允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接,无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API,提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍,将OpenAI平台升级为企业级基础设施。

OpenAI Developers: Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...

MCP/工具OpenAI产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
MergePipe:通过预算专家读取实现可扩展的权重空间模型合并

MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。

开源生态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMLA:面向分钟级自回归视频扩散的低秩潜在 KV 缓存

VideoMLA是首个在视频扩散模型中研究多头潜在注意力(MLA)的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对,将每层每token的KV缓存内存大幅减少92.7%。研究发现,尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立(预训练视频注意力非低秩),但MLA瓶颈本身决定了有效秩,使得模型能在压缩下保持生成质量。在VBench评测中,VideoMLA在长期视频生成中取得了最佳综合分数,并在单块B200上将吞吐量提升了1.23倍。

视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距

研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程
07:09
SemiAnalysis@SemiAnalysis_
55
GPU性能仍有提升空间。 在大规模手动调整CUDA内核时,几乎不可能弥合理论峰值与实际吞吐量之间的差距。 那么,为什么手写CUDA内核会输给自动生成的版本? Makora的Mohamed Abdelfattah有一个解决方案:https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B
教程/实践数据/训练部署/工程
‹ 上一页
1…2425262728…50
下一页 ›