AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
6月4日周四
00:42HuggingFace Daily Papers(社区热门论文)76精选Ultralytics YOLO26:统一实时端到端视觉模型
00:33Microsoft Research62微软研究:装瓶厂AI从聊天到决策
00:01eric zakariasson74Cursor 推出 Debug Mode:让 AI 智能体通过运行时日志修复 Bug
6月3日周三
23:42HuggingFace Daily Papers(社区热门论文)68KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积
22:09IT之家(RSS)65摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口
21:46The Decoder:AI News(RSS)61Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行
21:30Anthropic:Newsroom(网页)59精选介绍 Claude Partner Network 的 Services Track 和 Partner Hub
21:16AYi46黄仁勋COMPUTEX 2026坐技嘉展台喝啤酒
21:14TechCrunch:AI(RSS)58Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求
20:57Simon Willison 博客66datasette-agent-micropython 0.1a0 发布
20:54Artificial Intelligence News(RSS)36E.ON 借助 SAP S/4HANA 以 AI 现代化电网
19:35X.PIN40中国拟将数据中心送入太空
18:40Alibaba Cloud22阿里云UModel用本体弥合LLM语义鸿沟
17:53Artificial Intelligence News(RSS)55Walmart 因 LLM 成本超预期限制员工使用 AI 助手 Code Puppy
17:48Rohan Paul58微软萨提亚·纳德拉在Build 2026介绍Fairwater AI数据中心
17:09Alibaba Cloud28阿里云数据安全中心推出AI智能防护升级
16:24🚨 AI News | TestingCatalog44Perplexity Computer 将支持本地与云端模型动态分配算力
15:09IT之家(RSS)54微软 CEO 纳德拉:数据中心不推高电价方能获建设许可
15:00jason43Codex 新增网站部署与托管功能
14:39Alibaba Cloud57阿里云推出Agentic Cloud智能体云平台
14:37Hacker News 热门(buzzing.cc 中文翻译)64在 AMD MI300X 上运行 DeepSeek-V4-Flash
13:12AYi57OpenAI Codex Sites 功能发布,可一键生成网站应用
12:42HuggingFace Daily Papers(社区热门论文)59面向推理模型的价值感知随机KV缓存淘汰策略
12:23数字生命卡兹克65Claude Code团队分享AI原生组织工作原则
12:06Hacker News 热门(buzzing.cc 中文翻译)51我们如何为RAG建立图像索引
11:09IT之家(RSS)54微软为英伟达 RTX Spark 重塑 Windows 11 底层:改写 CPU 调度、优化 AI 内存负载
10:59歸藏(guizang.ai)55Codex上线Site插件:设计生成网页并一键部署
10:09IT之家(RSS)54江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户
10:09IT之家(RSS)47Marvell 推出 Teralynx T100 网络交换芯片,号称业界首款专为 AI 设计的 102.4 Tbps 交换芯片
10:02公众号:数字生命卡兹克66同事件精选Claude Code团队工程总监分享5条AI原生工作原则同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》
09:21SemiAnalysis50CoreWeave与微软机架仍为工程样品,量产在即
09:13meng shao75精选智能体工程实战窍门全录
09:07小互64微软发布类似Mac mini的小型台式机:Surface RTX Spark Dev Box
08:09IT之家(RSS)58微软纳德拉回应数据中心环保担忧,新设计全年耗水约等于 1 家餐厅
08:00HuggingFace Daily Papers(社区热门论文)48SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构
08:00HuggingFace Daily Papers(社区热门论文)46PACT:行动状态通信实现高效多智能体系统
08:00HuggingFace Daily Papers(社区热门论文)68Video2LoRA:面向视觉语言模型的参数化视频内化方法
08:00HuggingFace Daily Papers(社区热门论文)62Flash-WAM:面向世界动作模型的模态感知蒸馏
07:23🚨 AI News | TestingCatalog65Nous Research 发布跨平台 Hermes 桌面应用
05:21SemiAnalysis53Cerebras晶圆级芯片实现近100%良率
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
00:42
HuggingFace Daily Papers(社区热门论文)
精选76
Ultralytics YOLO26:统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由:这次YOLO26把NMS和DFL都拿掉了,还把大模型训练的Muon优化器改成MuSGD,在COCO上的速度精度平衡比上一代强不少,做实时检测的应该拿来跑一跑。
00:33
Microsoft Research@MSFTResearch
62
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
Microsoft推理论文/研究部署/工程
00:01
eric zakariasson@ericzakariasson
74
Cursor 推出 Debug Mode:让 AI 智能体通过运行时日志修复 Bug

Cursor 发布 Debug Mode,解决 AI 智能体靠猜测修 Bug 的问题。工作流程:Agent 先生成多个假设,为最可能的假设添加日志(不修改代码);调试服务器在程序运行时收集输出到 .cursor/debug.log;用户重现 Bug 后,Agent 读取日志而非猜测;最后 Cursor 从日志找到根因并修复,自动移除添加的日志。内部案例:追踪 1/20 概率出现的 git 元数据竞争条件(1 小时内定位);一次单趟追踪内存泄漏(修复仅一行);定位 Electron 中 C++ 原生崩溃;修复此前无人敢碰的 SSR 闪烁问题。用户可通过 Shift+Tab 或在 CLI 中使用 /debug 触发。

智能体产品更新编码部署/工程
6月3日
23:42
HuggingFace Daily Papers(社区热门论文)
68
KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv推理论文/研究部署/工程
22:09
IT之家(RSS)
65
摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口

摩根士丹利将向外部 AI 智能体开放其关键财富管理渠道。客户部署的 AI 智能体可直接从股权管理平台 ShareWorks 和 Equity Edge 提取数据,绕过传统人类界面。该公司已归集 1.2 万亿美元受托资产。摩根士丹利已向少数客户授予早期访问权限,计划明年覆盖其 3,400 家托管客户。竞争对手摩根大通和高盛已在内部使用 AI 智能体,但尚未对外开放。

智能体行业动态部署/工程
21:46
The Decoder:AI News(RSS)
61
Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行

Perplexity 发布了一个编排器,将本地计算机上的 AI 模型与云端强大模型相结合,并自动决定每个任务分配至本地处理还是云端处理。

产品更新推理部署/工程
21:30
Anthropic:Newsroom(网页)
精选59
介绍 Claude Partner Network 的 Services Track 和 Partner Hub

Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。

Anthropic产品更新行业动态部署/工程

推荐理由:Anthropic 给合作伙伴画了一条明确的爬升阶梯,从 Select 到 Global Premier,企业客户终于有个公开透明的渠道找靠谱的实施团队,做 AI 咨询的可以认真评估入局了。
21:16
AYi@AYi_AInotes
46
黄仁勋COMPUTEX 2026坐技嘉展台喝啤酒

黄仁勋在COMPUTEX 2026上逛至技嘉展台,席地而坐与技嘉老总喝啤酒近10分钟,引来围观。技嘉股价当场被拉,期间已五连涨超20%。深层信号显示Nvidia供应链逻辑中技嘉地位加深。引用推文回顾:2009年Nvidia市值仅40亿美元(Intel 1000亿),黄仁勋押注CUDA和异构计算,17年后Nvidia市值5万亿,Intel约五千亿,25倍劣势变为近10倍反超,体现其远见与护城河。

AYi: 同样站在 2009 年那个路口,有人只看见一块显卡, 有人看见了往后二十年整个计算的样子。 那年 Nvidia 市值 40 亿,是 Intel 的零头, 所有人都笑黄仁勋不过是个卖游戏配件的。 那时候 Nvidia 市值 40 亿,Inte...

大佬观点部署/工程
21:14
TechCrunch:AI(RSS)
58
Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求

Coralogix 完成 2 亿美元 F 轮融资,估值达 16 亿美元。本轮距上次融资不到一年,公司押注 AI 智能体监控将成为重要需求。

智能体行业动态部署/工程
20:57
Simon Willison 博客
66
datasette-agent-micropython 0.1a0 发布

Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。

智能体开源/仓库部署/工程
20:54
Artificial Intelligence News(RSS)
36
E.ON 借助 SAP S/4HANA 以 AI 现代化电网

德国能源巨头 E.ON 通过 SAP S/4HANA 标准化电网数据,进而现代化基础设施并部署 AI 应用。E.ON 管理能源电网、客户解决方案和能源基础设施解决方案三个领域,维持运营需要持续的 IT 硬件与软件资本支出。公司领导层最初对大规模业务案例存在疑虑。

教程/实践部署/工程
19:35
X.PIN@thexpin
40
随着 AI 对电网造成压力,中国正将数据中心送入太空! 各大城市快速形成产业合作,北京计划在 2028 年前发射首颗试验卫星,以构建天地计算网络。这使中国占据了关键先机。
行业动态部署/工程
18:40
Alibaba Cloud@alibaba_cloud
22
本体(Ontology)弥合了 AIOps 中 LLM 的"语义鸿沟"!🧠 痛点: • LLM 缺乏私有拓扑上下文 🏗️ • 相关 ≠ 因果 🔗 • 无法解释的黑箱决策 ❓ ✅ UModel 解决方案: • 面向对象的 IT 建模 🧩 • 多源数据统一查询 📊 • 确定性、可审计的根因分析 用显式知识图谱构建可信智能体。 🚀 https://int.alibabacloud.com/m/1000413984/ #AIOps #LLM #本体 #DevOps #云原生
其他部署/工程
17:53
Artificial Intelligence News(RSS)
55
Walmart 因 LLM 成本超预期限制员工使用 AI 助手 Code Puppy

Walmart 开始限制员工使用内部 AI 助手 Code Puppy。该工具后端的大语言模型需求超出预期,导致运营成本过高。此前员工被鼓励无限制使用,现需遵守新的使用配额。

行业动态部署/工程
17:48
Rohan Paul@rohanpaul_ai
58
微软萨提亚·纳德拉在Build 2026介绍Fairwater AI数据中心

微软CEO萨提亚·纳德拉在Build 2026上介绍了威斯康星州Fairwater AI数据中心。该设施采用闭环直接芯片液体冷却,冷却液一次性注入后可零水耗运行,年日用水量约等于一家餐厅。超过90%设施使用闭环液冷,仅最热天切换部分外部空气冷却。数据中心采用垂直两层架构,三维密集部署GPU,保持低延迟与高带宽网络,集群如同一台巨型AI机器。

Rohan Paul: Satya Nadella on Microsoft's Fairwater data center, an AI superfactory. at today's Microsoft Build 2026 keynote. its ver...

Microsoft行业动态部署/工程
17:09
Alibaba Cloud@alibaba_cloud
28
阿里云数据安全中心推出AI智能防护升级

阿里云宣布数据安全中心(DSC)迎来重大AI升级,提供一站式智能数据保护。核心功能包括:基于LLM的智能分类,自动识别敏感数据;利用通义OCR进行图像脱敏,自动遮盖人脸及身份证信息;原生审计集成AI驱动威胁检测,减少误报。支持云原生及多云环境统一管控,提升数据安全防护效率。

产品更新部署/工程
16:24
🚨 AI News | TestingCatalog@testingcatalog
44
Perplexity Computer 很快将能够在本地模型和云端模型之间动态分配算力! 如果这能降低 Perplexity Computer 的成本,那将是巨大的进步,因为目前这是许多用户的主要障碍之一。 很快 👀

Perplexity: Read more about hybrid agentic inference in Perplexity Computer: https://www.perplexity.ai/hub/blog/the-data-center-move...

产品更新端侧部署/工程
15:09
IT之家(RSS)
54
微软 CEO 纳德拉:数据中心不推高电价方能获建设许可

AI数据中心建设引发社区反对,盖洛普民调显示更多受访者宁愿住在核反应堆附近。微软CEO纳德拉在Build大会回应,承诺推行“社区优先”的AI基础设施计划,确保数据中心不推高居民电价、补充用水、创造就业并投资社区培训。微软Azure云业务目前覆盖80个区域、500多个数据中心,过去18个月新增容量已超过Azure最初10年总和。纳德拉称数据中心采用一次性注水冷却回路,日均用水量大致相当于一家餐厅。

Microsoft行业动态部署/工程
15:00
jason@jxnlco
43
喜欢 Cloudflare。

dominik kundel: Codex can now deploy and host websites for you using Sites! 🎉 This includes storage for data and files using D1 and R2 ...

OpenAI产品更新编码部署/工程
14:39
Alibaba Cloud@alibaba_cloud
57
王俊华,产品与工程副总裁,计算平台负责人,阿里云 阿里云推出Agentic Cloud--专为智能体构建并由智能体运行,提供从运行时到内存的6项核心能力,从管理计算转向大规模管理智能。
智能体产品更新部署/工程
14:37
Hacker News 热门(buzzing.cc 中文翻译)
64
在 AMD MI300X 上运行 DeepSeek-V4-Flash

一篇来自 fergusfinn.com 的博客文章,介绍了在 AMD MI300X GPU 上运行 DeepSeek-V4-Flash 模型的过程。

DeepSeek教程/实践部署/工程
13:12
AYi@AYi_AInotes
57
天哪,Codex 真的要大杀四方了😭 最近1-2年爆发的上千家初创公司都得完蛋了, 尤其是 vibe coding、prompt-to-app 工具和无代码内部工具平台这些

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

OpenAI产品更新编码部署/工程
12:42
HuggingFace Daily Papers(社区热门论文)
59
面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程
12:23
数字生命卡兹克@Khazix0918
65
Claude Code团队分享AI原生组织工作原则

Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。

智能体Anthropic大佬观点部署/工程
12:06
Hacker News 热门(buzzing.cc 中文翻译)
51
我们如何为RAG建立图像索引

为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程
11:09
IT之家(RSS)
54
微软为英伟达 RTX Spark 重塑 Windows 11 底层:改写 CPU 调度、优化 AI 内存负载

为适配英伟达 RTX Spark 芯片,微软正改造 Windows 11 底层能力。该芯片采用双 Die 设计,整合 20 核 Arm CPU、Blackwell RTX GPU(最多 6144 个 CUDA 核心)及统一内存,定位为 Windows on Arm 的 AI 超级芯片,可本地运行 120B 参数大语言模型,上下文窗口达 100 万 Token。为此,Windows 11 引入了工作负载配置调度以动态分配 CPU 核心算力,并优化了大内存页处理与 GPU 可访问内存的页面管理。同时,Prism 模拟器已针对该芯片微架构调优,以提升 x86 应用兼容性。

Microsoft产品更新端侧部署/工程
10:59
歸藏(guizang.ai)@op7418
55
Codex上线Site插件:设计生成网页并一键部署

Codex平台近日上线了名为Site的新插件。该插件功能类似于Claude Design,能够帮助用户设计并生成网页,并自动完成部署,生成可直接访问的链接。目前此功能的使用权限受限,Pro用户无法使用,仅向Business及组织类用户开放。

产品更新编码部署/工程
10:09
IT之家(RSS)
54
江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户

江苏全省首个商用万卡集群“词元超市(Token 超市)”已试运行,汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商,提供阿里通义、DeepSeek、阶跃星辰等主流大模型,用户可按需选择文本创作、智能问答等业务场景,并依据实际 Token 用量按需付费。该模式已服务近五十家客户,帮助本地企业降低研发成本。

推理行业动态部署/工程
10:09
IT之家(RSS)
47
Marvell 推出 Teralynx T100 网络交换芯片,号称业界首款专为 AI 设计的 102.4 Tbps 交换芯片

Marvell 发布 Teralynx T100 网络交换芯片,采用 3nm 制程和单片式结构,支持至多 512 个端口,兼容 ESUN、UEC 等新兴互联协议,可配置为 BGA、CPC、CPO 封装。其典型功耗低于 1000W,宣称比竞品节能 25%。该芯片专为 AI 负载优化设计,旨在降低功耗与延迟,提升集群效率。

产品更新部署/工程
10:02
公众号:数字生命卡兹克
同事件精选66
Claude Code团队工程总监分享5条AI原生工作原则

Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。

智能体Anthropic教程/实践部署/工程
同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》
推荐理由:瓶颈从写代码转移到验证,这判断太准了。更实际的是自动化那些重复三次以上的事,这套逻辑正在Claude Code团队验证,值得每个带团队的人照抄。
09:21
SemiAnalysis@SemiAnalysis_
50
重要提示:需理解CoreWeave与微软的机架照片仍为工程/质量样品,距离软件栈启动完成并产出首批生产token尚需时日。VR200与MI455机架的关键指标是达到规模化生产token的时间,即TTF-(ASP)-T。从CW机架照片中可清晰看到,所有横向扩展的800G OSFP笼位均未安装模块。
Microsoft行业动态部署/工程
09:13
meng shao@shao__meng
精选75
智能体工程实战窍门全录

该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。

Matt Van Horn: http://x.com/i/article/2061440101411102721

智能体教程/实践编码部署/工程

推荐理由:mvanhorn 三个月从零到 27K stars 的实战手册,22 条 hack 把 agentic 开发从规划到执行到语音全打通,开发者能直接套用。
09:07
小互@xiaohu
64
微软发布类似Mac mini的小型台式机:Surface RTX Spark Dev Box

微软推出Surface RTX Spark Dev Box,一款专为本地AI开发的小型台式机。它搭载NVIDIA RTX Spark芯片、128GB内存,算力达1 petaflop,可在本地运行1200亿参数大模型。其阳极氧化铝机身集成了散热系统,功耗100W。设备预装了开发者版Windows 11 Pro及开发工具链,预计售价3000至3500美元,将于今年晚些时候在美国上市。

Microsoft产品更新端侧部署/工程
08:09
IT之家(RSS)
58
微软纳德拉回应数据中心环保担忧,新设计全年耗水约等于 1 家餐厅

在Build 2026大会上,微软CEO萨提亚·纳德拉回应了数据中心环保争议。他介绍了位于威斯康星州的Fairwater AI数据中心新设计,该设施采用垂直化架构与三维机架布局,其冷却循环仅需初次注水,全年耗水量仅约相当于1家社区餐厅。纳德拉表示,微软Azure目前覆盖80个区域和500多个数据中心,过去18个月新增的容量已超过早期10年的总和。他强调,数据中心的扩张必须赢得社区许可,包括不推高电价、补充用水和创造当地就业等条件。

Microsoft行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
PACT:行动状态通信实现高效多智能体系统

多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。

智能体MCP/工具论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
68
Video2LoRA:面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flash-WAM:面向世界动作模型的模态感知蒸馏

世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程
07:23
🚨 AI News | TestingCatalog@testingcatalog
65
HERMES 🔥:Nous Research 推出的全新 Hermes 桌面应用现已登陆 macOS、Windows 和 Linux! 测试时间 👀
产品更新端侧部署/工程
05:21
SemiAnalysis@SemiAnalysis_
53
Cerebras做到了业界认为不可能的事:将整个46,225mm2晶圆制成单芯片。如此大面积的硅片缺陷不可避免,因此他们内置了冗余,并采用定制的逐批次光罩来绕过每个不良核心,最终实现了接近100%的可用晶圆率。结果:单片硅片上集成了90万个核心和44GB SRAM,无需封装,无片外跳转。他们并未止步于此,目前正在探索将DRAM晶圆通过混合键合堆叠在上方,以获得更快的更多内存。(1/4) 🧵
产品更新部署/工程
‹ 上一页
1…1920212223…50
下一页 ›