4月24日

15:08

IT之家（RSS）

在北京车展上，火山引擎发布了基于Agentic AI架构的新一代汽车AI解决方案，包含AI座舱套件和豆包座舱助手两大方案。新方案通过一个AI大脑深度联动整车功能域，实现了感知、推理、执行、记忆、学习的一体化闭环，颠覆了上一代架构。其中，AI座舱套件支持车企灵活配置，豆包座舱助手则为完整产品级交付，将于年内量产。目前，搭载豆包大模型的智能汽车已超700万辆，覆盖50多个品牌，日均完成超3000万次座舱交互。

智能体产品更新部署/工程

15:08

IT之家（RSS）

华为：昇腾超节点系列产品全面支持 DeepSeek V4

华为宣布其昇腾超节点全系列产品已全面支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术，实现了高吞吐、低时延的推理部署。具体性能上，DeepSeek V4-Pro模型在8K输入下，单卡解码吞吐达4700TPS，时延约20ms；V4-Flash模型单卡吞吐为1600TPS，时延约10ms。此外，昇腾A3超节点系列也全面适配，并提供训练参考实现；基于64卡配置，V4-Flash模型在8K/1K场景下单卡吞吐超过2000TPS。

DeepSeek 产品更新部署/工程

15:08

IT之家（RSS）

陈立武：AI 推理趋势利好英特尔，CPU 与 GPU 配比从 1：8 迈向 1：1

英特尔CEO陈立武指出，AI工作负载正从训练转向推理，这显著提升了CPU的重要性。CPU与GPU的配比已从过去的1:8收紧至约1:4，未来有望进一步趋向1:1的平衡。在推理场景中，CPU在任务编排和控制调度方面更具优势。行业数据显示，AI智能体时代每吉瓦所需的CPU核心数可能从3000万激增至1.2亿，增长4倍。受此推动，英特尔第一季度数据中心与AI部门营收同比增长22%，达到51亿美元。

行业动态部署/工程

14:45

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Agent Vault - 面向代理的开源凭证代理和存储库

Infisical团队开源了Agent Vault，这是一个专为AI代理设计的凭证代理与存储库。该项目旨在安全地管理AI代理在运行时所使用的API密钥、数据库密码等敏感凭证，防止其直接暴露在代码或环境中。Agent Vault作为代理与外部服务之间的中间层，集中处理身份验证，从而提升安全性并简化凭证管理流程。该项目已在GitHub发布，并在Hacker News上获得了101点关注度。

智能体开源/仓库部署/工程

14:08

IT之家（RSS）

小米支付服务 Skill 上线：开发者三步可完成接入，支持微信支付、支付宝等

小米澎湃OS开发者平台正式推出支付服务Skill能力，支持主流AI开发工具。该服务通过标准化接口，帮助商户快速对接收银台及支付功能，内置完整流程与适配方案，大幅简化开发周期。开发者仅需下载安装Skill、通过自然语言交互接入支付能力、自动联调测试三步即可完成接入，一次性支持小米支付、微信支付、支付宝等多种支付方式，并覆盖App/H5/小程序支付、拆单、退款等多项功能。

MCP/工具产品更新部署/工程

14:08

IT之家（RSS）

寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行

寒武纪宣布已完成对深度求索最新开源模型DeepSeek-V4的Day 0适配，模型发布当日即可稳定运行。适配针对其285B和1.6T两个版本，代码已开源。通过自研高性能算子库对模型新结构进行专项加速，并在vLLM推理框架中全面支持5D混合并行、低精度量化等技术，以优化词元吞吐和端到端推理效率。同时，深度挖掘硬件特性以最小化通信开销，提升分布式推理性能。DeepSeek-V4拥有百万字上下文，能力领先，现已开放体验和API调用。

DeepSeek 开源生态行业动态部署/工程

13:45

Hacker News 热门（buzzing.cc 中文翻译）

TorchTPU：在谷歌级规模下原生运行 PyTorch 于 TPU 上

谷歌发布了 TorchTPU，使 PyTorch 能够原生在 TPU 上运行，并实现谷歌级规模的计算。这一变化让开发者无需大幅修改代码即可利用 TPU 的高性能硬件，显著提升了 PyTorch 在大型模型训练和推理任务中的效率与可扩展性。此举标志着 PyTorch 与谷歌定制硬件生态的深度集成，为人工智能研究与开发提供了新的强大基础设施。

Google 产品更新开源生态部署/工程

13:08

IT之家（RSS）

中国首台原生开发 Robotaxi 原型车吉利 EvaCab 北京车展首秀，全球首搭 2160 线数字化激光雷达

吉利汽车在北京车展发布中国首款原生开发Robotaxi原型车Eva Cab。该车基于全域AI 2.0技术体系打造，搭载全球首个量子级AI电子电气架构EEA 4.0，并采用量子加密技术保障安全。其核心亮点是全球首搭2160线数字化激光雷达，具备每秒2592万点的成像能力，最远探测距离达600米。车辆同时配备L4级自动驾驶软件方案千里浩瀚G-ASD。曹操出行深度定制版计划于2027年量产并投入商业化运营。

产品更新具身智能部署/工程

12:23

Simon Willison 博客

Millisecond Converter

Simon Willison 发布了一个名为 Millisecond Converter 的在线工具，专门用于将 LLM 报告的提示持续时间从毫秒自动转换为更易读的秒和分钟单位。该工具解决了用户需要手动进行时间单位换算的不便，可通过特定网址直接访问，并被归类为实用工具类别。

其他部署/工程

12:17

HuggingFace Daily Papers（社区热门论文）

TingIS：企业级场景下从嘈杂客户事件中实时发现风险

TingIS 是一个面向企业级事件发现的端到端系统，旨在从高噪声、高吞吐的客户事件中提取可操作风险情报。其核心是多阶段事件链接引擎，结合高效索引与大型语言模型，仅依据少量多样描述即可稳定合并与提取事件。系统集成级联路由机制实现精准业务归属，并采用融合领域知识、统计模式和行为过滤的多维降噪管道。在生产环境中，TingIS 每分钟处理超 2000 条消息，P90 警报延迟为 3.5 分钟，高优先级事件发现率达 95%。真实数据基准测试表明，其在路由准确性、聚类质量与信噪比上均显著优于基线方法。

智能体论文/研究部署/工程

11:54

Chubby♨️@kimmonismus

1m 标准与超高上下文效率是让我兴奋之处

DeepSeek: Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...

DeepSeek 模型发布部署/工程

11:44

小互@xiaohu

OpenAI 刚发的 Workspace Agent，开源版来了

开源项目 openclaw-managed-agents 提供了类似 OpenAI Workspace Agent 的功能，核心特点是支持接入任意大模型（如 Claude、GPT、Gemini 等）并可自托管于自有服务器，成本可低至每月4欧元。其采用独立 Docker 沙箱架构，确保每个用户会话隔离运行，实现凭证安全与互不影响，且子 agent 调用过程全程可观测。该方案适用于为企业搭建可灵活切换模型的 AI Agent 服务、为 SaaS 产品添加隔离的 AI 助手、构建社交平台机器人或运行内部受控、仅能访问指定 API 的安全 Agent。

Stain Lu: we built an open-source version of workspace agents - any model, self-hosted - per-session sandbox - credential isolatio...

智能体开源/仓库部署/工程

08:08

IT之家（RSS）

东风汽车与火山引擎签署战略合作协议，推动豆包大模型应用

东风汽车与字节跳动旗下火山引擎签署战略合作协议，双方将围绕智能座舱、企业数智化升级及AI云平台建设展开深度合作，共同定义和打造下一代“AI Car”。合作重点包括整合东风汽车的整车研发制造经验与火山引擎在人工智能、云计算领域的技术优势，共同打造智能座舱的新一代AI交互体验，并持续推动豆包大模型及云计算技术在汽车全产业链的融合与创新应用。

行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

TexOCR：推动文档OCR模型实现可编译的页面到LaTeX重建

现有文档OCR主要针对纯文本或Markdown，丢弃了使LaTeX对科学出版至关重要的结构和可执行属性。研究将科学PDF重建为可编译LaTeX的页面级任务，并为此引入了基准测试TexOCR-Bench和大规模训练语料TexOCR-Train。TexOCR-Bench采用多维评估套件，联合评估转录保真度、结构忠实度和端到端可编译性。利用TexOCR-Train，通过监督微调和强化学习训练了一个20亿参数的TexOCR模型，其强化学习的可验证奖励源自直接强制执行可编译性和引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明，现有系统经常违反关键文档不变性，包括一致的章节结构、正确的浮动体放置和有效的标签-引用链接，这损害了编译可靠性和下游可用性。分析进一步揭示，带有可验证奖励的强化学习相比仅用监督微调能带来一致改进，尤其在结构和编译指标上。

开源/仓库数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

上下文永不足够：基于结构化推理的可扩展长文档集问答

SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库，利用SQL进行高效推理，避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段，通过来源、依据和元数据检测并修复重复、不一致或不完整的记录，确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型，平均领先GPT-4.1达6.6分；在包含390万和3600万token的两个新基准上，相较次优模型的优势分别扩大至约19分和32分，展现出卓越的大规模文档处理能力。

检索增强论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

dWorldEval：基于离散扩散世界模型的可扩展机器人策略评估方法

研究团队提出dWorldEval，一种基于离散扩散世界模型的可扩展机器人策略评估框架。该方法将视觉、语言和机器人动作等多模态数据映射到统一的令牌空间，通过单一Transformer去噪网络进行建模，并引入稀疏关键帧记忆以保持时空一致性。模型在推理时联合预测未来观测和任务进度令牌，当进度值达到1时自动判定任务成功。实验表明，dWorldEval在LIBERO、RoboTwin及多项真实机器人任务上显著优于WorldEval、Ctrl-World和WorldGym等现有方法，为构建大规模机器人评估的世界模拟器提供了新的架构范式。

具身智能论文/研究部署/工程

4月23日

08:00

HuggingFace Daily Papers（社区热门论文）

Memanto：面向长周期智能体的类型化语义记忆与信息论检索系统

本文提出Memanto，一种用于智能体AI的通用记忆层，挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理，其核心由无需索引的Moorcheh信息论搜索引擎驱动，可在低于90毫秒延迟内实现确定性检索，且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中，Memanto分别以89.8%和87.1%的准确率取得最优结果，超越所有基于混合图与向量检索的系统，仅需单次查询、无摄入成本并显著降低运行复杂度。

智能体 Hugging Face 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

DiffNR：面向稀疏视图三维断层扫描重建的扩散增强神经表示优化

神经表示在计算机断层扫描中能有效建模三维体数据，但在稀疏视图条件下会产生严重伪影。DiffNR 提出一种融合扩散先验增强神经表示优化的新框架，其核心是用于修正退化切片伪影的单步扩散模型 SliceFixer。该框架引入了专用条件层与数据策展策略以支持模型微调，并在重建过程中周期性地生成伪参考体数据，为欠约束区域提供辅助的三维感知监督。相比以往将 CT 求解器嵌入耗时迭代去噪过程的方法，DiffNR 采用的修复‑增强策略避免了频繁查询扩散模型，从而提升了运行效率。大量实验表明，DiffNR 平均将 PSNR 提升 3.99 dB，具有良好的跨领域泛化能力，并保持了高效的优化过程。

图像生成论文/研究部署/工程

08:00

Google Developers Blog（RSS）

精选59

使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架，旨在帮助移动开发者充分发挥神经处理单元（NPU）的效能，以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性，已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型，实现实时视频处理、动画生成与语音识别等高级功能。此外，平台还提供基准测试工具并具备跨平台兼容性，能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google 产品更新端侧部署/工程

推荐理由：Google 把 LiteRT 从实验品推到生产级，统一 NPU 调用 API，做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念，但 Google Meet 和 Epic Games 已经在用，说明不是 PPT。

08:00

蚂蚁百灵：Developer Blog（网页）

精选67

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

针对智能体任务中Token消耗快速增长的问题，Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化，旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s，在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平，保持了强大的任务执行与工具调用能力。

智能体模型发布部署/工程

推荐理由：蚂蚁百灵这次打的是「省 token」这张牌，104B 总参但只激活 7.4B，Agent 场景评测对齐同尺寸 SOTA，输出 token 消耗只有竞品的 1/10。做 Agent 产品、被推理成本卡脖子的团队值得认真看看这个路线。

01:21

SemiAnalysis@SemiAnalysis_

NVIDIA 比任何人都更了解其客户的需求。他们直接听到这些需求。这就是为什么解耦推理是未来，以及为什么 LPU 实际上在流水线的某些部分超越了 GPU。

大佬观点部署/工程

00:19

Sundar Pichai@sundarpichai

TPU 8t 针对训练优化，TPU 8i 针对推理优化。看起来不错！

Google 产品更新部署/工程

4月22日

23:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 推出 Privacy Filter

OpenAI 发布 Privacy Filter，一款用于检测和脱敏文本中个人身份信息（PII）的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率，支持开发者本地部署和定制。作为开放权重模型，它可自动识别并编辑敏感个人信息，为企业数据隐私保护和合规处理提供高效的技术解决方案。

OpenAI 开源/仓库数据/训练部署/工程

22:46

Chubby♨️@kimmonismus

与数据中心的扩张相比，曼哈顿计划简直是个笑话。但愿伊朗战争不会中断芯片生产。

OpenAI Newsroom: In January 2025, we committed to generating 10GW of compute and have already identified over 8GW of that. Now, we're pla...

OpenAI 数据/训练行业动态部署/工程

22:42

Hacker News 热门（buzzing.cc 中文翻译）

我们的第八代 TPU：两款芯片，迎接自主时代

Google发布第八代TPU，推出两款专为自主智能体（Agentic）时代设计的AI芯片。新一代TPU针对复杂AI工作负载和自主代理应用优化，旨在为下一代人工智能基础设施提供算力支撑。作为Google Cloud AI基础设施的核心组件，新芯片延续专用架构优势，进一步巩固其在云端AI训练与推理市场的竞争力，标志着AI计算进入自主代理新阶段。

智能体 Google 产品更新部署/工程

22:08

IT之家（RSS）

谷歌推出 TPU 8t / 8i，两款 AI 芯片分别面向训练和智能体推理

谷歌在 Google Cloud Next 大会发布两款 AI 芯片 TPU 8t 与 TPU 8i，分别面向大规模训练与智能体推理。TPU 8t 的 Pod 规模扩至 9600 颗，FP4 算力提升近 2 倍，单芯片横向扩展带宽达 400Gbps；TPU 8i 配备 384MB 片上 SRAM 与 288GB 片外 HBM，Pod 规模增至 1152 颗，FP8 算力提升 8.67 倍。两款芯片能效均为上一代 TPU Ironwood 的两倍。

智能体 Google 产品更新部署/工程

22:08

IT之家（RSS）

消息称三星电子减产 GDDR6 同时提升对特斯拉供应量，恐影响显卡市场

三星电子在削减GDDR6显存产能以提升盈利的同时，正大幅增加对特斯拉的供应规模。特斯拉今年1月要求三星将GDDR6供应量提升至原定水平的5倍以上，三星本月起扩大向特斯拉分配的8Gb GDDR6 Die产能，当前出货速度已达第一季度的4倍。这一变动可能挤占显卡市场的GDDR6供应，进一步加剧显存短缺态势。

行业动态部署/工程

22:08

IT之家（RSS）

力积电与美光合作开发1P制程DRAM，预计2028年下半年量产

力积电宣布与美光联合研发1P制程DRAM，预计2028年下半年量产，该制程单位晶圆产出可达现有工艺的2.5倍。双方合作的PWF后端晶圆制造业务预计2027年第四季度量产，目标月产能2万片。力积电高密度电容IPD 2.5D中介层已通过国际大厂认证即将量产，WoW四层晶圆堆叠有望2027年小规模量产。此外，该企业今年已上调12英寸DDI、图像传感器代工价格超10%，并提升NAND闪存晶圆代工投片价格，年内有望完成MLC NAND工艺开发。

行业动态部署/工程

21:00

Cloudflare Blog

提升 Rust Workers 可靠性：wasm-bindgen 中的 panic 与中止恢复

Rust Workers 曾因 panic 导致整个实例崩溃。通过与 wasm-bindgen 上游项目合作，现已支持弹性关键错误恢复，包括利用 WebAssembly Exception Handling 实现 panic 展开。

产品更新部署/工程

20:48

Google DeepMind@GoogleDeepMind

仅有 25% 的组织已将 AI 大规模投入生产。我们正致力于改变这一现状。🛠️ @Accenture、@BainandCompany、@BCG、@Deloitte 和 @McKinsey 正将我们的研究与他们的专业知识相结合，以负责任的方式将 AI 创新带给更多行业。🤝 了解更多 → https://goo.gle/42kvkz1

DeepMind 行业动态部署/工程

20:44

Rohan Paul@rohanpaul_ai

AI 需求快速增长。 Google Cloud 目前通过客户直接调用 API，每分钟处理 16 billion+ tokens，而上季度为 10 billion。

Sundar Pichai: Google Cloud has incredible momentum: our models now process 16B+ tokens /min via direct API use by our customers (up fr...

智能体 Google 行业动态部署/工程

20:12

Google Blog：AI（RSS）

Google 推出两款面向智能体时代的专用 TPU

Google 发布第八代 TPU，内含两款面向智能体时代的专用芯片。新处理器专为 AI 未来发展设计，针对智能体工作负载进行专门优化，提供更强算力支持。作为 Google AI 基础设施的最新升级，该系列芯片将助力下一代智能体应用的开发与部署。

智能体 Google 产品更新部署/工程

20:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Workspaces

OpenRouter 推出 Workspaces 功能，允许用户将项目组织到独立环境中。每个环境自带独立的 API 密钥、路由默认设置、护栏（guardrails）和可观测性（observability）配置。

产品更新部署/工程

20:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Workspaces 功能

OpenRouter 新增 Workspaces 功能，允许用户将项目组织为独立环境。每个工作区拥有独立的 API keys、路由默认值、guardrails 和可观测性配置，实现不同项目的资源隔离与管理。

产品更新部署/工程

20:00

OpenRouter：Announcements（RSS）

工作空间简介

OpenRouter 推出工作空间功能，支持用户将项目组织到相互独立的环境中。每个工作空间可配置专属的 API 密钥、自定义路由默认设置、防护规则以及观测性选项。这一功能有助于实现项目间的资源隔离与管理分离，提升多项目协作与安全管控的灵活性。

产品更新部署/工程

17:08

IT之家（RSS）

北京移动面向个人用户推出"算力 Token 套餐"：按词元计费，最低5.99元起

中国移动北京公司推出"算力 Token 套餐"，采用词元计费模式，最低5.99元可购次包，24.99元含1000万词元月包。针对无云电脑用户，同步推出内置OpenClaw（龙虾）的云电脑融合套餐，开机即用且支持主流大模型。此举旨在降低AI使用门槛，解决本地部署复杂、成本高等痛点。目前该套餐已在北京、湖北、河南等地落地。

智能体产品更新部署/工程

16:08

IT之家（RSS）

寒武纪回应互联网大厂自研芯片影响：公司产品对各类人工智能技术具备较好普适性

寒武纪董事长陈天石回应互联网大厂自研芯片影响时表示，互联网企业芯片多围绕主营业务或特定场景定制，而寒武纪产品为通用型智能芯片，对视觉、语音、自然语言处理等各类人工智能技术具备较好普适性。公司2025年实现营业收入64.97亿元，同比增长453.21%，净利润20.59亿元，同比扭亏为盈。目前公司拥有887人研发团队，占员工总数80.13%，其中超80%拥有硕士及以上学历。

行业动态部署/工程

16:08

IT之家（RSS）

缺口持续，2026 下半年全球 CPU 恐迎新一轮涨价

受AI算力需求激增及先进制程产能瓶颈影响，AMD与英特尔CPU价格已在今年3月上调5%至20%。供应链消息显示，短缺将持续至2027年，2026年第三季度恐将迎来新一轮涨价。其中，AMD计划在2026年第二、三季度累计上调服务器CPU价格16%-17%，英特尔下半年亦有8%-10%涨价空间。智能体AI兴起推动CPU与GPU协同计算需求，叠加晶圆代工成本上升，进一步推高价格。

智能体行业动态部署/工程

16:08

IT之家（RSS）

SK 海力士举行 P&T7 先进封装设施奠基仪式，将服务于 HBM 等制造

SK海力士在韩国清州为先进封装设施P&T7举行奠基仪式。该工厂总投资19万亿韩元（约合882亿元人民币），占地面积23万平方米，洁净室面积达15万平方米，将专注于HBM等AI存储器制造。设施包含6万平方米的WLP生产线（计划2027年10月完工）和9万平方米的WT生产线（预计2028年2月完工），完工后将驻扎约3000名员工。

行业动态部署/工程

15:08

IT之家（RSS）

SK 海力士 38.7 亿美元美国封装工厂动工，计划 2028 年投产 HBM4E 和 HBM5

SK 海力士投资 38.7 亿美元的美国印第安纳州首座先进封装工厂已正式动工，计划 2028 年下半年投产，主要生产面向 AI 需求的第七代 HBM4E 和第八代 HBM5 高带宽内存。该工厂于 4 月 17 日启动地基打桩，预计 2026 年下半年进入主体施工。与此同时，SK 海力士在韩国清州投资 19 万亿韩元建设下一代封装工厂，预计 2027 年底完工。

行业动态部署/工程