SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。
SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。
研究团队提出dWorldEval,一种基于离散扩散世界模型的可扩展机器人策略评估框架。该方法将视觉、语言和机器人动作等多模态数据映射到统一的令牌空间,通过单一Transformer去噪网络进行建模,并引入稀疏关键帧记忆以保持时空一致性。模型在推理时联合预测未来观测和任务进度令牌,当进度值达到1时自动判定任务成功。实验表明,dWorldEval在LIBERO、RoboTwin及多项真实机器人任务上显著优于WorldEval、Ctrl-World和WorldGym等现有方法,为构建大规模机器人评估的世界模拟器提供了新的架构范式。
本文提出Memanto,一种用于智能体AI的通用记忆层,挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理,其核心由无需索引的Moorcheh信息论搜索引擎驱动,可在低于90毫秒延迟内实现确定性检索,且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中,Memanto分别以89.8%和87.1%的准确率取得最优结果,超越所有基于混合图与向量检索的系统,仅需单次查询、无摄入成本并显著降低运行复杂度。
神经表示在计算机断层扫描中能有效建模三维体数据,但在稀疏视图条件下会产生严重伪影。DiffNR 提出一种融合扩散先验增强神经表示优化的新框架,其核心是用于修正退化切片伪影的单步扩散模型 SliceFixer。该框架引入了专用条件层与数据策展策略以支持模型微调,并在重建过程中周期性地生成伪参考体数据,为欠约束区域提供辅助的三维感知监督。相比以往将 CT 求解器嵌入耗时迭代去噪过程的方法,DiffNR 采用的修复‑增强策略避免了频繁查询扩散模型,从而提升了运行效率。大量实验表明,DiffNR 平均将 PSNR 提升 3.99 dB,具有良好的跨领域泛化能力,并保持了高效的优化过程。
LiteRT 是一个生产就绪的框架,旨在帮助移动开发者充分发挥神经处理单元(NPU)的效能,以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性,已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型,实现实时视频处理、动画生成与语音识别等高级功能。此外,平台还提供基准测试工具并具备跨平台兼容性,能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。
针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。
OpenAI 发布 Privacy Filter,一款用于检测和脱敏文本中个人身份信息(PII)的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率,支持开发者本地部署和定制。作为开放权重模型,它可自动识别并编辑敏感个人信息,为企业数据隐私保护和合规处理提供高效的技术解决方案。
Google发布第八代TPU,推出两款专为自主智能体(Agentic)时代设计的AI芯片。新一代TPU针对复杂AI工作负载和自主代理应用优化,旨在为下一代人工智能基础设施提供算力支撑。作为Google Cloud AI基础设施的核心组件,新芯片延续专用架构优势,进一步巩固其在云端AI训练与推理市场的竞争力,标志着AI计算进入自主代理新阶段。
谷歌在 Google Cloud Next 大会发布两款 AI 芯片 TPU 8t 与 TPU 8i,分别面向大规模训练与智能体推理。TPU 8t 的 Pod 规模扩至 9600 颗,FP4 算力提升近 2 倍,单芯片横向扩展带宽达 400Gbps;TPU 8i 配备 384MB 片上 SRAM 与 288GB 片外 HBM,Pod 规模增至 1152 颗,FP8 算力提升 8.67 倍。两款芯片能效均为上一代 TPU Ironwood 的两倍。
三星电子在削减GDDR6显存产能以提升盈利的同时,正大幅增加对特斯拉的供应规模。特斯拉今年1月要求三星将GDDR6供应量提升至原定水平的5倍以上,三星本月起扩大向特斯拉分配的8Gb GDDR6 Die产能,当前出货速度已达第一季度的4倍。这一变动可能挤占显卡市场的GDDR6供应,进一步加剧显存短缺态势。
力积电宣布与美光联合研发1P制程DRAM,预计2028年下半年量产,该制程单位晶圆产出可达现有工艺的2.5倍。双方合作的PWF后端晶圆制造业务预计2027年第四季度量产,目标月产能2万片。力积电高密度电容IPD 2.5D中介层已通过国际大厂认证即将量产,WoW四层晶圆堆叠有望2027年小规模量产。此外,该企业今年已上调12英寸DDI、图像传感器代工价格超10%,并提升NAND闪存晶圆代工投片价格,年内有望完成MLC NAND工艺开发。
Rust Workers 曾因 panic 导致整个实例崩溃。通过与 wasm-bindgen 上游项目合作,现已支持弹性关键错误恢复,包括利用 WebAssembly Exception Handling 实现 panic 展开。
Google 发布第八代 TPU,内含两款面向智能体时代的专用芯片。新处理器专为 AI 未来发展设计,针对智能体工作负载进行专门优化,提供更强算力支持。作为 Google AI 基础设施的最新升级,该系列芯片将助力下一代智能体应用的开发与部署。
OpenRouter 推出 Workspaces 功能,允许用户将项目组织到独立环境中。每个环境自带独立的 API 密钥、路由默认设置、护栏(guardrails)和可观测性(observability)配置。
OpenRouter 新增 Workspaces 功能,允许用户将项目组织为独立环境。每个工作区拥有独立的 API keys、路由默认值、guardrails 和可观测性配置,实现不同项目的资源隔离与管理。
OpenRouter 推出工作空间功能,支持用户将项目组织到相互独立的环境中。每个工作空间可配置专属的 API 密钥、自定义路由默认设置、防护规则以及观测性选项。这一功能有助于实现项目间的资源隔离与管理分离,提升多项目协作与安全管控的灵活性。
中国移动北京公司推出"算力 Token 套餐",采用词元计费模式,最低5.99元可购次包,24.99元含1000万词元月包。针对无云电脑用户,同步推出内置OpenClaw(龙虾)的云电脑融合套餐,开机即用且支持主流大模型。此举旨在降低AI使用门槛,解决本地部署复杂、成本高等痛点。目前该套餐已在北京、湖北、河南等地落地。
寒武纪董事长陈天石回应互联网大厂自研芯片影响时表示,互联网企业芯片多围绕主营业务或特定场景定制,而寒武纪产品为通用型智能芯片,对视觉、语音、自然语言处理等各类人工智能技术具备较好普适性。公司2025年实现营业收入64.97亿元,同比增长453.21%,净利润20.59亿元,同比扭亏为盈。目前公司拥有887人研发团队,占员工总数80.13%,其中超80%拥有硕士及以上学历。
受AI算力需求激增及先进制程产能瓶颈影响,AMD与英特尔CPU价格已在今年3月上调5%至20%。供应链消息显示,短缺将持续至2027年,2026年第三季度恐将迎来新一轮涨价。其中,AMD计划在2026年第二、三季度累计上调服务器CPU价格16%-17%,英特尔下半年亦有8%-10%涨价空间。智能体AI兴起推动CPU与GPU协同计算需求,叠加晶圆代工成本上升,进一步推高价格。
SK海力士在韩国清州为先进封装设施P&T7举行奠基仪式。该工厂总投资19万亿韩元(约合882亿元人民币),占地面积23万平方米,洁净室面积达15万平方米,将专注于HBM等AI存储器制造。设施包含6万平方米的WLP生产线(计划2027年10月完工)和9万平方米的WT生产线(预计2028年2月完工),完工后将驻扎约3000名员工。
SK 海力士投资 38.7 亿美元的美国印第安纳州首座先进封装工厂已正式动工,计划 2028 年下半年投产,主要生产面向 AI 需求的第七代 HBM4E 和第八代 HBM5 高带宽内存。该工厂于 4 月 17 日启动地基打桩,预计 2026 年下半年进入主体施工。与此同时,SK 海力士在韩国清州投资 19 万亿韩元建设下一代封装工厂,预计 2027 年底完工。
Brex推出CrabTrap,一款采用"大语言模型充当裁判"机制的HTTP代理安全工具,用于防护生产环境中的AI代理。该系统利用LLM实时审查代理发出的HTTP请求,识别并拦截潜在恶意操作,为企业级AI应用提供安全屏障。目前该产品已正式发布并提供技术文档。
LoopCTR提出一种循环扩展范式,通过递归重用共享模型层将训练计算与参数增长解耦,采用三明治架构结合超连接残差与混合专家,并在各循环深度实施过程监督。该方法实现"训练多循环、推理零循环"策略,单次前向传播即可超越所有基线。实验在三个公开基准及工业数据集上达到SOTA性能,Oracle分析揭示0.02-0.04 AUC的优化空间,且少循环训练模型展现出更高的自适应推理潜力。
英伟达CEO黄仁勋在Cadence Live 2026活动中阐述全栈AI战略,提出以"单位Token成本"替代最大吞吐量作为衡量AI系统的核心指标。尽管Blackwell及下一代Rubin平台硬件造价高达数百万美元,但依托CUDA软件栈深度优化,英伟达实现了全球最低的Token生成成本与Token/瓦特能效比,通过将高昂硬件成本分摊至海量Token产出,建立AI效率竞争壁垒。
SpaceX在IPO前向投资者发出警告,其太空AI数据中心及月球、火星定居点计划因依赖未经证实的技术,可能无法实现商业可行性。这与CEO马斯克近期"太空是放置AI最便宜的地方"的乐观表态形成鲜明对比。公司提交的S-1文件显示,该计划面临严酷太空环境带来的独特风险。SpaceX正寻求以约1.75万亿美元估值融资750亿美元上市,同时坦言对星舰项目存在严重依赖。
研究团队基于强化学习options框架提出时间扩展MoE架构,通过在每层添加控制器学习专家切换时机,解决传统MoE频繁切换导致的内存效率问题。在gpt-oss-20b上的实验表明,该方法结合低秩适配器与自蒸馏奖励,将专家切换率从50%以上降至5%以下,同时在MATH等基准测试中保持90%的基础模型准确率。这种轻量级方案使现有预训练模型可转换为内存高效的时间扩展MoE,在切换开销与模型能力间实现灵活权衡。
River-LLM是一种无需训练的大语言模型加速框架,通过KV-Shared Exit River机制解决早退技术中的KV缓存缺失问题,使被跳过层缺失的历史状态能在退出过程中自然生成和保留,避免昂贵的重计算或精度损失。该方法利用解码器块内的状态转移相似性预测累积KV误差以指导退出决策,在数学推理和代码生成任务中实现1.71至2.16倍的实际推理加速,同时保持高生成质量。
开源项目 GoModel 基于 Go 语言构建,提供 AI 网关功能,代码已发布至 GitHub。该项目于 4 月 21 日在 Hacker News 的 Show HN 板块亮相,获得 102 个赞。GoModel 旨在利用 Go 语言的高并发特性,为 AI 应用提供统一的模型接入和管理层,简化多模型服务的集成与调用流程。
Anthropic与亚马逊达成重大合作协议,获得50亿美元投资,并承诺未来在AWS上投入1000亿美元用于云服务。这笔交易凸显了AI公司对云计算算力的巨大需求,以及亚马逊通过战略投资锁定长期云支出的商业策略。50亿美元投资额与1000亿美元云支出承诺形成显著对比,反映出Anthropic对亚马逊云基础设施的深度依赖。
英伟达正式发布 DLSS 4.5 SDK,基于第二代 Transformer AI 模型,支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构,提供统一接入路径并支持按需选择,显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术,助力新一代 PC 游戏提升性能与画质。
Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题,聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统,实时追踪版本发布后的崩溃指标。采用双重调试策略:自上而下关联功能与崩溃数据,监控大消息负载;自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来,全版本会话OOM率下降80%,自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏,以应对突发与渐进性内存耗尽。
Anthropic 正在欧洲和澳大利亚招聘数据中心合同专员,首次将基础设施团队扩展至美国以外地区。据 Data Center Dynamics 发现的招聘信息显示,该公司正积极招募具备大型数据中心项目经验的专业人才,以推进海外基础设施布局。这一举措标志着 Anthropic 全球业务扩张进入新阶段,旨在支撑其 AI 业务快速增长的算力需求。
Amazon 向 AI 公司 Anthropic 追加投资最多 250 亿美元,总投资额达 330 亿美元。作为回报,Anthropic 承诺未来十年在 AWS 基础设施上投入超过 1000 亿美元。这笔交易旨在缓解 Anthropic 的算力瓶颈,同时也体现了 AI 行业典型的资金循环模式——云厂商通过投资换取 AI 公司的云服务长期消费承诺。
TrendForce预测2026年全球AI光模块市场规模将达260亿美元(约1776亿元),同比增长57.6%。微软、谷歌、Meta等巨头加码AI算力基建驱动需求激增,但EML、CW-LD等关键元器件供应紧张形成产能瓶颈,英伟达等已转向长期合同锁定产能。技术路线加速向低功耗LPO和硅光子学演进,2026年还将迎来800G与1.6T ZR/ZR+相干光模块的新一波扩张。
一款流行的《Roblox》作弊程序与某AI工具意外引发连锁反应,导致Vercel整个云平台瘫痪。这一事件揭示了现代云基础设施中潜在的脆弱性,两个独立应用的高并发请求最终压垮了托管服务。该事件在技术社区引发广泛关注,相关报道在Hacker News上获得超过100个点赞。
英伟达发布Jetson平台内存优化指南,通过系统层、内核层及推理流水线优化,最高可释放约12GB内存。具体措施包括禁用图形界面(省865MB)、裸机部署替代容器(省70MB)、Python迁移至C++(省84MB)及DeepStream优化(省258MB)。模型量化方面,Qwen3 8B从FP16量化至W4A16可节省约10GB。Reachy Mini机器人已在Jetson Orin Nano 8GB上通过4位量化实现端侧多模态AI部署。
2026 款华硕 ROG 幻 16 双屏版已开启预约,将于 4 月 28 日开售,首发到手价 37999 元起。该机配备双 16 英寸 2880×1800 分辨率 120Hz OLED 触控屏,峰值亮度 1100nits,覆盖 100% DCI-P3 色域。搭载英特尔酷睿 Ultra 9 386H 处理器和 LPDDR5X-8533 内存,提供 RTX 5070 Ti(1TB)和 RTX 5090(2TB)两种显卡配置,性能释放可达 140W/150W。机身采用铝合金 CNC 工艺,内置 90Wh 电池,重 2.82kg。
工信部表示将支持太空算力技术前瞻性研究并有序推动该产业发展,同时引导算力基础设施按需建设,推进算力与绿色电力协同布局及自动化监测全域覆盖。数据显示,2026年一季度工业机器人产量同比增长33.2%,集成电路产量同比增长24.3%,无人机、AI眼镜等终端产品日益丰富。
工信部回应近期存储器涨价问题,明确将通过增强供给能力、促进供需对接、维护市场秩序等举措保障产业链供应链稳定。数据显示,2026年一季度工业经济稳中有进,34个行业增加值同比增长,10个工业大省规模以上工业增加值增速约7.2%,高技术制造业增加值同比增长12.5%。此外,工信部正开展算电协同政策研究,并将支持太空算力技术前瞻性研究,有序推动太空算力产业发展。