AIHOT

4月25日

19:14

IT之家（RSS）

在2026九峰山论坛上，新凯来旗下万里眼公司发布了65GHz采样示波器，旨在破解1.6T高速光模块的量产测试瓶颈。该产品面向AI算力驱动下光互连技术向1.6T演进的需求，实现了三大突破：500kHz采样率将测试效率提升100%；65GHz带宽支持单波200G测量，为1.6T通信奠定基础；12μW超低光功率噪声保障了高精度生产。此举贯通了1.6T研发与量产的全流程测试。

产品更新部署/工程

18:17

Hacker News：AI 热帖

展示 HN：一个由智能体维护的 Karpathy 风格 LLM 维基（基于 Markdown 和 Git）

WUPHF 是一个为 AI 员工设计的协作办公平台，通过一个命令即可启动，在本地提供 Web 界面。它将不同角色的 AI 智能体置于一个共享的虚拟办公室中，使其可见、可争论并协作完成任务。平台为每个智能体提供私人笔记，团队共享一个基于 Markdown 和 Git 的本地维基，智能体可自主将可靠信息同步至团队知识库。项目目前处于 1.0 版本前的预发布阶段，默认使用 Claude Code，支持通过命令行参数灵活配置。

智能体MCP/工具产品更新开源/仓库

18:14

IT之家（RSS）

安卓首发：荣耀 YOYO 率先接入 DeepSeek-V4 大模型

荣耀YOYO成为安卓阵营中首个接入DeepSeek-V4大模型的AI智能体。此次接入带来三大核心升级：模型性能更强、上下文处理长度更长、推理效率更高。用户需将YOYO智能体升级至90.10.28.041及以上版本，并在MagicOS 8.0及以上系统环境中即可抢先体验此次更新。

DeepSeek产品更新端侧

17:42

Hacker News 热门（buzzing.cc 中文翻译）

Show HN：浏览器框架--赋予大型语言模型（LLM）自由完成任何浏览器任务的能力

开源项目“Browser Harness”发布，旨在赋予大型语言模型（LLM）在浏览器中自主完成任意任务的能力。该工具通过提供一个可编程的浏览器控制框架，使LLM能够像人类一样操作网页，执行点击、输入、导航等复杂交互。此举有望突破当前AI代理在自动化网络操作方面的限制，扩展LLM的实际应用场景。该项目已在GitHub开源，并在Hacker News社区获得100点热度关注。

智能体MCP/工具开源/仓库

16:14

IT之家（RSS）

Yeelight 智能雷达人在护眼吸顶灯 RadarSense 现身，众筹价 269 元起

Yeelight智能雷达人在护眼吸顶灯RadarSense已在小米平台开启众筹，起售价269元。该产品主打毫米波雷达人在感应技术，通过AI算法识别10米范围内人体的动静状态，实现无感自动开关灯，并能有效减少误触发。其采用双蓝光豁免级技术，显色指数高达Ra99，同时降低有害蓝光且无可见频闪。灯具内置160W恒流驱动电源，支持亮度自由调节，并已接入米家App，兼容超级小爱、遥控器及墙壁开关控制。

产品更新其他

16:14

IT之家（RSS）

英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

英伟达宣布其Blackwell平台已适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。DeepSeek-V4-Pro拥有1.6T总参数量与49B激活参数，定位高级推理；DeepSeek-V4-Flash则为284B总参数量与13B激活参数，主打高效场景。两款模型均支持100万Token上下文窗口与最高38.4万Token输出长度。实测显示，DeepSeek-V4-Pro在NVIDIA GB200 NVL72上开箱性能超过150 tokens/sec/user。开发者可通过NVIDIA NIM微服务下载部署，或利用SGLang与vLLM框架进行定制化推理，vLLM支持扩展至100个以上GPU。

DeepSeek产品更新开源生态部署/工程

关联讨论 3 条

4月24日

21:08

IT之家（RSS）

阿里云百炼上线 DeepSeek-V4 模型，API 价格与官网一致

阿里云百炼平台宣布首发上线DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型，其API定价与DeepSeek官网完全一致。其中，Flash版本输入价格低至每百万Tokens 1元，输出价格为每百万Tokens 2元。两款模型均支持100万Tokens的超长上下文，V4-Pro专为复杂任务设计，V4-Flash侧重高效经济。此次接入进一步丰富了百炼平台作为“AI模型超市”的生态，为开发者提供了一站式调用各类顶尖模型的灵活选择。

产品更新开源生态部署/工程

20:00

OpenRouter：Announcements（RSS）

精选55

Agent SDK：在 OpenRouter 上构建多轮智能体工作流

OpenRouter 发布 Agent SDK，其核心是 callModel 函数。该函数可将一次聊天完成转化为具备工具调用、停止条件与成本追踪功能的多步骤智能体工作流。这一工具兼容平台上的 300 多个模型，使开发者能够便捷地构建复杂的多轮交互智能体应用。

智能体MCP/工具产品更新

推荐理由：OpenRouter 把多轮 agent 编排封装成一个 callModel 函数，300+ 模型统一调用，做 agent 产品的人可以少写不少胶水代码，但本质上是工程封装而非技术突破。

20:00

OpenRouter：Announcements（RSS）

使用 Agent SDK 构建你自己的 Harness

Anthropic 发布了 Agent SDK，开发者可利用 `create-agent-tui` 和 `create-headless-agent` 技能，在几分钟内搭建个性化的编码智能体。该 SDK 支持两种模式：一是提供终端用户界面的交互式代理，二是无界面的“headless”代理，便于集成到自动化脚本和流水线中。这显著降低了为特定编码任务定制 AI 助手的门槛。

智能体产品更新编码

19:19

The Decoder：AI News（RSS）

Anthropic 确认 Claude Code 存在问题并承诺实施更严格的质量控制

Anthropic 确认其编程助手 Claude Code 出现质量问题，用户反馈其性能下降。公司已识别并修复了三个独立的错误源。为应对此次问题，Anthropic 承诺未来将执行更严格的质量控制措施，以保障产品输出的稳定性和可靠性。

Anthropic产品更新编码

18:08

IT之家（RSS）

摩尔线程携手智源 FlagOS，为 MTT S5000 GPU 完成 DeepSeek-V4 模型 Day-0 适配

摩尔线程与智源FlagOS合作，成功为MTT S5000 GPU完成了DeepSeek-V4-Flash模型的Day-0适配。该模型采用混合专家架构，总参数量284B，并首次运用“FP4+FP8”混合精度策略。MTT S5000 GPU凭借原生FP8支持及内置硬件级FP8 Tensor Core，能将数据位宽减半，显著降低显存带宽压力并提升计算吞吐量。双方团队通过编译优化与自动调优，重点攻克了FP8算子与Sparse Attention算子，实现了高效适配。

产品更新开源生态部署/工程

18:08

IT之家（RSS）

Zondision 发布 ZIMO1 裸眼 3D 显示器：光场原理，内置 3D 芯片

Zondision发布ZIMO1裸眼3D显示器，采用光场原理并内置专用3D处理芯片。该显示器配备27英寸4K面板，刷新率为60Hz，亮度达450nits，覆盖100% sRGB色域。其双眼追踪速率达120Hz，兼容OpenXR API及多数主流沉浸式输入设备，支持2D转3D内容工具，可与虚幻、Unity、Blender等软件及多平台游戏协同工作。

产品更新其他

17:08

IT之家（RSS）

腾讯面向汽车行业发布全场景智能体开放平台，可化身专属 AI 导游、提供选品下单取餐全链路服务等

腾讯正式发布面向汽车行业的“出行全场景智能体开放平台”。该平台围绕通勤、出游、娱乐等高频率场景，提供开箱即用的智能体产品，例如随行点单智能体可完成从选品、下单到取餐的全链路服务；随行向导智能体能化身专属AI导游，并新增车队协同管理功能。底层技术方面，平台升级了端云协同座舱大模型架构，端侧采用0.8B轻量化VLM模型确保毫秒级响应，云端则率先接入混元最新大模型Hy3 preview。目前腾讯已服务超过100家车企及出行科技公司。

智能体行业动态部署/工程

17:08

IT之家（RSS）

MINIX 发布英伟达 Jetson Thor 平台 GenAI 迷你主机，搭载双万兆网口

硬件制造商MINIX于4月23日发布了两款基于英伟达Jetson Thor平台的GenAI迷你工作站T4000/T5000。该系列产品搭载Arm Neoverse-V3AE CPU和英伟达“Blackwell”GPU，配备最高128GB LPDDR5X统一内存，具备高达2070 TFLOPS的FP4稀疏算力，可支持70亿至700亿参数的大语言模型本地推理。主机尺寸紧凑，内置双涡轮风扇散热，预装1TB PCIe Gen4固态硬盘，并提供了双10GbE万兆网口、Wi-Fi 6E、蓝牙5.3、多个HDMI和USB接口等丰富的外部连接选项。

产品更新端侧部署/工程

16:08

IT之家（RSS）

宝马基于千问大模型推出座舱智能体，新世代 BMW iX3 长轴距版首搭

宝马在北京车展推出基于阿里巴巴千问大模型定制的座舱智能体，包括“用车专家”“出行伙伴”和“百科达人”三个AI智能体。这些智能体从传统语音助手的被动响应升级为主动决策，能精准处理复杂出行需求。首款搭载车型为新世代BMW iX3长轴距版，全新BMW 7系随后跟进。“出行伙伴”支持自然语言复合需求，即时生成个性化行程方案；“用车专家”深度集成20万条宝马专业知识库，提供真人顾问级解答。车展上，宝马集团展示16款新车型，其中4款全球首发、8款中国首发。

智能体端侧行业动态

16:08

IT之家（RSS）

华为云首发适配 DeepSeek-V4，提供免部署、一键调用 API 的 Tokens 服务

DeepSeek-V4预览版正式上线并开源。华为云宣布首发适配，在其MaaS平台上为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。该服务通过适配分层注意力压缩机制、提供多种昇腾高性能融合算子等优化，支持原生100万Token长上下文的高性能推理。V4系列包含1.6万亿参数的旗舰版Pro和2840亿参数的经济型Flash两个MoE架构版本，均原生支持100万Token上下文。新技术大幅降低了长上下文下的计算和显存需求。官方表示V4-Pro体验优于Anthropic Sonnet 4.5，但仍落后于GPT-5.4等前沿闭源模型。

DeepSeek产品更新部署/工程

15:08

IT之家（RSS）

火山引擎发布新一代汽车 AI 解决方案，豆包大模型搭载超 700 万辆车

在北京车展上，火山引擎发布了基于Agentic AI架构的新一代汽车AI解决方案，包含AI座舱套件和豆包座舱助手两大方案。新方案通过一个AI大脑深度联动整车功能域，实现了感知、推理、执行、记忆、学习的一体化闭环，颠覆了上一代架构。其中，AI座舱套件支持车企灵活配置，豆包座舱助手则为完整产品级交付，将于年内量产。目前，搭载豆包大模型的智能汽车已超700万辆，覆盖50多个品牌，日均完成超3000万次座舱交互。

智能体产品更新部署/工程

15:08

IT之家（RSS）

华为：昇腾超节点系列产品全面支持 DeepSeek V4

华为宣布其昇腾超节点全系列产品已全面支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术，实现了高吞吐、低时延的推理部署。具体性能上，DeepSeek V4-Pro模型在8K输入下，单卡解码吞吐达4700TPS，时延约20ms；V4-Flash模型单卡吞吐为1600TPS，时延约10ms。此外，昇腾A3超节点系列也全面适配，并提供训练参考实现；基于64卡配置，V4-Flash模型在8K/1K场景下单卡吞吐超过2000TPS。

DeepSeek产品更新部署/工程

14:45

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Agent Vault - 面向代理的开源凭证代理和存储库

Infisical团队开源了Agent Vault，这是一个专为AI代理设计的凭证代理与存储库。该项目旨在安全地管理AI代理在运行时所使用的API密钥、数据库密码等敏感凭证，防止其直接暴露在代码或环境中。Agent Vault作为代理与外部服务之间的中间层，集中处理身份验证，从而提升安全性并简化凭证管理流程。该项目已在GitHub发布，并在Hacker News上获得了101点关注度。

智能体开源/仓库部署/工程

14:08

IT之家（RSS）

小米支付服务 Skill 上线：开发者三步可完成接入，支持微信支付、支付宝等

小米澎湃OS开发者平台正式推出支付服务Skill能力，支持主流AI开发工具。该服务通过标准化接口，帮助商户快速对接收银台及支付功能，内置完整流程与适配方案，大幅简化开发周期。开发者仅需下载安装Skill、通过自然语言交互接入支付能力、自动联调测试三步即可完成接入，一次性支持小米支付、微信支付、支付宝等多种支付方式，并覆盖App/H5/小程序支付、拆单、退款等多项功能。

MCP/工具产品更新部署/工程

13:45

Hacker News 热门（buzzing.cc 中文翻译）

TorchTPU：在谷歌级规模下原生运行 PyTorch 于 TPU 上

谷歌发布了 TorchTPU，使 PyTorch 能够原生在 TPU 上运行，并实现谷歌级规模的计算。这一变化让开发者无需大幅修改代码即可利用 TPU 的高性能硬件，显著提升了 PyTorch 在大型模型训练和推理任务中的效率与可扩展性。此举标志着 PyTorch 与谷歌定制硬件生态的深度集成，为人工智能研究与开发提供了新的强大基础设施。

Google产品更新开源生态部署/工程

关联讨论 1 条

13:08

IT之家（RSS）

中国首台原生开发 Robotaxi 原型车吉利 EvaCab 北京车展首秀，全球首搭 2160 线数字化激光雷达

吉利汽车在北京车展发布中国首款原生开发Robotaxi原型车Eva Cab。该车基于全域AI 2.0技术体系打造，搭载全球首个量子级AI电子电气架构EEA 4.0，并采用量子加密技术保障安全。其核心亮点是全球首搭2160线数字化激光雷达，具备每秒2592万点的成像能力，最远探测距离达600米。车辆同时配备L4级自动驾驶软件方案千里浩瀚G-ASD。曹操出行深度定制版计划于2027年量产并投入商业化运营。

产品更新具身智能部署/工程

12:08

IT之家（RSS）

深蓝全新纯电轿跑 L06 Max 发布：售价 12.59 万元起

深蓝汽车发布全新中型纯电轿跑L06 Max，提供560Max和670Max两款配置，限时到手价分别为11.89万元和12.89万元。新车核心亮点包括：首次在中国品牌量产车型中搭载调节频率达1000次/秒的磁流变底盘；采用7700T一体化压铸技术提升车身刚性；CLTC最高续航670公里，支持3C超充。智能方面搭载DEEPAL AD Pro辅助驾驶系统，并率先接入DeepSeek大模型提供AI语音交互，主打高“质价比”。

其他行业动态

11:08

IT之家（RSS）

猛士 M817 Ultimate 越野车首秀：磐石底盘 2.0、首发华为乾崑智驾 NCA 越野版

在2026北京车展上，猛士汽车与华为乾崑宣布全面深化合作，并首发了合作新车猛士 M817 Ultimate。该车搭载了可主动预判路况的磐石底盘2.0和宣称140km/h不掉电的极猛动力2.0。其核心智能亮点是全球首搭华为乾崑智驾ADS 5系统，并首发NCA越野版功能，同时配备了量产最高896线激光雷达。ADS 5系统此前已正式发布，其算法、全维防碰撞系统及车位到车位智驾体验均得到显著升级，新增了全地形自适应越野模式。

产品更新行业动态

10:08

IT之家（RSS）

OPPO Enco Clip2 耳夹耳机首销：单耳 5.2g、丹拿调音，849 元

OPPO Enco Clip2 耳夹耳机于4月24日正式开售，售价849元。耳机提供高光金与深空灰两种配色，单耳仅重5.2克，采用超薄自适应钛片设计。续航方面，总续航达40小时，单次可使用9.5小时。音质上联合丹拿调音，配备双DAC双单元。其独家适配苹果语音指令，支持切歌、通话等操作。核心亮点是首发搭载6nm芯片，实现100倍降噪算力提升，提供AI通话降噪功能。

其他

10:08

IT之家（RSS）

城区百公里油耗 2.98L，长安第四代逸动蓝鲸超擎抢订价 7.99 万元起

在2026北京车展上，长安汽车推出了首款搭载蓝鲸超擎混动系统的第四代逸动，抢订价7.99-9.49万元。新车百公里城区油耗低至2.98L，较同级燃油车油耗降低50%。其车身尺寸为4785/1840/1460mm，轴距2765mm。内饰配备10.25英寸仪表盘和14.6英寸中控屏，集成天枢智慧座舱与DeepSeek AI大模型语音。动力系统采用热效率近45%的混动发动机与效率98.1%的高功率电驱，配合高倍率电池。按年行驶1.5万公里计算，每年可节省油费约3882元。

其他行业动态

09:08

IT之家（RSS）

豆包上线"帮你选"功能，与抖音电商实现交易闭环

豆包App上线“帮你选”功能，内嵌于导航栏。该功能以对话式交互为核心，用户通过语音或文字提出购物需求，豆包会快速梳理并列出选项的优缺点、价格对比，提供个性化建议。关键进展在于该功能已与抖音电商深度打通，构建交易闭环，用户可在豆包App内直接下单支付，无需跳转至抖音。此前，豆包已于3月开始内测“购物下单”功能。字节跳动CEO梁汝波曾表示，豆包用户规模增长较快，但与国际头部竞品仍有差距。

智能体产品更新搜索

08:13

Claude Code：GitHub Releases（RSS）

精选56

Claude 代码工具 v2.1.119 版本更新

Claude 代码工具发布 v2.1.119 版本，带来多项功能优化与问题修复。主要更新包括：用户配置现持久化至本地文件；新增 `prUrlTemplate` 设置以自定义 PR 徽章链接；`--from-pr` 命令扩展支持 GitLab、Bitbucket 等多个平台。工具权限与交互行为在多处实现统一，例如 `--print` 模式现在遵从代理的前置元数据定义。界面体验获得改进，如斜杠命令建议会高亮匹配字符，长描述自动换行。此外，本次更新修复了大量已知问题，涉及粘贴格式错乱、工具意外隐藏、MCP 服务器连接失败、权限模式行为异常及界面显示错误等。

Anthropic产品更新编码

推荐理由：Claude Code 这次更新全是打磨细节，没有大功能但修了一堆让人骂娘的 bug，重度用户值得升级，其他人等下一个大版本也行。

4月23日

08:00

Google Developers Blog（RSS）

精选59

使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架，旨在帮助移动开发者充分发挥神经处理单元（NPU）的效能，以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性，已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型，实现实时视频处理、动画生成与语音识别等高级功能。此外，平台还提供基准测试工具并具备跨平台兼容性，能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google产品更新端侧部署/工程

推荐理由：Google 把 LiteRT 从实验品推到生产级，统一 NPU 调用 API，做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念，但 Google Meet 和 Epic Games 已经在用，说明不是 PPT。

4月22日

20:00

OpenRouter：Announcements（RSS）

工作空间简介

OpenRouter 推出工作空间功能，支持用户将项目组织到相互独立的环境中。每个工作空间可配置专属的 API 密钥、自定义路由默认设置、防护规则以及观测性选项。这一功能有助于实现项目间的资源隔离与管理分离，提升多项目协作与安全管控的灵活性。

产品更新部署/工程

17:08

IT之家（RSS）

澎湃 OS 3 Beta 版向小米 17 系列手机推送"龙虾"智能体 Xiaomi miclaw

小米澎湃OS 3 Beta版已向小米17系列、Redmi K90 Pro Max等机型推送“龙虾”智能体Xiaomi miclaw。该智能体基于小米MiMo大模型，能让手机成为AI工具，理解用户意图后调用应用与系统工具完成任务。主要更新包括新增人格与技能体系、支持自然语言创建定时任务、可使用80多项系统工具，并预置了日程、沟通、办公等多场景一方助手。它还支持跨设备同步记忆和文件搜索传输，并可通过助手商店扩展能力。目前该产品仍属前沿探索，在稳定性与复杂场景处理方面持续优化。

智能体MCP/工具产品更新

4月15日

08:00

Cursor Blog

精选69

在画布中与智能体创建的可视化界面交互

Cursor新增画布功能，可将信息转化为可视化、可交互的界面，替代难以阅读的长篇文本。智能体能利用画布为真实数据创建仪表盘，或定制带逻辑的交互界面，应用于代码审查、学习库文档乃至管理其他智能体。该功能基于React组件库构建，包含表格、图表等原生组件。在数据密集型任务中尤为高效，例如聚合多源数据生成统一分析图表，或在代码审查中智能分组并优先展示关键变更。Cursor团队已借此显著提升了模型评估分析和复杂问题研究的效率，成为扩展人机协作信息带宽的关键工具。

智能体产品更新编码

推荐理由：Cursor 把 agent 输出从纯文本拉到可交互的可视化画布，PR review、eval 分析这些高频场景立刻能用上。做 coding agent 的同行该想想自己的 agent 输出形态是不是该升级了。

08:00

OpenRouter：Announcements（RSS）

精选57

宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口，直接调用顶级的视频生成模型。这一集成简化了开发流程，使开发者无需分别对接不同厂商，即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由：OpenRouter 把视频生成塞进统一 API，对已经在用它做多模型路由的开发者来说是零成本扩展，但对大多数人只是又一个聚合入口，不算必须关注的节点。

4月8日

20:00

Cursor Blog

精选66

Bugbot 现可通过学习规则实现自我改进

Bugbot 的 bug 解决率已从 2025 年 7 月正式推出时的 52% 提升至近 80%，领先其他 AI 代码审查产品。其核心改进在于引入了规则学习机制，能够从实时代码审查反馈（如开发者反应、回复和人工评审意见）中自主学习，取代了原先依赖离线实验的更新模式。自测试版推出以来，已有超过 11 万个仓库启用该功能，生成了逾 4.4 万条规则。这些规则可根据信号积累被激活或禁用，帮助 Bugbot 更精准地识别问题。用户可在 Cursor Dashboard 中管理学习规则，以优化审查效果。

智能体产品更新编码

推荐理由：AI code review 赛道卷了两年，Bugbot 78% 的解决率终于把第二名甩开 15 个点，关键不是分数而是它开始从真实 PR 反馈里自动学规则，做 code review 工具的该认真看看这套闭环逻辑。

3月25日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code 自动模式：在安全与效率间取得平衡

Anthropic 为 Claude Code 推出“自动模式”，旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间，采用两层防御机制：输入层通过服务器端提示注入探测器扫描工具输出；输出层则利用基于 Sonnet 4.6 模型的转录分类器，在执行前评估操作风险。分类器采用高效的两阶段设计，先快速过滤，必要时才启动思维链推理。其目标是拦截危险操作（如过度积极行为、无心之失、提示注入等），同时让大部分安全操作无需确认即可运行，内部测试显示用户原本会批准约93%的手动提示。

Anthropic产品更新安全/对齐编码

推荐理由：这是 Claude Code 从「手动审批」跳到「AI 自审」的关键一步，双层防御设计坦诚到连 17% 漏检率都公开讲，做 coding agent 的团队该把这篇当安全设计参考。

3月12日

08:00

OpenRouter：Announcements（RSS）

Auto Exacto：自适应质量路由，现已默认开启

Auto Exacto 功能现已默认开启，尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估，评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据，自动将请求导向当前最优的模型提供商。

MCP/工具产品更新部署/工程

2月23日

08:00

OpenRouter：Announcements（RSS）

February Release Spotlight

本次发布在模型页面新增了基准测试功能，并推出了一款全新的免费模型路由工具。同时，平台提升了不同服务提供商之间的成本透明度，使用户能更清晰地比较和选择。这些更新旨在帮助开发者更高效地评估模型性能、优化调用路径并管理使用成本。

产品更新部署/工程

2月11日

18:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由：蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

2月5日

11:24

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ling 项目官网

inclusionAI 正式推出 Ling 项目的官方网站，该网站约 95% 的内容和功能由人工智能技术构建完成。这一举措展示了 AI 在网站开发与内容生成领域的高度参与度，标志着项目在技术整合与应用层面的重要进展。

开源/仓库行业动态

1月30日

15:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销，并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明，其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时，解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代，已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由：蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销，实测吞吐比 vLLM 高 1.4 到 2.4 倍，做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。