6月16日

11:00

IT之家（RSS）

Tensordyne Napier 流片：宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统

Tensordyne 于当地时间6月15日发布 AI 推理系统 Napier (TDN)，宣称按 token 计能效达 NVIDIA Blackwell 系统的 17 倍、吞吐量达 13 倍。Napier 处理器采用对数数学设计，以台积电 3nm 制程生产，集成大量 SRAM 缓存和 HBM 内存，处理器间通信延迟＜1μs。Tensordyne 构建了集成 72 颗 Napier 芯片的 TDN72“推理舱”，一个机柜可容纳 4 个舱共 288 颗芯片。机架级 TDN 系统可支持以 1000 Token/s/user 速率进行 T 级 LLM 推理，每年额外创造 3300 万美元收入。

产品更新推理

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

LLM-as-Environment-Engineer：让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架，使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake，支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干，该框架在基准测试中取得最强综合性能，超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现，成功环境更新依赖失败证据并保留已有配置；当前 RL 检查点作为环境工程师优于原始基座模型，表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由：这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

06:36

MarkTechPost（RSS）

Sakana AI 推出商用产品 Sakana Marlin：企业智能体可生成长达100页研究报告及幻灯片

东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin，定位为虚拟首席战略官（Virtual CSO）的 B2B 自主研究智能体。输入主题后，Marlin 自主运行最多约8小时，输出数十至100页详细报告（含正文、参考文献和附录）及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索（AB-MCTS），可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试（约300名专业人士）优化，已与三菱 UFJ 金融集团合作，获花旗集团战略投资。定价按次付费（每次100积分，每积分98日元）及 Pro（月费15万日元，含2000积分）、Team（月费40万日元，含6000积分）套餐，AB-MCTS 已以 Apache 2.0 许可证开源。

智能体产品更新开源生态推理

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

22:23

Hacker News 热门（buzzing.cc 中文翻译）

Openrouter Fusion API

Openrouter 推出 Fusion API，可通过 openrouter.ai 使用，在 Hacker News 上获得 103 个用户点赞。

智能体产品更新推理

21:55

Cloudflare Blog

Cloudflare 引入 Ensemble AI 团队，加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入，以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理，开发了 NdLinear（可直接替换 Transformer 标准线性层并保持多维激活结构）和 NdLinear-LoRA（降低大模型微调所需可训练参数）。这些技术与量化等方法互补，旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台，通过全球网络与 serverless GPU 推理服务，进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

18:31

公众号：月之暗面（Kimi）

精选69

6倍速！Kimi K2.7 Code 高速版已上线

Kimi K2.7 Code 高速版上线，与普通版为同一模型，输出速度约 5-6 倍，常规编程场景约 180 Token/s，短上下文可达 260 Token/s。API 定价为普通版 2 倍，模型 ID：kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用，用量消耗为普通版 3 倍。使用须开启思考模式，关闭会报错或回退至 K2.6。庆祝发布，Kimi API 开放平台推出为期三周充赠活动，充值 500 元及以上享 20%-30% 代金券。相比 K2.6，K2.7 Code 在长上下文编程指令遵循、长程任务性能提升，平均 token 消耗减少 30%，内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元，缓存输入 1.3 元。非编程任务推荐 K2.6。

产品更新推理编码

关联讨论 3 条

推荐理由：这不是 K2.7 的换代，而是给开发者开了条高速车道，180 token/s 让代码补全几乎无感，虽然贵但省时间，重度编程用户值得切。