6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

DelveAgent与PhySciBench：物理科学深度研究的多智能体框架与综合基准

PhySciBench是面向物理科学研究的基准，包含200道专家精选的物理和化学问题，覆盖六类真实科研任务。评测显示，最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架，配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上，DelveAgent将准确率提升最多7.5个百分点，推理成本降至最强基线的约三分之一。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FAPO：多步LLM管道的全自主提示优化框架

FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证，优先尝试提示编辑，仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上，FAPO在18个模型-基准比较中15次击败基线GEPA，平均增益+14.1pp；其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上，提示优先搜索升级为结构变化的6次比较中FAPO全胜，平均增益+33.8pp。安全任务上，仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp，Foundation-Sec-8B-Instruct提升+7.1pp，Foundation-Sec-8B-Reasoning提升+2.0pp。

检索增强推理论文/研究部署/工程

07:02

IT之家（RSS）

高通发布骁龙 Reality Elite 旗舰 XR 芯片，AI 算力提升 160%

高通发布骁龙 Reality Elite 旗舰 XR 芯片（第三代骁龙 XR2 更名）。相比前代 XR2+ Gen2，GPU 性能提升 60%，CPU 提升 30%，NPU AI 算力提升 160% 达 48 TOPS。摄像头视频透视延迟降低 10%，功耗减少 33%。支持 UFS 4.0、4.2GHz 内存、蓝牙 6.0 及双 USB 3.1。续航延长 20%，满载温度最多降低 12°C。NPU 本地运行 30 亿参数大语言模型速度 45 tokens/s；512×512 视觉模型推理约 1.7 秒。首款搭载设备 Xreal Aura Android XR 眼镜今年秋季发售，玩出梦想也官宣下一代旗舰搭载该芯片。

产品更新推理端侧

06:56

Hacker News 热门（buzzing.cc 中文翻译）

SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA)，在 needle-in-a-haystack 测试中接近完美检索 12M token，注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5，速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%，LiveCodeBench v6 pass@4 89.7%，AutomationBench Finance 13%。模型基于现有开源前沿模型改造，通过阶段上下文扩展（262K 至 2M）和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署，计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布

06:35

Rohan Paul@rohanpaul_ai

Tensordyne 发布突破性推理系统，基于对数 AI 计算芯片

Tensordyne 发布突破性推理系统，采用对数 AI 计算芯片。相比 NVIDIA Blackwell，每瓦特 token 数提升 17 倍，吞吐量提升 13 倍。核心创新是在硬件中实现高效对数运算，将乘法转为加法，从而缩小计算电路、减少晶体管、降低功耗，释放芯片空间用于更多张量引擎、高带宽 SRAM 和 HBM3e 内存。针对 DeepSeek-R1，单机架可达 363K tokens/sec，对照系统仅 27.4K。Napier 处理器已完成流片，在台积电 3nm 制程生产。

Tensordyne: http://x.com/i/article/2066408998698442752

产品更新推理部署/工程

04:54

NotebookLM@NotebookLM

NotebookLM 更强大的对话体验已100%向全球 Google AI Ultra 订阅用户推出。升级版由 Gemini 3.5 和 Antigravity 驱动，改进了聊天界面，用户可更清晰地查看 AI 思考过程。每个笔记本附带一个安全云端计算机，包含100+个精选软件技能，支持更深度的研究和复杂分析。

NotebookLM: Want a closer look at today's launch? Here is a breakdown of what's new and exciting 🧵: First up: An upgraded, more tho...

Google 产品更新推理

03:55

elvis@omarsar0

Z.AI 发布 GLM-5.2，采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升，支持 1M 上下文窗口，具备长时能力。提供两种推理力度：GLM-5.2 （max）与 GLM-5.2 （high），后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻，并关注其长时任务表现。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体开源生态推理模型发布

03:53

MiniMax (official)@MiniMax_AI

MiniMax 的 M3 模型在卡塔尔 vs 瑞士的世界杯比赛中正确预测平局，成为五个模型和一位人类预测中唯一正确的选择。Kilo CLI 分析显示，该基准刻意排除博彩赔率，因此瑞士 64% 的市场赔率未被纳入。M3 依据双方相同的 WWDLW 记录、卡塔尔更高的原始评分以及瑞士更强的联赛水平做出判断。主推文同时提问"FWC-Bench when？"，暗示可能推出新基准测试。

Kilo: Qatar vs Switzerland. Five models and one human predicted. Everyone took a side. @MiniMax_AI's M3 took the draw, and it ...

推理评测/基准

02:33

Rohan Paul@rohanpaul_ai

新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的“生产-评估差距”：模型能解出数学题并得到正确答案，但在评估他人推理时，即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷，只要最终答案正确，模型也往往判定为合格。作者提出VAIR（有效答案-无效推理）基准验证该问题。这种现象称为“答案确认偏差”，模型仅凭正确答案而非有效逻辑评判推理。与人类相比，模型从解题到评估的能力下降更显著，表明AI可能成为制造看似合理论点的自信引擎，而非真正理解自身产出的推理引擎。

安全/对齐推理论文/研究评测/基准

02:24

Chubby♨️@kimmonismus

GLM-5.2 作为开放权重模型发布，采用 MIT 许可，拥有 1M 上下文窗口。提供两种推理模式：max（极限推理）和 high（平衡性能与 token 效率）。在编码和智能体任务上有显著提升，专为大规模实现、自动化研究、性能优化和复杂调试训练。API 定价与 GLM-5.1 保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face 开源生态推理模型发布

02:16

🚨 AI News | TestingCatalog@testingcatalog

ZAI 在 Hugging Face 上发布 GLM-5.2，采用 MIT 开源许可，API 定价与 GLM-5.1 相同。模型支持 1M 上下文窗口，提供两种推理努力级别：max（极致性能）和 high（平衡性能与 token 效率）。在编程和 AI 智能体任务上有显著提升，具备长程任务能力。DeepSWE 基准得分 46.2%，创下开源权重模型的 SOTA 纪录。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face 开源生态推理模型发布

01:53

OpenRouter@OpenRouter

来自 @Zai_org 的 GLM-5.2 已在 OpenRouter 上线！ Z.ai 的旗舰模型，专为长期任务设计，现在拥有 1M token 上下文窗口，能够在冗长杂乱的编码智能体工作中保持可靠。

推理模型发布编码

00:01

StepFun@StepFun_ai

阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计，具备原生多模态理解、强智能体编码能力、可靠工具使用，以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力，主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布

6月16日

23:30

HuggingFace Daily Papers（社区热门论文）

ExpRL：探索性RL用于LLM中期训练

稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式：利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准，LLM裁判对比模型推理轨迹与参考答案，输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上，ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强，并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。

推理数据/训练论文/研究

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

21:50

Ant Ling@AntLingAGI

Ling & Ring 2.6 技术报告发布，带来两款开放权重基座模型。我们通过架构、训练和智能体能力的协同设计，共同优化模型与系统： • 7：1 混合线性注意力 • 用于稳定智能体强化学习的 KPop：SWE-bench Verified 76.28% • 约 4 倍 token 效率

开源生态推理模型发布编码

关联讨论 4 条

21:18

TechCrunch：AI（RSS）

Probably 获 900 万美元种子轮，构建更可靠的 AI 错误检测系统

Probably 获得 Andreessen Horowitz 的 900 万美元种子轮融资，旨在构建严格错误检测系统，防止模型幻觉和事实错误，目标达到 99.99% 准确率。其首款产品是数据科学工具，能从复杂数据集快速生成答案，每个结果附带引用和审计追踪。工具通过确定性验证器系统（“数据科学机甲套装”）校验 LLM 初轮回答，仅返回与数据集匹配的结果。系统针对验证器进行了训练和优化；当前版本运行在比前沿模型弱四个等级的模型上，可在本地桌面硬件运行，大幅降低 token 成本。

推理数据/训练行业动态

20:59

François Chollet@fchollet

我们将创造强大AI开源且人人可用的未来的方法，是让AI在推理计算和（更重要的）训练数据需求方面大幅提高效率。这正是符号学习将实现的目标。

大佬观点推理数据/训练

16:00

IT之家（RSS）

OpenRouter 发布 Fusion API，多模型协同以一半成本接近 Claude Fable 5 性能

AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API，将用户请求并行发送至多个模型，经审查模型分析后由调用模型生成统一回答。官方测试显示，Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%，超过单独 Claude Fable 5 的 65.3%；双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%，以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。

DeepSeek OpenAI 产品更新推理

13:27

HuggingFace Daily Papers（社区热门论文）

Tangram：解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型

多轮LLM服务中，对话历史KV缓存随轮次增长，内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度，但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律，仅需50样本离线校准，并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现，Tangram匹配现有非均匀压缩方法的精度，端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。

推理论文/研究部署/工程

13:27

HuggingFace Daily Papers（社区热门论文）

PauseRec：面向生成式推荐的轻量隐式推理范式

基于大语言模型（LLM）的生成式推荐（GR）使用语义ID（SID）表示物品，破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式，无需推理轨迹获取与对齐训练。相比标准显式CoT方法，PauseRec性能提升最高6.22%，训练GPU耗时减少65%，推理速度加快71.3%，成为更高效且有效的替代方案。

推理数据/训练论文/研究

12:27

HuggingFace Daily Papers（社区热门论文）

VibeThinker-3B：小模型可验证推理前沿探索技术报告

HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式，经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3（借助claim-level test-time scaling提升至97.1），LiveCodeBench v6 Pass@1达80.2，最近LeetCode未见题接受率96.1%，性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4，表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。

推理编码论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

TIE：基于轨迹的掩码扩散语言模型集成框架

研究发现掩码扩散语言模型（MDLM）中，成功的生成在答案相关位置呈现稳定置信度动态，不可靠轨迹可通过注入其他模型的中间状态纠正。基于此，提出TIE（Trajectory-based Iterative Ensembling）框架，通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列，使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能，为MDLM集成提供了实用方案。

推理数据/训练论文/研究

11:00

IT之家（RSS）

Tensordyne Napier 流片：宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统

Tensordyne 于当地时间6月15日发布 AI 推理系统 Napier (TDN)，宣称按 token 计能效达 NVIDIA Blackwell 系统的 17 倍、吞吐量达 13 倍。Napier 处理器采用对数数学设计，以台积电 3nm 制程生产，集成大量 SRAM 缓存和 HBM 内存，处理器间通信延迟＜1μs。Tensordyne 构建了集成 72 颗 Napier 芯片的 TDN72“推理舱”，一个机柜可容纳 4 个舱共 288 颗芯片。机架级 TDN 系统可支持以 1000 Token/s/user 速率进行 T 级 LLM 推理，每年额外创造 3300 万美元收入。

产品更新推理

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

10:20

Artificial Analysis@ArtificialAnlys

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体 Anthropic DeepSeek 推理

08:49

Ethan Mollick@emollick

如果AGI可实现，并且只有在实验室公开发布模型的情况下才能禁止其内部使用，那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。

大佬观点安全/对齐推理

08:37

Epoch AI@EpochAIResearch

Claude Fable 5 在 Epoch Capabilities Index 上取得新高分161！这以1分优势击败了GPT-5.5 Pro，也是Anthropic一年多来首次在该指数上领先。

Anthropic OpenAI 推理评测/基准

08:03

MiniMax (official)@MiniMax_AI

MiniMax 官方展示开源模型 M3 Q4（4-bit 量化版）本地运行能力：使用 MLX-VLM 部署在 Mac Studio M3 Ultra 上，模型读取驾照照片和扫描文档后，自动完成一份美国海关申报表。处理耗时约 31 秒，输入 1，847 tokens，输出 736 tokens。过程中模型流式输出推理链，并调用 write_field、mark、sign 三个工具，无需人工干预。

atomic.chat: Open-weight MiniMax M3 filled out a US customs form from a driver's license photo For this test we deployed MiniMax M3 Q...

推理教程/实践端侧

08:00

HuggingFace Daily Papers（社区热门论文）

LLM-as-Environment-Engineer：让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架，使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake，支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干，该框架在基准测试中取得最强综合性能，超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现，成功环境更新依赖失败证据并保留已有配置；当前 RL 检查点作为环境工程师优于原始基座模型，表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由：这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

07:19

Rohan Paul@rohanpaul_ai

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

Joshua Ong @ ICML: 🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...

开源/仓库推理数据/训练模型发布

06:43

Nathan Lambert@natolambert

我发布了后训练课程中的另外3个视频！ 1. 第5讲：推理模型的崛起 2. 第6讲：DPO推导、直觉与实践 3. 读者关于第1-4讲的问答 rlhfbook dot com slash course 更多即将到来！

推理教程/实践数据/训练

06:36

MarkTechPost（RSS）

Sakana AI 推出商用产品 Sakana Marlin：企业智能体可生成长达100页研究报告及幻灯片

东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin，定位为虚拟首席战略官（Virtual CSO）的 B2B 自主研究智能体。输入主题后，Marlin 自主运行最多约8小时，输出数十至100页详细报告（含正文、参考文献和附录）及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索（AB-MCTS），可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试（约300名专业人士）优化，已与三菱 UFJ 金融集团合作，获花旗集团战略投资。定价按次付费（每次100积分，每积分98日元）及 Pro（月费15万日元，含2000积分）、Team（月费40万日元，含6000积分）套餐，AB-MCTS 已以 Apache 2.0 许可证开源。

智能体产品更新开源生态推理

04:49

Rohan Paul@rohanpaul_ai

MiniMax Sparse Attention

MiniMax Sparse Attention（MSA）在1M token时，将注意力计算量削减28.4倍，H800 GPU上预填充提速14.2倍、解码提速7.6倍，同时基准性能基本持平全量版本。MSA不放弃softmax注意力，而是在分组查询注意力旁增设一个小型路由分支，让每个查询组自主选择应查看的key-value块，主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题，通过架构内建选择器，用模型自身注意力模式训练路由，使注意力变得有选择性而非穷举。

推理论文/研究部署/工程

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

23:42

Nathan Lambert@natolambert

Nathan Lambert 驳斥 API 蒸馏不可能论

Lambert 指出，美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹，帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持，因为推理模型本身倾向于输出推理痕迹，完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程，以便开展知情政策讨论。

antirez: Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...

Anthropic 安全/对齐推理

23:42

Ethan Mollick@emollick

奇怪的标题--我不确定解决10个极其困难的新问题中的7个就意味着AI"没有完成任务"，而15个月前大语言模型还不会做数学。但实际研究很有趣，揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf 【引用 @Nature】：人工智能经历了其最严谨的数学测试，然而它并未完成任务 https://go.nature.com/4oqlNk6

nature: Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....

大佬观点推理评测/基准

22:24

Baidu Inc.@Baidu_Inc

产品更新推理