6月6日

06:00

Chubby♨️@kimmonismus

MIT Buehler团队提出Self-Revising Discovery Systems框架，让AI能自主扩展科学词汇（变量、工具、验证器、模型结构），而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流，证明真正发现是可验证的schema扩展：旧证据通过Left Kan extension迁移，新异性由pointwise残差客观量化，区分发现与搜索。三种模态：检索（添加已知对象）、搜索（固定schema）、发现（验证的范式转换）。案例包括Builder/Breaker发现蛋白质模式条件合规性，CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体推理论文/研究

04:59

Rohan Paul@rohanpaul_ai

Claude Opus 4.7化学突破：反向推断分子结构，媲美专业NMR软件

Anthropic最新化学报告显示，通用大模型Claude Opus 4.7（无化学微调）在NMR核磁共振谱分析上匹配甚至超越专用软件MestReNova，氢预测误差最小，碳预测近乎一致。更关键的是，它能从NMR光谱反向推导分子结构——这一任务以往只能由人类化学家完成。这意味着AI现在可以处理化学中的关键瓶颈：在分子结构、谱图与最终确认之间自动翻译。

Anthropic: New Anthropic Science Blog: Making Claude a chemist. To manipulate a molecule, chemists first need to understand its str...

Anthropic 推理论文/研究

关联讨论 2 条

03:21

Hacker News 热门（buzzing.cc 中文翻译）

Gemma 4 QAT 模型：优化压缩以提升移动设备和笔记本电脑的能效

Google 发布 Gemma 4 QAT 模型，该模型通过量化感知训练（QAT）技术优化压缩，旨在提升移动设备和笔记本电脑上的运行效率与能效。文章来源于 Google 官方博客，介绍了这一面向移动端和笔记本端的模型优化方案。

Google 推理模型发布端侧

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

AURA：面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤，生成包含隐式需求估计和标量差距分数（gap score）的 IntentFrame，用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上，AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07（p < 10⁻⁶），其中三个场景统计显著，且在第二个骨干模型上复现；消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中，控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究

21:15

IT之家（RSS）

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法，已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏，引入 Token 位置衰减（TPD）和输出感知度量（OAM），仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速，在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究

20:58

Rohan Paul@rohanpaul_ai

Anthropic呼吁全球减缓前沿AI：其模型可能接近递归自我改进

Anthropic公开呼吁全球采取行动减缓前沿AI发展，因其Claude模型可能接近递归自我改进（系统无需人类控制即帮助构建更强版本）。目前尚未发生，但跳跃可能突然到来，且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码，工程师产出达2024年基线8倍；可靠任务长度每4个月翻倍，Mythos Preview可连续工作超16小时；训练代码加速从3x跃至52x（人类仅4x）。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元，年化收入或达500亿美元，与OpenAI激烈竞争。

Rohan Paul: Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...

Anthropic 安全/对齐推理政策/监管

关联讨论 12 条

20:29

Chubby♨️@kimmonismus

Kim反驳RSI言论为IPO炒作的质疑：Anthropic数据证实发展加速

Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据：即使模型能力冻结，智能体扩散也将使100人公司完成1000人工作；实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务，一年后Sonnet 3.7达1.5小时，再一年后Opus 4.6达12小时，翻倍周期从7个月缩短至4个月。若趋势持续，今年内可处理数天级任务。OpenAI同样认可该方向。

Chubby♨️: I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quit...

智能体 Anthropic OpenAI 推理

19:27

MarkTechPost（RSS）

Perplexity AI 推出混合本地-服务器推理编排器：自动在设备端与云端间路由 AI 任务

Perplexity AI 发布面向个人电脑的混合本地-服务器推理编排器，可自动将 AI 任务在设备端模型与云端模型之间动态路由，实现推理负载的智能分配与优化。

产品更新推理端侧

19:27

MarkTechPost（RSS）

NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具，在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复，实现快速启动。

开源/仓库推理部署/工程

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

18:52

公众号：百度智能云（文心）

百度伐谋走进北工大实验室：从制氢安全到空间站监测，加速科研探索

百度伐谋进入北京工业大学苗扬团队实验室，辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中，模型准确率从92.26%提升至95.04%，探索周期从“周级”缩短至“小时级”；在空间站色谱柱优化中，72小时内生成方案，体积缩小40%、分离效率提升3倍、误差降低8.17%；海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”，而是围绕目标、变量和评价标准进行大规模搜索试错。

推理搜索行业动态

18:15

IT之家（RSS）

视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

Pinterest 宣布大幅扩展与 AWS 的合作，计划在 2031 年前投入 40 亿美元，扩大对 AWS 定制芯片（包括 CPU 和 AI ASIC）的使用。目前约 1/3 的计算基础设施已运行在 AWS Graviton 系列 Arm CPU 上，未来还将利用 AWS Trainium 托管和运行 LLM / VLM 模型，支持个性化视觉搜索和 AI 辅助发现。首席技术官 Matt Madrigal 表示，深化合作将加速 AI 创新，提升用户体验和广告主效果。

推理行业动态部署/工程

17:48

HuggingFace Daily Papers（社区热门论文）

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量，定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩（有效秩熵减少），且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明，SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当，在特定任务上表现出优势，成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程

16:50

SiliconFlow@SiliconFlowAI

DeepSeek 在 @OpenRouter 的 token 份额位列第一--已连续四周我们很自豪为其提供了很大一部分支持你可以在 @SiliconFlow 上找到完整的 @deepseek_ai 模型阵容： → V4 Pro & Flash（最佳性价比 🔥） → V3.2 · V3.2 Exp · V3.1 · V3.1 Terminus · V3 0324 · R1 0528

OpenRouter: DeepSeek has now topped our token share rankings 4 weeks in a row: https://openrouter.ai/rankings

DeepSeek 推理行业动态

15:57

Tencent Hy@TencentHunyuan

精选74

腾讯混元联合人大开源PlanningBench评估框架

腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

智能体 arXiv GitHub 开源/仓库

推荐理由：腾讯混元联合人大开源的 PlanningBench，补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口，做 Agent 的同学可以直接用来评测和训练，开源即用。