4月17日

08:00

HuggingFace Daily Papers（社区热门论文）

针对并行推理中早期错误导致无效路径的高成本问题，研究团队提出首个路径剪枝系统化分类框架，并开发了基于可学习内部信号的STOP（Super TOken for Pruning）方法。在1.5B至20B参数的大型推理模型评估中，该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%，有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。

推理论文/研究部署/工程

07:28

SemiAnalysis@SemiAnalysis_

NVIDIA vLLM NVL72 优势：与 B200 相比，GB200 NVL72 在 @Kimi_Moonshot 的 Kimi K2.5 上性能提升高达 3 倍。这得益于 GB200 的纵向扩展网络，支持前沿推理优化，如宽专家并行。向 @rogerw0108 @NVIDIAAIDev @vllm_project @inferact @simon_mo_ 致敬，出色的工作！🚀 不仅 SGLang 针对分解+宽专家并行进行了优化，vLLM 也进行了优化！

产品更新推理部署/工程

03:50

Ethan Mollick@emollick

我认为 Claude Opus 4.7 中的自适应思考需求具有所有 AI 努力度路由器的糟糕之处，但由于没有像 ChatGPT 那样的手动覆盖选项，问题被放大了。它经常将非数学/代码类内容判定为"低努力度"，并产生更差的结果。

Anthropic 大佬观点推理

03:44

Chubby♨️@kimmonismus

Anthropic 提高了所有订阅者的速率限制？永久性的！这我可没料到！【引用 @bcherny】：Opus 4.7 使用了更多 thinking tokens，所以我们提高了所有订阅者的速率限制作为补偿。Enjoy！

Boris Cherny: Opus 4.7 uses more thinking tokens, so we've increased rate limits for all subscribers to make up for it. Enjoy!

Anthropic 产品更新推理

03:41

Boris Cherny@bcherny

Anthropic 产品更新推理

03:26

宝玉@dotey

Claude Opus 4.7更耗token，Anthropic上调用户速率限制

Claude Opus 4.7 较上一代模型消耗更多思考 token，Anthropic 已为所有付费订阅用户永久上调速率限制（rate limits），以抵消新模型带来的额外额度消耗。用户若未看到额度上调，需确认当前选用的是 Opus 4.7 模型，且 Claude Code 已升级至最新版本。

Boris Cherny: Opus 4.7 uses more thinking tokens, so we've increased rate limits for all subscribers to make up for it. Enjoy!

Anthropic 产品更新推理

4月16日

23:47

Yuchen Jin@Yuchenj_UW

我在 Claude 网页版上使用 Opus 4.7 的最大问题：只有"Adaptive"或非思考模式。无法强制开启思考模式。而且它甚至不知道 Opus 4.6 的存在，而且我无法在对话中途强制它进行思考和网络搜索！

Anthropic 产品更新推理

23:47

TestingCatalog News 🗞@testingcatalog

移动端的Claude中，Opus 4.7版本使用了"自适应思考"模式，而非之前的"扩展思考"。 &gt；切换至Opus 4.7来处理你最雄心勃勃的工作 &gt；仅在需要时思考我们该关闭这个功能吗？👀

Seth Saler: @testingcatalog Interesting. "Adaptive" thinking for Opus 4.7 versus "Extended" thinking for Sonnet 4.6

Anthropic 产品更新推理