5月28日

08:00

HuggingFace Daily Papers（社区热门论文）

VisualThink-VLA：用于高效低延迟视觉-语言-动作策略的视觉中间推理框架

本文提出 VisualThink-VLA，一个用于 VLA 策略的视觉中间推理框架，旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测，在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token，以实现低延迟推理。研究引入了 VisualEvidence-Kit，其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中，该框架在大多数任务上成功率最高，并将推理增强基线的多秒级延迟降至亚秒级。例如，在 BridgeData V2 上，其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒，实现了 22.8 倍的加速。

智能体具身智能推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

看到不等于知道：视觉语言模型（VLMs）是否知道何时不应回答空间问题（以及为什么）？

研究构建了 SpatialUncertain 评估框架，测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下，模型平均准确率分别约为 30% 和低于 10%，并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准

06:07

Rohan Paul@rohanpaul_ai

The Grid：按任务难度定价的LLM推理平台

The Grid推出新的LLM推理平台，用实时供需市场定价取代传统的固定费率。它按任务难度分层：简单任务（如分类）用“standard”，常规生产任务（如RAG、智能体步骤）用“prime”，高难度任务（如长上下文推理）用“max”。应用将请求发送至The Grid，平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API，但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例，展示了如何通过“agent-prime”层级处理工单。

产品更新推理部署/工程

04:38

TechCrunch：AI（RSS）

对亚马逊而言又一利好消息，Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议，以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好，并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程

02:12

OpenCode@opencode

OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

产品更新多模态推理编码

01:02

Qwen@Alibaba_Qwen

精选69

Fast， faster， Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由：Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

5月27日

22:34

Ethan Mollick@emollick

Token 从一年前无人问津到如今成为编程的绝对必需品，这引发了焦虑，而非 AI 无用。没人知道谁该获得 Token，该获得多少，以及如何控制。

推理现象/趋势部署/工程

21:27

Berryxia.AI@berryxia

这次AI 跨过了一个"奇点"！

近期两个事件表明，前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview，其网络攻防能力过强，因此未公开，仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示，模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级，标志着能力的关键跃迁。

Lisan al Gaib: http://x.com/i/article/2058529613370802177

Anthropic OpenAI 大佬观点安全/对齐

21:11

Fuli Luo@_LuoFuli

MiMo API价格调整背后的技术逻辑

本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面，对SWA的层级KV cache优化使缓存容量提升5倍，相当于缓存成本降低80%，再结合混合模型中多个Full Attention模块的缓存读取重叠，进一步降低了实际成本。模型架构层面，MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例，其预填充计算量极低，使得原始推理成本远低于行业平均。因此，输入（缓存命中）价格最高降幅达99%，输入（缓存未命中）和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者，而非亏损运营。

大佬观点推理部署/工程

20:35

Chubby♨️@kimmonismus

NVIDIA Vera CPU首份公开基准测试出炉

Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心，专为智能体AI（Agentic AI）所需的代码执行、工具调用与数据管道设计。测试数据显示，Vera编译Linux内核耗时20秒，为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍，较AMD EPYC 9575F平均领先约10%。内存方面，Vera采用LPDDR5X，提供高达1.2 TB/s的带宽，每核内存带宽是传统x86 CPU的4倍以上，且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比，Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。

智能体推理评测/基准

18:35

Chubby♨️@kimmonismus

DeepSeek与小米MiMo大模型降价的技术根源

DeepSeek V4-Pro宣布永久降价75%，小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存，使其在100万token时仅为V3.2的10%，单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力，将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token，MiMo V2.5-Pro约为$3/百万，两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

DeepSeek 大佬观点推理部署/工程