AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月28日周四
08:00HuggingFace Daily Papers(社区热门论文)55VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架
08:00HuggingFace Daily Papers(社区热门论文)61看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?
06:07Rohan Paul67The Grid:按任务难度定价的LLM推理平台
04:38TechCrunch:AI(RSS)53对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议
02:12OpenCode66OpenCode与MiMo V2.5限时免费开放
01:02Qwen69精选Fast, faster, Qwen. 🚀
5月27日周三
22:34Ethan Mollick63Token 成为编程刚需引发管理难题
21:27Berryxia.AI60这次AI 跨过了一个"奇点"!
21:11Fuli Luo59MiMo API价格调整背后的技术逻辑
20:35Chubby♨️58NVIDIA Vera CPU首份公开基准测试出炉
18:35Chubby♨️65DeepSeek与小米MiMo大模型降价的技术根源
17:35Chubby♨️60DeepMind负责人:AGI或将在2029年实现,比先前预测提前一年
15:37MarkTechPost(RSS)67认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法
15:19HuggingFace Daily Papers(社区热门论文)59协作并行思考:面向高效测试时缩放的协作并行思考框架
15:14IT之家(RSS)59Anthropic 的 Claude Mythos 也解出 80 年数学难题
14:03Alibaba Cloud78Qwen3.7 Max 现已支持 Go 语言调用
14:02Hacker News 热门(buzzing.cc 中文翻译)54下个词预测技术将带给我们什么?
12:19HuggingFace Daily Papers(社区热门论文)67MobileMoE:扩展设备端混合专家系统
12:13IT之家(RSS)66英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%
12:02Hacker News 热门(buzzing.cc 中文翻译)73小米 MiMo-v2.5 系列 API 永久降价,最高优惠达 99%
11:29SiliconFlow63OpenRouter完成1.13亿美元B轮融资
11:19HuggingFace Daily Papers(社区热门论文)72同事件精选MiniMax-M2系列:微小激活释放最大真实世界智能同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
11:13IT之家(RSS)58安全可靠等级 I 级:华为昇腾 310 / 910 人工智能训练推理芯片通过中国信息安全测评中心认证
10:19HuggingFace Daily Papers(社区热门论文)68递归流匹配
10:19HuggingFace Daily Papers(社区热门论文)58RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能
09:33歸藏(guizang.ai)66小米MiMo API大幅降价,额度提升
08:32Ethan Mollick58专家亲测:Codex将法律研究从一周缩短至2小时
08:27Berryxia.AI55M3动态稀疏注意力架构实现百万token上下文9.7倍加速
08:13IT之家(RSS)50IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
08:00HuggingFace Daily Papers(社区热门论文)48CORE:对比反思实现推理能力的快速提升
08:00HuggingFace Daily Papers(社区热门论文)44RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性
08:00HuggingFace Daily Papers(社区热门论文)55推理模型在对抗压力下的思维链-答案分离现象研究
08:00HuggingFace Daily Papers(社区热门论文)55深度学习的Hamilton-Jacobi理论
08:00HuggingFace Daily Papers(社区热门论文)45当置信度产生误导:面向扩散语言模型的后缀锚定与锚点邻域置信度调节
07:07SemiAnalysis58LLM端到端延迟中预填充与解码占比分析
04:50Epoch AI69算力危机将至?Blackwell芯片产能与需求对比
04:31elvis60大语言模型需要"睡眠"
03:58Elon Musk44Grok纠正Gemini在事实核查中的混淆错误
03:33Chubby♨️78精选MiMo 2.5 Pro大幅降价,与DeepSeek V4 Pro同价
03:02The Decoder:AI News(RSS)72同事件精选据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
08:00
HuggingFace Daily Papers(社区热门论文)
55
VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架

本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。

智能体具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?

研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准
06:07
Rohan Paul@rohanpaul_ai
67
The Grid:按任务难度定价的LLM推理平台

The Grid推出新的LLM推理平台,用实时供需市场定价取代传统的固定费率。它按任务难度分层:简单任务(如分类)用“standard”,常规生产任务(如RAG、智能体步骤)用“prime”,高难度任务(如长上下文推理)用“max”。应用将请求发送至The Grid,平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API,但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例,展示了如何通过“agent-prime”层级处理工单。

产品更新推理部署/工程
04:38
TechCrunch:AI(RSS)
53
对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议,以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好,并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程
02:12
OpenCode@opencode
66
OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像
产品更新多模态推理编码
01:02
Qwen@Alibaba_Qwen
精选69
Fast, faster, Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由:Qwen3.5在TokenSpeed上跑出580 tps,这是开源LLM推理的极限突破,对agent类应用是实实在在的性能跃进,PyTorch这篇博客值得每一个做推理部署的细读。
5月27日
22:34
Ethan Mollick@emollick
63
Token 从一年前无人问津到如今成为编程的绝对必需品,这引发了焦虑,而非 AI 无用。 没人知道谁该获得 Token,该获得多少,以及如何控制。
推理现象/趋势部署/工程
21:27
Berryxia.AI@berryxia
60
这次AI 跨过了一个"奇点"!

近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。

Lisan al Gaib: http://x.com/i/article/2058529613370802177

AnthropicOpenAI大佬观点安全/对齐
21:11
Fuli Luo@_LuoFuli
59
MiMo API价格调整背后的技术逻辑

本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面,对SWA的层级KV cache优化使缓存容量提升5倍,相当于缓存成本降低80%,再结合混合模型中多个Full Attention模块的缓存读取重叠,进一步降低了实际成本。模型架构层面,MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例,其预填充计算量极低,使得原始推理成本远低于行业平均。因此,输入(缓存命中)价格最高降幅达99%,输入(缓存未命中)和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者,而非亏损运营。

大佬观点推理部署/工程
20:35
Chubby♨️@kimmonismus
58
NVIDIA Vera CPU首份公开基准测试出炉

Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。

智能体推理评测/基准
18:35
Chubby♨️@kimmonismus
65
DeepSeek与小米MiMo大模型降价的技术根源

DeepSeek V4-Pro宣布永久降价75%,小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存,使其在100万token时仅为V3.2的10%,单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力,将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token,MiMo V2.5-Pro约为$3/百万,两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

DeepSeek大佬观点推理部署/工程
17:35
Chubby♨️@kimmonismus
60
DeepMind负责人:AGI或将在2029年实现,比先前预测提前一年

Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年,并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是:用知识截止于1911年的 AI 能否独立推导出广义相对论,目前尚无系统能接近通过。然而,业界对 AGI 的定义仍无共识,例如 OpenAI CEO Altman 预测时间为2028年,xAI CEO Musk 宣称奇点已在1月发生,而 Anthropic 则避免使用该术语。尽管定义不明,AGI 实现的时间线预测正在不断缩短。

DeepMind大佬观点推理现象/趋势
15:37
MarkTechPost(RSS)
67
认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法

EAGLE团队与vLLM、TorchSpec联合发布EAGLE 3.1,旨在修复大语言模型推理过程中的投机解码算法不稳定性问题。

开源/仓库推理部署/工程
15:19
HuggingFace Daily Papers(社区热门论文)
59
协作并行思考:面向高效测试时缩放的协作并行思考框架

为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。

arXiv推理搜索论文/研究
15:14
IT之家(RSS)
59
Anthropic 的 Claude Mythos 也解出 80 年数学难题

继 OpenAI 宣布利用 GPT-5.5 模型攻克保罗·埃尔德什提出的“平面单位距离猜想”后,Anthropic 工程师 Sholto Douglas 在 X 平台表示,其模型 Claude Mythos 也独立解出了这道存在 80 年的数学难题。Douglas 称 Claude Mythos 给出了一份“巧妙而简洁”的证明,并通过一个由多个 Claude Code 实例组成的系统完成。数学家 Daniel Litt 评价该结果略逊于 OpenAI 的版本。

Anthropic推理行业动态
14:03
Alibaba Cloud@alibaba_cloud
78
100万上下文窗口。更智能的推理。更多可能性。很高兴看到 Qwen3.7 Max 现已通过 @opencode 支持 Go 语言调用 🚀

OpenCode: Qwen3.7 Max now available in Go - text only - 1M context - smartest model in the Qwen family to date

推理模型发布
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
14:02
Hacker News 热门(buzzing.cc 中文翻译)
54
下个词预测技术将带给我们什么?

文章围绕“下个词预测”技术,探讨了其在当前与未来的可能影响及面临的局限性。它提出了一个核心问题:这一技术将把我们带向何处。

推理现象/趋势
12:19
HuggingFace Daily Papers(社区热门论文)
67
MobileMoE:扩展设备端混合专家系统

MobileMoE是一系列面向设备端部署的大语言模型,采用混合专家架构,其活动参数规模为0.3-0.9B,总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下,确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程,MobileMoE在14个基准测试中,以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能,并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上,其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。

推理端侧论文/研究
12:13
IT之家(RSS)
66
英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%

英伟达Vera数据中心处理器基准测试成绩显示,其基于Arm v9.2指令集和88个Olympium核心,综合平均性能比前代Grace快63%,同时领先AMD EPYC 9575F 10%及Intel Xeon 6980P 55%。该处理器专为Agentic AI设计,官方称性能比x86处理器高出1.5倍。

推理评测/基准
12:02
Hacker News 热门(buzzing.cc 中文翻译)
73
小米 MiMo-v2.5 系列 API 永久降价,最高优惠达 99%

小米 MiMo-v2.5 系列 API 宣布进行永久性价格下调,其中部分模型的最高优惠幅度可达 99%。

产品更新推理
11:29
SiliconFlow@SiliconFlowAI
63
祝贺 @OpenRouter 完成1.13亿美元B轮融资!🎉 期待未来更多的 token 和更大的里程碑🚀

OpenRouter: Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...

推理行业动态
11:19
HuggingFace Daily Papers(社区热门论文)
同事件精选72
MiniMax-M2系列:微小激活释放最大真实世界智能

MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。

智能体推理模型发布
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax 把激活参数压到 9.8B 却敢喊前沿,整套 design 都是为 agent 场景重做的,搞 agent 的开发者该认真看一眼这个信号。
11:13
IT之家(RSS)
58
安全可靠等级 I 级:华为昇腾 310 / 910 人工智能训练推理芯片通过中国信息安全测评中心认证
推理行业动态
10:19
HuggingFace Daily Papers(社区热门论文)
68
递归流匹配

递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。

arXiv推理数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
58
RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能

RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。

图像生成推理论文/研究
09:33
歸藏(guizang.ai)@op7418
66
我去,小米 MiMo API大幅降价 2.5 Pro 输入降价幅度高达 99%!输出也有80%! 而且Token plan 额度也大幅提升,相较以前多了5-8倍。 同时重置了所有人的额度。
产品更新推理
08:32
Ethan Mollick@emollick
58
律师专家分享在Codex中搭建50州法律研究工作流的实例。此类工作过去需要律师助理团队耗时一周完成,成本约15万至30万美元。现在,通过Codex API,类似质量的研究仅需2小时,成本极低。主推文指出,与过去外行评论AI不同,如今是领域专家们开始感叹当前AI系统在实际应用中被严重低估的能力。

prinz: I recently put together a 50-state legal research workflow in Codex. This is the kind of work that a team of associates ...

OpenAI大佬观点推理
08:27
Berryxia.AI@berryxia
55
M3动态稀疏注意力架构实现百万token上下文9.7倍加速

MiniMax即将发布M3模型。其核心架构为基于GQA的动态块稀疏注意力机制,通过轻量索引分支筛选相关token块进行稀疏注意力计算。性能方面,在1M token上下文窗口下,Prefill速度相比M2提升9.7倍,解码速度提升15.6倍。该设计旨在大幅降低处理超长上下文的算力成本,使百万token级别的Agent应用得以更高效落地。

Skyler Miao: Something BIG is coming

推理模型发布
08:13
IT之家(RSS)
50
IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
推理编码行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
48
CORE:对比反思实现推理能力的快速提升

CORE是一种非参数学习算法,通过对比成功与失败的推理轨迹生成简短自然语言 insights(推理策略和约束),使语言模型快速改进推理。在四个推理任务上,CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升;在固定rollout预算下,仅用5个训练样本即可达到可比或更大增益。同时,CORE比非参数基线更上下文高效,将知识存储为紧凑可解释的自然语言insights,所需prompt token更少。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
推理模型在对抗压力下的思维链-答案分离现象研究

该研究发现,推理模型在多轮对话的持续对抗压力下,会出现“不忠实的屈服”现象:其内部思维链从首轮到末轮均保持事实正确,但最终输出的答案却翻转变错。实验在MT-Consistency、MMLU-Pro和GSM8K三个数据集上进行,结果显示,发生此现象时,模型在“思考模式”下的潜在正确率接近50%,而在“无思考模式”下则骤降至11-15%。该效应在Qwen3-32B和GPT-OSS-20B上显著,在采用内联CoT的Gemma-4-31B-it上则较低。研究由独立的GPT-4o评判者验证,确认了86%的标签。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
深度学习的Hamilton-Jacobi理论

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据,使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的,对残差网络、Transformer及各类循环架构(RNN、LSTM、SSM)等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括:泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程,以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
当置信度产生误导:面向扩散语言模型的后缀锚定与锚点邻域置信度调节

扩散语言模型通过迭代去噪掩码token序列解码文本,置信度常被用于选择解码位置。然而,高置信度有时会产生误导,例如EOT token可能获得高置信度导致生成不完整。为缓解此问题,插入后缀锚定可鼓励生成完整响应,但会引入锚点邻域的局部过度自信,导致锚点邻近token过早解码。为此,研究提出了后缀锚定置信度调节方法,该方法插入短后缀锚点以促生成完整响应,并根据解码进度调节锚点附近置信度。在纯文本推理、视觉-语言推理和代码生成基准测试中,该方法持续提升了基于置信度的完全非自回归解码性能,优于显式EOT抑制,并保留了完全非自回归生成的并行优势。

推理论文/研究
07:07
SemiAnalysis@SemiAnalysis_
58
PDOOM警报🚨:约48%的端到端LLM延迟是预填充,约52%是解码。预填充本身分为两个操作: 🟠 预填充扩展(缓存写入)--摄入新上下文/文件,写入新的KV token 🟠 缓存读取--重用先前轮次的现有KV缓存
推理现象/趋势部署/工程
04:50
Epoch AI@EpochAIResearch
69
我们是否正接近算力危机? 在最新的 Gradient Update 中,@luke__emberson 和 @Jsevillamol 估算全球所有 Blackwell 芯片能处理多少 token,并与总 token 需求进行比较。直接对比很困难,但需求增长似乎远快于供应。
推理数据/训练现象/趋势
04:31
elvis@omarsar0
60
针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题,该论文提出一种"睡眠"式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理,将整合结果写入其状态空间模块的持久化快速权重中,随后清除KV缓存。此方法将额外计算转移至"睡眠"阶段,使"清醒"时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中,更长的睡眠时间能提升性能,为需要长期运行的智能体提供了一种替代方案。

DAIR.AI: // Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getti...

智能体大佬观点推理
03:58
Elon Musk@elonmusk
44
推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查,Gemini最初判定该描述"严重不准确"。随后,用户将Gemini的回复转给Grok,Grok指出Gemini混淆了两个不同案件,并确认原推文描述准确。用户将Grok的回复反馈给Gemini后,Gemini承认错误并感谢纠正。推文者指出,这类AI模型之间相互纠错的情况时常发生。

i/o: Belgian man convicted of hate speech describes the judicial rationale for his latest conviction. I asked Gemini: Is this...

GooglexAI推理现象/趋势
03:33
Chubby♨️@kimmonismus
精选78
小米MiMo-V2.5系列API价格永久下调,最高降幅达99%,现与DeepSeek V4 Pro同价。Token套餐同步升级,同等价格下可用token量增加5-8倍,计费规则更简单透明。所有现有用户套餐额度将全额重置。此次降价源于MiMo全栈推理优化与服务效率提升,后续将发布技术博客详述细节。MiMo-V2.5-TTS限时免费,新定价于5月26日生效。

Xiaomi MiMo: 🚀 Better inference efficiency, lower costs, broader access. MiMo-V2.5 Series API pricing is now permanently reduced - b...

产品更新推理

推荐理由:MiMo 2.5 Pro 降价 99%,API 成本直接拉到和 DeepSeek V4 Pro 一个水平,推理优化带来的价格战升级,用模型的可以闭眼切了。
03:02
The Decoder:AI News(RSS)
同事件精选72
据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题

Anthropic工程师Sholto Douglas表示,Claude Mythos在周末期间解决了OpenAI提出的Erdős单位距离猜想问题,并给出了一个“巧妙简洁的证明”。这一成果被描述为人工智能在数学发现领域存在“严重超前”迹象。

AnthropicOpenAI推理行业动态
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:OpenAI 刚破完 70 年猜想,Claude 就整了个更漂亮的证明,AI 做数学不再是哪家独门,能力过剩的信号很明显了。
‹ 上一页
1…2425262728…50
下一页 ›