AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月16日周六
08:00HuggingFace Daily Papers(社区热门论文)57全注意力反击:百步训练内实现高效稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)56强化学习中可验证奖励语言模型的不可学习现象
08:00HuggingFace Daily Papers(社区热门论文)55推理模型为何失去覆盖度?--数据与决策点的作用
08:00HuggingFace Daily Papers(社区热门论文)56CompactAttention:基于块联合键值选择的分块预填充加速
03:19Tomer Tunguz 博客(VC 分析)72精选推理的一阶导数:AI浪潮下的增长逻辑
03:05Artificial Analysis63GPT-5.5经济任务表现大幅领先Claude 4
02:17Epoch AI64Claude工程强数学弱于前沿竞品
01:54The Decoder:AI News(RSS)66ChatGPT 现在想访问你的银行账户,以便告诉你别再点外卖了
00:54Dwarkesh Patel:Podcast & Blog(RSS)55精选Eric Jang - 从零开始构建 AlphaGo
00:32Chubby♨️66OpenAI推出个人理财功能,或冲击金融科技初创企业
5月15日周五
23:18Ant Ling39OpenRouter限时优惠 两款模型九折热销
21:27向阳乔木36LLM后训练技术:SFT、DPO、GRPO进阶对比
19:30Hacker News 热门(buzzing.cc 中文翻译)71精选克劳德(法律事务)
18:27向阳乔木59大模型天花板在于数据框架,而非算力参数
17:49HuggingFace Daily Papers(社区热门论文)63BEAM:用于MoE动态路由的二进制专家激活掩码
17:42IT之家(RSS)38腾讯地图上线外卖"骑手模式":智能推荐少红灯高效路线、提前查看终点实景图 / 门禁区域
16:49HuggingFace Daily Papers(社区热门论文)54FrontierSmith:大规模合成开放式编码问题
15:42IT之家(RSS)39Epic 喜加一:原价 62 元 AI 推理游戏《Vaudeville》免费领
13:49HuggingFace Daily Papers(社区热门论文)69通过闭环验证推理解锁复杂视觉生成
12:54Berryxia.AI70蚂蚁集团开源万亿参数思考模型Ring-2.6-1T,推动企业级AI本地部署
12:49HuggingFace Daily Papers(社区热门论文)62动态潜在路由
10:48HuggingFace Daily Papers(社区热门论文)67ATLAS:一个功能词元,兼作智能体操作与潜在视觉推理单元
10:48HuggingFace Daily Papers(社区热门论文)65学习构建环境:通过可验证环境合成实现自我演进的推理强化学习
10:48HuggingFace Daily Papers(社区热门论文)64Nexus:一个用于时间序列预测的多智能体框架
10:48HuggingFace Daily Papers(社区热门论文)71精选Darwin Family:基于MRI-Trust加权的进化合并实现语言模型推理能力的免训练扩展
09:00公众号:蚂蚁百灵(Ling)51Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型
08:36Orange AI42科技无法解决的执念是人类伟大特性
08:35Ethan Mollick66思维令牌持续提升大模型性能无瓶颈
08:06Rohan Paul73Anthropic的Mythos AI在五天内协助发现并利用两个未知macOS内核漏洞
08:00HuggingFace Daily Papers(社区热门论文)56旋转位置编码在长上下文中既无法区分位置也无法区分标记,可证
08:00HuggingFace Daily Papers(社区热门论文)57基于学习可靠性的过程奖励模型
08:00HuggingFace Daily Papers(社区热门论文)61GRASP:基于多人非语言交互的社会推理学习
08:00HuggingFace Daily Papers(社区热门论文)73精选PAGER:弥合点精确几何图形界面控制中的语义-执行鸿沟
08:00HuggingFace Daily Papers(社区热门论文)71精选突破舒适区:面向RLVR的高效策略引导探索框架NudgeRL
07:51Berryxia.AI32LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。
05:47HuggingFace Daily Papers(社区热门论文)60FlowCompile:结构化LLM工作流的优化编译器
03:35AI Notkilleveryoneism Memes ⏸️69Mythos团队仅用五天破解MacOS,暴露苹果安全模型重大误判
03:18Tomer Tunguz 博客(VC 分析)65精选AI电子邮件的成本分析
01:40AYi69吴恩达新课拆解Transformer,聚焦LLM生产落地与优化
01:31Chubby♨️55GPT-5.5连续解决Erdős问题,展现后AGI研究雏形
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月16日
08:00
HuggingFace Daily Papers(社区热门论文)
57
全注意力反击:百步训练内实现高效稀疏注意力

针对大型语言模型长上下文推理中全注意力机制的计算瓶颈,本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性:仅少数注意力头需要完整长上下文处理;长程检索主要依赖低维子空间,可通过轻量级索引器实现;且有用令牌预算高度依赖查询。基于此,RTPurbo仅对检索类注意力头保留完整KV缓存,并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性,该方法仅需数百步训练即可完成稀疏化。实验显示,RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速,同时保持近乎无损的推理准确率。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
56
强化学习中可验证奖励语言模型的不可学习现象

研究发现,可验证奖励强化学习虽能提升语言模型的推理能力,但存在一种反直觉现象:在模型初始难以处理的困难样本中,有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析,研究揭示了不可学习样本的根本性表征缺陷,其特征是与其他样本梯度相似性低且推理模式难以泛化,而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象,并指出当前强化学习方法在推理任务上存在根本性局限。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
55
推理模型为何失去覆盖度?--数据与决策点的作用

研究发现,经过微调的推理模型在提升单次回答准确率(pass@1)的同时,普遍出现覆盖度(pass@k)收缩的现象。这一现象与训练数据中“决策点”场景的占比密切相关,即模型面临多种合理推理路径的不确定性情况。通过设计图分支与推理模式的对照实验,研究确认覆盖度收缩与数据中决策点的普遍性直接相关。针对性地设计决策点数据合成及引入多样性解码机制,可部分缓解该问题,凸显了以数据为中心的设计对理解与调控推理模型行为的关键意义。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
CompactAttention:基于块联合键值选择的分块预填充加速

现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表,通过联合选择生成最小化块表,实现所选键值块的原地访问,避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上,在128K上下文中实现了接近密集注意力的精度,同时带来最高2.72倍的注意力计算加速。

arXiv推理论文/研究部署/工程
03:19
Tomer Tunguz 博客(VC 分析)
精选72
推理的一阶导数:AI浪潮下的增长逻辑

AI推理是当今规模最大、增长最快的技术市场,预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛,如Anthropic和谷歌云。在AI时代前的软件公司中,Datadog和Twilio作为“推理的一阶导数”脱颖而出:Datadog的LLM可观测产品数据量近一季增长近两倍,其约20%的AI客户贡献了约80%的年度经常性收入;Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点,少数客户能驱动巨大收益。对于非AI原生公司,核心战略在于如何转售推理服务或从其客户的大量采购中获益。

大佬观点推理现象/趋势

推荐理由:Tomer 用「推理的第一导数」这个框架讲透了一件事,Twilio 和 Datadog 的暴涨不是偶然,而是买推理的衍生需求,pre-AI 公司想活就得问自己怎么沾上推理的光。
03:05
Artificial Analysis@ArtificialAnlys
63
AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比
OpenAI推理评测/基准
02:17
Epoch AI@EpochAIResearch
64
Claude通常在软件工程方面优于前沿竞争对手,数学方面则稍逊。 根据我们汇总基准测试创建的领域特定ECI指标,Claude家族的软件工程ECI平均比通用ECI高2.7分,数学ECI则低1.8分。
Anthropic推理现象/趋势编码
01:54
The Decoder:AI News(RSS)
66
ChatGPT 现在想访问你的银行账户,以便告诉你别再点外卖了

OpenAI 正在将 ChatGPT 转变为个人财务助手。美国地区的 Pro 用户现已能通过 Plaid 连接银行账户,基于真实交易数据获得个性化财务分析。该功能运行于 GPT-5.5 Thinking 模型,未来将向所有用户开放。OpenAI 同时提醒,ChatGPT 并非持牌财务顾问,其分析仅供参考。

MCP/工具OpenAI产品更新推理
00:54
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Eric Jang - 从零开始构建 AlphaGo

文章以AlphaGo为例,阐述了智能的基本构成要素。AlphaGo至今仍是最清晰、最完整的范例,它融合了三大核心基础:搜索技术、从经验中学习以及自我对弈。这三大要素共同构成了其实现超越人类棋艺的关键路径。

DeepMind大佬观点推理

推荐理由:Eric Jang 把 AlphaGo 的搜索、自对弈和价值网络拆解得非常通透,用现代工具复现让这个经典思路对今天的 RL 和自动研究都有直接启发,做 LLM 后训练的尤其该听听他对信用分配问题的解释。
00:32
Chubby♨️@kimmonismus
66
OpenAI推出个人理财功能,或冲击金融科技初创企业

OpenAI为美国ChatGPT Pro用户推出了个人理财功能。用户可通过Plaid连接银行账户,获得消费仪表盘,并能基于实际交易数据向GPT-5.5提问,查询余额、消费模式、订阅和投资等信息。该功能无法查看完整账号或移动资金。未来将集成Intuit用于税务估算和信用卡申请,其“金融记忆”可跨对话存储储蓄目标等上下文。Plus用户将稍后获得,免费用户最终也会开放。内部基准测试显示,GPT-5.5在复杂个人理财任务上得分为79/100,GPT-5.5 Pro为82.5/100。此举被认为对许多金融科技初创企业构成了直接竞争。

ChatGPT: A preview for Pro users: a new personal finance experience in ChatGPT. Pro users in the U.S. can securely connect financ...

OpenAI产品更新推理
5月15日
23:18
Ant Ling@AntLingAGI
39
限时优惠:通过 @novita_labs 在 @OpenRouter 上享受 Ring-2.6-1T 和 Ling-flash-2.6 九折优惠! Ring-2.6-1T:极致思考模型助您应对复杂规划。 Ling-flash-2.6:极致令牌效率助您节省开支。 详情请见下方 👇
推理行业动态
21:27
向阳乔木@vista8
36
推文简要对比了大语言模型(LLM)的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出,使其更符合人类偏好。GRPO作为后续步骤,专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。
推理教程/实践数据/训练
19:30
Hacker News 热门(buzzing.cc 中文翻译)
精选71
克劳德(法律事务)

Anthropic公司在GitHub上开源了专为法律领域优化的AI模型“Claude for Legal”。该模型能更准确地处理法律文本、合同及案例摘要,旨在提升法律从业者效率。此消息在Hacker News上获得105个投票点数,显示出技术社区对其在法律科技领域应用潜力的关注。

Anthropic开源/仓库推理

推荐理由:Anthropic 把 Claude 在法律场景的提示和工具打包成仓库,对法律人来说比 API 文档更直接可用,垂直落地信号明显。
18:27
向阳乔木@vista8
59
大模型天花板在于数据框架,而非算力参数

AlphaGo核心研究员David Silver提出一个思想实验:若将大语言模型置于一个普遍相信地平说的世界,且模型无法与现实世界互动,那么无论其代码如何优化,它都将永远是一个“地平论者”。这揭示了大型语言模型(如GPT、Claude、LLaMA等)真正的能力上限并非取决于算力或参数量,而在于其思维被严格限制在所“喂养”的数据框架之内,缺乏与现实交互以验证和更新认知的根本能力。

DeepMind大佬观点推理
17:49
HuggingFace Daily Papers(社区热门论文)
63
BEAM:用于MoE动态路由的二进制专家激活掩码

针对混合专家模型(MoE)固定Top-K路由策略导致的计算冗余和推理延迟问题,本研究提出BEAM方法。该方法通过可训练的二进制掩码学习令牌自适应的专家选择,结合直通估计器和正则化损失,在端到端训练中实现动态专家稀疏化,同时保持模型能力。团队为BEAM开发了高效定制CUDA内核,确保与vLLM推理框架无缝集成。实验显示,BEAM能保留原始模型98%以上性能,并将MoE层浮点运算量减少高达85%,解码速度提升至2.5倍,吞吐量提高1.4倍,为高效MoE推理提供了即插即用的实用解决方案。

推理论文/研究
17:42
IT之家(RSS)
38
腾讯地图上线外卖"骑手模式":智能推荐少红灯高效路线、提前查看终点实景图 / 门禁区域

腾讯地图推出专为外卖、快递骑手设计的“骑手模式”,宣称可提升配送效率20%。该模式基于大数据和AI模型,智能规划少红灯、少转弯的骑行路线,并提前展示150-300米路况。导航可精确定位至具体楼栋单元,在大型商场等复杂场景会提示具体入口、电梯及店铺位置。骑手出发前还能查看终点实景图与门禁信息,便于提前识别目的地并联系用户,减少现场寻找与等待时间。用户更新至最新版腾讯地图即可使用。

产品更新推理搜索
16:49
HuggingFace Daily Papers(社区热门论文)
54
FrontierSmith:大规模合成开放式编码问题

FrontierSmith 是一个自动化系统,能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体,并利用量化思维发散指标筛选能激发多元解法的问题,再由智能体生成测试用例与验证器。在两个开放式编码基准测试中,使用合成数据训练后,基础模型性能显著提升:Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82,在 ALE-bench 上基于 Elo 评分的性能提升 +306.36;Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌,其特性与人工构建问题相似,表明封闭式问题种子可作为生成长视野编码数据的实用起点。

推理数据/训练编码论文/研究
15:42
IT之家(RSS)
39
Epic 喜加一:原价 62 元 AI 推理游戏《Vaudeville》免费领

推理冒险游戏《Vaudeville》在Epic游戏商城开启限时免费领取,国区原价62元。本次活动由开发团队Bumblebee Studios自行发起,持续至5月17日18:00。游戏最大特色是采用AI技术驱动NPC对话,所有回应均为实时生成,无固定剧本,每次游玩对话内容都可能不同。玩家需通过自然语言提问与角色互动,在充满欧洲风情的虚构城市中扮演侦探,调查一系列命案并挖掘线索。

推理行业动态
13:49
HuggingFace Daily Papers(社区热门论文)
69
通过闭环验证推理解锁复杂视觉生成

针对文本到图像模型在复杂语义生成上的局限,研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证,合成可靠推理轨迹,并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟,框架引入Δ-Space权重合并方法,将每步推理成本降至仅需4次噪声估计前向传播。实验表明,该框架在多项基准测试中超越现有开源模型,性能接近专有商业模型,实现了复杂视觉生成的通用测试时扩展能力。

图像生成多模态推理论文/研究
12:54
Berryxia.AI@berryxia
70
蚂蚁集团开源万亿参数思考模型Ring-2.6-1T,推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布
12:49
HuggingFace Daily Papers(社区热门论文)
62
动态潜在路由

本文针对奖励函数时变的马尔可夫决策过程,提出了通用迪杰斯特拉搜索方法,证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发,作者提出了动态潜在路由,这是一种语言模型后训练方法,能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下,该方法在四个数据集和六个模型上达到或超越了监督微调的性能,平均提升6.6个百分点,而先前的离散潜在基线方法则持续表现不佳。机理分析表明,该方法能学习具有不同因果角色的结构化路由行为。

推理数据/训练论文/研究
10:48
HuggingFace Daily Papers(社区热门论文)
67
ATLAS:一个功能词元,兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题,本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元,它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作,无需视觉监督,仍作为标准词元存在于词表中,可通过下一词元预测生成。这避免了生成冗余的中间视觉内容,且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题,研究引入了潜在锚定GRPO(LA-GRPO)以稳定训练。实验表明,ATLAS在多项挑战性基准测试中取得了优异性能,并保持了良好的可解释性。

arXivMCP/工具多模态推理
10:48
HuggingFace Daily Papers(社区热门论文)
65
学习构建环境:通过可验证环境合成实现自我演进的推理强化学习

研究提出一种语言模型自我改进的新范式,使模型从被动生成数据转为主动构建训练自身的可执行环境。该方法的核心在于环境需具备稳定的“求解-验证不对称性”:模型能编写验证器代码,却无法可靠地用自然语言解决新实例。这种不对称性确保了奖励信号的有效性。研究者实例化为EvoEnv方法,通过合成Python环境并经过多阶段严格验证后才用于训练。在较强的Qwen3-4B-Thinking模型上测试表明,传统方法性能下降,而EvoEnv将其平均性能从72.4%提升至74.8%。这证明稳定的自我改进关键在于让模型学会构建结构上始终超越其当前能力的环境。

智能体推理论文/研究
10:48
HuggingFace Daily Papers(社区热门论文)
64
Nexus:一个用于时间序列预测的多智能体框架

时间序列预测需结合数值模式与上下文信息如新闻。研究团队推出Nexus框架,它将预测分解为多阶段:分离宏观与微观时序波动,整合非结构化上下文信息,再综合生成预测。该框架表明,当前大语言模型具备比以往认知更强的内在预测能力,关键在于组织数值与上下文推理。在知识截止日期后的Zillow房地产和波动股市数据上评估,Nexus持续匹配或超越了最先进的时序基础模型及大语言模型基线。此外,Nexus能生成高质量推理轨迹,明确展示预测背后的核心驱动因素,推动预测向代理推理问题发展。

智能体推理论文/研究
10:48
HuggingFace Daily Papers(社区热门论文)
精选71
Darwin Family:基于MRI-Trust加权的进化合并实现语言模型推理能力的免训练扩展

Darwin Family框架通过免训练的梯度无关权重重组,探索重组现有模型隐式能力以提升推理性能。其核心包括14维自适应合并基因组实现细粒度组件重组;MRI-Trust融合机制通过可学习参数平衡层重要性信号与进化搜索;架构映射器支持异构模型家族间的跨架构融合。旗舰模型Darwin-27B-Opus在GPQA Diamond基准上达到86.9%准确率,在1252个模型中排名第六,无需训练即超越其基础模型。该框架在4B至35B参数规模上均能持续提升性能,支持递归多代进化,并能实现Transformer与Mamba组件的免训练融合。

推理论文/研究

推荐理由:训练free的进化合并新思路,用MRI诊断引导基因重组,直接把GPQA Diamond拉到86.9%排第6,比全训练模型还高,搞模型蒸馏和推理优化的可以抄作业。
09:00
公众号:蚂蚁百灵(Ling)
51
Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。

开源生态推理模型发布
08:36
Orange AI@oran_ge
42
推文认为"执念"是明知不理性却仍坚持的行为,这是科技无法解决的人类伟大特性。引用推文指出,《人类简史》作者赫拉利具有"佛教化"思维,其关于无我、欲望、痛苦的理解与神经科学、AI、认知科学的最新发现相契合--自我可能只是大脑生成的叙事结构。尽管科技日益强大,但人的焦虑与空虚并未减少,导致硅谷和AI圈越来越多人回归冥想、正念等古老方式,重新审视自我本质、痛苦根源及意识观察。科技解决外部问题,意识问题仍需向内探寻。

李举刚: 时隔一年之后,我重新再读 人类简史,我突然发现了一些之前没太注意到的东西。 我越来越感觉,作者尤瓦尔·赫拉利身上其实有一种很强的"佛教化"思维,后面很多关于人类、文明、AI、意识的表达,都是从这个视角延伸出来的。 不是传统意义上的宗教感,而...

大佬观点推理
08:35
Ethan Mollick@emollick
66
第二扩展定律依然所向披靡。 若想从大语言模型中获得更强的黑客能力(或数学、科学、填字游戏解题能力),只需增加思维令牌。 目前看来尚未出现任何性能瓶颈。

Natália 🔍: Very important update from UK AISI. This is a meaningful change from the previous report. Here's what the new data would...

大佬观点推理数据/训练
08:06
Rohan Paul@rohanpaul_ai
73
Anthropic的Mythos AI在五天内协助发现并利用两个未知macOS内核漏洞

据《华尔街日报》报道,Anthropic的Mythos AI工具在短短五天内,成功帮助研究人员发现了两个此前未知的macOS内核漏洞,并将其串联成一个完整的权限提升攻击链。该攻击针对操作系统最底层的核心,通过组合多个漏洞和技术,绕过了苹果的内存完整性保护机制,访问了本应受保护的系统区域。这凸显出现代macOS的防御重点已从单纯防止漏洞发现,转向增加漏洞利用难度。Mythos在此类研究中展现出强大能力,因为它能协助形成假设、分析代码行为、推理底层约束并建议利用路径,从而大幅加速传统上依赖手动、试错的研究过程。

Anthropic安全/对齐推理
08:00
HuggingFace Daily Papers(社区热门论文)
56
旋转位置编码在长上下文中既无法区分位置也无法区分标记,可证

本文从理论上证明了旋转位置编码在长上下文Transformer模型中的根本缺陷。研究发现,随着上下文长度增加,RoPE的注意力机制会变得不可预测并丧失两大核心特性:局部性偏置和标记相关性一致性,其失效概率趋近0.5,等同于随机。实验进一步证实,当键被移动或替换时,注意力得分可能保持不变,表明其无法有效区分位置与标记。虽然增大RoPE基础参数有助于区分标记,但不可避免地会牺牲位置区分能力,且多层多头架构无法克服这些内在限制。这表明未来可能需要全新的位置编码机制。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
基于学习可靠性的过程奖励模型

针对现有过程奖励模型(PRM)仅输出单一奖励分数、无法指示预测可靠性的缺陷,本文提出BetaPRM模型。该模型利用蒙特卡洛继续推演提供的监督信号,通过Beta-二项似然学习Beta信念分布,同时预测每个推理步骤的成功概率及其可靠性。基于这一可靠性信号,进一步引入自适应计算分配策略(ACA)用于PRM引导的最佳N选一推理。ACA能在奖励高且可靠时停止,并在预测不确定的候选方案上投入更多计算资源。实验表明,BetaPRM提升了PRM引导的选择性能;而ACA策略相比固定预算的最佳16选1方案,在提高最终答案准确率的同时,将token使用量最高减少了33.57%。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
GRASP:基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题,研究团队提出了GRASP数据集。该数据集包含29万个问答对,源自4.6万个视频共749小时,建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench,并提出社会情境奖励学习信号,利用这些细粒度事件引导模型推理交互参与者。实验表明,该方法提升了GRASP-Bench性能,并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
PAGER:弥合点精确几何图形界面控制中的语义-执行鸿沟

研究针对需要点级精度的几何图形界面控制任务,揭示了现有视觉-语言模型存在的语义-执行鸿沟:通用模型动作类型准确率高但任务成功率极低。为此,我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准,并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务,结合像素接地监督调优与精度对齐强化学习,将任务成功率提升至最强通用基线的4.1倍,步骤成功率从GUI专用智能体的不足9%提高到62%以上,实现了点精确GUI控制的新突破。

智能体多模态推理论文/研究

推荐理由:GUI agent一直绕着精确点击走,这篇直接硬碰硬,把成功率从6%拉到62%,做CAD自动化或工业软件的团队可以重点关注。
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
突破舒适区:面向RLVR的高效策略引导探索框架NudgeRL

强化学习与可验证奖励范式面临探索效率瓶颈。为此,研究团队提出NudgeRL框架,其核心是“策略助推”技术,通过为每次策略采样注入轻量级策略级上下文,引导模型产生多样化推理轨迹,无需依赖昂贵的外部监督。该框架进一步提出一个统一目标,将奖励分解为上下文间与上下文内组件,并通过蒸馏目标将有效行为迁移回基础策略。在五个高难度数学基准测试中,NudgeRL的表现优于标准GRPO方法,其效果相当于后者使用高达8倍采样预算的结果,且平均表现超过了依赖特权信息的Oracle引导基线,证明了结构化探索的高效性与可扩展性。

推理数据/训练论文/研究

推荐理由:NudgeRL 首次把结构化探索引入 RLVR,比 GRPO 节省 8 倍 rollout 预算,数学推理效果还更好。做 LLM 推理优化的团队,这篇值得复现。
07:51
Berryxia.AI@berryxia
32
LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。
产品更新开源/仓库推理
05:47
HuggingFace Daily Papers(社区热门论文)
60
FlowCompile:结构化LLM工作流的优化编译器

研究者提出FlowCompile,一个从编译视角优化结构化大语言模型工作流的编译器。它在部署前全局探索工作流设计空间,通过将工作流分解为子智能体、分析其在不同配置下的性能,并利用结构感知代理组合这些结果,以估算工作流级的精度与延迟。该方法一次性生成一组覆盖不同精度-延迟权衡的可复用工作流配置,无需重新训练或在线调整。实验表明,FlowCompile在多种工作流和基准测试中均优于启发式优化与基于路由的基线方法,最高可实现6.4倍加速,其编译产出支持根据运行时偏好灵活部署及下游选择。

智能体推理论文/研究
03:35
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
69
Mythos团队仅用五天破解MacOS,暴露苹果安全模型重大误判

安全团队Mythos仅用五天就成功破解MacOS,这与谷歌Project Zero团队平均需六个月发现一个同级漏洞形成巨大反差。MacOS零日漏洞在黑市价值超200万美元。此事揭示了苹果安全威胁模型的根本误判:苹果原先预估全球仅有10-20个组织具备此级别攻击能力,但现实表明此类攻击者数量即将跃升至数千。全球约20亿台活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,他们选择苹果本是出于其安全声誉,此次事件严重动摇了这一基础假设。

Andrew Curran: Mythos has cracked MacOS. It took five days.

安全/对齐推理
03:18
Tomer Tunguz 博客(VC 分析)
精选65
AI电子邮件的成本分析

使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。

推理现象/趋势部署/工程

推荐理由:Tunguz 给 AI 邮件算了一笔账,SOTA 模型月费 22-130 美元,但他更重要的判断是推理分割可以把成本压到百分之一,这对做 AI 软件的定价逻辑是个关键风向。
01:40
AYi@AYi_AInotes
69
吴恩达新课拆解Transformer,聚焦LLM生产落地与优化

吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。

Andrew Ng: New course: Transformers in Practice. You'll get a practical view of how transformer-based LLMs work, so you can reason ...

推理教程/实践部署/工程
01:31
Chubby♨️@kimmonismus
55
GPT-5.5 展现出持续解决 Erdős 问题的能力,这预示了后AGI研究的可能面貌:并非戏剧性的单一突破,而是大量并行发现、匿名贡献者参与、形式化证明作为信任基础设施,人类在认知上难以跟上。引用推文关键点显示,用户通过 ChatGPT-5.5-Pro 在解决第一个 Erdős 问题后不到两天,又快速攻克第二个问题,并利用形式化验证解决方案,体现了AI在数学研究中的高效应用。

David Turturean: I fully solved my 2nd Erdős Problem using ChatGPT-5.5-Pro - and then I verified the solution by formalizing it! Less tha...

OpenAI推理现象/趋势
‹ 上一页
1…3233343536…50
下一页 ›