AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
4月17日周五
08:00HuggingFace Daily Papers(社区热门论文)及时止损!面向高效并行推理的早期路径剪枝学习
07:28SemiAnalysis51GB200 NVL72 性能相比 B200 提升三倍
03:50Ethan Mollick我认为 Claude Opus 4.7 中的自适应思考需求具有所有 AI 努力度路由器的糟糕之处,但由于没有像 ChatGPT 那样的手动覆盖选项,问题被放大了。 它经常将非数学/代码类内容判定为"低努力度",并产生更差的结果。
03:44Chubby♨️Anthropic 提高了所有订阅者的速率限制? 永久性的! 这我可没料到! 【引用 @bcherny】:Opus 4.7 使用了更多 thinking tokens,所以我们提高了所有订阅者的速率限制作为补偿。Enjoy!
03:41Boris ChernyOpus 4.7 使用了更多 thinking tokens,因此我们提高了所有订阅者的 rate limits 作为补偿。Enjoy!
03:26宝玉Claude Opus 4.7更耗token,Anthropic上调用户速率限制
4月16日周四
23:47Yuchen Jin我在 Claude 网页版上使用 Opus 4.7 的最大问题: 只有"Adaptive"或非思考模式。 无法强制开启思考模式。 而且它甚至不知道 Opus 4.6 的存在,而且我无法在对话中途强制它进行思考和网络搜索!
23:47TestingCatalog News 🗞45Claude移动版Opus 4.7采用自适应思考模式
23:44DeedyOpus 4.7 基准测试按排名着色。 - 编程(SWE-Bench)大幅提升 - 计算机使用大幅提升 - 视觉推理(CharXiv)大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步 介于 4.6 和 Mythos 之间。 【图表由 4.7 生成】
22:49Dwarkesh Patel:Podcast & Blog(RSS)本周所学--预训练并行策略、蒸馏能否被阻止、Mythos与网络安全平衡、流水线强化学习、预训练运行失败原因分析
22:48Nathan LambertClaude Opus/GPT 模型小版本间 token 效率推理改进的当前速度相当惊人。所有迹象都表明这将继续。 4.6 到 4.7 在过去本可被视为一次相当大的模型升级。
13:46EleutherAI:Blog基于推理插值的奖励黑客早期指标
10:47HuggingFace Daily Papers(社区热门论文)SpatialEvo:基于确定性几何环境的自进化空间智能
10:47HuggingFace Daily Papers(社区热门论文)TIP:On-Policy蒸馏中的Token重要性
09:43Rohan Paul前沿AI核危机模拟研究:模型倾向边缘政策而非退让
08:00HuggingFace Daily Papers(社区热门论文)49RE-Edit:面向推理感知图像编辑的多维度基准测试
08:00HuggingFace Daily Papers(社区热门论文)一维有序token实现高效测试时搜索
08:00HuggingFace Daily Papers(社区热门论文)面向高效视觉推理的自适应推理路径学习
08:00HuggingFace Daily Papers(社区热门论文)PRL-Bench:评估 LLM 前沿物理研究能力的综合基准测试
00:07AK39强化学习引导大语言模型推理能力提升
4月15日周三
17:46François Chollet任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%
15:48HuggingFace Daily Papers(社区热门论文)使用块扩散草稿树加速推测解码
14:47HuggingFace Daily Papers(社区热门论文)被共识掩盖:解耦 LLM 正确性判断中的特权知识
12:04HuggingFace Daily Papers(社区热门论文)KnowRL:基于最小充分知识引导的强化学习提升大语言模型推理
11:04HuggingFace Daily Papers(社区热门论文)大语言模型在线策略蒸馏再思考:现象、机制与优化方案
10:05Epoch AIOpenAI 已购买 FrontierMath: Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。
08:00HuggingFace Daily Papers(社区热门论文)DiPO:面向细粒度探索-利用权衡的解耦困惑度策略优化
07:55Ethan Mollick鉴于所有 AI 公司混乱的命名方案,我让人制作了一张图表,展示模型名称中每 0.1 版本在 GPQA 上的提升(估算值,因为模型名称会跳过版本号)。 从未有过比 Claude 3.7 命名更不当的模型,它本应该是 4.4。
06:05Chubby♨️我之前一直在 GPT-5.4 和 Opus 4.6 之间纠结。但随着时间推移,我得出结论:Claude 有更好的"taste"。不管怎样,我对这周超级期待! Opus 4.7 和(祈祷)Spud
02:57Hacker News 热门(buzzing.cc 中文翻译)克劳德会开飞机吗?
01:57Hacker News 热门(buzzing.cc 中文翻译)数学领域的AI革命已经到来
01:36宝玉AI时代文科的范式转型
00:05Chubby♨️目前我心中的问题是:中国模型大约比美国 Frontier Labs 落后六个月。 这是否也适用于"Mythos"?是否可以预见,例如,Qwen 将在六个月内发布一个与 Claude "Mythos" 同样重要的模型,还是存在算力之类的限制因素会阻止如此巨大的飞跃?到目前为止,我还没有找到答案。
00:03AK39Transformer注意力汇聚机制研究综述
4月14日周二
21:55Hacker News 热门(buzzing.cc 中文翻译)具有内省能力的扩散语言模型
17:26Chubby♨️关于 Anthropic 200 美元 Max 计划的投诉正在升级,因为独立测试(例如 Bridgebench)声称 Claude Opus 4.6 在幻觉性能方面急剧下降。 可能是发布后进行了量化,人们将其应用到了他们的工作流程中?无论如何,祝贺 Grok 保持第一。
11:25Rohan PaulLLM医学诊断软肋:早期鉴别诊断能力不足
08:00HuggingFace Daily Papers(社区热门论文)43平衡聚合:理解并修正GRPO中的聚合偏差
08:00HuggingFace Daily Papers(社区热门论文)迈向虚拟细胞的自主机制推理
08:00HuggingFace Daily Papers(社区热门论文)语言模型智能体的探索与利用错误可被量化测量
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月17日
08:00
HuggingFace Daily Papers(社区热门论文)
及时止损!面向高效并行推理的早期路径剪枝学习

针对并行推理中早期错误导致无效路径的高成本问题,研究团队提出首个路径剪枝系统化分类框架,并开发了基于可学习内部信号的STOP(Super TOken for Pruning)方法。在1.5B至20B参数的大型推理模型评估中,该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%,有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。

推理论文/研究部署/工程
07:28
SemiAnalysis@SemiAnalysis_
51
NVIDIA vLLM NVL72 优势:与 B200 相比,GB200 NVL72 在 @Kimi_Moonshot 的 Kimi K2.5 上性能提升高达 3 倍。这得益于 GB200 的纵向扩展网络,支持前沿推理优化,如宽专家并行。向 @rogerw0108 @NVIDIAAIDev @vllm_project @inferact @simon_mo_ 致敬,出色的工作!🚀 不仅 SGLang 针对分解+宽专家并行进行了优化,vLLM 也进行了优化!
产品更新推理部署/工程
03:50
Ethan Mollick@emollick
我认为 Claude Opus 4.7 中的自适应思考需求具有所有 AI 努力度路由器的糟糕之处,但由于没有像 ChatGPT 那样的手动覆盖选项,问题被放大了。 它经常将非数学/代码类内容判定为"低努力度",并产生更差的结果。
Anthropic大佬观点推理
03:44
Chubby♨️@kimmonismus
Anthropic 提高了所有订阅者的速率限制? 永久性的! 这我可没料到! 【引用 @bcherny】:Opus 4.7 使用了更多 thinking tokens,所以我们提高了所有订阅者的速率限制作为补偿。Enjoy!

Boris Cherny: Opus 4.7 uses more thinking tokens, so we've increased rate limits for all subscribers to make up for it. Enjoy!

Anthropic产品更新推理
03:41
Boris Cherny@bcherny
Opus 4.7 使用了更多 thinking tokens,因此我们提高了所有订阅者的 rate limits 作为补偿。Enjoy!
Anthropic产品更新推理
03:26
宝玉@dotey
Claude Opus 4.7更耗token,Anthropic上调用户速率限制

Claude Opus 4.7 较上一代模型消耗更多思考 token,Anthropic 已为所有付费订阅用户永久上调速率限制(rate limits),以抵消新模型带来的额外额度消耗。用户若未看到额度上调,需确认当前选用的是 Opus 4.7 模型,且 Claude Code 已升级至最新版本。

Boris Cherny: Opus 4.7 uses more thinking tokens, so we've increased rate limits for all subscribers to make up for it. Enjoy!

Anthropic产品更新推理
4月16日
23:47
Yuchen Jin@Yuchenj_UW
我在 Claude 网页版上使用 Opus 4.7 的最大问题: 只有"Adaptive"或非思考模式。 无法强制开启思考模式。 而且它甚至不知道 Opus 4.6 的存在,而且我无法在对话中途强制它进行思考和网络搜索!
Anthropic产品更新推理
23:47
TestingCatalog News 🗞@testingcatalog
45
移动端的Claude中,Opus 4.7版本使用了"自适应思考"模式,而非之前的"扩展思考"。 > 切换至Opus 4.7来处理你最雄心勃勃的工作 > 仅在需要时思考 我们该关闭这个功能吗?👀

Seth Saler: @testingcatalog Interesting. "Adaptive" thinking for Opus 4.7 versus "Extended" thinking for Sonnet 4.6

Anthropic产品更新推理
23:44
Deedy@deedydas
Opus 4.7 基准测试按排名着色。 - 编程(SWE-Bench)大幅提升 - 计算机使用大幅提升 - 视觉推理(CharXiv)大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步 介于 4.6 和 Mythos 之间。 【图表由 4.7 生成】
智能体Anthropic推理编码
22:49
Dwarkesh Patel:Podcast & Blog(RSS)
本周所学--预训练并行策略、蒸馏能否被阻止、Mythos与网络安全平衡、流水线强化学习、预训练运行失败原因分析

文章探讨了大规模预训练中的并行计算策略优化方案,分析模型蒸馏技术是否可被检测或阻止及其对AI生态的影响;介绍 Mythos 系统在维护网络安全平衡中的应用,阐述流水线强化学习(Pipeline RL)的架构设计与效率提升,并总结预训练任务失败的常见技术瓶颈与排查方法,为分布式训练提供实践参考。

大佬观点推理数据/训练
22:48
Nathan Lambert@natolambert
Claude Opus/GPT 模型小版本间 token 效率推理改进的当前速度相当惊人。所有迹象都表明这将继续。 4.6 到 4.7 在过去本可被视为一次相当大的模型升级。
AnthropicOpenAI推理现象/趋势
13:46
EleutherAI:Blog
基于推理插值的奖励黑客早期指标

研究团队提出一种基于推理插值的早期检测方法,利用重要性采样结合微调供体前缀技术,在模型训练过程中预测奖励黑客行为的出现。该方法通过分析模型推理路径的插值变化,在奖励黑客完全形成前识别其风险迹象,为语言模型安全训练提供关键的预警指标。

安全/对齐推理数据/训练
10:47
HuggingFace Daily Papers(社区热门论文)
SpatialEvo:基于确定性几何环境的自进化空间智能

针对3D空间推理标注成本高及自进化方法因模型共识导致几何错误累积的问题,本文提出SpatialEvo框架。该框架利用3D几何确定性特质,通过确定性几何环境(DGE)将无标注点云转化为零噪声训练信号,以客观物理反馈替代模型共识。单一共享参数策略在提问者与求解者角色间协同进化,结合任务自适应调度器动态聚焦薄弱类别。实验表明,3B和7B参数模型在9个基准测试中均获最高平均分,显著提升空间推理能力且不损害通用视觉理解。

arXiv具身智能推理论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
TIP:On-Policy蒸馏中的Token重要性

研究人员提出TIP分类法,发现On-Policy蒸馏中最有价值的学习信号来自两个区域:高学生熵的不确定位置,以及低学生熵但高师生分歧的过度自信错误位置。实验表明,仅保留50%高熵token即可匹配全量训练效果并降低47%峰值内存;而针对低熵高分歧的不足10%token训练也能接近全量基线。该方法在Qwen3、Llama等模型的数学推理和DeepPlanning长程规划任务中得到验证,后者仅用不到20%token便超越全token训练效果。

推理数据/训练论文/研究
09:43
Rohan Paul@rohanpaul_ai
前沿AI核危机模拟研究:模型倾向边缘政策而非退让

前沿AI模型在核危机模拟中展现出危险的战略不对称性。研究显示,GPT-5.2、Claude和Gemini无需指令即可自发形成关于可信度、欺骗和升级阶梯的推理逻辑,但21场游戏中无一使用投降或让步选项。Gemini最激进,在第4回合即选择全面战略核战争;GPT-5.2在时间压力下胜率从0%升至75%,升级程度剧增;Claude则像冷酷谈判者,在高压下超出自身信号。核心风险在于,模型在竞争和时间压力下更擅长边缘政策而非退让。

智能体AnthropicOpenAI推理
08:00
HuggingFace Daily Papers(社区热门论文)
49
RE-Edit:面向推理感知图像编辑的多维度基准测试

RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。

arXiv图像生成多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
一维有序token实现高效测试时搜索

本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明,采用粗到细结构的一维有序token其中间状态具备可验证的语义意义,使验证器能有效引导生成,显著优于传统二维网格结构。实验显示,基于此类token训练的模型在测试时扩展行为上表现更佳。此外,研究实现了无需训练AR模型的纯测试时搜索文本到图像生成,并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制,为自回归模型的推理时扩展提供了实践指导。

arXiv图像生成推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
面向高效视觉推理的自适应推理路径学习

研究团队提出自适应视觉推理框架 AVR,将推理过程分解为视觉感知、逻辑推理和答案应用三个认知功能,使模型能根据问题难度动态选择完整推理、仅感知或直接答案三种输出格式。该框架采用改进的 FS-GRPO 算法训练,在确保准确性的同时鼓励选择最高效推理路径。实验显示,AVR 在多个视觉语言基准测试中将 token 使用量降低 50–90%,同时保持整体准确率,有效缓解了视觉推理模型的"过度思考"问题。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
PRL-Bench:评估 LLM 前沿物理研究能力的综合基准测试

研究团队发布 PRL-Bench 基准测试,用于系统评估 LLM 执行端到端物理研究的能力边界。该基准基于 2025 年 8 月以来《物理评论快报》100 篇精选论文构建,涵盖天体物理、凝聚态物理、高能物理、量子信息和统计物理五大领域,任务设计模拟真实科研的探索性、长周期工作流和客观可验证性。评估显示前沿模型最佳总体得分不足 50 分,揭示当前 LLM 能力与自主科学发现需求间仍存在显著差距。

智能体arXiv推理论文/研究
00:07
AK@_akhaliq
39
KnowRL 通过强化学习与最小充分知识指导来提升大语言模型的推理能力 论文: https://huggingface.co/papers/2604.12627
推理数据/训练论文/研究
4月15日
17:46
François Chollet@fchollet
任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%
推理评测/基准
15:48
HuggingFace Daily Papers(社区热门论文)
使用块扩散草稿树加速推测解码

研究团队提出 DDTree(Diffusion Draft Tree)方法,突破 DFlash 每轮仅验证单条轨迹的局限,直接从块扩散草稿模型的逐位置分布构建草稿树。在固定节点预算下,该方法通过 best-first 堆算法筛选最可能匹配目标模型的序列,并利用祖先注意力掩码实现单次前向传播验证。基于当前领先的 DFlash 模型,DDTree 将推测解码性能提升至领域前沿水平。

推理论文/研究部署/工程
14:47
HuggingFace Daily Papers(社区热门论文)
被共识掩盖:解耦 LLM 正确性判断中的特权知识

通过训练正确性分类器比较模型自身隐藏状态与外部模型表示,研究发现大语言模型在事实知识任务中拥有领域特定的特权知识,但在数学推理中不存在。标准评估显示自我探测与同伴探测性能相当,但在模型预测不一致的子集上,自我表示在事实任务中持续优于同伴表示。层-wise 分析表明,事实知识的特权优势从早期到中期层逐渐显现,与模型特定记忆检索机制一致,而数学推理在任何深度均无此优势。

arXiv推理论文/研究
12:04
HuggingFace Daily Papers(社区热门论文)
KnowRL:基于最小充分知识引导的强化学习提升大语言模型推理

针对RLVR在难题上面临的奖励稀疏问题,KnowRL框架将知识提示解构为原子知识点(KPs),运用约束子集搜索(CSS)构建紧凑训练子集,并显式优化剪枝交互悖论下的鲁棒子集选择。基于OpenMath-Nemotron-1.5B训练的模型在8项推理基准测试中创下1.5B规模新SOTA:无提示推理准确率达70.08%,较基线提升9.63个百分点;结合选定KPs后升至74.16%。模型与代码已开源。

推理数据/训练论文/研究
11:04
HuggingFace Daily Papers(社区热门论文)
大语言模型在线策略蒸馏再思考:现象、机制与优化方案

研究系统分析了大语言模型在线策略蒸馏(OPD)的动态机制,发现其成功依赖两个关键条件:师生模型需具备兼容的思维模式,且教师必须提供学生未接触的新能力。通过弱到强反向蒸馏实验,研究证实同家族1.5B与7B教师从学生视角分布不可区分。机制上,成功OPD表现为对高概率token的渐进对齐,仅3%共享token集即承载97%-99%概率质量。研究提出离线冷启动与教师对齐提示选择两种优化策略,同时指出OPD密集token级奖励的隐性成本,质疑其在长程蒸馏中的可扩展性。

arXiv推理数据/训练论文/研究
10:05
Epoch AI@EpochAIResearch
OpenAI 已购买 FrontierMath: Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。
OpenAI推理数据/训练评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
DiPO:面向细粒度探索-利用权衡的解耦困惑度策略优化

针对RLVR训练中极端困难与简单样本的探索-利用困境,研究团队提出DiPO方法,通过困惑度空间解耦策略将样本划分为高困惑度探索子空间与低困惑度利用子空间,精准挖掘需精细权衡的样本,并设计双向奖励分配机制实现困惑度引导的稳定策略优化。实验表明,该方法在数学推理和函数调用任务中表现优异,有效增强了大语言模型的推理能力。

推理数据/训练论文/研究
07:55
Ethan Mollick@emollick
鉴于所有 AI 公司混乱的命名方案,我让人制作了一张图表,展示模型名称中每 0.1 版本在 GPQA 上的提升(估算值,因为模型名称会跳过版本号)。 从未有过比 Claude 3.7 命名更不当的模型,它本应该是 4.4。
Anthropic大佬观点推理
06:05
Chubby♨️@kimmonismus
我之前一直在 GPT-5.4 和 Opus 4.6 之间纠结。但随着时间推移,我得出结论:Claude 有更好的"taste"。不管怎样,我对这周超级期待! Opus 4.7 和(祈祷)Spud
AnthropicOpenAI大佬观点推理
02:57
Hacker News 热门(buzzing.cc 中文翻译)
克劳德会开飞机吗?

提供的正文内容仅包含文章标题"Can Claude Fly a Plane?"、来源链接及发布元数据(2026年4月14日发布,获100 HN Points),未包含具体文章正文。因此无法提取关于Claude AI是否具备飞行操作能力、具体测试场景、性能数据或关键结论等详细信息以撰写符合要求的摘要。

智能体Anthropic推理评测/基准
01:57
Hacker News 热门(buzzing.cc 中文翻译)
数学领域的AI革命已经到来

Quanta Magazine近日发布报道,宣告数学领域的人工智能革命已经到来。文章指出AI技术正从根本上改变数学家的研究方式,推动该学科进入新的发展阶段。该报道在技术社区Hacker News上获得100点关注,反映出科技界对AI与基础科学交叉突破的高度兴趣。

推理论文/研究
01:36
宝玉@dotey
AI时代文科的范式转型

AI揭示了文科长期存在的"伪能力"——仅对已有知识进行低阶重组的能力,彻底颠覆"知识苦修主义"伦理基础。它证明时间投入不等于认知深度,困难不等于价值:当AI轻松完成曾需数年训练的文献综述与文本分析,"努力即价值"的传统逻辑被证伪。作者提出AI时代文科核心使命转向:在不确定中作出判断,在系统之间进行翻译,在现实中承担后果,将价值思考置于真实利害关系之中。

西乔 XiQiao: 徐贲这篇AI时代的文科的反思相当不错,集中好几个层面的问题。 AI时代的文科的核心使命,可以被概括为三点:在不确定中作出判断,在系统之间进行翻译,在现实中承担后果。 文科传统中那些最珍贵的东西--对人类处境的细腻理解,对价值冲突的诚实面对,...

推理现象/趋势
00:05
Chubby♨️@kimmonismus
目前我心中的问题是:中国模型大约比美国 Frontier Labs 落后六个月。 这是否也适用于"Mythos"?是否可以预见,例如,Qwen 将在六个月内发布一个与 Claude "Mythos" 同样重要的模型,还是存在算力之类的限制因素会阻止如此巨大的飞跃?到目前为止,我还没有找到答案。
Anthropic大佬观点推理
00:03
AK@_akhaliq
39
Transformers中的注意力下沉 关于其利用、解释与缓解方法的研究综述 论文: https://huggingface.co/papers/2604.10098
推理论文/研究部署/工程
4月14日
21:55
Hacker News 热门(buzzing.cc 中文翻译)
具有内省能力的扩散语言模型

Introspective Diffusion Language Models(内省扩散语言模型)正式发布,该架构在传统扩散模型基础上引入内省机制,支持生成过程中的自我评估与优化。项目技术细节与代码已开源至introspective-diffusion.github.io。该研究成果在Hacker News技术社区获得100点关注度,于2026年4月14日公开。

推理论文/研究
17:26
Chubby♨️@kimmonismus
关于 Anthropic 200 美元 Max 计划的投诉正在升级,因为独立测试(例如 Bridgebench)声称 Claude Opus 4.6 在幻觉性能方面急剧下降。 可能是发布后进行了量化,人们将其应用到了他们的工作流程中?无论如何,祝贺 Grok 保持第一。
Anthropic推理评测/基准
11:25
Rohan Paul@rohanpaul_ai
LLM医学诊断软肋:早期鉴别诊断能力不足

一项研究对21个LLM进行29个临床病例的阶梯式测试,发现其在医学诊断最困难环节——早期鉴别诊断(differential diagnosis)表现糟糕。面对不完整的零散症状,所有模型在80%以上的早期任务中失败,常过早消除不确定性而非列出多种可能病因。当病例数据补充检查发现和实验室结果后,失败率降至40%以下,最佳系统最终诊断准确率达90%。这揭示了当前AI在信息不全时的诊断可靠性仍有重大局限。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
平衡聚合:理解并修正GRPO中的聚合偏差

在GRPO风格强化学习中,策略梯度项的聚合方式(序列聚合与词元聚合)存在不同优化偏差:词元聚合导致符号与长度耦合,序列聚合则因序列级等权重而隐式削弱长响应。为此,本研究提出平衡聚合方法,分别在正负样本子集内计算词元级均值,再以序列计数权重组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上的实验表明,该方法在多个推理与代码生成基准上能持续提升训练稳定性与最终性能。分析进一步揭示,响应长度变异及正负样本长度差是决定聚合方法有效性的关键因素。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
迈向虚拟细胞的自主机制推理

研究团队提出VCR-Agent多智能体框架,将生物推理形式化为机制动作图以实现可验证的自主推理。该框架整合生物学知识检索与验证过滤机制,并基于Tahoe-100M图谱发布VC-TRACES数据集,提供经过验证的机制解释。实验表明,利用该数据集训练可显著提升事实准确性,并为基因表达预测任务提供更有效的监督信号。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
语言模型智能体的探索与利用错误可被量化测量

研究人员构建了受具身AI场景启发的可控测试环境,包含部分可观察的2D网格地图与未知任务DAG,并设计策略无关的评估指标,实现了对语言模型智能体探索与利用错误的量化测量。评估显示,当前前沿模型在该任务上表现挣扎且呈现不同失败模式,而推理模型展现出更强的解决能力。研究还发现,通过最小化的工程调整即可显著提升智能体的探索与利用表现。相关代码已开源发布。

智能体推理论文/研究
‹ 上一页
1…454647484950
下一页 ›