AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月13日周三
07:53Simon Willison 博客66LLM 命令行工具发布 0.32a2 alpha 版本
07:39IT之家(RSS)55SiFive 推出 Performance P570 Gen 3 内核:RVA23 完整合规,性能显著改进
05:44HuggingFace Daily Papers(社区热门论文)66GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测
05:44HuggingFace Daily Papers(社区热门论文)62揭示策略蒸馏:何处有益、何处有害及原因
02:44HuggingFace Daily Papers(社区热门论文)51PlantMarkerBench:一个用于评估基于文献的植物标记基因推理能力的多物种基准
02:30ClaudeDevs76精选Claude Opus 4.7快速模式开放研究预览
01:04SemiAnalysis61聚合多台B200 GPU机器,吞吐量提升7倍并显著降低成本
00:52向阳乔木68开源多agent讨论Skill基于HeavySkill论文提升AI推理
00:33OpenRouter69精选Perceptron Mk1视觉语言模型上线OpenRouter
00:22向阳乔木56调研最佳Markdown编辑器及HeavySkill多AI协作思路
5月12日周二
23:22向阳乔木63读HeavySkill论文:多AI并行思考与综合推理提升回答质量
21:29AK57多智能体协同扩展测试时计算能力
21:29AK54逆向教师信号探索推理 强化学习自蒸馏新法
21:29AK64多智能体协同扩展测试时计算能力
19:36IT之家(RSS)38国产 AI 游戏《历史模拟器:崇祯》"本体买断、词元收费"引争议,官方回应称将开放自行接入模型
17:59AK63数学家构建基准测试评估LLM研究级数学能力
17:36IT之家(RSS)58"全球最强算力":李想官宣公司自研马赫 M100 芯片,理想 L9 Livis 首发
16:44HuggingFace Daily Papers(社区热门论文)65SlimSpec:用于加速推测解码的低秩草稿模型LM-Head
16:44HuggingFace Daily Papers(社区热门论文)62TMAS:通过多智能体协同扩展测试时计算
15:44HuggingFace Daily Papers(社区热门论文)59DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能
11:44HuggingFace Daily Papers(社区热门论文)67叛逆学生:通过反转教师信号实现自蒸馏推理探索
11:36IT之家(RSS)65AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能
10:49歸藏(guizang.ai)71Thinking Machines发布原生多模态"交互模型",实现实时人机协作
09:36IT之家(RSS)62苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向
08:25Hacker News 热门(buzzing.cc 中文翻译)59Interfaze:一种专为大规模高精度而构建的新型架构模型
08:00HuggingFace Daily Papers(社区热门论文)32代码引导推理协议评估小语言模型的可执行推理脚手架
08:00HuggingFace Daily Papers(社区热门论文)50基于点互信息的推理强化学习反自蒸馏方法
08:00HuggingFace Daily Papers(社区热门论文)48HölderPO:一种基于Hölder均值的政策优化框架
08:00HuggingFace Daily Papers(社区热门论文)51PreScam:基于早期对话预测诈骗进展的基准测试
08:00HuggingFace Daily Papers(社区热门论文)55大语言模型推理中的自适应教师暴露自我蒸馏方法
08:00HuggingFace Daily Papers(社区热门论文)63AI CFD科学家:利用物理感知AI智能体实现开放式计算流体动力学发现
08:00HuggingFace Daily Papers(社区热门论文)70精选Learning to Explore: 通过探索感知策略优化扩展智能体推理能力
08:00HuggingFace Daily Papers(社区热门论文)73精选Learning Agentic Policy from Action Guidance
08:00HuggingFace Daily Papers(社区热门论文)56基于文本-表格建模的陌生AI智能体决策预测方法
08:00HuggingFace Daily Papers(社区热门论文)69ShapeCodeBench: 一个用于合成形状场景感知到程序重建的可再生基准
08:00HuggingFace Daily Papers(社区热门论文)64Orthrus:基于双视图扩散的内存高效并行令牌生成
08:00HuggingFace Daily Papers(社区热门论文)62观点:应将大语言模型推理评估为"能量到Token的生产过程"
07:29elvis61自主进化:LLM自动优化测试时扩展策略的新框架
04:55Lilian Weng68团队协作优化人机协作,AI模型训练日志揭示新路径
03:18Tomer Tunguz 博客(VC 分析)67精选本地模型处理半数日常任务,响应速度优于云端
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
07:53
Simon Willison 博客
66
LLM 命令行工具发布 0.32a2 alpha 版本

LLM 命令行工具发布了 0.32a2 alpha 版本。本次更新的核心是,大多数具备推理能力的 OpenAI 模型将改用新的 /v1/responses API 端点,替代原有的 /v1/chat/completions 端点。这一变更为 GPT-5 级别的模型启用了跨工具调用的交错推理能力。现在,用户在使用 OpenAI 模型运行提示词时,可以看到以不同颜色高亮显示的、经过汇总的推理令牌。如果不想显示这些推理信息,可以使用 -R 或 --hide-reasoning 标志来隐藏。

OpenAI产品更新开源/仓库推理
07:39
IT之家(RSS)
55
SiFive 推出 Performance P570 Gen 3 内核:RVA23 完整合规,性能显著改进

SiFive发布Performance P570 Gen 3 CPU IP内核,这是目前功能最强、效率最高的乱序执行RISC-V处理器内核,面向边缘AI、高端消费电子和商用物联网。该内核完全符合RISC-V RVA23配置文件,采用3发射、13级全乱序流水线,集成128位向量单元,已在台积电12nm和3nm节点验证。相比前代P550 Gen 1,其在SPECint 2017测试中IPC提升13%,动态功耗降低13%;在Geekbench AI工作负载中IPC实现翻倍;借助专用点积指令,特定物体检测任务性能较Gen 1提升21倍。同时,SiFive为无需向量单元的客户提供了Performance P550 Gen 3版本。

产品更新推理端侧
05:44
HuggingFace Daily Papers(社区热门论文)
66
GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式,以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上,通过轻量级行列表探测,利用冻结视觉语言模型在答案空间中评估证据,并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算,实现测试时计算量自适应调整。实验表明,在Video-MME-v2基准上,计算量降低3.36倍,平均准确率损失控制在1.6个百分点内;在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合,无需重新训练即可提升性能。

多模态推理论文/研究
05:44
HuggingFace Daily Papers(社区热门论文)
62
揭示策略蒸馏:何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题,引入一种免训练诊断框架,以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度,并开发可扩展的定向展开算法高效估算梯度,进而计算梯度对齐分数,量化特定蒸馏配置接近理想信号的程度。研究发现,蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性;在正确展开时,学生模型已表现良好,教师信号往往变得嘈杂。此外,最优蒸馏上下文共同取决于学生模型的能力和目标任务,不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究
02:44
HuggingFace Daily Papers(社区热门论文)
51
PlantMarkerBench:一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench,这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种,包含5,550个标注了证据有效性、类型和支持强度的句子实例,并定义了两项评估任务。测试显示,前沿模型在处理直接表达证据时表现尚可,但在功能、间接和弱支持证据上性能显著下降,且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究
02:30
ClaudeDevs@ClaudeDevs
精选76
Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。
Anthropic推理模型发布编码

推荐理由:Opus 4.7 加推 Fast mode,编程场景延迟会降一大截,Claude Code 可以直接用,对天天在终端敲代码的人是个实在提升。
01:04
SemiAnalysis@SemiAnalysis_
61
聚合多台B200 GPU机器,吞吐量提升7倍并显著降低成本

通过RoCEv2 CX-7以太网和Tomahawk交换机连接多台B200 8-GPU机器,并采用名为PD disaggregation的推理优化技术,单GPU的token吞吐量最高可提升7倍。吞吐量的大幅提升使得每百万token的成本也相应降低了最多7倍。这一成果得益于Inferact和vLLM项目开发的开源引擎,以及NVIDIA团队构建的动态推理编排器。未来针对B200 disaggregation的性能还将有进一步改进。

推理行业动态部署/工程
00:52
向阳乔木@vista8
68
HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体开源/仓库推理
00:33
OpenRouter@OpenRouter
精选69
Perceptron Mk1已在OpenRouter上线,由@perceptroninc开发。 前沿视频与具身推理的视觉语言模型。以动态帧率(最高2 FPS)分析视频,具备32k多模态上下文,采用混合推理和结构化空间基元(点、框、多边形、片段)作为首要输出。
多模态推理模型发布

推荐理由:将视频理解提升到结构化空间输出,动态帧率分析让模型能真正「看懂」动作,做具身智能的开发者可以关注。
00:22
向阳乔木@vista8
56
调研最佳Markdown编辑器及HeavySkill多AI协作思路

作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体推理教程/实践
5月12日
23:22
向阳乔木@vista8
63
读HeavySkill论文:多AI并行思考与综合推理提升回答质量

论文HeavySkill提出了一种提升AI回答质量的方法:先让多个AI模型(如Claude、GPT)并行进行“独立思考”,各自生成多条推理路径;随后使用另一轮推理(如由Codex充当“主持人”)综合分析所有独立思路,整合出最终答案。测试表明该方法能显著提升回答质量。作者正基于此思路开发一个Skill,设计让Claude负责代码推理,Codex担任综合思路的主持人。

智能体推理论文/研究
21:29
AK@_akhaliq
57
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
21:29
AK@_akhaliq
54
叛逆学生 通过逆向教师信号进行推理探索 结合自蒸馏的RLVR方法
推理论文/研究
21:29
AK@_akhaliq
64
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
19:36
IT之家(RSS)
38
国产 AI 游戏《历史模拟器:崇祯》"本体买断、词元收费"引争议,官方回应称将开放自行接入模型

国产AI游戏《历史模拟器:崇祯》因采用“本体买断、词元收费”模式引发争议。玩家需支付48元购买游戏,后续推进剧情则需额外付费购买词元(Token)。针对争议,官方宣布将开放“自定义API”功能,允许玩家自行接入支持范围内的大模型服务以控制成本。同时,游戏将上线创意工坊,支持玩家基于核心框架创作剧本、规则及玩法。具体上线时间、支持模型范围及审核规则将通过后续公告公布。

推理行业动态
17:59
AK@_akhaliq
63
Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力
Hugging Face推理论文/研究
17:36
IT之家(RSS)
58
"全球最强算力":李想官宣公司自研马赫 M100 芯片,理想 L9 Livis 首发

理想汽车创始人李想正式发布自研马赫 M100 芯片。该芯片采用动态数据流架构和5nm车规级工艺,单芯算力达1280TOPs,号称全球最强。其架构突破传统GPU效率瓶颈,使端到端延迟下降40%,车辆反应速度比人类快一倍。全新理想L9 Livis车型将首发搭载此芯片,并配备3D ViT感知模型,可视距离提升50%,多模态计算量增加10倍,实现自动驾驶、智能交互等功能。李想表示,自研芯片旨在解决供应商技术难题,推动AI在物理世界的实际应用。

产品更新具身智能推理端侧
16:44
HuggingFace Daily Papers(社区热门论文)
65
SlimSpec:用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理,但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断,但增加了复杂性。本文提出SlimSpec,采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出,从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估,SlimSpec在延迟和吞吐量场景下,相比标准LM-Head实现了4-5倍加速,同时保持有竞争力的接受长度,端到端加速效果超越现有方法8-9%,且对训练和推理流程改动最小。

arXiv推理论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
62
TMAS:通过多智能体协同扩展测试时计算

研究提出TMAS框架,通过组织多个专用智能体在推理过程中进行协作,实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统:经验库存储可靠的低层中间结论与局部反馈以供复用,指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时,团队设计了适配TMAS的混合奖励强化学习方案,在保持基础推理能力的同时,提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中,TMAS展现出优于现有基线的迭代扩展能力与稳定性。

智能体推理论文/研究
15:44
HuggingFace Daily Papers(社区热门论文)
59
DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能

为克服混合专家模型参数量大导致的存储与访存瓶颈,研究团队提出稀疏MoE架构DECO,以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由,自适应平衡路由专家与共享专家的贡献,并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明,在总参数量和训练数据量相同的情况下,DECO仅激活20%的专家即可匹配稠密Transformer性能,且超越现有MoE基线;其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
67
叛逆学生:通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时,会覆盖其成功推理的路径,抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角:当学生模型在教师模型未预测的路径上成功推理时,这些标记被视为其自主推理的体现。基于此,团队推出了RLRT方法,该方法在GRPO基础上强化正确生成轨迹中的此类标记,将其定义为一种基于学生自身成功的有价值探索,而非均匀多样性探索。在多个版本的Qwen3模型上,RLRT均显著超越了传统自蒸馏和基于探索的基线方法,确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究
11:36
IT之家(RSS)
65
AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能

AMD 发布 vLLM-ATOM 插件,旨在提升大语言模型在 AMD Instinct GPU 上的推理性能。该插件无需改动现有 vLLM 的命令、API 及工作流,即可为 DeepSeek-R1、Kimi-K2、Qwen3 等模型提供加速,覆盖 MoE、稠密模型及视觉语言模型场景。其三层架构在后台接管优化,重点面向 MI350、MI400 等系列 GPU,通过融合内核与注意力后端路由等技术,降低部署门槛,实现“零学习成本”的平滑迁移。

产品更新推理部署/工程
10:49
歸藏(guizang.ai)@op7418
71
Thinking Machines发布原生多模态"交互模型",实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布
09:36
IT之家(RSS)
62
苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究,直接回应了其搁置Vision Pro研发的传闻。研究包括:提出SFI-Bench基准,通过134段视频和1555道问题测试多模态大模型的空间功能智能;利用AI自动生成美国手语标注,将人工成本降低数百小时;以及提出HeadsUp方法,基于超万人数据集进行高质量3D头部重建,可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究
08:25
Hacker News 热门(buzzing.cc 中文翻译)
59
Interfaze:一种专为大规模高精度而构建的新型架构模型

Interfaze发布了一种专为大规模高精度任务设计的新型架构模型。该架构旨在显著提升模型在扩展规模时的准确性表现,其核心目标是解决传统模型在参数量增大时精度难以同步提升的挑战。新架构通过创新的设计,优化了计算效率与精度之间的平衡,以适应数据量和模型复杂度不断增长的需求。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
32
代码引导推理协议评估小语言模型的可执行推理脚手架

本研究提出了“代码引导推理”评估协议,用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明,在具有非零基线的样本中,脚手架辅助的平均准确率为66.21%,较直接回答的38.11%提升了28.10个百分点。研究同时也指出,该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。

推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
HölderPO:一种基于Hölder均值的政策优化框架

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题,本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合,通过参数p连续控制梯度集中与方差界限。理论分析表明,较大的p集中梯度以增强稀疏信号,较小的p则限制方差。为克服静态配置的局限,我们设计了动态退火算法,在训练中自适应调整p。实验显示,HölderPO在多个数学基准测试中平均准确率达54.9%,相对GRPO提升7.2%,并在ALFWorld任务中实现93.8%的成功率,显著提高了稳定性和收敛性。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PreScam:基于早期对话预测诈骗进展的基准测试

研究团队推出PreScam基准,用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告,将17.8万份原始数据筛选并结构化,构建了涵盖20个类别的1.1万余个对话实例,并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示,监督学习模型在终止预测上显著优于零样本大语言模型,而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率,表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
大语言模型推理中的自适应教师暴露自我蒸馏方法

研究发现,在LLM推理的自我蒸馏中,教师模型始终看到完整参考答案会导致师生能力不匹配,使学习目标过强。固定教师暴露程度并非最优,且不匹配性随教师所见信息增加而增长。为此,研究者提出自适应教师暴露方法(ATESD),通过一个轻量级Beta策略控制器,基于训练状态动态采样教师暴露比例,并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中,ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法,取得了显著提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
AI CFD科学家:利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist,一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门,能在接受结果前检查流场渲染图。实验表明,该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正;在同等成本下,其性能优于通用AI科学家基线,因其具备关键的领域专用验证能力;对照实验证实,视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体arXiv多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
Learning to Explore: 通过探索感知策略优化扩展智能体推理能力

研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

智能体arXiv推理论文/研究

推荐理由:让 Agent 拥有了「感知自己不知道什么」的能力,只在信息不足时才探索,而不是盲目试错,是 Agent 训练方法的一个重要转向,做强化学习或 Agent 的值得认真看下。
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
Learning Agentic Policy from Action Guidance

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

智能体arXiv推理论文/研究

推荐理由:Agent RL长期被基础策略的探索能力卡脖子,这篇论文用人类日常交互的动作数据做引导,不用重型SFT就追平现有pipeline,是训练范式层面一次务实创新。
08:00
HuggingFace Daily Papers(社区热门论文)
56
基于文本-表格建模的陌生AI智能体决策预测方法

研究提出一种目标自适应的文本-表格预测方法,用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行,整合游戏状态、报价历史和对话文本,并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型,结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练,并在91个保留的支架智能体上测试,完整模型性能优于直接提示法和基线模型。当K=16时,观察者特征将响应预测AUC提升约4个百分点,并将议价报价预测误差降低14%,证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
ShapeCodeBench: 一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像,模型必须输出一个可执行的绘图程序,由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形,每个实例均由随机数生成器生成,可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集,涵盖简单、中等和困难三个级别,评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示,传统计算机视觉启发式方法在简单场景中表现尚可,但在图形重叠时失效;最强的多模态配置能保留大部分前景结构,但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低,表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Orthrus:基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
观点:应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv推理论文/研究部署/工程
07:29
elvis@omarsar0
61
自主进化:LLM自动优化测试时扩展策略的新框架

近期研究提出AutoTTS框架,让大语言模型自主搜索并优化测试时扩展策略,取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题,通过Beta参数化压缩搜索空间,并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中,自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线,且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟,预示着人工设计思维链等方法的时代可能即将结束,TTS将成为LLM自主完成的任务。

智能体arXiv推理论文/研究
04:55
Lilian Weng@lilianweng
68
团队通过数月高强度工作,完成了12个主要版本及137页的训练运行日志。这一过程揭示,有效的人与人协作是提升人-AI协作质量的关键。受此启发,团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式,设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理论文/研究
03:18
Tomer Tunguz 博客(VC 分析)
精选67
本地模型处理半数日常任务,响应速度优于云端

一项为期五周的实验发现,在总计约1400项日常工作任务中,约50%可由本地35B参数模型(如Qwen 3.6 35B)成功处理,涵盖邮件、日程、总结和行政事务等类别。性能对比显示,本地模型在常规代理任务上的平均响应时间为2.8秒,比云端Claude Opus 4.5快2.1倍,尽管后者在复杂推理上仍领先约20%。本地模型输出更简洁,云端模型则在结构和代码规范性上更优。随着本地模型性能提升,将计算负载转向本地以应对云端成本已成为必然趋势。

大佬观点推理端侧

推荐理由:Tunguz用数据告诉你,本地35B模型延迟只有Opus的一半且能完成半数任务,对极致追求响应速度的产品思路冲击很大,本地优先可能会从边缘变成主流。
‹ 上一页
1…3435363738…50
下一页 ›