本研究提出“前缀一致性”作为一种可靠性信号,用于改进大语言模型在推理任务中的自一致性方法。该方法通过截断思维链的中间部分并重新生成后续内容,发现正确答案的思维链更倾向于重现原答案。利用这一差异,前缀一致性对候选答案进行加权聚合,无需依赖词元概率或自评分提示。在五个推理模型和四个数学科学基准测试中,该方法在多数情况下成为最佳正确性预测指标,并以中位数4.6倍、最高21倍更少的词元消耗,达到了标准多数投票法的稳定准确率。相关代码已开源。
本研究提出“前缀一致性”作为一种可靠性信号,用于改进大语言模型在推理任务中的自一致性方法。该方法通过截断思维链的中间部分并重新生成后续内容,发现正确答案的思维链更倾向于重现原答案。利用这一差异,前缀一致性对候选答案进行加权聚合,无需依赖词元概率或自评分提示。在五个推理模型和四个数学科学基准测试中,该方法在多数情况下成为最佳正确性预测指标,并以中位数4.6倍、最高21倍更少的词元消耗,达到了标准多数投票法的稳定准确率。相关代码已开源。
研究团队提出POISE方法,以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针,利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计,在线预测可验证奖励的期望值。其关键设计是跨轨迹构造,在保持梯度无偏的同时,仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性,降低了梯度方差,使学习更稳定,并省去了检测零优势提示的额外采样开销。在数学推理基准测试中,POISE以更少计算量达到了与DAPO相当的性能,其价值估计器性能接近独立的LLM规模价值模型,并能泛化至多种可验证任务。
循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。
指令跟随是大语言模型的基本能力,但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此,研究团队提出SEIF框架,通过自进化循环提升指令跟随能力。SEIF包含四个角色:生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower,以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化,使指令难度与模型能力相互促进。实验显示,SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现,有效训练策略是在早期充分训练以打下基础,后期适度训练以避免过拟合。相关代码与数据已开源。
针对离散流匹配生成文本需数百步迭代的问题,本研究提出轨迹塑形离散流匹配方法。传统蒸馏中,由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”,在训练时评估并选择最连贯的候选序列来引导轨迹生成,此过程仅增加训练成本。在1.7亿参数语言建模任务中,经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍,且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度,包括使用更多数据或更大模型的方案。
循环模型状态追踪理论长期聚焦于表达能力,但误差控制同样关键,它主导着隐藏状态在区分符号状态方向上的漂移。研究证明,包含状态空间模型和线性注意力在内的仿射循环网络,一旦保存状态表示,就无法纠正沿状态分离子空间的误差。因此,实际模型学到的并非鲁棒的状态追踪,而是受累积误差控制的有限时域解。分析表明,仅当累积的类内扩散相对于初始类间分离较小时,追踪结果才可读。在群体状态追踪任务上的实验证实,当可区分比率超过解码器可读阈值时,追踪会崩溃,且该临界点能准确预测下游任务失效的时域。这表明,鲁棒的状态追踪不仅取决于架构的理论表达能力,更关键地取决于其误差控制能力。
SpecBlock是一种新型块迭代推测解码草案器,旨在融合路径依赖性与低成本生成。其核心在于每次前向传播生成一个包含K个连续依赖位置的“块”,通过重复块扩展构建草案树。关键技术包括:块内层间移位传递隐藏状态;跨块机制允许新块从旧块任意位置继承路径状态;协同训练的排序头动态分配分支,取代固定Top-K树;有效前缀掩码优化训练目标。部署时采用成本感知赌博算法,仅当预期吞吐增益超过更新成本时才利用验证器反馈选择性更新草案器。实验表明,在仅消耗EAGLE-3草案成本44-52%的情况下,SpecBlock将平均加速比提升了8-13%,成本感知自适应进一步将优势扩大至11-19%。
研究团队提出环境驱动框架AutoTTS,将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成,通过Beta参数化使搜索可行,并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中,自动发现的策略在准确率-成本权衡上优于人工基线,并能泛化至未见过的任务和模型规模,整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。
针对字节级语言模型自回归生成速度慢的问题,Byte Latent Transformer (BLT) 提出了新的训练与生成技术。其核心是最快的变体 BLT Diffusion (BLT-D),它结合块级扩散目标与下一个字节预测损失,能在每个解码步骤并行生成多个字节,大幅减少前向传播次数。此外,受推测解码启发,研究提出了两种在速度与质量间权衡的扩展:BLT Self-speculation (BLT-S) 让局部解码器起草超出常规边界的字节后进行单次验证;BLT Diffusion+Verification (BLT-DV) 则在扩散生成后增加自回归验证步骤。这些方法在生成任务上的预估内存带宽成本可比原始 BLT 降低超过 50%,共同为字节级模型的实际应用扫清了关键障碍。
MISA是DeepSeek稀疏注意力中索引器模块的即插即用替代方案。它将索引器的多个查询头视为专家混合池,通过一个轻量级路由器,仅根据查询激活少数几个头部进行昂贵的令牌级评分,从而大幅降低计算成本。无需额外训练,仅激活8个头时,MISA在DeepSeek-V3.2和GLM-5上就能达到与原始密集索引器相当的LongBench性能,同时分别减少八分之七和四分之三的头部使用量。该方法在128K上下文内能保持完整的“大海捞针”热力图,每层可恢复超过92%的原始索引器所选令牌,其内核在单H200 GPU上实现了约3.82倍的加速。
OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。
Proprioceptive AI开发的Cygnus技术,通过为冻结的大语言模型添加自感知适配器,使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间,分离出包含主要精度信号的“暗模式”,从而无需重新训练即可显著提升模型性能。例如,仅用一张RTX 3090显卡,就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型,服务节点可支持5万用户并发,预计本周末上线。相关设计论文已公开。
Final adverserial testing is wrapping up now on small models, GPU's arriving daily, 1TB ram so far, 128 VRAM and adding....
OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。
DeepSeek 4 Flash 本地推理引擎正式发布,这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型,实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能,降低了延迟与内存占用。该项目已在 GitHub 开源,并在 Hacker News 上获得了关注。
研究发现,部分已发布的模型存在有限的意外对思维链(CoT)进行评分的情况。团队已修复受影响的奖励通路,并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限,且修复后未对监控能力产生负面影响。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。
研究发现,仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first,就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上,phi_first 的平均AUROC达0.820,优于需多次采样的语义一致性方法(0.793)和标准表层自洽性方法(0.791)。该指标与语义一致性呈中到强相关,两者结合提升有限,表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息,可作为低成本基线指标。
根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。
Zyphra发布ZAYA1-8B模型,其活跃参数不足10亿,却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸,更在于全栈技术方案:完全基于AMD基础设施训练,采用了新的架构选择和大规模强化学习。此外,模型应用了一种名为Markovian RSA的测试时计算方法,通过并行推理和递归聚合,显著提升了复杂数学问题的解决能力。
针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题,本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策,允许模型在同一上下文中交错进行私有推理和部分内容披露,仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调,并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明,该方法在AIME25和GPQA-Diamond基准测试中,有效改善了准确性、内容产出与延迟之间的帕累托权衡。
谷歌为Gemma 4系列开源模型推出多Token预测起草器,采用推测解码技术以提升推理效率。该技术通过轻量级起草器预测多个未来Token,再由重型目标模型并行验证,从而突破内存带宽限制,将计算资源利用率最大化。实测显示,在特定条件下,Gemma 4 26B模型在Apple Silicon芯片上实现了约2.2倍的本地加速。此举有助于在个人电脑、消费级显卡及边缘设备上高效部署低延迟AI应用,如聊天机器人和编程助手。
Opera安卓浏览器对其深度思考功能进行了全面升级,该功能旨在为移动端用户提供AI驱动的智能辅助体验。此次升级的具体技术细节与版本号尚未披露。
中国台湾地区AI IP企业Skymizer近日发布推理解码加速器芯片HTX301,该芯片可与GPU协同工作,加速AI推理结果的输出,提升算力系统利用率和能效。HTX301基于HyperThought软硬件协同平台,采用LISA指令集架构,专注于带宽密集型负载处理。其支持SoC与PCIe AIC两种部署形态,其中单张PCIe加速卡可集成6颗HTX301芯片,提供总计384GB内存,足以满足7000亿参数大模型的本地运行需求,而整卡功耗仅为240瓦。
针对流式视频生成中候选探索成本高、缺乏时序引导的问题,研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元:流式缩放噪声传播利用历史高质量块噪声优化当前生成,建立时序依赖;流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估,平衡局部空间美学与全局时间连贯性;流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中,Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量,同时大幅降低了计算开销。
近日,一条在海外社交媒体爆火并获得纳瓦尔转发点赞的AI提示词被免费分享。该提示词旨在将AI助手塑造为智力、知识广度和思维敏锐度均属世界顶级的专家,要求提供完整、详细、具体的答案。其核心流程包括逐步阐述思考过程、核实所有事实数据、不虚构信息、直接承认知识盲区,并在支持用户观点前先提出最有力的反驳。据称,此提示词能显著提升AI在ChatGPT、Gemin、豆包等平台上的回答质量。
兄弟们!赶紧去把这个提示词保存下来吧! 🔥外网爆火被纳瓦尔转发点赞的提示词! 可以将你的AI回答质量提升数倍! 直接丢到ChatGPT、Gemin 、豆包都可以!订阅者优先查看,24 小时后解锁🔓! 提示词见评论区!👇
Tianfu Agent在第十六届全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著超越通用大模型40%的基线。其突破在于采用工程化方案:开发200多个专用原子工具处理精确计算,将流派技法封装为可调用函数,并通过量化工具模拟人类直觉。该Agent范式为法律、中医等规则密集型领域的AI化提供了可迁移的新路径,相关评测基准已开源。
Tianfu Agent 在全球算命师大赛上跑到 50% 截尾准确率(人类 Top-20 选手平均 53.5%) 比赛 3069 名参赛者 人类 Top-20 选手平均 53.5% 最强通用大模型基线(Claude Opus 4.6)40%...
谷歌DeepMind宣布收购Fenris Creations少数股权,并将在大型多人在线游戏《星战前夜》中训练AI,以攻克AI长期规划难题。这款运营了23年的游戏拥有复杂的科幻宇宙和高度社会模拟,要求玩家进行长期策略规划与政治博弈,正切中当前AI研究的薄弱环节。为确保不影响玩家体验,DeepMind初期将在隔离服务器上进行研究,游戏方也将利用其成果优化游戏。Fenris Creations近期刚以1.2亿美元现金及加密货币完成自我回购。
研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。
SpaceX 与 Anthropic 就 Colossus 超算集群达成合作,将 Colossus 1 出租给后者以扩展 Claude 的推理部署能力。此次合作源于埃隆·马斯克与 Anthropic 高层深入接触后,对其安全文化及团队责任感的认可。马斯克评估认为团队具备高度能力与自我批判精神,无人触发其“邪恶探测器”,Claude 很可能对人类有益。合作的关键背景是 xAI 已将训练工作迁移至 Colossus 2,从而释放了 Colossus 1 的算力资源。
Same here. By way of background for those who care, I spent a lot of time last week with senior members of the Anthropic...
一篇题为《深度学习理论》的文章在Hacker News上获得103点热度。文章探讨了深度学习的理论基础,旨在为这一复杂领域构建更系统的理解框架。尽管具体理论细节未在摘要中展开,但其核心目标指向解释深度神经网络为何有效以及如何工作,这反映了学术界和工业界对超越经验性实践、寻求坚实理论支撑的持续追求。
一项研究提出评估LLM潜在思想表示的公理化框架,包含四个独立于下游benchmark的功能公理:因果性、最小性、可分离性与稳定性。在23项推理任务(如空间推理、事实问答)上审计多款开源权重LLM后发现:没有模型能同时满足所有公理;表示可区分任务类型,但无法区分同一任务内的不同问题;表示编码的信息几乎不超出输入嵌入本身。该缺陷在密集、推理蒸馏和RL训练的模型家族中一致出现,表明其是结构性而非模型规模或训练方法的属性。