Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...
Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...
本研究推出了名为ProofGrid的基准测试套件,旨在通过机器可检查的证明,而非仅凭最终答案,来严格评估大语言模型(LLM)的推理能力。该套件包含15项任务,涵盖证明编写、验证等环节,核心采用紧凑的最小自然演绎语言(NDL)进行表述。其评估框架能容忍表面偏差并定位首个实质性推理错误,实现了机械化、可复现的细粒度验证。测试表明,前沿模型在基础任务上表现尚可,但在需要全局组合推理或底层证明合成的困难任务上仍存在显著局限。研究还识别并量化了模型“生成有缺陷证明却能在局部正确识别其错误”的“认识不稳定”现象。
研究团队发布MedConclusion基准数据集,包含570万PubMed结构化摘要,用于测试大语言模型从结构化生物医学证据中推断科学结论的能力。该数据集将摘要非结论部分与作者撰写的结论配对,提供自然监督信号,并包含期刊类别、SJR等元数据支持子群分析。初步评估显示,结论写作与摘要写作行为差异显著,当前自动指标难以区分强模型表现,且LLM评判者身份会显著影响评分结果。
针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。
推文以原子弹研发为例,阐述极端泛化的本质:科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据,而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于,通过逆向推导数据背后的因果逻辑,人类能够将极简信息转化为重塑现实的完整方案,展现符号推理在突破认知边界中的决定性作用。
The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...
Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B,采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12,支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型,但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源,上下文窗口128K/65K tokens,目前通过API免费提供服务。
为降低Transformer语言模型推理时KV缓存的内存占用,本研究提出一种名为“随机KV路由”的训练方法。该方法在训练过程中,让每一层随机选择使用本层或前一层的键值状态,从而使模型能够适应深度方向的KV缓存共享。评估表明,该方法在预训练或微调阶段应用后,可在多种模型架构中实现缓存共享,显著减少内存需求。对于数据受限的大模型,此方法还表现出类似正则化的效果,在降低内存的同时,常能保持甚至提升模型性能。
We are excited to share a new paper solving three further problems due to Erdős; in each case the solution was found by ...
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
作者以"Glurg"游戏(实为 chess)假设情境论证:借助现有外部认知基础设施(计算机、互联网等),人类顶尖团队能在24小时内从规则解析开发出3000 Elo引擎,三周内可达3500 Elo且计算效率提升10倍。这表明人类智能已具备即时掌握复杂策略系统的能力,而非从零缓慢进化。该论述回应了关于现实世界更接近 chess 而非 Go 的争论,强调人类利用工具扩展认知边界的即时优势。
On @fchollet's view (I'd summarize) the domain of real life is closer to chess than to Go, with human play already near-...
OpenAI发布GPT-5.4 mini与nano轻量模型,保留多档推理能力与400K上下文窗口,价格降至$0.20/$1.25每百万token。基准测试显示,GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview,但幻觉率较高且token消耗量大。得益于极低单价,nano在Intelligence Index测试中的有效成本反而低于竞品,展现出优秀的性价比优势。
针对使用强模型合成数据微调推理模型时出现的性能下降问题,本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记,使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生,在代码生成任务中,传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%,而TESSY实现11.25%和6.68%的显著提升。
自我改进机制虽客观存在,但受限于"有损"特性,难以推动AI能力的递归式爆发。该论述指出,大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈,这种非完美的迭代模式打破了"快速起飞"(fast takeoff)的技术假设。与理想化的指数级自我增强不同,实际发展将呈现渐进、受限的增长轨迹,AI安全研究需重新评估递归自我改进的风险阈值。
陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。
Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。
美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
gpt-5.4 has ramped faster than any other model we've launched in the API: within a week of launch, 5T tokens per day, ha...
OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。
关联讨论 1 条Dwarkesh Patel:Podcast & Blog(RSS)Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
AlphaGo十周年之际,DeepMind科学家Thore Graepel与Pushmeet Kohli探讨了从游戏AI到科学发现工具的演进路径。对话回顾了Move 37与Move 78等标志性时刻的技术突破,阐述AlphaGo如何延伸至蛋白质折叠、矩阵乘法优化及算法发现领域。讨论还涉及AI生成发现的验证机制、数学家的协作角色,以及游戏智能对解决复杂科学问题的方法论变革。
Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...
小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。
同步强化学习训练中,数据生成是主要瓶颈,如在320亿参数模型上生成3.2万令牌样本需数小时,导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池,通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库,从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现:Ray在编排层占主导(8/16库使用),NCCL广播是默认权重传输方式,LoRA训练支持普遍不足,而分布式MoE支持正成为新差异化特性。
inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿,采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化,致力于让先进AI技术更广泛可及。