百度论文提出将开放式任务(如写作、主观回答)重构为可验证的多项选择形式,通过"两两比较"替代直接评分,为RL提供清晰奖励信号。在7个基准测试中,14B模型平均比RLHF基线高3.29分。关键创新在于训练任务形式的改变——模型通过对比验证学习识别优劣,而非单纯吸收偏好对。研究同时发现需混合RLHF目标以防止输出长度坍缩。该方法表明,用结构化比较替代模糊评分可能是提升推理能力的普遍对齐策略。
研究通过贪婪剪枝方法(逐个删除对模型似然度影响最小的token)评估LLM推理token的功能重要性。发现符号数学token比语法叙述更能经受剪枝,表明模型内部存在重要性排序。重要性具有动态性,早期可丢弃的token可能在上下文减少后变得关键。注意力模式可预测剪枝分数,说明功能重要性在模型内部可见。该发现有助于使chain-of-thought更可解释,而非仅仅缩短长度。
Do all reasoning tokens matter equally? We study the functional importance of reasoning tokens implicitly encoded in LLM...
Mark Zuckerberg指出,未来企业不会拥有前沿AI基础模型,而是基于共享模型构建定制化运营层,反映其业务流程与客户历史,用于客户互动和支持。与此同时,Meta发布原生多模态推理模型Muse Spark,采用多智能体编排架构,多个副本可并行推理并比较结果,用比Llama 4 Maverick少10倍以上的训练计算达到类似能力,标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。
Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:slow_developer (@slow_developer)X:Testing Catalog (@testingcatalog)KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损,部分资金归零。Claude Opus 4.6以-11% ROI表现最佳,GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟,暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。
We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...
@emollick Humans are jagged too! We're just very used to their type of jaggedness. Here are 6 random people from a jagge...
LLM evals are slow to adapt. MMLU/GSM8K continued to be reported long after they were obsolete. I think the next thing t...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
韩国AI实验室Upstage发布Solar Pro 3,AI Index得分26,为韩国实验室第二强模型。采用MoE架构(102B总参数/12B激活参数),支持128k上下文。核心优势在于agentic工具调用与指令遵循,IFBench得分71%与GLM-5、Kimi K2.5相当,τ²-Bench Telecom达86%。但token消耗较高(约100M),可靠性不足(AA-Omniscience得分-54),准确性18%优于其他韩国模型。可通过Upstage API访问。
Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...
推文以原子弹研发为例,阐述极端泛化的本质:科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据,而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于,通过逆向推导数据背后的因果逻辑,人类能够将极简信息转化为重塑现实的完整方案,展现符号推理在突破认知边界中的决定性作用。
The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...
Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B,采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12,支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型,但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源,上下文窗口128K/65K tokens,目前通过API免费提供服务。
We are excited to share a new paper solving three further problems due to Erdős; in each case the solution was found by ...
作者以"Glurg"游戏(实为 chess)假设情境论证:借助现有外部认知基础设施(计算机、互联网等),人类顶尖团队能在24小时内从规则解析开发出3000 Elo引擎,三周内可达3500 Elo且计算效率提升10倍。这表明人类智能已具备即时掌握复杂策略系统的能力,而非从零缓慢进化。该论述回应了关于现实世界更接近 chess 而非 Go 的争论,强调人类利用工具扩展认知边界的即时优势。
On @fchollet's view (I'd summarize) the domain of real life is closer to chess than to Go, with human play already near-...
OpenAI发布GPT-5.4 mini与nano轻量模型,保留多档推理能力与400K上下文窗口,价格降至$0.20/$1.25每百万token。基准测试显示,GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview,但幻觉率较高且token消耗量大。得益于极低单价,nano在Intelligence Index测试中的有效成本反而低于竞品,展现出优秀的性价比优势。
Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。
gpt-5.4 has ramped faster than any other model we've launched in the API: within a week of launch, 5T tokens per day, ha...
AlphaGo十周年之际,DeepMind科学家Thore Graepel与Pushmeet Kohli探讨了从游戏AI到科学发现工具的演进路径。对话回顾了Move 37与Move 78等标志性时刻的技术突破,阐述AlphaGo如何延伸至蛋白质折叠、矩阵乘法优化及算法发现领域。讨论还涉及AI生成发现的验证机制、数学家的协作角色,以及游戏智能对解决复杂科学问题的方法论变革。