First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...
First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...
菲尔兹奖得主 Timothy Gowers 测试 ChatGPT 5.5 Pro,AI 在 17 分钟内独立解决了一个加法数论公开难题,产出了博士论文级别的成果。整个过程无需数学指导,仅通过简单提示完成。Gowers 警告,若 AI 数学能力按此速度发展,将很快对数学研究领域构成危机,尤其冲击博士生培养。他呼吁数学系紧急应对,帮助学生寻找新出路。另一位菲尔兹奖得主陶哲轩则指出,人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
研究发现,长历史记录会在大语言模型(LLM)代理中引发“记忆诅咒”,导致其过度遵循历史、规避风险,从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验,在28个模型-游戏组合中,有18个因历史扩展而合作退化。机制分析表明,长历史侵蚀了模型的前瞻性意图,使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题,且能零样本迁移至新游戏。实验证明,触发因素是历史内容而非长度,而消除显式思维链通常能减轻合作崩溃。
We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...
一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...
AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。
Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...
We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...
AI芯片企业Cerebras的IPO获得超过20倍超额认购,有望成为2026年以来全球最大IPO。公司计划将发行股票数量从2800万股增至3000万股,发行价区间从115-125美元上调至150-160美元,以中间价计涨幅达29.17%,最高可筹资48亿美元。Cerebras的“晶圆级芯片”因集成大量高带宽SRAM缓存,特别适合AI推理的解码步骤,已获得亚马逊和OpenAI的大额订单。
慧荣科技总经理苟嘉章预警,由于AI投资重心从训练转向推理,带动内存与存储需求激增,NAND闪存缺货状况可能持续至2028年。下半年内存价格预计继续上涨,但涨幅将小于上半年。产能扩张面临瓶颈,从建厂到良率调适需时2-3年,设备交付周期也长达1-1.5年,供需缺口难以迅速缓解。部分手机和电脑厂商已难以承受成本压力,而苹果等具备采购优势的大型品牌有望获得市场增长机会。
本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。
研究提出MemReread方法,以解决基于记忆的智能体在长文档推理中可能丢失潜在证据的问题。该方法在线性流式阅读基础上,当最终记忆不足时触发问题分解与重读,从而恢复被过早丢弃的间接事实,支持非线性推理同时保持文档理解逻辑。通过强化学习框架动态决定重读轮数以适配任务复杂度,灵活控制计算开销。实验表明,MemReread在长上下文推理任务中持续优于基线框架,且保持相对于上下文长度的线性时间复杂度。
EVOCHAMBER 是一个无需训练的多智能体测试时进化框架,在智能体池中实现个体、团队和群体三层协同进化。其核心 CODREAM 协议在团队失败或分歧时触发,让智能体协作反思并非对称传递知识,以保持专业化。团队级和群体级算子分别管理协作结构和智能体生命周期。基于 Qwen3-8B 在三个异构任务流测试中,该框架在数学、代码和多领域推理任务上表现优异,数学准确率相对最佳基线提升 32%。消融实验证实非对称知识传递是性能提升关键。系统从相同初始化智能体涌现出稳定专家,体现了多智能体进化的独特结构特征。
研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。
研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。
针对现有工具集成推理范式存在代码仅用于事后验证、自然语言中间计算易错等问题,研究团队提出ThinC框架,将代码本身作为核心推理器。该框架仅以简短自然语言规划开始,后续所有推理均通过代码块及其执行输出串联完成。团队从教师模型中提取了12.2万条代码轨迹,并训练出ThinC-1.7B和ThinC-4B模型。在五项竞赛级数学基准测试中,ThinC-4B全面超越了所有工具集成推理基线,甚至优于规模大得多的Qwen3-235B-A22B-Thinking模型。分析表明,其99.2%的最终答案基于解释器输出,且能在代码执行失败时可靠恢复。
一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。
Really glad to meet the @NVIDIAAI team in China. Looking forward to deeper collaboration between @MiniMax_AI and @nvidia...
Excel Copilot one-shotted a tiny GPT-style language model for me inside a spreadsheet: embeddings, causal attention, wei...
2016年AlphaGo以第37手“神之一手”战胜李世石,其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力,打破了人类对自身智慧的千年傲慢。十年间,AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出,AlphaGo改变了棋手的思维方式,AI并未取代围棋,而是让棋手站在其肩膀上创新,使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来,今日的AI变革或许仅是漫长征程的起点。
Hard to believe it's been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and j...
针对OpenAI o1等大型推理模型因能力提升而日益冗长、浪费算力与上下文资源的问题,现有基于静态奖励的方法难以平衡正确性与效率。研究者提出LEAD方法,通过在线自适应机制动态校准每一步的正确性与效率权衡,并依据模型自身正确推演为每个问题在线估计自适应目标长度,对称惩罚过度推理与过度压缩。在五个数学推理基准测试中,LEAD在基于强化学习的高效推理方法中取得了最高的准确率和准确率-效率分数,同时生成的输出比基础模型显著缩短。
研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。
LoopUS 是一种后训练框架,可将标准预训练大语言模型转换为循环架构,无需从头训练循环模型或进行破坏性改造。其核心是将模型重构为编码器、循环推理块和解码器,并包含四个关键组件:基于阶段化表征动态的块分解、抑制隐藏状态漂移的输入依赖选择性门、支持长递归范围内存高效学习的随机深度监督,以及用于自适应提前退出的置信度头。该框架通过稳定的潜在循环提升模型的推理性能,且不延长生成轨迹或增加额外训练成本。
针对大语言模型强化学习中普遍存在的性能饱和问题,研究团队提出Entrocraft方法。该方法通过拒绝采样偏置优势分布,实现用户定制的熵调度,无需目标正则化且与优势估计器无关。理论分析将熵变化与优势分布关联,解释了现有方法的行为。系统研究发现,从高值衰减至略低目标的线性退火熵调度效果最佳。实证表明,Entrocraft显著提升了模型泛化能力、输出多样性和长期训练稳定性,使40亿参数模型性能超越80亿参数基线,性能提升持续时间延长至4倍,并将pass@K指标提高了50%。
本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。
扩散语言模型因支持并行解码而备受关注,但其通常依赖预设的固定生成长度,限制了应用灵活性。现有可变长度生成方法或需重新训练,或仅依赖局部置信度信号,导致生成质量不佳。本研究提出一种无需重新训练的贝叶斯结构化解码框架,将灵活长度生成建模为动态结构推断问题,联合优化扩展长度、块边界与解码调度。该方法在每一步扩展中,通过统一机制整合局部不确定性与全局结构信号,实现动态块扩展与组织,保障文本连贯性。多项实验表明,该方法在生成质量与灵活性上显著优于现有基线模型。
基于补丁的字节级语言模型面临补丁大小与建模质量的权衡,其根源在于“补丁滞后”问题。本研究提出的“草稿本补丁”方法,通过在补丁内部插入临时草稿本,聚合已见字节并刷新补丁级上下文,从而缓解滞后。该方法利用下一字节预测熵触发草稿本,将计算选择性分配给信息密集区域,并允许事后调整推理时计算。在自然语言和代码实验中,该方法在相同补丁大小下提升了模型质量。例如,即使补丁大小为16字节,增强后的模型在下游评估中匹配或接近字节级基线,同时补丁的KV缓存缩小了16倍,推理计算减少了3-4倍。
研究提出一种基于全局保留的KV缓存淘汰方法,以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数,并利用共享的最终评分投影在所有层和注意力头间校准分数,使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明,优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中,该方法在显著减少KV内存的同时,性能达到甚至超越了全缓存推理水平,表明学习型全局KV淘汰可成为一种提升推理能力的机制。
针对多模态大语言模型对齐中奖励模型不可靠的问题,本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程:模型先作为“分歧规划器”生成针对具体实例的中立验证检查表,再转为“检查表验证器”依据图像和问题执行检查,输出基于事实的判断。该方法被构建为多角色强化学习问题,以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明,DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分,大幅优于无检查表基线,证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。
针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。
#AlphaGo WINS!!!! We landed it on the moon. So proud of the team!! Respect to the amazing Lee Sedol too
Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码,通过三项关键技术:对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化,成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型,实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力,通过极致工程优化 democratize 至个人设备,展现了开源社区推动技术平民化的强大潜力。
Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is ...
菲尔兹奖得主蒂莫西·高尔斯让 ChatGPT 5.5 Pro 尝试解决数论中的开放性问题。该模型在不到一小时内,将一个问题中的指数界限改进为多项式界限。一位参与的 MIT 研究员认为其核心想法“完全具有原创性”。高尔斯总结指出,未来数学贡献的门槛将变为证明某些是大语言模型无法完成的工作。
百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础,宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升,而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四,ERNIE 5.1 Preview在LMArena Text上取得1476分,全球排名第十三。推文作者指出目前未见技术论文,需验证其宣称的低成本高性能表现,但若属实将意义重大。
ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...
百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。
ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...