阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
Cursor发布的Composer 2.5并非全新底座,而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能,单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题,实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准,这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。
Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效,官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法,解决了超长轨迹(十万 token 级)下的学习难题,使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时,Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练,将依托 Colossus 2 超算集群,这也意味着其算力基础已与马斯克旗下资源深度绑定。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
推文以排比句式讽刺了AI行业中部分人热衷于在社交媒体发布浅薄观点(如转发推文、发布提示词技巧),却缺乏扎实技术功底的现象。作者强调,当他人追逐热点时,自己专注于钻研底层技术与解决实际工程问题,例如深入研究芯片架构图、掌握JAX等工具原理、调试计算集群与硬件故障。当新产品(如Rubin)发布,面临推理成本建模、机架级供电及NVLink带宽限制等复杂实际问题时,这些缺乏深度实践的“空谈者”反而需要向具备真才实学的实干者求助。
Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。
New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...
现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题,其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架,它利用一个标注了版本与预期编译成本降低率的多目标策略数据库,引导冻结的LLM进行重构。实验表明,该方法在竞赛基准上实现超70%的token压缩,编译时间减少高达60%,性能优于现有工作;版本过滤检索进一步提升了压缩率,且重构后的证明表现出更强的零样本版本迁移能力。
针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题,研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题,实现教师与学生策略的协同进化:在E步通过自适应信任域更新动态改进教师策略,将文本反馈转化为目标令牌分布;在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明,该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。
为提升LLM智能体处理复杂任务的能力,HASP框架将传统文本指导技能升级为可执行的程序函数。这些函数作为主动护栏,能在易错步骤直接干预动作或注入修正信息。该框架支持推理时直接干预、后训练监督及自我进化,模块化设计灵活。实验证明,HASP在网页搜索、数学推理等任务中显著优于现有方法,仅推理阶段干预即可大幅提升性能,并为技能内化与库进化提供了机制分析。
针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题,本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库,存储了前缀与查询词之间的注意力状态。实验表明,在 LLaMA-3.1-8B 上,该方法在 1K-8K 记忆预算下提升了准确率,并将注意力计算延迟降低了 1.36 倍。同时,它在 NBA 基准测试中,仅用全注意力 RAG 20% 的内存开销,便超越了其性能表现。
Anthropic的Claude Mythos Preview在5天内,协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护,从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护,显著改变了攻防的速度与平衡。
作者认为人工智能未必能加速工作流程,反而可能因引入新的复杂性和决策环节而拖慢进程。关键在于AI改变了工作性质,将重心从执行转向监督与调整,这需要额外的时间投入。文章指出,盲目追求流程速度可能忽略AI在提升质量、减少错误方面的真正价值。真正的效率提升应来自对流程的重新设计,而非简单地将AI嵌入现有步骤。
谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。
斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。
64名数学家组成的联盟构建了名为SOOHAK的新AI数学基准测试,包含439道手写任务,其中99道被故意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先,但没有模型在识别错误问题上的准确率超过50%。增加计算量能提升模型解题能力,却无助于其承认问题无解。该基准旨在揭示AI系统在少数亮点表现与全面研究能力之间存在的差距。
菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。
Terence Tao says the math behind today's LLMs is actually simple. Training and running them mostly uses linear algebra, ...
New letter from 35 (!) members of Congress to the White House urging action post-Mythos. Most of the letter is about cyb...
针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题,本研究提出A2RBench自动生成管道,涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务;扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉,建立了理论框架,证明程序化验证(即测试逆操作能否完美还原正向操作,保证循环一致性)可确保任务的唯一解。对主流大模型的评估显示:当前模型在抽象推理上存在根本缺陷,顶尖模型在代表性子集上的表现(39.8%)远低于人类水平(68.5%);模型在处理3D复杂任务时表现远低于2D和1D任务,揭示了对高维任务理解不足;此外,输入信息复杂度的提升反而可能简化推理过程。
OProver是首个将智能体化证明过程深度整合到定理证明器训练中的统一框架,而非仅在推理时应用。该框架通过持续预训练和迭代式后训练进行优化,每次迭代均执行智能体化证明,并将新验证的证明索引至OProofs数据集和检索记忆中。OProofs数据集规模庞大,包含1.77M个Lean语句和6.86M个经编译器验证的证明。基于此,OProver-32B模型在MiniF2F、ProverBench和PutnamBench三个基准测试上取得了最优的Pass@32成绩,展现了超越此前所有开源全证明证明器的性能。
大型推理模型通过生成长链式思考实现高性能,但常在推理已收敛后仍继续生成冗余思考,导致计算资源浪费与延迟增加。现有早退方法主要依赖答案级信号(如置信度),无法准确判断推理过程是否真正完成,易引发过早退出而影响答案准确性。新研究提出PUMA框架,通过轻量冗余检测器识别推理链中不再产生新进展的冗余步骤,结合答案验证机制,在确保答案正确性与推理链完整性的前提下实现智能截断。实验表明,该方法在五类模型与五个复杂推理基准上平均减少26.2%的生成token,同时保持推理质量,且该原理在代码生成、视觉语言推理等场景中具有可迁移性。
小米卢伟冰预测,受全球内存成本上涨影响,今年下半年部分国产旗舰直板手机价格可能突破1万元,且涨价趋势或延续至2027年底。SK海力士因高额绩效奖金,其员工及公司夹克在韩国成为网络热梗。三大运营商中,仅中国联通推出“联通魔方”按量计费套餐,设有39元月最低消费,移动和电信暂无免月租计划。此外,中国超频玩家将英特尔i9-14900KF处理器超频至9206.34MHz,刷新全球纪录;微信鸿蒙版App安装量已突破5000万次。
Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。
ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...
Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。
Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...
RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
DeepSeek-V4-Flash发布,这一大型语言模型新版本使得LLM引导技术重新成为关注焦点。引导技术涉及通过向量控制模型输出方向,此次更新引发科技界对模型可控性的讨论。在Hacker News上,相关帖子获得105点的高分,显示社区对此话题的热烈反响,标志着AI领域对定向优化技术的持续探索。
Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...
🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...
Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...
🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...
长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。
New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...
研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。
陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。
WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。
Orthrus-Qwen3项目在Qwen3模型上实现了每次前向传播最高可处理7.8个令牌的性能,同时确保输出分布与原版模型完全一致。该项目已在GitHub开源,并在Hacker News社区获得102点热度。这一优化显著提升了模型推理效率,且保持了生成结果的准确性。
Frontier AI 的最新突破彻底颠覆了公开CTF(Capture The Flag)竞赛的传统赛制。这一变革源于AI技术在网络安全挑战中的卓越表现,使得现有公开赛制难以适应。相关讨论在Hacker News上获得108个点赞,反映出科技社区的高度关注。此举可能标志着CTF竞赛进入AI驱动的新阶段,重新定义安全测试与竞技形式。
三名研究人员借助Anthropic的Mythos工具,成功开发出一个可绕过苹果M5芯片内存完整性执行(MIE)安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能,旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞,5月1日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指针,仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。
Video of exploit in action. Source: https://blog.calif.io/p/first-public-kernel-memory-corruption
蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。