QUEST是一个参数规模从2B到35B的开源模型家族,旨在作为通用深度研究智能体,处理广泛的长期搜索任务,在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习,核心是基于统一评分树的合成数据流水线,能为多样任务类型自动生成带可验证奖励的训练数据,无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务,QUEST在八个深度研究基准上接近或超越前沿闭源智能体,并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。
QUEST是一个参数规模从2B到35B的开源模型家族,旨在作为通用深度研究智能体,处理广泛的长期搜索任务,在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习,核心是基于统一评分树的合成数据流水线,能为多样任务类型自动生成带可验证奖励的训练数据,无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务,QUEST在八个深度研究基准上接近或超越前沿闭源智能体,并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。
现有大语言模型缩放定律多为单调幂律,无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law,将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输,模型参数映射为信道带宽,训练token映射为信号功率。该框架揭示LLM存在基本容量极限:若无法维持足够信噪比,盲目扩大规模将放大噪声,导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底,并具备外推能力:用不超过6.9B参数、180B token训练的模型,可预测未见过的12B模型在307B token时的表现,池化R²达0.847。
SpaceX在IPO文件中提出建设轨道数据中心的构想,计划利用太空设施增强AI计算能力。该战略的背景是旗下AI服务Grok目前落后于其他竞争对手。这一举措显示SpaceX正寻求将太空技术优势转化为AI领域的竞争力,挑战现有科技巨头的市场地位。
Datasette Agent是Datasette推出的首个可扩展AI助手,为用户提供对话式界面以查询数据,并支持通过插件生成图表。该工具基于其LLM Python库构建,是LLM与Datasette整合的重要成果。目前提供图表生成、AI图像创建和沙箱代码执行等官方插件。它既可运行于Gemini 3.1 Flash-Lite等云端模型,也支持通过LM Studio连接本地开源模型,具备可靠的工具调用与查询能力。
伦敦市长萨迪克·汗于2026年5月21日叫停了伦敦警察厅与美国科技公司帕兰蒂尔的数据分析交易,阻止其警务技术合作。这一决定基于隐私和伦理担忧,直接叫停了帕兰蒂尔技术在伦敦警务中的应用,原计划涉及大规模数据监控以提升犯罪侦查效率,但最终因公众争议被终止。事件凸显了科技公司与政府合作中隐私保护的紧张关系,市长强调此举旨在维护市民数据安全。
一篇观点文章将人工智能技术定性为大规模、未经授权的剽窃行为,引发科技社区广泛讨论。该文发布于2026年5月21日,在技术社区获得102个热度积分,核心论点直指当前AI模型在训练过程中对版权内容的系统性使用问题。
SpaceX 在 IPO 文件中披露,Anthropic 每年支付 150 亿美元以访问其位于田纳西州孟菲斯的 Colossus 数据中心。该协议每月支付 12.5 亿美元,持续至 2029 年 5 月,金额几乎是 SpaceX 2025 年全年收入 187 亿美元的两倍。合作旨在为 Anthropic 提供 AI 训练所需的算力资源,反映了大型科技公司在计算基础设施上的巨额投入。
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Kim (@kimmonismus)研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。
Meta正利用内部工程师的工作痕迹——如代码编写、工具使用和问题解决步骤——来训练其编程AI。CEO扎克伯格认为,让AI观察“聪明人”执行任务(行为克隆),比使用外部承包商代码样本更有效。同时,Meta正裁员约8000人,并计划让约7000名员工转向AI相关岗位。此举反映科技行业新趋势:公司正将人类专业知识直接转化为训练数据,AI不再只是工具,而是能吸收并压缩员工工作模式的系统。
LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...
针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈,本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集,并通过动态调用外部工具(如动态裁剪、特征增强)主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率,在五个工业基准测试中实现了零样本性能的最先进水平,展现出优异的泛化能力。
本文提出HRM-Text,一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer,将计算解耦为慢速策略层和快速执行层,并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型,使用400亿令牌、在1500美元预算内训练,即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法,其训练数据量与计算量大幅减少,证明了架构与目标的协同设计能显著降低预训练门槛。
本文证明直接偏好优化(DPO)与人类反馈强化学习(RLHF)的等价性并非普遍成立,其依赖于一个常被违反的隐含假设:RLHF最优策略必须倾向人类偏好回答。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略虽降低损失却偏好不良回答。为此,我们提出受约束偏好优化(CPO),通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释,并证明CPO能在保持简洁性的同时确保对齐。基准测试表明,CPO取得了最先进的性能。
俄罗斯联邦储蓄银行计划采购中国制造的AI芯片,以支持其自主开发的GigaChat大模型的算力需求。该行正推进AI发展战略,但采购计划面临来自字节跳动、阿里巴巴、腾讯等中国科技企业的激烈竞争,这些企业均在抢购华为昇腾950芯片。目前俄罗斯在AI领域落后于中美,敏感行业仍高度依赖进口电子元器件。
当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。
本文提出了PlanningBench框架,旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景,抽象出包含30余种任务类型、约束与难度因素的结构化分类体系,并基于此实现了约束驱动的数据合成流程,该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型,发现其在耦合约束下仍难以生成完整解决方案。此外,基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现,也增强了其指令遵循能力,并表明明确的最优解能提供更稳定的训练信号。
研究揭示均匀扩散模型(UDM)的标准参数化与训练目标存在失配。提出“留一去噪器”,即在预测干净token时不依赖其自身噪声观测的后验,并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”,将UDM联合分布分解为类掩码扩散操作,从而简化了去噪后验。在语言建模中,留一参数化稳定提升了UDM生成效果,吸收态构建匹配或超越了掩码扩散模型。实验表明,经验差距主要源于参数化与采样设计,而非边际分布选择本身。
针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。
研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
大语言模型在多项任务中展现强大推理能力,但数据污染问题,特别是发布者采用改写基准数据等规避策略,严重削弱了其评估的客观性。研究发现,模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此,研究者提出 Zero-CoT Probe 检测方法,通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比,并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明,该方法能有效检测直接与规避型数据污染。代码已开源:https://github.com/Yifan-Lan/zero-cot-probe。
根据SpaceX提交的S-1文件,该公司于2026年5月与AI研究公司Anthropic签订了云服务协议。Anthropic同意每月支付12.5亿美元,以使用SpaceX的COLOSSUS和COLOSSUS II算力资源,协议持续至2029年5月。双方均可提前90天通知终止协议。同时,文件指出SpaceX也在利用这些算力训练其自有的Grok 5模型。该协议展示了SpaceX将算力资源同时用于外部商业化服务与支持内部AI研发的战略布局。
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Kim (@kimmonismus)SpaceX的IPO文件首次披露了xAI在2025年的财务状况,显示该AI公司去年亏损高达64亿美元。文件同时揭示了xAI计划对Grok进行大规模扩张的战略,解释了马斯克旗下AI业务持续高额支出的原因。这份公开文件为外界提供了观察马斯克AI产业投资规模与财务表现的罕见窗口。
同一事件,精选展示《SpaceX的无限野心:AI企业集团》针对基于评分准则的强化学习(RLVR)奖励机制中静态权重的局限性,本研究提出POW3R框架。该框架在训练过程中动态调整各准则的奖励权重,以强调那些能有效区分当前策略输出的准则,同时保留整体人类权重分布。实验在三个基础策略和两个数据集上进行,结果显示POW3R在30项比较中赢得24项,提高了平均评分准则奖励和严格完成率,并将达到相同性能所需的训练步数减少2.5至4倍。POW3R通过策略感知的权重优化,使奖励信号更具信息性,提升了RLVR的训练效率。
在Google I/O 2026大会尾声,Google DeepMind首席执行官Demis Hassabis宣布,公司计划利用其AI平台重新构想药物发现流程,目标是“有朝一日解决所有疾病”。这一表态将AlphaFold与AlphaGenome等前沿AI科学项目,与解决人类最重大健康挑战的雄心联系起来,但同时也引发了关于技术预期与现实复杂性的广泛讨论。
英伟达2027财年第一季度业绩创新高,营业总收入达816.15亿美元,同比增长85%。净利润为583.21亿美元,同比激增211%。数据中心业务是核心增长引擎,营收达752亿美元,同比大增92%。公司毛利率提升至74.9%,并宣布了800亿美元股票回购及提高季度股息。展望第二季度,公司预计营收为910亿美元。
关联讨论 1 条IT之家(RSS)该教程演示了如何利用 kg-gen 工具,结合 LLM 与 LiteLLM 配置,从纯文本、对话及多源文档中提取实体、谓词和关系,并生成知识图谱。内容涵盖了从简单文本处理到使用分块与聚类技术应对长文本的进阶步骤,随后通过 NetworkX 进行图谱分析,并最终实现交互式可视化,为构建端到端的知识图谱生成流程提供了实践指南。
近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。
LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...
Holy: Leaked audio from a Meta all-hands on April 30: Zuckerberg told employees the company is using them to train AI mo...
Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”
@bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...
作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。
http://x.com/i/article/2056851733582880768
本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。
犹他州博克斯埃尔德县委员会本月批准了名为“Stratos Project”的数据中心项目。该项目由《创智赢家》投资人Kevin O'Leary支持,计划占地40,000英亩,面积超过曼哈顿的两倍,并预计消耗9GW的电力,几乎是犹他州峰值用电量的两倍。尽管该项目旨在确立美国在人工智能领域的优势,但专家和公众强烈反对,指出其可能对环境造成破坏,并给当地本已紧张的水资源供应带来巨大压力。
京东在宿迁建成了全国首个具身智能数据采集社区。社区居民在进行擦桌子、叠衣服等日常家务时,只需佩戴京东自研的220克JoyEgoCam设备,即可自然采集上肢轨迹、力度分布等关键数据。此举旨在通过大规模、低成本的真实场景数据采集,解决高质量实操数据不足的产业瓶颈,目标在两年内积累超1000万小时数据,以训练更强大的具身大模型,推动机器人智能化发展。