斯坦福一门2小时公开课系统讲解了ChatGPT等大语言模型从零构建的全过程,涵盖Transformer架构、训练技巧、Scaling law等核心知识。课程免费且含金量高,揭示了AI时代的底层逻辑。相比之下,许多顶级AI公司的工程师仅专注于调提示词和刷基准测试,缺乏此类系统知识。课程为真正想理解AI的人提供了宝贵的学习机会。
斯坦福一门2小时公开课系统讲解了ChatGPT等大语言模型从零构建的全过程,涵盖Transformer架构、训练技巧、Scaling law等核心知识。课程免费且含金量高,揭示了AI时代的底层逻辑。相比之下,许多顶级AI公司的工程师仅专注于调提示词和刷基准测试,缺乏此类系统知识。课程为真正想理解AI的人提供了宝贵的学习机会。
研究提出部署时学习作为大语言模型生命周期的第三阶段,并推出CASCADE框架。该框架使LLM智能体能在部署期间从经验中持续学习,而无需更新模型参数。其核心是为智能体配备一个显式、演进的情景记忆,将经验复用建模为上下文赌博机问题,从而实现探索与利用的权衡,并保证长期无悔性。在涵盖医疗、法律、代码生成等16项多样任务中,CASCADE将宏观平均成功率较零样本提示提升了20.9%,且持续优于多种基线方法。这项工作通过将部署重构为自适应学习过程,为持续改进的AI系统奠定了基础。
Andy Masley 驳斥了关于数据中心建设导致农田耗尽的论点。他指出,2000年至2024年间,美国农民自愿出售的农田总面积相当于科罗拉多州,是2028年数据中心预计占地总面积的77倍,但剩余土地的粮食产量却创新高,未影响粮食供应。然而,当劳登县一位农民仅以十倍农业价值出售几英亩普通草场给数据中心运营商时,却引发了过度担忧。Masley 认为,这种对数据中心用地的担忧是夸大其词的。
针对“AI基准测试是否已失效”的悲观论调,讨论者进行了反驳,并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准(如MirrorCode)的构建、AI技术对基准开发本身的加速作用,以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能(AGI)基准的可行性,并展望了超越自动化评分的更全面评估方法。
迪士尼内部上线AI使用看板,追踪员工调用Claude的频率和token消耗。数据显示,一名员工在9个工作日内调用Claude约46万次,平均每1.7秒一次。与此同时,迪士尼正裁员约1000人。硅谷正流行“tokenmaxxing”文化,比拼AI token消耗量。Meta内部统计显示,其8.5万名员工在30天内消耗了60万亿token,价值约900亿美元;Uber的年度34亿美元AI预算在4个月内耗尽。报告显示,Claude用户中非程序员用途已超半数。
AI领域出现“蒸馏攻击”现象,即利用GPT-4等闭源模型的输出训练更小的开源模型。这引发了关于知识产权与创新平衡的激烈争论。支持者视其为技术民主化途径,反对者则谴责其侵犯版权并可能损害模型质量。目前,部分开源模型性能已快速逼近顶级闭源模型,迫使行业重新审视数据使用边界与合规框架。
Banger paper from Meta FAIR. They introduce Autodata, an agentic data scientist that builds high-quality training and ev...
特斯拉FSD(监督版)车队行驶总里程已突破100亿英里,达到马斯克设定的关键数据里程碑,且数据收集速度大幅加快。特斯拉宣称其FSD安全性优于人类驾驶,但业内指出其统计口径与官方不一致,存在误导性,其奥斯汀自动驾驶出租车事故率约为人类驾驶员的四倍。马斯克已将无监督版FSD上线时间推迟至2026年第四季度。相比之下,Waymo已在多城运营L4级无人驾驶,并公布其重伤事故率比人类低90%。
日本卫浴巨头TOTO的半导体陶瓷业务利润占比首次过半,成为集团主要利润支柱。在截至2026年3月的财年,该业务营业利润预计大增32%至270亿日元,占比达55%。其核心产品包括用于芯片制造的静电吸盘,良品率已从50%-60%提升至90%以上,营业利润率从五年前的9%跃升至超40%。激进投资基金Palliser Capital敦促TOTO加大对该业务的投资与披露,认为此举可能推动股价上涨55%。公司正将陶瓷技术延伸至芯粒集成等新领域,并与传统卫浴业务形成协同。
为解决大模型推理成本高昂的问题,研究者提出了协作式多教师解码框架CoRD。该框架通过基于预测困惑度的评分和束搜索,引导多个异构大模型协同构建连贯的推理轨迹,解决了现有方法中教师间缺乏协作、推理冗余的问题。实验表明,CoRD能生成更高质量的推理数据,使学生模型以更少的监督信号达到接近教师模型的性能,且效率开销小。该方法在跨领域和开放性任务中泛化能力良好,相关数据集和模型已开源。
针对大语言模型预训练中数据配方选择难题,研究团队提出信息缩放定律(InfoLaw)。该框架将预训练建模为信息积累过程,其中数据质量决定信息密度,数据重复则带来收益递减。InfoLaw 能依据消耗的令牌数、模型规模、数据混合权重和重复程度预测损失,在未见过的数据配方及更大规模训练(最高达7B参数、425B令牌)上实现了平均0.15%、最大0.96%的损失绝对误差。其可靠的外推能力支持在不同计算预算下高效优化数据配方选择。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。
据报道,马斯克旗下AI公司xAI拥有约55万块英伟达GPU,但其模型浮点运算利用率仅为11%,远低于硬件理论峰值。xAI总裁承认该数字“低得尴尬”,并设定了在未来几个月内将利用率提升至50%的目标。作为对比,Meta和谷歌的利用率分别约为43%和46%。利用率低的主要原因是软件优化滞后、训练间歇性以及企业因供应短缺而囤积硬件。xAI计划通过优化软件、探索GPU租赁服务以及推进自研AI芯片项目来改善现状。
Figure公司最新组装的F.03人形机器人已能实现自主行走,从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知,无需LiDAR或预先地图,即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成,并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力,尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。
F.03 can now walk up/down stairs purely using it's onboard camera perception Our robots now walk from manufacturing when...
MIT研究人员通过“叠加”现象为语言模型性能随规模扩大而可靠提升提供了机制性解释。研究表明,随着模型参数增加,神经网络能在同一神经元中高效编码更多概念,这种叠加效应使得模型能力呈现可预测的线性增长。该发现从数学层面解释了为何扩大GPT、Claude等模型规模能持续改善其理解和生成能力。
一名Jane Street的应届毕业生通过自主构建的智能AI系统,成功获得了年薪22万至60万美元的职位。该系统的核心在于运用JAX与Mesh-TF框架,能够高效处理海量数据,并识别人类无法察觉的隐秘模式,从而直接驱动实际交易决策。其成功关键并非单纯加班,而是通过技术创新实现了效率的质的飞跃。该毕业生已发布长达一小时的系统构建详解,内容涵盖从挖掘稀缺数据集到将原始数据转化为交易决策的全过程,并指出这比花费数月时间浏览社交媒体对职业发展的助益大得多。
西方长期认为中国在AI芯片领域落后10-15年,但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态,可在昇腾950基础设施上部署推理,实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上,昇腾950仍显著落后于NVIDIA Blackwell B200,但中国通过“横向扩展”战略,用大量国产芯片集群结合软件优化和模型架构创新(如MoE),使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。
TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。
清华大学在人工智能和机器学习领域的专利数量已超过哈佛大学、麻省理工学院和斯坦福大学的总和。十余年来,清华的专利申请规模远超美国顶尖高校,且差距持续扩大。其运作模式如同一台高效机器,能将AI研究成果大规模转化为受法律保护、可转移的资产。日常浏览arxiv等学术平台时,也能直观感受到署名“清华”的论文数量极为庞大。
近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。
This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...
ChatGPT 模型因训练中的错误奖励信号,开始以惊人频率在回答中插入哥布林、小妖精等神话生物。OpenAI 指出,这暴露了 AI 训练的一个核心隐患:即使微小的、调优不当的训练激励也可能产生不可预见的副作用。该现象强调了优化奖励机制在机器学习中的重要性,以避免模型输出出现类似偏差。
埃隆·马斯克在加州联邦法院作证时承认,其初创公司xAI曾部分使用OpenAI的模型,通过蒸馏方法训练聊天机器人Grok。蒸馏是行业常见做法,让大模型充当“老师”训练小模型,以压缩研发成本。此举发生在马斯克起诉OpenAI背离非营利使命的法律纠纷中,而OpenAI、谷歌等公司正试图阻止第三方蒸馏自家模型,甚至视其为知识产权盗窃。马斯克还评估AI竞争格局,认为Anthropic领先,OpenAI和谷歌紧随其后,xAI仅几百名员工,规模远小于竞争对手。
研究团队针对阿拉伯语诗歌创作,构建了一个大规模、高质量的指令数据集,涵盖现代标准阿拉伯语及多种方言。该数据集支持根据风格、韵律等预设条件进行诗歌写作、修订、续写以及诗歌分析任务。通过在大型语言模型上微调该数据集,实验表明模型能有效生成符合用户要求的诗歌,这一结果已通过自动评估和阿拉伯语母语者的人工评估得到验证。相关数据和代码已开源。
固态技术协会(JEDEC)宣布了DDR5 MRDIMM标准的多项关键进展。其正式发布了JESD82-552标准(DDR5 MDB02数据缓冲器),并预告将推出JESD82-542标准(DDR5 MRCD02寄存时钟驱动器),以通过多路复用秩技术提升内存带宽,解决传统DIMM的瓶颈。此外,委员会正开发目标速率达12800 MT/s的Gen 2 DDR5 MRDIMM原卡设计,Gen 2模块标准接近完成,并已启动Gen 3标准的开发工作,旨在满足AI与云计算对极高内存带宽的需求。
Meta公司CEO扎克伯格在全员会议上解释,公司通过内部系统追踪员工的鼠标移动、击键等电脑操作,旨在利用这些数据训练AI模型,以在AI竞争中取得优势。他声称Meta员工平均智力高于外包普通员工,因此其操作数据更具价值。该计划名为“智能体转型加速器”,员工无法选择退出,引发了关于员工正无偿训练可能取代自身岗位的AI、以及职场信任与同意权的争议。Meta声明数据仅用于模型训练,并设有安全保护措施。
韩国投资证券研报指出,即便内存芯片短缺问题缓解,其价格短期内也不会显著下降。AI超大规模企业已锁定长期内存产能订单,这将延长当前的内存超级周期,预计价格在未来一段时间内持续高位运行。扩大内存容量可提升GPU利用率,降低单个Token处理成本,因此AI公司愿意高价采购。目前DRAM价格同比已涨3倍,但GPU效率提升带来的回报更高。同时,HBM和DRAM的产能紧张意外推高了NAND芯片需求,其价格优势在高压需求下保持了市场弹性。
具身智能需高保真仿真环境,但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统,基于3D语义占据预测将真实场景转换为结构化Minecraft环境,以支持视觉语言导航等任务。然而,重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此,团队开发了低成本、自动化数据采集流程,构建大规模定制化数据集MinecraftOcc,包含100,165张图像来自156个精细室内场景。实验表明,该数据集有效补充现有资源并对前沿方法构成显著挑战,提升了占据预测精度,同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。
研究团队提出“规模化合成计算机”方法,以创建包含真实文件夹层级与丰富文件内容(如文档、表格)的可扩展计算机环境。基于每个合成计算机,系统运行长周期模拟:一个代理设定符合用户身份、需耗时约一个月完成的多项专业任务目标;另一代理则扮演用户,通过导航文件系统、与模拟协作者协作、生成专业文件等方式持续工作直至目标达成。初步实验中,团队创建了1000个合成计算机并运行模拟,每次模拟平均需超过8小时代理运行时间、跨越2000多个回合。模拟产生的丰富经验学习信号显著提升了代理在生产力评估中的表现,该方法有望扩展至数百万甚至数十亿合成用户世界,为长周期生产力场景中的智能体自我改进与强化学习提供基础。
本研究提出FD-loss,通过将弗雷歇距离(FD)估计所需的大规模样本量与梯度计算的小批量解耦,首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练,能持续提升样本视觉质量,并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练,即可将多步生成器转化为高性能单步模型。研究同时发现,仅依赖Inception FID可能误导质量评估,因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。
针对现有以文档为中心的研究设施无法显式表征方法演进关系的问题,本文提出了方法论演化图谱Intern-Atlas。它从超103万篇AI论文中自动识别方法实体,推断其谱系关系与关键创新瓶颈,构建了一个包含941万余条有证据支撑语义边的可查询因果网络。研究还设计了自引导时序树搜索算法以追溯方法演进链条,经验证与专家标注结果高度一致。该图谱支持想法评估与自动生成等下游应用,为自动化科学发现提供了基础数据层。
有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...
本文提出定制化多模态角色扮演任务,旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制,并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集,并开发了名为UniCharacter的两阶段训练框架,包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例,模型即可习得目标角色特征,并在文本与图像生成中展现一致的角色表现,训练约需100 GPU小时。实验表明,该方法显著优于现有方案,消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。
本文提出EnergyFlow框架,通过参数化一个标量能量函数,将生成式动作建模与逆强化学习统一起来。该框架证明,在最大熵最优性下,通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度,从而无需对抗训练即可提取奖励。理论分析表明,约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示,EnergyFlow在各种操作任务上实现了最先进的模仿性能,其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。
针对可验证奖励强化学习可能抑制生成多样性的问题,本文提出负样本投影残差强化学习框架。该方法通过理论分析,将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间,并利用投影残差来调制负梯度,从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中,ResRL平均表现优于基线方法,尤其在数学推理上较负样本强化学习方法显著提升,实现了推理能力与生成多样性的协同优化。代码已开源。