研究发现Transformer模型的残差流中存在“特权基向量”现象,即某些坐标方向持续出现异常大的激活值,这与“无特权基”的理论预期相悖。通过实验,研究者将根源指向Adam优化器中的逐维度归一化器,而非层归一化或浮点精度问题。在2亿参数模型中,典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标,发现激活分布峰度普遍大于3,进一步证实了基向量对称性被破坏。
EleutherAI 发布第二份回顾报告序言,梳理该开源 AI 研究组织过去一年半的工作进展。文章从宏观视角概述了其在开源模型、工具开发及社区建设等方面的阶段性成果,为后续详细技术回顾提供背景脉络,但未披露具体性能指标与版本迭代细节。
本研究在有限数据集上训练简单神经网络,发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征,形成两种机制:过拟合机制(记忆数据点)与泛化机制(学习特征),并在过渡期间出现双下降现象。实验采用稀疏高维输入(维度n=10,000)与二维隐藏空间,通过全批量更新进行训练。可视化结果表明,从特征视角看模型表现混乱,但从数据点激活视角看则呈现简单结构,提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联,为机制可解释性提供了新视角。
针对跨模态检索等应用缺乏高性能开源 Chinese CLIP 的现状,该项目旨在构建专门面向中文的视觉-语言预训练模型,推动中文多模态表征学习。
Runway 完成 5000 万美元 Series C 轮融资,Felicis 领投,Amplify Partners、Lux Capital 等现有投资方及 Madrona 跟投,Vercel、Replit、Airtable、PyTorch 等 CEO 参与天使投资。资金将用于研发下一代创意工具、推进多模态 AI 系统,并扩招工程、研究和 GTM 团队。Runway 成立于 2018 年,其创意套件包含 30 余个 AI Magic Tools,已服务 CBS、Publicis、New Balance 等企业。
本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。
本研究提出了一种名为SoLU(Softmax线性单元)的新型激活函数,旨在提升Transformer模型MLP层的机制可解释性。实验表明,SoLU能在基本保持模型性能的同时,将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而,研究也发现SoLU可能将部分特征“隐藏”起来,使其更难解释,这印证了特征叠加假说。该工作初步证明,通过有意识地设计模型架构,或许能在不牺牲性能的前提下,创造出更易于逆向工程与理解的神经网络模型。
机制可解释性旨在对神经网络进行逆向工程,其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程,指出理解可解释神经元(类似程序变量)是核心任务。神经网络参数是对其行为的有限描述,如同二进制程序代码;理解这些参数需要像分析复杂程序一样,将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿,但如同理解庞大操作系统,通过机制分析仍可能实现非指数级的理解路径。
OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。
研究发现,Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路,其功能是在序列中寻找当前令牌的先前出现,并预测相同的后续令牌。在训练早期,模型会经历一个“相位变化”,此时归纳头迅速形成,同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明,这种电路不仅存在于小型模型中,也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。
GPT-NeoX-20B 正式发布。这款拥有 200 亿参数的大规模语言模型由开发团队与云计算服务商 CoreWeave 合作训练完成。该模型在参数量级上达到 200 亿规模,通过双方协作完成训练流程,为自然语言处理研究和应用提供了新的基础模型选择。
Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型,并利用“钩子”接口在前向传播过程中访问和修改内部状态(如特定层的张量)。该工具自动处理多节点数据分发与服务器管理(如一小时闲置后自动关闭),显著简化了大规模模型的探测与干预实验工作流程。
本研究提出一个用于逆向工程Transformer语言模型的数学框架,通过分析仅含注意力机制的超简模型(两层或以下)来揭示其内部工作机制。研究发现:零层模型直接建模二元统计;单层模型是二元与“跳跃三元”模型的组合;两层模型则能通过注意力头组合形成“归纳头”,实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路,并将模型输出表述为可解释函数之和,为理解更大规模模型的计算原理提供了初步基础。
Runway 完成 3500 万美元 B 轮融资,Coatue 领投,Amplify Partners 等现有投资方跟投。资金将用于开发自动化视频编辑工具,降低视频创作门槛,帮助更多用户通过视频讲述故事。
研究团队利用分解认知(factored cognition)策略,使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务,验证分解方法在现实模型中的可行性。结果表明,即使不具备基础数学能力,该模型仍可通过任务分解解决其原生能力无法处理的复杂问题,为扩展语言模型能力边界提供了初步证据。
自回归语言模型(GPT-3、GPT-Neo、GPT-J 等)的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化(Normalization)方法,针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述,为统一语言模型评测标准提供方法论参考。
该评估系统对比了旋转位置编码(RoPE)与 GPT 类学习式位置编码在下游任务中的性能表现,通过多维度基准测试分析两种位置编码机制的应用差异,为 Transformer 模型架构中位置编码方案的选择提供实证依据。
EleutherAI 在成立一周年之际回顾转型历程,从松散志愿者社区发展为正式开源 AI 研究机构,期间发布 GPT-Neo(27 亿参数)、GPT-J(60 亿参数)等大语言模型及 The Pile(825GB)数据集,推动大模型训练民主化。首年成果为开源社区提供了可商用的 GPT 替代方案,标志着去中心化 AI 研究模式的成熟。
研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法,内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙,可能存在错误,主要面向积极思考神经网络逆向工程的研究者。团队强调,自录制以来其想法已显著演进,且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。
本练习集旨在通过动手编写注意力头的具体权重矩阵,从参数层面精确理解Transformer工作机制。内容涵盖:详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用;分析读写子空间的控制矩阵及其乘积意义;探讨如何用两个矩阵等效表示注意力头及其秩的含义;研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例,演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能,以及手动构建实现“归纳头”的“指针算法”步骤。
创造并开源大语言模型对AI安全具有净收益价值。文章论证了公开发布大模型能够提升AI系统的安全性与透明度,详细阐述了支持开放源代码策略的核心理由,解释了这种发布方式为何有助于推动AI安全领域的整体发展,而非增加潜在风险。
研究团队利用 eval harness 评估框架,通过对比 OpenAI API 模型在标准测试集上的性能表现,成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性,分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异,揭示了 OpenAI 未公开披露的模型大小信息,为理解这些模型的实际规模与能力边界提供了量化依据。
该研究在 GPT-3 模型上系统评估了不同 Few-shot 描述提示对性能的影响,通过对比多种少样本提示模板,分析了提示设计差异如何改变模型输出质量。实验显示,描述方式的细微差别会导致 GPT-3 在任务表现上产生显著变化,为理解大语言模型的少样本学习机制及优化提示工程策略提供了实证参考。
研究团队对GPT-Neo模型开展下游任务微调实验,利用eval harness评测体系进行针对性训练,系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务,评估预训练模型在下游场景中的能力变化与适应性表现,为理解微调对模型性能的优化效果提供实证数据支撑。
针对类 GPT 自回归语言模型开展激活函数消融实验,系统评估不同激活函数对模型性能的影响。通过对比分析各类激活函数在自回归架构中的表现差异,检验其对模型表达能力、训练稳定性及生成质量的作用机制,为大语言模型的激活函数选择与架构优化提供实验依据。
旋转位置编码(RoPE)作为一种新型位置编码技术,统一了绝对位置与相对位置编码方法。该技术突破了传统位置编码的局限,在保持绝对位置信息的同时实现了相对位置感知能力。测试验证表明,这种编码方案在模型性能和位置外推方面展现出优势,为大语言模型的位置表示策略提供了新的技术路径。
Runway 获 850 万美元 A 轮融资,Amplify Partners 领投,Lux Capital 与 Compound Ventures 跟投。这家成立近两年的机器学习创意工具公司起源于 NYU Tisch 艺术学院,现正扩招团队。
Runway 从2019年的机器学习平台发展为新一代创意工具,依托生成式机器学习、新分发渠道和Web技术三大驱动力,已支持用户训练超5万个AI模型、上传2400万资源。平台通过AI视频编辑、绿幕工具等技术缩小好莱坞与TikTok创作者的内容差距,服务IBM、Google及RISD等院校,致力于让创意实现从想法到执行的即时转化,重新定义AI时代的创作流程。
Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构,仅激活 60 亿参数,专为在真实形式化代码库中操作而训练。在 FLTEval 评估中,其表现优异:仅需两次尝试即以 26.3 分超越多个大型开源模型,同时成本效益显著。例如,达到此分数时,Leanstral 成本为 36 美元,远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源,并已集成至 Mistral Vibe 平台提供免费 API。
曾与创始人合作、现与研究人员共事的作者发现,尽管两类人差异显著,但顶尖者都思考"领域内最重要的问题"、兼具短期专注与长期视野、极度坚持、偏向行动、创意丰富且重视自主,动机常源于好奇心。
YC 曾实验资助无想法的优秀创始人,结果全部失败,证明创始人必须自身擅长产生想法。要身处正确环境:周围需有对未来敏感、乐观、想法丰富的人,远离愤世嫉俗者。关注重大结构性转变,区分真实与虚假趋势。评估想法时考虑能否做大、创始人与公司是否匹配,以及能否解释为何大多数人认为是坏主意但你看到价值。
创业中最反直觉的秘密是,做困难的创业往往比容易的创业更易成功。容易启动的项目虽简单起步,却因缺乏使命感而难以吸引顶尖人才;反之,解决核聚变、基因编辑等难题虽需大量资源,却能靠"世界需要这个"的使命感招募人才,形成顺风。建议创业者设定宏大愿景但保持合理节奏,以10年而非3年的长期承诺建立复利优势。
将机器学习比作19世纪颜料管的发明。当年颜料管让户外写生成为可能,推动印象派革命;如今机器学习有望类似地释放艺术创造力,但现有工具对非技术背景艺术家门槛过高,如同当年研磨颜料的复杂工艺。作者呼吁开发更友好的机器学习工具,让艺术家无需编写底层代码即可实验,实现技术民主化。
Sam Altman 观察到,旧金山对争议话题的开放度已不及北京,过度政治正确正在扼杀创新。他指出,从牛顿研究炼金术到比特币的诞生,所有突破性想法最初都看似异端;当社会将持不同意见者视为异端而非辩论对象时,思想交流逐渐停滞,顶尖人才开始外流。警告称,若无法容忍"地球是圆的"这类曾经危险的观点,湾区将失去孕育 SpaceX 或比特币的土壤。
人类与机器的"融合"并非未来奇点,而是已悄然开始数年的渐进过程。智能手机、社交媒体算法和搜索引擎已在控制人类行为与思维,我们正与AI进入共同进化阶段:AI影响人类,人类改进AI。随着算力和AI人才呈双指数级增长,超级智能与脑机接口将比预期更快到来。与其对抗或被淘汰,深度融合或许是避免物种冲突的最佳路径,但全球需立即开始严肃协调应对。