http://x.com/i/article/2041355504526692352
本文提出EEG-tGAT模型,针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献,并采用时间dropout正则化时序相关观测,以应对affordance数据中判别信息时间分布不均的特点。实验结果表明,相比GATv2,该模型在affordance数据集上实现了更优的分类性能,证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。
Transformer 架构中的 Attention Sink(AS)现象导致注意力过度集中于少量无信息 token,损害模型可解释性、干扰训练推理动态并加剧幻觉。该综述首次系统整合 AS 相关研究,从基础利用、机制解释与策略缓解三个维度梳理领域现状,澄清关键概念并追踪演进趋势,为研究者和从业者提供管理 AS 的参考框架,相关论文列表已开源至 GitHub。
研究团队推出SPASM框架,通过模块化设计解决多轮对话中智能体的人设漂移与"回声"问题。该框架包含人设创建、对话生成与终止检测模块,核心创新Egocentric Context Projection(ECP)技术将对话历史存储为视角无关表示,再投影至各智能体自我中心视角,在不改变模型权重的前提下提升长程稳定性。基于GPT-4o-mini、DeepSeek-V3.2和Qwen-Plus构建的数据集包含4,500个人设与45,000段对话,实验证实ECP显著抑制人设漂移并消除回声现象。
FP4硬件虽已普及,但4-bit attention长期存在质量瓶颈,阻碍端到端FP4部署。研究团队提出Attn-QAT,首次系统研究attention机制的量化感知训练。该方法使FP4 attention质量达到BF16水平,同时在RTX 5090上实现比SageAttention3高1.1-1.5倍的吞吐量,在B200上较FlashAttention-4提速1.39倍。
作者宣布《Reinforcement Learning from Human Feedback》已完成写作,进入最终制作阶段,预计1-2个月内出版。该书聚焦LLM的核心强化学习方法、直觉与实现,同时涵盖后训练技术及RLHF领域的未解决问题。作者强调,这是记录RLHF领域组织的权威著作,尽管该方向常被AI其他进展掩盖,但其在人机交互中的核心地位使其值得深入探讨,而非追逐易过时的动态话题。
研究团队提出一种元优化的fMRI语义视觉解码方法,通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件,即可快速推断新受试者的独特神经编码模式,并采用分层反演策略完成解码。实验表明,无需重新训练、微调、解剖对齐或刺激重叠,即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力,为构建非侵入式脑解码通用基础模型奠定关键基础。
研究者提出隐性课程假设,指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务,对410M至13B参数的四个模型家族进行追踪,发现技能涌现顺序跨模型高度一致(ρ=.81),且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中,利用任务表征空间可有效预测未见过组合任务的训练轨迹(R²=.68-.84),揭示预训练过程比损失曲线显示的更具结构性。
针对大语言模型后训练必须使用新鲜 on-policy 数据的传统观点,研究系统探讨了经验回放技术的应用。通过形式化分析 replay buffer 设计在数据陈旧性方差、样本多样性与生成计算成本间的权衡,发现当生成成本高昂时,严格的 on-policy 采样实为次优选择。实证表明,设计良好的 replay buffer 可在保持策略熵的同时,大幅减少推理计算,且不损害甚至提升最终模型性能。
Google Research 发布 ConvApparel 数据集与评估框架,用于量化 LLM 用户模拟器的"真实感差距"。该数据集包含 4000 余组服装购物多轮对话,采用"好/坏"双智能体协议收集,涵盖从满意到恼怒的全谱系用户行为。框架通过反事实验证测试模拟器对意外糟糕体验的适应能力,解决现有模拟器过于耐心、知识过剩等不现实问题,为训练更鲁棒的对话智能体提供可信的 AI 测试基准。
BIRD might be the most egregious backronym I've seen in AI recently
MoZoo是一个生成式动力学求解器,能绕过传统精炼流程,从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE,通过基于角色的索引重映射同步运动对齐;同时引入非对称解耦注意力机制,强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题,提出了MoZoo-Data合成到真实的流水线,并构建了包含120对网格-视频的评测基准MoZooBench。实验表明,MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟,并保持了优异的时间与结构一致性。
Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...
研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。
Meta Harnesses是由斯坦福与DSPy作者提出的自动化框架生成技术,通过自动生成单文件Python程序(harness)来优化特定任务的提示词、检索与编排逻辑,实现无需人工干预的持续迭代。相比Autoresearch,其抽象层级更高,适用于结果可验证的特定领域任务(如数学推理、编程),能自动将问题分类并制定差异化策略,但在需要统一方法论的任务上存在局限。
推文以原子弹研发为例,阐述极端泛化的本质:科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据,而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于,通过逆向推导数据背后的因果逻辑,人类能够将极简信息转化为重塑现实的完整方案,展现符号推理在突破认知边界中的决定性作用。
Here is a quick start script including the setup, technical details, and a candid look at where Kinetic excels versus it...
Fine-Tuning Gemma 2B on PubMedQA: Building a Medical Q&A Assistant with LoRA, Keras Kinetic, and Cloud TPU https://kuanh...
Gemma 4 and what makes an open model succeed Hint: it's not benchmark scores. https://www.interconnects.ai/p/gemma-4-and...
Keras 社区发布 Kinetic 库,开发者通过装饰器即可将函数部署至云端 TPU/GPU 运行,定位类似 Modal 但新增 TPU 支持。该工具自动完成代码打包、Cloud Build 容器构建(支持缓存)、GKE 集群调度及结果返回,实现日志实时流式传输,使远程执行体验如同本地运行。
inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。
OpenMed团队构建了一个覆盖蛋白质结构预测、序列设计和密码子优化的端到端AI流程。在密码子优化环节,CodonRoBERTa-large-v2模型以4.10的困惑度和0.40的斯皮尔曼CAI相关性显著优于其他架构。研究将训练扩展至25个物种,仅用55个GPU小时训练了4个生产级模型,并建立了独特的物种条件化系统,实现了从蛋白质概念到合成就绪DNA序列的快速转化。完整代码与实验结果已开源。
Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。
Hugging Face 正式发布 TRL v1.0,这是一个专为大语言模型后训练设计的开源库。该版本整合了 SFT、RLHF 等多种高效微调技术,提供从监督微调到人类反馈强化学习的完整工具链。新库支持与 Transformers、PEFT 等主流框架无缝集成,显著简化了模型对齐流程。此次更新旨在降低大语言模型微调门槛,推动AI技术民主化,使开发者能够更便捷地提升模型在对话、安全等方面的性能表现。
Google Research 提出基于"gold"评级数据的机器学习评估框架,通过模拟器优化评分项目数量与评分者数量的权衡。研究挑战了当前 AI 基准测试仅使用 1-5 名评分者的行业标准,发现要准确捕捉人类观点差异通常需要超过 10 名评分者。该框架为构建高可复现性且成本高效的 AI 评估体系提供了路线图,并开源了模拟工具。