全部动态X · 122 条

标签「Hugging Face」清除

Test-Time Scaling Makes Overtraining Compute-Optimal paper: https://huggingface.co/papers/2604.01411

译新论文提出，Test-Time Scaling（测试时扩展）可让 Overtraining（过度训练）实现 Compute-Optimal。传统 Chinchilla 最优假设训练与推理计算固定，而该研究表明，若允许推理阶段增加计算，过度训练模型在总成本下反而性能更优。

Token Warping Helps MLLMs Look from Nearby Viewpoints paper: https://huggingface.co/papers/2604.02870

译新论文提出 Token Warping 技术，使 MLLMs 能够从附近视角观察，增强多模态模型的视角理解能力。

没有更多了