优化_anything:通用文本参数优化API
阅读原文· arxiv.org让一个LLM同时优化agent架构、调度算法和CUDA内核,还能将ARC-AGI从32%拉到89%,这可能是今年最突破认知的通用问题求解范式,做agent的人必须看。
该研究提出了一种基于大语言模型的通用文本优化系统,将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果:智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%;调度算法降低40%云成本;87%的CUDA内核匹配或超越PyTorch表现;圆包装问题超越AlphaEvolve。实验表明,可操作的附加信息比仅使用分数反馈收敛更快、得分更高;多任务搜索通过跨任务迁移学习,在同等预算下优于独立优化,且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式,能统一传统领域特定算法。系统已开源,支持多种后端。
能否让单个基于大语言模型的优化系统在本质上截然不同的领域中与专门工具相匹敌?我们证明,当优化问题被表述为改进由评分函数评估的文本工件时,一个基于人工智能的单一优化系统——支持单任务搜索、具有跨问题迁移能力的多任务搜索,以及对未见输入的泛化——在六种不同任务上均取得了最先进的结果。我们的系统发现了使Gemini Flash在ARC-AGI上的准确率几乎翻了三倍(从32.5%提升至89.5%)的智能体架构,找到了将云成本削减40%的调度算法,生成了87%匹配或超越PyTorch的CUDA内核,并在圆填充问题(n=26)上超越了AlphaEvolve报告的结果。跨三个领域的消融实验表明,相较于仅提供分数的反馈,可操作性的辅助信息能带来更快的收敛速度和显著更高的最终分数;并且,在等价单问题预算下,多任务搜索通过跨任务迁移优于独立优化,其优势随着相关任务数量的增加而扩大。综合来看,我们首次证明,基于大语言模型搜索的文本优化是一种通用的问题求解范式,将传统上需要领域特定算法的任务统一在一个框架之下。我们在GEPA项目中开源了optimize\_anything,支持多种后端,项目地址为 https://github.com/gepa-ai/gepa 。