EurekAgent:环境工程化实现自主科学发现
阅读原文· arxiv.orgEurekAgent 把科学发现的目光从设计智能体流程转向环境工程,用不到 11 美元就找到了新的圆打包纪录,这可能是低成本自主科研的转折点。
EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。
基于大语言模型的智能体在自动化的科学发现中展现出日益增长的潜力。给定一个可优化的指标和一个执行环境,它们能够提出、验证并迭代科学解决方案,并且已经产出了超越人类设计方法的结果。随着模型能力的持续提升,我们认为,自主科学发现的瓶颈正从规定智能体工作流程转向设计智能体环境:即塑造智能体行为的资源、约束和接口。我们将此定义为环境工程:构建能够放大生产性行为(如开放式探索、系统性工件管理以及智能体间协作)的环境,同时抑制有害行为(如奖励黑客行为和摩擦高的人类监督)。我们提出了EurekAgent,一个用于指标驱动的自主科学发现的环境工程智能体系统。EurekAgent从四个维度对环境进行工程化设计:用于受限智能体执行和隔离评估的权限工程;用于基于文件系统和Git的协作的工件工程;用于预算感知型探索的预算工程;以及用于简化人类监督和干预的人机环路工程。EurekAgent在多个数学、内核工程和机器学习任务上取得了新的最优结果,包括以不到11美元的总API成本发现了新的26圆填充最优结果。我们开源了代码和结果,并呼吁将环境工程作为开发可靠自主研究智能体的核心研究方向。