AI 摘要
研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。
Great paper on improving proactive agents.
Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate something that's supposed to anticipate nee...