开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。
我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。
输入不是干净需求文档,是一个已有 Local Agent Memory MVP: · memory_events · structured_facts · memory_chunks · 9 个场景测试 · 敏感信息过滤结果 · recall 命中结果 · 跨 session 记忆记录
Step 3.7 Flash 先读现有代码和测试输出。 然后它检索了 Letta、LangSmith、Mem0、Graphiti 这些工具如何展示 memory、trace、dashboard 和 agent state。 最后生成了一个单文件本地 HTML: agent_memory_inspector.html