MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。