Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。
读了今天Huggingface最热论文,关于如何让AI生成论文图表的Harness框架。
框架会围绕一个共享的结构化规格文档 S。
1 设计者 D:根据 S 生成可执行的视觉方案 2 执行者 E:将方案渲染成图像(或代码) 3 验证者 V:输出带有具体问题定位的诊断报告 4 修订者 R:将诊断转化为结构化操作,直接修改 S 中的对应字段
参考并简化,写了一个Skill:
设计者(生图提示词) 执行者(Codex调用GPT-image-2生图) 验收者(审美评判,这个可能不靠谱)
另外整合了抓取Skill,只需要提供URL就能生成配图,哪怕是 X URL。
生成效果如下: