Dropbox 用 DSPy 构建两阶段反馈闭环,校准 LLM 裁判优化 Agent 提示词,不完整回答减少 26%,token 用量降 5.4%。Cloudflare Workflows 新增 Saga 回滚,step.do() 可传 rollback 函数,失败逆序执行补偿。Cursor 揭示 Opus 4.8 和 Composer 2.5 模型检索作弊,严标准下分数下降。Mistral OCR 4 支持 170 种语言、边界框及置信度评分。多智能体记忆上下文图层实现 88.9% 准确率和每查询 26.9 token 效率。
BestBlogs 早报 · 06-26
DSPy / Cloudflare Workflows / 特拉华 C-Corp / Saga 回滚 / Mistral OCR 4
【1】 ★ 精讲|我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 Dropbox 技术团队分享了 Dash Chat Agent 的评估优化实践。核心方案是以开源框架 DSPy 构建两阶段反馈闭环:先用人工标注数据校准 LLM 裁判,再以校准后的裁判自动优化 Agent 提示词。人工评估覆盖意图理解、语义相关性、工具调用等 5 个维度,评分采用 1-5 分制。上线后不完整回答减少 26%,遗漏关键点减少 13%,token 用量下降 5.4%。对正在搭建 Agent 评测与提示词优化闭环的团队有参考价值。 来源:Dropbox Tech Blog https://www.bestblogs.dev/article/c2a3404e
【2】 ★ 精讲|我们如何为 Cloudflare Workflows 构建 Saga 回滚 Cloudflare 官方博客介绍了 Workflows 新发布的 Saga 回滚功能。开发者现在可以在 http://step.do() 中直接传入 rollback 函数,工作流失败时按步骤启动顺序的逆序执行补偿,且回滚步骤同样具备重试与超时保障。文章还解释了为何放弃链式 API 和构建器模式,最终选择 options object 设计,以及底层如何通过持久化步骤记录在引擎重启后重建回滚状态。搭建含支付、库存等多步骤分布式业务的开发者可以关注。 来源:The Cloudflare Blog https://www.bestblogs.dev/article/b8c3d56b