DSPy / Cloudflare Workflows / 特拉华 C-Corp / Saga 回滚 / Mistral OCR 4

【1】 ★ 精讲|我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 Dropbox 技术团队分享了 Dash Chat Agent 的评估优化实践。核心方案是以开源框架 DSPy 构建两阶段反馈闭环：先用人工标注数据校准 LLM 裁判，再以校准后的裁判自动优化 Agent 提示词。人工评估覆盖意图理解、语义相关性、工具调用等 5 个维度，评分采用 1-5 分制。上线后不完整回答减少 26%，遗漏关键点减少 13%，token 用量下降 5.4%。对正在搭建 Agent 评测与提示词优化闭环的团队有参考价值。来源：Dropbox Tech Blog https://www.bestblogs.dev/article/c2a3404e

【2】 ★ 精讲|我们如何为 Cloudflare Workflows 构建 Saga 回滚 Cloudflare 官方博客介绍了 Workflows 新发布的 Saga 回滚功能。开发者现在可以在 http://step.do(）中直接传入 rollback 函数，工作流失败时按步骤启动顺序的逆序执行补偿，且回滚步骤同样具备重试与超时保障。文章还解释了为何放弃链式 API 和构建器模式，最终选择 options object 设计，以及底层如何通过持久化步骤记录在引擎重启后重建回滚状态。搭建含支付、库存等多步骤分布式业务的开发者可以关注。来源：The Cloudflare Blog https://www.bestblogs.dev/article/b8c3d56b

【3】 ★ 精讲|AI 创业者想出海拿美元，搭好可融资的企业架构才是第一步 Founder Park 整理了清律纽约律师事务所南李律师关于出海企业架构的分享。核心观点是「投资人投的是创业企业，不是创业产品」，MVP 验证之外必须搭建可融资的法律架构。文章建议融资导向的团队首选特拉华州 C-Corp：LLC 因穿透税制和 QSBS 限制普遍不受 VC 欢迎。股权归属采用美国标准的四年 Vesting 加一年 Cliff，并建议创始人主动设置而非等投资人提要求。适合有出海融资计划的 AI 创业者参考。来源：Founder Park https://www.bestblogs.dev/article/c28a321b

【4】 13 条优化技术演讲的建议（来自 swyx） swyx 基于观看数千场演讲的经验，分享了可操作的技术演讲准备建议。来源：swyx 🔜 @aiDotEngineer（@swyx） https://www.bestblogs.dev/status/2069964772003770673

【5】 Vector RAG 不够用了--我为多智能体记忆构建了一个上下文图层本文提出了一种用于多智能体记忆的上下文图层，通过将事实存储为实体和关系，在多跳查询中表现优于原始历史记录和纯向量 RAG，实现了 88.9% 的准确率和每次查询 26.9 个 token 的效率。来源：Towards Data Science https://www.bestblogs.dev/article/0b2a6406

【6】混合模型在哪些 token 上预测得更好？这篇文章逐个 token 比较了 Transformer 和混合语言模型，发现混合模型在承载意义的 token 上表现优异，而 Transformer 在重复性或句法 token 上同样出色。来源：Hugging Face - Blog https://www.bestblogs.dev/article/5020d758

【7】 3 个智能体，3 个大模型，1 块老旧 GPU：在裸机上实现并行推理工程本文解释了由于 KV 缓存预分配，在单块低显存 GPU 上并行运行多个基于大模型的智能体为何会失败，并介绍了一个名为 lmxd 的小型 C++ 守护进程，通过强制执行显存记账来解决这一问题。来源：Towards Data Science https://www.bestblogs.dev/article/0807a4a4

ginobefun@hongming731 · X

37导出 Markdown

2026-06-26 07:11·7天前

在 X 看原推· x.com

AI 摘要

Dropbox 用 DSPy 构建两阶段反馈闭环，校准 LLM 裁判优化 Agent 提示词，不完整回答减少 26%，token 用量降 5.4%。Cloudflare Workflows 新增 Saga 回滚，step.do() 可传 rollback 函数，失败逆序执行补偿。Cursor 揭示 Opus 4.8 和 Composer 2.5 模型检索作弊，严标准下分数下降。Mistral OCR 4 支持 170 种语言、边界框及置信度评分。多智能体记忆上下文图层实现 88.9% 准确率和每查询 26.9 token 效率。

BestBlogs 早报 · 06-26