7月3日

06:08

MarkTechPost（RSS）

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流，可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本，通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告，将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120，便于在笔记本中复现。

检索增强多模态教程/实践

05:50

Runway：News（网页）

借用夜晚：将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器，在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰，晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前扩容和回收，每次集群间转移耗时 20–60 分钟。利用排队论（Erlang‑C、Little's Law）确定目标利用率，避免接近 85% 后的队列发散（90% 利用率下等待时间约为服务时间的 10 倍）。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程

03:21

Simon Willison 博客

使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务（基于 Claude Fable 5）尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano，发现改进方向：模式列表仅给出表名，而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练

02:37

LMSYS：Blog（Chatbot Arena 团队）

精选59

Agent辅助的SGLang开发：初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括：SGLang .claude/skills（CUDA调试、内核集成、性能分析等）、SGLang diffusion .claude/skills（扩散模型添加与调优）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循环）、KDA（MLSys 2026 FlashInfer内核竞赛获胜方案）以及BBuf/KDA-Pilot（已合并三个SGLang集成PR）。Profile证据是性能工作的核心，长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证，Humanize/RLCR添加外部审查，Codex Goal以更低协调开销运行相同循环。评审重要性提升，开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由：这不是一篇普通的开发经验总结，而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册，对于做推理框架和复杂工程的人非常值得一看。

7月2日