7月3日

06:08

MarkTechPost（RSS）

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流，可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本，通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告，将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120，便于在笔记本中复现。

检索增强多模态教程/实践

03:06

TechCrunch：AI（RSS）

Meta悄然推出vibe-coded游戏应用Pocket

Meta推出新应用Pocket，用户可通过AI提示词生成小型互动游戏和应用。该应用源自Meta今年早些时候收购的vibe-coding游戏平台Gizmo团队，界面与Gizmo原有应用高度相似，并提供可浏览他人作品的发现信息流。Pocket于6月29日上线App Store和Google Play，目前处于初期实验阶段，Meta尚未正式宣布。其前身Gizmo在iOS和Google Play累计安装63.5万次，正面评价占比98%。

Meta 产品更新多模态

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月2日

23:03

Ethan Mollick@emollick

Ethan Mollick主张用自定义基准测试评估模型，而非依赖通用基准或直接换模型。他举例：翻译埃及象形文字用Gemini 3.5 Flash，运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示，Anthropic Fable 5与GPT-5.5持平，但均远落后于Gemini系列，其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Jake Boggs: Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...

多模态大佬观点评测/基准

22:33

Berryxia.AI@berryxia

GenRecon：结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合，把场景切分成重叠chunk，用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning，将多视角图像特征提升到3D空间。输出可编辑PBR mesh，室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究