5月2日

08:00

HuggingFace Daily Papers（社区热门论文）

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题，本研究提出了“证据链”框架。该框架与检索器无关，直接利用视觉语言模型对检索到的文档截图进行推理，无需针对特定格式进行解析，并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明，经微调的Qwen3-VL-8B-Instruct模型表现稳健，在需要视觉布局理解的场景中显著优于基于文本的基线方法，为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv 检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv 多模态论文/研究

03:10

Tomer Tunguz 博客（VC 分析）

精选57

本周的积极信号：AI在医疗、教育、农业与科研领域的突破性进展

近期多项进展展现了AI的巨大积极影响。医疗领域，Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌，强生利用AI将新药线索生成时间减半。教育方面，哈佛研究显示AI导师使学生学习效果翻倍，泰国培训16万名教师惠及330万学生。农业上，AI能以约88%准确率预测害虫爆发。科研中，AI快速筛查NASA数据，新发现超一万颗系外行星候选。此外，香港推出AI洪水预报系统，Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险，凸显其创新潜力。

多模态数据/训练现象/趋势

推荐理由：Tomer 收集了最近两周 AI 在医学、教育、农业的硬核落地案例，对反 AI 恐慌是一剂清醒剂，SaaS 公司的营收也说明行业在回暖。

5月1日

19:17

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Grok 4.3

x.ai 正式发布了 Grok 4.3 模型，开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注，相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI 多模态推理模型发布

推荐理由：xAI 的 Grok 4.3 如期而至，性能和对标都写在文档里了，想了解最新大模型实力的开发者值得花五分钟看一眼。