5月21日

08:00

HuggingFace Daily Papers（社区热门论文）

针对长上下文场景下FP4量化推理的质量下降问题，ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对，对其使用FP16精度计算，其余块使用FP4计算。最后，两路计算结果通过在线softmax合并。实验表明，仅对5%的块使用FP16计算，该方法就能平均恢复FP4与FP16间89.1%的性能差距，且优势随序列长度增加而更加显著。

推理论文/研究部署/工程

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

关联讨论 1 条

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

06:03

TechCrunch：AI（RSS）

Nvidia再创季度营收纪录，披露对初创企业430亿美元持股

英伟达在最新季度财报中公布了创纪录的营收数据，但同时预测下一季度的收入增长将出现放缓。财报同时披露，该公司在初创企业的投资组合规模已达到430亿美元。这一数据反映了英伟达在人工智能芯片主导地位之外，通过战略投资深度参与科技生态系统的扩张策略。营收持续增长与未来放缓的预期，共同勾勒出当前高性能计算市场需求旺盛但可能面临波动的发展态势。

行业动态部署/工程

05:42

MarkTechPost（RSS）

介绍Turbovec：一个基于Google TurboQuant算法的Rust向量索引，支持Python绑定

Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建，提供Python绑定接口，可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率，同时无需进行任何码本训练，显著降低了部署和使用门槛。

Google 检索增强开源/仓库部署/工程

00:48

Claude：Blog（网页）

精选59

Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户

Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成，每晚自动处理4000个账户数据，替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度，他每天节省约90分钟，并将数据整合为可交互的销售仪表板，使其能更专注于客户沟通与战略决策。

Anthropic 教程/实践部署/工程

推荐理由：Travis 把 4000 个账户的评分一夜跑通，比自动报表更值得关注，中小销售团队照抄就能省掉跨部门数百小时，这是 Claude Cowork 在企业场景最落地的实践之一。

5月20日