6月10日

05:30

Krea@krea_ai

我们正在下周二（6月16日）在旧金山办公室与@SpiralDB和@TigrisData共同举办一场"Big Data 3.0"活动。届时将有来自前沿AI实验室的技术深度演讲，主题为面向AI研究的互联网规模分布式数据系统。详情如下👇

数据/训练行业动态

01:37

Satya Nadella@satyanadella

今天在《自然方法》上，我们分享了关于AI如何帮助我们更好地理解细胞行为的研究，为癌症药物为何对每个人的效果不同提供了新的见解。通过学习更多关于细胞状态--单个癌细胞如何响应周围环境--我们有可能更精确地为每位患者匹配疗法并改善结果。https://news.microsoft.com/signal/articles/why-dont-cancer-medicines-work-the-same-for-everyone-ex-vivo/

Microsoft 其他数据/训练

00:52

🚨 AI News | TestingCatalog@testingcatalog

Mora 发布 AI 原生分析平台，团队可用自然语言提问营收、流失率、产品数据，秒级获取可验证答案，SQL 清晰展示以方便核查。平台支持连接数据仓库、数据库、Stripe 和 CRM 系统，并直接构建仪表盘。引用推文指出，在聊天和代码之后，分析是 AI 最大的机会，当前工具尚未被充分利用，因此推出 Mora。

Xavier Pladevall: After chat and code, analytics is the biggest opportunity in AI and it's still completely untapped with our current tool...

产品更新搜索数据/训练

00:46

AK@_akhaliq

关于在策略蒸馏的几何

数据/训练论文/研究

00:36

HuggingFace Daily Papers（社区热门论文）

FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时，完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题，FlowBP提出统一代理轨迹框架，将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择，并实例化三个变体：FlowBP-Sparse（稀疏Euler重建）、FlowBP-Bridge（受控桥耦合）和FlowBP-Lagrange（高阶跳跃求积）。三者通过活跃集大小限制内存，梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face 图像生成数据/训练论文/研究

00:35

Microsoft Research@MSFTResearch

在《Nature Methods》上发表的最新研究来自Project Ex Vivo，表明AI模型从多样化的细胞状态中学到的知识，比仅从规模化数据集中学到的更多，这一发现可能重塑疗法与患者的匹配方式。https://msft.it/6013vgE8l

Microsoft 数据/训练论文/研究

6月9日

22:11

小互@xiaohu

苹果Siri自研模型实为Gemini蒸馏产物

苹果Siri由自研基础模型驱动，但该模型通过Google Gemini蒸馏训练而来。Gemini本身不直接驱动Siri，仅在Apple iCloud上提供额外定制支持，且不接入Google搜索，世界知识由苹果自有服务提供。

小互: http://x.com/i/article/2064329494736011265

Google 数据/训练行业动态

19:04

fofr@fofrAI

Google Colab CLI与Skills正式推出，用户可直接从终端使用完整Colab运行时，包括GPU/TPU分配（如colab --gpu A100）、远程脚本执行（colab exec）、交互式控制台/REPL访问以及内置智能体技能。只需告诉智能体"在此数据集上微调Gemma 3 1B"，它就会自动分配GPU、运行训练并下载适配器权重，全程自动化。智能体们，来领取你们的增强道具。

Philipp Schmid: Google Colab CLI and Skills are out. Full Colab runtimes from your terminal. - GPU/TPU provisioning (colab --gpu A100) -...

智能体 Google 产品更新数据/训练

17:55

Hugging Face：Blog（RSS）

精选68

NeuroBait：微调AI助手，为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手，旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA（r=16, alpha=16）在Unsloth上训练3个epoch，学习率2e-4，最大序列长度2048，使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space（ZeroGPU），使用Gradio和标准transformers+peft，运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单，而是根据用户上下文给出3-6句温暖流畅的回复，引导用户找到一件微小可立即执行的动作，从而激发多巴胺、降低启动阻力。

Hugging Face 教程/实践数据/训练

推荐理由：对ADHD群体来说，这是一次真正从需求出发的AI尝试。它不做计划列表，而是用一个温暖的动感火花打破僵局，让AI从理论走向陪伴。如果你或身边人容易'卡住'，可以试试这个Space。

16:34

X.PIN@thexpin

DeepSeek招聘IDC工程师，计划自建数据中心

DeepSeek 发布招聘，寻找 IDC 设计与规划工程师，负责数据中心全生命周期建设（选址、布局、施工图纸、支撑基础设施）。该职位是新建设施早期技术工作的核心角色，对候选人不设最低经验要求，另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。

DeepSeek 数据/训练行业动态

16:10

向阳乔木@vista8

Vista 用 Codex 复盘 X 运营增长经验

运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子，使用 Codex 进行数据分析，得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式，完整 PPT 置于评论区。

教程/实践数据/训练现象/趋势

14:55

HuggingFace Daily Papers（社区热门论文）

PBSD：利用特权贝叶斯自蒸馏实现长程信用分配

PBSD提出一种贝叶斯校准的自蒸馏方法，用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量，并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解，产生每步信号，识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号，与标准策略优化兼容。实验表明，该方法在领域内和领域外设置中一致提升性能，并有效将知识从短上下文训练迁移到长上下文推理。

智能体数据/训练论文/研究

14:55

HuggingFace Daily Papers（社区热门论文）

精选74

Reasoning Arena：可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统，通过迹线锦标赛（trace tournaments）对推理迹线进行头对头比较，转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较，然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上，平均超越RLVR基线7.6%，训练加速27%至41%，节省近50%生成计算量。

arXiv 推理数据/训练论文/研究

推荐理由：强化学习训推理模型常遇到奖励无法区分，这篇把被浪费的样本变成有效梯度，训练加速近 50% 同时性能还涨 7.6%，做 RL 训练的人值得细读。

10:28

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁 inclusionAI 开源 AReno：单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno，一个易用且快速的工具包，可在单节点上扩展强化学习后训练（RL post-training）。

开源/仓库数据/训练

08:08

Nathan Lambert@natolambert

Nathan Lambert：AI领域对持续学习与样本效率的执念是错误方向

Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率，认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明，但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树，对进步有利，但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点：数据是进步主要驱动力，开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿，而超参数、训练技巧等难以复制。他认为未来已来，AGI 研究应拥抱未知、规模化资源，而非等待不确定的科学突破。

Dwarkesh Patel: New blog post: on the million-x sample efficiency gap between AIs and humans, and whether it matters: "The reason it is ...

大佬观点数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-GMM：面向可扩展软聚类的内存高效内核

Flash-GMM 是一个基于 Triton 的融合内核，可在单次 GPU pass 中高效计算大规模高斯混合模型（GMM）。它无需在 GPU 内存中实例化完整责任矩阵，相比现有实现实现 20 倍加速，并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索（ANN）后，软 GMM 聚类可替代 k-means，利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍，或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

N-GRPO：嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题，N-GRPO将语义邻居混合（Semantic Neighbor Mixing）机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示，在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明，N-GRPO在数学推理基准上持续优于强基线，并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DeNovoSWE：扩展长周期环境以从零生成完整仓库

DeNovoSWE 是一个大规模完整仓库生成数据集，包含4,818个高质量实例，每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建，无需人工标注，采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后，在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。

数据/训练编码论文/研究

05:12

Rohan Paul@rohanpaul_ai

Anthropic 研究：AI 智能体在生物数据库检索中失败率高，结论偏差严重

Anthropic 研究发现，AI 智能体在代码任务表现出色，但在生物数据库检索中容易失败。以埃博拉序列任务为例，Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列，而预期为 266 条。缺失序列导致科学结论严重偏移：智能体推断疫情回溯至 1922 年，人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后，智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。

Anthropic: New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...

智能体 Anthropic 数据/训练现象/趋势

03:02

Hacker News 热门（buzzing.cc 中文翻译）

xAI看起来更像是一家数据中心房地产投资信托基金，而非前沿实验室

xAI在资产结构和运营模式上被比作数据中心REIT，而非传统的前沿AI实验室，这一观点来自martinalderson.com的分析文章。

Anthropic xAI 数据/训练现象/趋势

02:15

Dwarkesh Patel：Podcast & Blog（RSS）

精选66

样本效率黑洞：AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系，其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖，样本效率的瓶颈如同引力中心，将各色能力凝聚在一起。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 样本效率低的问题算透了，人类 2 亿 token 学会的事，模型要万亿级，缩放定律也补不上这个黑洞。做 AI 的该认真想想，数据驱动这条路有没有尽头。

02:11

The Decoder：AI News（RSS）

微软研究院的Lens：详细描述比原始规模更能训练高效图像生成器

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题，而非模糊的网页替代文本，Lens在基准测试上匹配了规模更大的竞品，训练成本仅一小部分。代码和权重以开源许可证公开可用。

Microsoft 图像生成开源生态数据/训练

00:25

ChatGPT@ChatGPTapp

精选67

将数据和比较转化为图表，直接在 ChatGPT 中完成。现已支持移动端和网页端。

OpenAI 产品更新数据/训练

推荐理由：ChatGPT终于内置了图表生成，不用再复制数据到其他工具了。这个功能的真正价值是让分析更快闭环，做数据简报的人可以试试。

6月8日