5月8日

23:47

AK@_akhaliq

MARBLE 扩散RL的多维度奖励平衡论文： https://huggingface.co/papers/2605.06507

数据/训练论文/研究

05:06

SemiAnalysis@SemiAnalysis_

浮点运算不满足结合律！许多高性能计算核心会将工作负载分配到多个流多处理器上，并以非确定性顺序累加部分结果。许多AI实验室只能接受这一点，或为确定性付出巨大的性能代价。DeepSeek决定两者都不选。（1/4） 🧵

DeepSeek 数据/训练现象/趋势

02:40

Nathan Lambert@natolambert

由 @jacobcares 主导的研究表明，构建大语言模型的算力消耗很少集中在最终训练阶段，绝大部分算力实际用于开发算法配方。公开创建算法配方是确保研究界算力能推动新知识产出的重要杠杆。

Ai2: Today we're bringing new NSF OMAI compute online with NVIDIA Blackwell Ultra-powered systems, turning a $152M national i...

大佬观点开源生态数据/训练

01:06

SemiAnalysis@SemiAnalysis_

我们已习惯芯片公司营销团队夸大参数规格，如今看到他们转而低调陈述反而令人耳目一新。 Cerebras官网就存在一例-- 他们将片上SRAM容量低估了整整八倍！ @cerebras 你们实在太过谦虚了！

数据/训练现象/趋势

00:31

Chubby♨️@kimmonismus

算力竞赛的核心：从硬件占有到消化效率的转变

xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群，但其模型计算利用率仅约11%，凸显出将硬件转化为有效算力的挑战。相反，Anthropic面临需求远超供给的局面：其Claude收入年化已超300亿美元，百万美元级企业客户在两个月内从500家激增至1000家以上，新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模，而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身，转向这种高效的转化能力。

Anthropic xAI 大佬观点数据/训练

00:10

Nathan Lambert@natolambert

走访多家中国顶尖AI实验室后，我深受触动：这里存在一种极其适合用较少资源构建LLM的文化，但这种文化发生在截然不同的生态系统中--参与企业更多，数据产业几乎空白等。完整报告：https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs

数据/训练现象/趋势

5月7日

09:36

宝玉@dotey

Anthropic创始人解释Claude限速原因：需求增速远超预期，年化高达80倍

Anthropic联合创始人Dario Amodei在开发者大会上表示，Claude服务持续限速的直接原因是需求增速远超预期。公司原本按年增10倍规划算力，但2026年第一季度实际年化增速高达80倍，导致算力供不应求。为此，Anthropic已与SpaceX签署协议，将获得Colossus 1数据中心超过300 MW、22万张NVIDIA GPU的全部算力。Dario称这种指数级增长虽在理论预测内，但实际体验仍令人震撼。公司视开发者为AI扩散的先行指标和最重要用户群体，并正致力于攻克代码安全等“主观”能力。

Anthropic 大佬观点安全/对齐数据/训练

04:34

Rohan Paul@rohanpaul_ai

NVIDIA、微软和OpenAI联合推出多路径可靠连接（MRC）协议

多路径可靠连接(MRC)是一种新型RDMA传输协议，由NVIDIA、微软和OpenAI联合推出，并与AMD、博通和英特尔合作。该协议首先在NVIDIA Spectrum-X以太网硬件上得到验证和优化。MRC的核心创新是改变连接方式，允许单个RDMA数据流利用多条网络路径传输AI训练流量，而非强制每个GPU连接走单一固定路由。RDMA技术使GPU能以极少CPU帮助移动数据，这对于数千GPU在训练中不断交换模型更新至关重要。当网络出现拥塞、链路故障或交换机过载时，流量可自动绕行，无需软件层面修复，从而避免单一不良路径拖慢整个计算集群，保障大规模AI训练任务的高效进行。

OpenAI 数据/训练行业动态部署/工程

04:34

Rohan Paul@rohanpaul_ai

OpenClaw-RL：通过日常对话持续训练语言模型

本研究提出OpenClaw-RL系统，使语言模型能通过日常对话进行持续训练，无需人工标注数据。其核心是利用用户互动中产生的自然反馈（如纠正或重复提问）作为实时学习信号。系统从每次交互中提取两种信号：评估信号（判断行动成败，转化为数值奖励）和指导信号（获取具体改进方向，转化为词级监督）。该方法将标准部署环境转化为持续学习场景，使模型在后台运行中不断自我更新，自适应不同用户偏好，从而摆脱对大规模人工标注数据集的依赖。

智能体 arXiv 数据/训练论文/研究

02:10

TestingCatalog News 🗞@testingcatalog

Elon Musk表示，他近期与Anthropic高层团队深入交流，对其确保Claude AI有益于人类的努力印象深刻，认为团队高度专业且秉持正确价值观。基于此信任，他同意将SpaceX的超算集群Colossus 1出租给Anthropic，因为SpaceXAI已将自身训练任务转移至Colossus 2。这一合作被视作科技巨头间力量平衡的一次变动。

Elon Musk: Same here. By way of background for those who care, I spent a lot of time last week with senior members of the Anthropic...

Anthropic 数据/训练行业动态

00:37

向阳乔木@vista8

AI分析X平台数据揭示发帖效率与涨粉规律

通过将X平台创作者工作室近90天的数据分析数据输入大模型，AI提炼出关键运营规律。核心发现包括：每日发帖3-5条是曝光效率最佳区间，而非单纯追求数量；周三互动率最高，周四涨粉效果最好，周六则最利于冲击曝光量。此外，近44%的新增关注者集中来源于少数“高涨粉日”，表明涨粉主要依赖爆款帖文的拉动效应。

教程/实践数据/训练

5月6日

23:04

OpenAI@OpenAI

大规模AI超算需要新型网络来保持芯片同步。OpenAI专家讨论了在庞大芯片集群间可靠高效传输数据的挑战，并介绍了新发布的多路径可靠连接（MRC）网络协议。该协议由OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA等行业伙伴共同推出，旨在帮助大型AI训练集群运行得更快、更可靠，减少GPU闲置时间。MRC是一个开放的行业协议，可供整个业界使用。

OpenAI: We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a...

OpenAI 数据/训练行业动态部署/工程

21:29

Chubby♨️@kimmonismus

NVIDIA开源支撑OpenAI Blackwell集群的新型网络传输协议

NVIDIA通过OCP开源了MRC协议，这是一种专为大规模AI训练集群设计的新型RDMA传输协议。其核心创新在于将单一连接分散到多条网络路径上，当某条路径出现故障或拥塞时，能在微秒级时间内通过硬件重路由流量，以解决前沿AI训练中日益严峻的网络瓶颈问题。该协议已应用于OpenAI的Blackwell集群，微软和Oracle也是其主要部署方。NVIDIA此举在表面推动更开放标准的同时，优先为自家Spectrum-X平台优化，实则强化了其全栈竞争优势，并将以太网技术推向传统上由InfiniBand主导的高性能计算领域。

OpenAI 开源/仓库数据/训练部署/工程

17:20

ginobefun@hongming731

斯坦福研究基于1500名工人和844项任务指出，当前AI投资方向与真实工作需求错配。研究通过WORKBank框架，将工作任务按对AI的"渴望度"和AI"当前能力"划分为四个象限：高渴望高能力的"绿灯区"任务（如数据录入）已可自动化；高渴望低能力的"研发机会区"是创业方向；低渴望高能力的"红灯区"（如创意最终呈现）易引发抵制；双低的"低优先级区"则无需关注。关键发现是，同一职业（如程序员）的不同任务横跨多个象限，因此"职业被替代"是伪命题，工作正被重新切分与融合。

indigo: Stanford 用 1500 个工人和 844 个任务告诉 YC:你们 41% 的钱投错了方向 -- 你们投的都是"人们不想要"或"不需要"的东西,而那些"想要但没什么人做"的事正在等待 founders。论文中工人最想自动化的前 10 ...

数据/训练现象/趋势

09:34

meng shao@shao__meng

精选77

全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口，效率大幅领先

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构，实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制，让每个查询仅动态计算与相关键的注意力，使计算和内存成本随序列长度线性增长，而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍，成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化，旨在弥合“名义上下文”与“功能上下文”窗口的差距。

Alexander Whedon: Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...

数据/训练模型发布编码

推荐理由：这是第一个真正把子二次方注意力用到前沿模型上的突破，12M 上下文窗口不再只是参数，而是能用起来的真窗口，长上下文场景的成本逻辑要重写了。

07:33

Nathan Lambert@natolambert

正在为RLHF书籍添加一个关于策略蒸馏的章节，值得注意的是，尽管我已经提供了核心论文和250页关于我如何阐述观点的背景资料，但LLMs/编码代理在这方面的表现却出奇地差。

大佬观点数据/训练

5月5日

23:27

Epoch AI@EpochAIResearch

加入我们的现场研讨会，共同为FrontierMath：开放性问题集开发题目！我们正在寻找研究数学中极具趣味性、且可通过程序化验证解决方案的未解难题。这类问题非常难得。快来一展身手吧！链接如下。

数据/训练行业动态

13:14

Berryxia.AI@berryxia

斯坦福2小时公开课详解LLM构建

斯坦福一门2小时公开课系统讲解了ChatGPT等大语言模型从零构建的全过程，涵盖Transformer架构、训练技巧、Scaling law等核心知识。课程免费且含金量高，揭示了AI时代的底层逻辑。相比之下，许多顶级AI公司的工程师仅专注于调提示词和刷基准测试，缺乏此类系统知识。课程为真正想理解AI的人提供了宝贵的学习机会。

教程/实践数据/训练

02:48

François Chollet@fchollet

精选73

我撰写《Deep Learning with Python》旨在成为理解深度学习工作原理及最佳应用方式的权威指南。数以万计的人通过这本书开启了职业生涯。已售出12万册，更有数百万人下载阅读。现在可以免费在线阅读：https://deeplearningwithpython.io/

教程/实践数据/训练

推荐理由：Chollet 的《Deep Learning with Python》是无数人入行深度学习的启蒙书，现在免费在线阅读，新手不用再纠结买不买，直接看就完事了。

00:56

Nathan Lambert@natolambert

我们需要为某些中国实验室对API进行的攻击创造一个新术语，以区别于蒸馏，否则我们可能会玷污一项对AI扩散、学术研究和开源生态系统至关重要的关键技术。 https://www.interconnects.ai/p/the-distillation-panic

大佬观点安全/对齐数据/训练

00:26

Epoch AI@EpochAIResearch

探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调，讨论者进行了反驳，并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准（如MirrorCode）的构建、AI技术对基准开发本身的加速作用，以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能（AGI）基准的可行性，并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准

5月4日

23:24

elvis@omarsar0

Meta FAIR开发的Autodata是一个能自主构建高质量训练与评估数据的代理系统。其核心在于"代理式自我指导"循环：编排器LLM指导挑战者代理基于领域文档生成问题，由弱、强解算器尝试解答，法官评分后分析失败并循环优化，从而产出能有效区分模型能力的挑战性数据。在CS研究QA任务中，该方法产生了34个百分点的性能差距，远超标准方法的1.9点。系统还具备元优化能力，通过外循环调整指令，将验证通过率从12.8%提升至42.4%。研究处理了超万篇论文，产出2，117个优质QA对，通过增加推理计算使数据更具挑战性，从而提升下游模型性能。

DAIR.AI: Banger paper from Meta FAIR. They introduce Autodata, an agentic data scientist that builds high-quality training and ev...

智能体 Meta 数据/训练论文/研究

10:18

Eric@ericmitchellai

我恳求你看看你的数据。请看看数据评估结果不如预期？看看数据评估结果超出预期？*务必*看看数据评估结果符合预期？信不信由你……

OpenAI 大佬观点数据/训练

5月3日

18:42

Rohan Paul@rohanpaul_ai

Figure F.03人形机器人实现自主行走与楼梯导航

Figure公司最新组装的F.03人形机器人已能实现自主行走，从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知，无需LiDAR或预先地图，即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成，并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力，尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。

Brett Adcock: F.03 can now walk up/down stairs purely using it's onboard camera perception Our robots now walk from manufacturing when...

产品更新具身智能数据/训练

09:18

SemiAnalysis@SemiAnalysis_

应届毕业生凭借自研AI交易系统斩获Jane Street高薪职位

一名Jane Street的应届毕业生通过自主构建的智能AI系统，成功获得了年薪22万至60万美元的职位。该系统的核心在于运用JAX与Mesh-TF框架，能够高效处理海量数据，并识别人类无法察觉的隐秘模式，从而直接驱动实际交易决策。其成功关键并非单纯加班，而是通过技术创新实现了效率的质的飞跃。该毕业生已发布长达一小时的系统构建详解，内容涵盖从挖掘稀缺数据集到将原始数据转化为交易决策的全过程，并指出这比花费数月时间浏览社交媒体对职业发展的助益大得多。

智能体教程/实践数据/训练

5月2日

17:44

Chubby♨️@kimmonismus

DeepSeek V4挑战西方对中国AI芯片落后的认知

西方长期认为中国在AI芯片领域落后10-15年，但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态，可在昇腾950基础设施上部署推理，实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上，昇腾950仍显著落后于NVIDIA Blackwell B200，但中国通过“横向扩展”战略，用大量国产芯片集群结合软件优化和模型架构创新（如MoE），使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

DeepSeek 开源生态推理数据/训练

04:41

Rohan Paul@rohanpaul_ai

清华AI专利数超哈佛、MIT与斯坦福总和

清华大学在人工智能和机器学习领域的专利数量已超过哈佛大学、麻省理工学院和斯坦福大学的总和。十余年来，清华的专利申请规模远超美国顶尖高校，且差距持续扩大。其运作模式如同一台高效机器，能将AI研究成果大规模转化为受法律保护、可转移的资产。日常浏览arxiv等学术平台时，也能直观感受到署名“清华”的论文数量极为庞大。

数据/训练现象/趋势

01:16

AK@_akhaliq

协同进化策略蒸馏论文： https://huggingface.co/papers/2604.27083

数据/训练论文/研究

5月1日

23:39

Elon Musk@elonmusk

Grok 4.3 此次发布显示运行 Artificial Analysis Intelligence Index 的成本效益有所提高，Grok 4.3 在智能与成本的帕累托边界上表现稳健。得益于输入 token 价格降低 37.5% 和输出 token 价格降低 58.3%，运行 Intelligence Index 评估的成本为 395 美元，较 Grok 4.20 0309 v2 整体下降约 20%。

Artificial Analysis: This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...

xAI 数据/训练模型发布

08:10

Berryxia.AI@berryxia

Pine AI首席科学家李博杰提出新方法，通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间，先利用已知开源模型拟合曲线，再将闭源模型得分投射得出估算。研究评估了92个闭源模型，结果显示GPT-5.5以约9.7T参数断层领先，Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物，并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪: 有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...

Anthropic OpenAI 数据/训练论文/研究

03:16

Anthropic@AnthropicAI

同事件精选63

人们如何向Claude寻求指导？我们分析了100万次对话，以了解人们提出什么问题、Claude如何回应，以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance

Anthropic 安全/对齐数据/训练

同一事件，精选展示《用户如何向Claude寻求个人生活指导及其模型优化》

推荐理由：百万条真实对话里扒出谄媚模式，Anthropic 没光发论文，直接把结论灌进 Opus 4.7 训练，做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。

03:14

Epoch AI@EpochAIResearch

有多少AI算力被走私到中国？我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。

数据/训练现象/趋势论文/研究

02:09

Rohan Paul@rohanpaul_ai

谷歌AI领先优势源于长期战略投资，非仓促应对ChatGPT

《时代》杂志指出，谷歌在人工智能领域的领先地位，源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资，而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合，谷歌获得了对AI架构的绝对控制权，能利用自研TPU高效执行复杂计算，同时让工程师得以低成本大规模扩展模型预训练，而无需像竞争对手那样承受高昂的外部芯片采购成本。

DeepMind Google 大佬观点搜索

4月30日

22:43

Qwen@Alibaba_Qwen

精选73

Qwen-Scope开源套件发布：稀疏自编码器助力模型内部特征操控

Qwen团队推出开源稀疏自编码器套件Qwen-Scope，将SAE特征转化为实用工具。该套件支持四大应用方向：无需提示工程即可通过直接操控内部特征引导模型输出；用极少样本对目标数据进行分类与合成，提升长尾能力；追踪代码切换和重复生成问题的根源并进行修复；通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制，并开发出超越现有研究范围的应用。相关资源已开放。

Hugging Face 开源/仓库开源生态数据/训练

推荐理由：可解释性工具从学术走向工程，Qwen-Scope 把内部特征操控、数据合成、问题溯源打包成套装，做模型调试和长尾优化的团队值得立刻上手试试。

22:13

向阳乔木@vista8

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

21:41

Chubby♨️@kimmonismus

精选76

Meta首次日活用户下降，资本支出激增致股价大跌

2026年第一季度，Meta全球日活跃用户首次下降，“应用家族”日活减少2000万。公司归因于伊朗网络中断和俄罗斯禁用WhatsApp，但合并数据掩盖了具体应用流失。同时，Meta将2026年资本支出指引上调至1250-1450亿美元，主要用于应对内存芯片涨价和加码AI基础设施投资，日均投入约4亿美元。尽管营收增长33%至563亿美元、净利跃升61%，公司仍计划裁员8000人以“抵消”AI投资成本，Reality Labs部门亏损40亿美元。华尔街对其支出轨迹不满，股价盘后大跌超7%。

Meta 数据/训练行业动态

推荐理由：Meta 日活首降叠加千亿 AI 资本开支，这份财报把社交帝国的焦虑摊在了桌面上，用户流失与 AI 军备竞赛同时加速，信号交叉值得细看。

20:10

ginobefun@hongming731

京东广告发布GRAM架构，用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构，旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱，将商品属性与业务规则作为“事实护栏”注入，以杜绝AI幻觉，确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式，即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时，GRAM将企业内隐知识结构化作为上下文，使大模型能进行复杂的深度决策，而非仅计算曝光。

教程/实践数据/训练部署/工程

19:11

Chubby♨️@kimmonismus

四大科技巨头云收入激增，资本开支飙升引市场担忧

Meta、亚马逊、Alphabet和微软2026年第一季度营收均超预期，云业务增长强劲，其中Google Cloud收入暴涨63%首次突破200亿美元。然而，四家超大规模企业2026年资本开支总额预计将超过6500亿美元，巨额AI基础设施投资引发市场焦虑，导致Meta和微软股价在盘后下跌。这些巨头在计算领域的投入规模正重塑全球经济，其投资能否带来相应回报将定义未来十年的科技投资格局。

Google Microsoft 数据/训练行业动态

17:39

Rohan Paul@rohanpaul_ai

Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中，涵盖99项任务。在至少一位人类专家解决的76个问题上，Claude Mythos Preview模型准确率约为83%；更值得注意的是，在23个专家小组未能解决的问题上，该模型仍解决了其中约29.6%。然而，模型在困难问题上的成功重复性较低，表明其表现尚不稳定。研究指出，Claude最有效的模式并非充当“先知”，而是扮演快速研究协作伙伴的角色：通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic 数据/训练论文/研究

16:39

Chubby♨️@kimmonismus

Anthropic发布BioMysteryBench基准，AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试，包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型（4.7）解决了大部分人类专家能处理的任务，并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识，并在不确定时叠加多种分析策略。Genentech和Roche的独立测试（CompBioBench）中，Claude Opus 4.6总体准确率达81%，最难问题准确率69%。两项基准共同表明，AI已在部分最困难的生物学问题上超越人类专家。

Anthropic: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...

Anthropic 数据/训练论文/研究