7月3日

05:08

Apple Machine Learning Research（RSS）

针对目标环境分布偏移下的域泛化问题，在反因果设定中（结果变量导致观测协变量），环境扰动不影响结果变量，因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签，从而能利用多环境中的无标签数据。提出两种方法，分别惩罚模型在环境间协变量均值和协方差的变化，并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。

数据/训练论文/研究

05:08

Apple Machine Learning Research（RSS）

学习扩散语言模型的去掩码策略

研究人员提出使用强化学习训练扩散语言模型（dLLM）的采样策略。该方法将掩码扩散采样形式化为马尔可夫决策过程，以 dLLM 为环境，采用单层 Transformer 策略网络将 token 置信度映射为去掩码决策。实验表明，在半自回归（块）生成中，该策略匹配了最先进的启发式方法，在全扩散设置中则超越后者。

数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为，但复杂推理轨迹在无约束采样中稀疏，标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout，激励探索多样推理模式，并利用重要性采样实现无偏on-policy优化，引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明，Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

MemoryLLM：可插拔可解释的Transformer前馈记忆

MemoryLLM将Transformer中的前馈模块（FFN）与自注意力解耦，使其作为无上下文的token级神经检索记忆运行。训练时FFN与自注意力隔离，直接使用token嵌入，从而可预计算为token级查找（ToL），实现VRAM与存储间的按需传输，提升推理效率。此外还提出了介于传统Transformer与MemoryLLM之间的Flex-MemoryLLM架构，以弥补因使用无上下文token嵌入训练FFN导致的性能差距。

数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

精选56

VideoFlexTok：可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构——首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

数据/训练视频论文/研究

推荐理由：把视频 tokenization 从固定网格改成变长 coarse-to-fine，训练效率提升明显，还能做更长的视频。研究角度挺漂亮，但离产品落地还有距离，做视频生成的可以追一下。

7月2日

01:39

Meta Engineering Blog（RSS）

精选71

Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群，基于 Tectonic 分层存储层构建 BLOB 存储架构，以应对两大挑战：最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟，使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上，利用闪存提供可预测的低 pMax 延迟，避免单 GPU 慢速拖慢整批任务。同时，统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动，提升研究效率。

Meta 数据/训练现象/趋势部署/工程

推荐理由：Meta的存储架构复盘给出了一条明确路径，从重写元数据到分层缓存，他们把GPU利用率和研究者迭代速度同时提升了一个档次，做AI训练平台的值得细读。

6月30日

23:29

Hugging Face：Blog（RSS）

专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文，从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明，通用优化算法在所有问题上平均表现相同，实际优势来自专门适配；有限资源下，集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论：最大化适应性在于精确拟合特定环境，而非追求通用性。

数据/训练现象/趋势

04:34

Tomer Tunguz 博客（VC 分析）

精选58

Anthropic：当AI成本超过工程师薪酬

Anthropic在算力上的支出达到每位工程师每年51.5万美元，是其完全薪资（22.4万美元）的2.3倍。相比之下，顶尖1%软件公司的算力支出为8.9万美元，中位数仅为1.37万美元。三个2029年情景预测了这一差距的缩小路径。

Anthropic 大佬观点数据/训练

推荐理由：Tomer Tunguz 用数据把 AI 公司的烧钱速度拆得很细，Anthropic 每个工程师年算力成本 51.5 万美元，是工资的 2.3 倍，这个数字对重新理解 SaaS 毛利率很有冲击力。

02:26

Hugging Face：Blog（RSS）

DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer（Density and Score Transformer）是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制，在单次前向传播中输出密度和分数，并通过一致性损失实现分布外自适应。在100维空间中，DiScoFormer比最优调参的核密度估计（KDE）降低分数误差约6.5倍、密度误差超过37倍，且随样本量增加持续提升，而KDE内存耗尽。模型基于高斯混合模型训练，可泛化至非高斯分布（如Laplace、Student-t）及未见过的多模态混合。

数据/训练论文/研究

6月29日

18:10

公众号：蚂蚁百灵（Ling）

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

6月26日

23:51

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

下一个重大突破：AI在工作中学习

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由：RLVR 范式能否通向 AGI？Dwarkesh 指出关键瓶颈在于样本效率和 grindability，他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界，虽然离落地尚远，但值得每一个关心 AI 下一步的人细读。

04:55

Lilian Weng：Lil'Log（RSS）

扩展定律综述：参数、数据与计算的最优分配

扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人（2020）及Chinchilla扩展定律的三种拟合方法（固定模型大小改变token预算、等FLOP曲线、参数拟合），以及Amari等人（1992）和Hestness等人（2017）的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟，核心在于最优分配计算资源于N和D。

数据/训练论文/研究

6月25日

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

04:07

OpenRouter：Announcements（RSS）

精选68

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

OpenRouter 的零数据留存（ZDR）保证用户提示词和模型响应不被存储，元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型，月度 token 量增长 4.3 倍，约占全部路由流量一半。ZDR 在三个层面执行：账户级（整个供应商开启）、护栏级（按 API Key 或组织成员限定）、单次请求级（传参数仅路由至 ZDR 端点）。企业用户可灵活选择控制粒度，避免锁定单一供应商。

教程/实践数据/训练

推荐理由：ZDR 远不止“不存数据”这么简单，提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了，做合规服务的人可以仔细看看。

00:15

Hugging Face：Blog（RSS）

精选66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4–3.7 倍，GPU 内存减少 29–32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由：英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多，内存省了近三分之一，代码只需改一行 import，做训练的可以立刻升级。

6月23日

21:48

Apple Machine Learning Research（RSS）

基于指标依赖的标注饱和：从标签分布中学习

在ChaosNLI数据集（每项100个标注）上微调NLI模型，发现所需标注人数因评估指标而异：熵相关（识别分歧项）需约20-50个标注者收敛，KL散度（分布匹配）约10个标注者即饱和（达全量效果的87%-95%）。软标签的熵相关r=0.643（p<0.001），优于五种标签平滑强度下的r≈0.45-0.49，因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论：标注预算应依据目标评估指标制定。

数据/训练论文/研究

6月22日

22:00

公众号：百度智能云（文心）

百度智能云「图云」推出充电站智慧选址产品

百度智能云「图云」推出充电站智慧选址产品，基于时空智选大模型，整合覆盖全国98%公共充电站动静态数据、人地大数据（常驻人口、客流热力、交通热力、用户画像等）及电网数据。提供从城市宏观大屏到点位级评估报告的全链路工具，对候选点位输出0-10分综合评分，从充电需求、交通条件、竞争情况、商业配套多维度量化打分并解释评分依据。已落地试点，旨在助力充电运营商精准布局、供电企业科学审批、政府优化基建规划。

产品更新数据/训练

6月20日

01:14

Dwarkesh Patel：Podcast & Blog（RSS）

精选60

AI中心的数据黑洞

智能的一种定义是样本效率，但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据，再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例，数据行业年收入已达数十亿美元。近日Epoch报告，开源模型仅落后前沿闭源模型4个月，原因在于数据可从公开API蒸馏，而超参数等不易复制。人类一生接触约2亿token，前沿模型训练在数十到数百T token之间，相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 的‘笨’归因于数据效率远低于人类，计算虽简但直指要害，他给出的一个逆向洞察是开源模型四个月追上闭源，正是数据驱动进步的最好证据。

00:53

GitHub Blog

GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot，一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据，无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体 GitHub 教程/实践数据/训练

6月18日

23:47

Hugging Face：Blog（RSS）

精选70

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA（98.4%）；外部站点 10,000 个检查点中 95.0% 是 LoRA；GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

Hugging Face 教程/实践数据/训练

推荐理由：HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛，图像生成任务上 OFT 表现更好，而且切换只需改一行配置。对微调选型有实打实的参考价值，但数据集有限，别全信。

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

10:40

公众号：通义实验室（千问）

精选75

首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源，是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B（1B参数）在六大科学任务上匹配或超越领域专用方法：口袋条件配体生成纯序列范式首次超越3D扩散模型，超越NatureLM（8×7B）；逆合成预测Top-1准确率74.8%；口袋位点识别仅靠序列达58.5% Top-n准确率；MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token，通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致，跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

关联讨论 1 条

推荐理由：LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架，纯序列建模就干过了专用扩散模型，参数量却只有NatureLM的1/56，做AI4S的得认真看一眼。

04:12

GitHub Blog

精选61

GitHub 发布 CC0-1.0 开源多语言仓库级数据集，覆盖 README、Issue 和 PR

GitHub 推出一个新的仓库级数据集，采用 CC0-1.0 许可证，旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容，加速多语言 AI 开发。

GitHub 开源/仓库数据/训练

推荐理由：GitHub 发布了一个多语言开发者内容数据集，CC0 许可，对于训练跨语言代码模型和辅助翻译有直接价值，做多语言 Copilot 的团队应该会关注。

6月17日

22:55

CMU：Machine Learning Blog

预训练还不够"苦涩"

Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识，最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利：采用通用架构、海量数据、简单的自监督目标（语言模型预测下一个token，视觉模型重建掩码块等）。但问题在于，训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现，再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。

大佬观点数据/训练

18:00

公众号：小红书技术（dots.llm）

小红书联合浙大推出 RedParrot：基于语义缓存的 NL-to-DSL 加速框架（ICDE 2026）

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架，通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG，将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上，平均实现 3.6x 推理加速，执行准确率提升 8.26%，表选择准确率达 85.99%；在开放基准 Spider-DSL 和 BIRD-DSL 上，准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底，支持增量缓存更新。

检索增强数据/训练论文/研究

02:03

Google Research：Blog（网页）

从像素到规划：Google Research 发布 Vectorized Farmscapes 2020 数据集

Google Research 发布 Vectorized Farmscapes 2020 向量化数据集，将英格兰超 130,000 km² 高分辨率栅格地图转化为树篱、石墙、小树林等精细生态特征量化清单。该数据集基于 RSF 的 Vision-Transformer Backbone（在超 3 亿张卫星图像上预训练）微调，融合亚米级影像与 1 米 LiDAR 数据实现双层标注。为突破 247 km² 标注数据限制，采用 Polsby–Popper 紧凑性评分对几何形状功能分类，区分林地、连接廊道与孤立树丛。旨在不侵占农业用地提升碳汇与生物多样性。

Google 产品更新数据/训练

6月16日

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

03:59

GitHub Blog

GitHub 发布新开源数据集，加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集，涵盖多语言开发者内容，包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论，以推动多语言 AI 的构建与优化。

GitHub 开源/仓库数据/训练

6月15日

23:01

公众号：MiniMax（稀宇科技）

同事件精选76

MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

多模态数据/训练模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 是第一个从预训练阶段就深度融合多模态的开源模型，MSA 架构让长上下文成本大幅降低，它的开源会给做多模态应用的团队一个高性价比的选择，国产开源又多了一个能打的基座。

6月13日

17:54

公众号：百度智能云（文心）

第一！百度智能云领跑中国零售信贷决策工具市场

6月11日，IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元，同比增长13.5%。百度智能云在决策工具及服务市场位居第一，收入翻倍，服务客户数同比增长近100%，覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”，涵盖挖掘、模型、策略三大模块；与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%，风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品，依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。

智能体数据/训练行业动态

6月11日

17:00

公众号：千问APP（阿里）

精选72

千问推出首个足球预测AI助手，竞猜赢奖并捐建球场

千问上线首个足球预测AI助手，基于海量大数据（含历史比赛、球员数据、伤病、美加墨地貌及天气等）。以6月22日挪威对塞内加尔为例，预测“1:1平局”，理由为气候差异。活动：参与全部104场竞猜，预测超80场且准确率超千问可抽万元大奖（100个名额）；预测超32场可抽千问AI眼镜G1（1000副），该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场，目标至少50所。

产品更新数据/训练

推荐理由：千问把AI预测和世界杯热点捆绑，玩法不算新鲜，但捐球场的设计让这件事多了点人情味。如果你对预测模型感兴趣，可以看看它怎么处理天气和地貌数据，虽然实际准确率还得踢了才知道。

6月10日

15:10

公众号：千问APP（阿里）

千问上线国内首个全周期高考志愿填报Agent，免费服务全国考生

千问今日上线国内首个全周期高考志愿填报Agent，基于千问高考志愿大模型和夸克8年高考数据，免费为全国考生提供服务。该Agent具备“志愿日历”“志愿报告”“志愿问答”三项核心能力：志愿日历根据选科、估分等信息量身定制分步骤规划；志愿报告今年升级，可捕捉细节需求、实时调整并具备自我检查机制；志愿问答融合位次法定位等专家经验。同时开展“暖芒公益”计划，针对老旧机型与弱网环境进行优化。

智能体产品更新数据/训练

关联讨论 1 条

6月9日

17:55

Hugging Face：Blog（RSS）

精选68

NeuroBait：微调AI助手，为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手，旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA（r=16, alpha=16）在Unsloth上训练3个epoch，学习率2e-4，最大序列长度2048，使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space（ZeroGPU），使用Gradio和标准transformers+peft，运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单，而是根据用户上下文给出3-6句温暖流畅的回复，引导用户找到一件微小可立即执行的动作，从而激发多巴胺、降低启动阻力。

Hugging Face 教程/实践数据/训练

推荐理由：对ADHD群体来说，这是一次真正从需求出发的AI尝试。它不做计划列表，而是用一个温暖的动感火花打破僵局，让AI从理论走向陪伴。如果你或身边人容易'卡住'，可以试试这个Space。

10:28

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁 inclusionAI 开源 AReno：单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno，一个易用且快速的工具包，可在单节点上扩展强化学习后训练（RL post-training）。

开源/仓库数据/训练

02:15

Dwarkesh Patel：Podcast & Blog（RSS）

精选66

样本效率黑洞：AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系，其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖，样本效率的瓶颈如同引力中心，将各色能力凝聚在一起。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 样本效率低的问题算透了，人类 2 亿 token 学会的事，模型要万亿级，缩放定律也补不上这个黑洞。做 AI 的该认真想想，数据驱动这条路有没有尽头。

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

6月5日

10:24

公众号：龙猫LongCat（美团）

美团LongCat大模型人才校招全球启动

美团LongCat大模型启动全球人才校招，面向全球招募人才，目标是构建从数字世界到物理世界的全球标杆AGI，欢迎加入。

数据/训练行业动态

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。