01:08
Apple Machine Learning Research(RSS)
VideoFlexTok:可变长度粗到细视频分词VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
推荐理由:把视频 tokenization 从固定网格改成变长 coarse-to-fine,训练效率提升明显,还能做更长的视频。研究角度挺漂亮,但离产品落地还有距离,做视频生成的可以追一下。
17:06
Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。
推荐理由:把 Google Health API 封装成终端和 AI 代理友好的 CLI,一次性解决了认证、JSON 输出和分页这些烦人细节,想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手,但它的影响仅限于个人健康数据爱好者这个小圈层。
01:39
Meta Engineering Blog(RSS)
Meta 大规模 AI 存储蓝图Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
推荐理由:Meta的存储架构复盘给出了一条明确路径,从重写元数据到分层缓存,他们把GPU利用率和研究者迭代速度同时提升了一个档次,做AI训练平台的值得细读。
04:34
Anthropic:当AI成本超过工程师薪酬Anthropic在算力上的支出达到每位工程师每年51.5万美元,是其完全薪资(22.4万美元)的2.3倍。相比之下,顶尖1%软件公司的算力支出为8.9万美元,中位数仅为1.37万美元。三个2029年情景预测了这一差距的缩小路径。
推荐理由:Tomer Tunguz 用数据把 AI 公司的烧钱速度拆得很细,Anthropic 每个工程师年算力成本 51.5 万美元,是工资的 2.3 倍,这个数字对重新理解 SaaS 毛利率很有冲击力。
15:01
SK 集团会长崔泰源:到 2035 年建设 15GW AI 数据中心,总投资达 1000 万亿韩元SK 集团会长崔泰源 6 月 29 日宣布,计划到 2035 年建成 15GW AI 数据中心容量,作为韩国国家级基础设施和实体 AI 时代核心底座。项目总投资 1000 万亿韩元(约 4.4 万亿元人民币),未来 10 年保持年均 100 万亿韩元以上国内投资,旨在实现从出口传统商品向智能服务的转变,构建韩国智能市场。此外,SK 海力士将向韩国西南部投资 400 万亿韩元,半导体供应项目总投资达 1100 万亿韩元(约 4.84 万亿元人民币)。
推荐理由:SK 集团喊出 1000 万亿韩元建 AI 数据中心,数字唬人但周期长达十年,更像一种姿态宣示,真正改变算力市场格局还得看后续执行力和融资落地。
09:59
国家统计局:1-5月规上工业企业利润增18.8%,电子行业利润增103.9%贡献43.1%1—5月全国规上工业企业利润同比增18.8%。电子行业利润增103.9%,贡献率43.1%,主因全球AI技术变革推动高端算力芯片和存储芯片需求爆发。原材料制造业利润增83.1%,其中有色增117.1%、化工增71.6%。高技术制造业利润增44.7%,电子专用材料制造增665.4%。企业每百元营收成本降0.59元,营收利润率5.56%,为2024年以来累计最高。
推荐理由:国家统计局这组数据让AI不再是融资故事,电子行业利润增长103.9%,AI需求是实实在在的引擎,硬件供应链的价值该被重估了。
23:51
Dwarkesh Patel:Podcast & Blog(RSS)
下一个重大突破:AI在工作中学习AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。
推荐理由:RLVR 范式能否通向 AGI?Dwarkesh 指出关键瓶颈在于样本效率和 grindability,他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界,虽然离落地尚远,但值得每一个关心 AI 下一步的人细读。
03:01
Hacker News 热门(buzzing.cc 中文翻译)
IBM 首度推出亚纳米级芯片技术IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。
推荐理由:IBM 把芯片制程推进到亚纳米,0.7nm 意味着 AI 芯片能塞进两倍晶体管,这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年,但技术路线图清晰,值得关注。
00:37
General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。
推荐理由:用游戏按键数据训练世界模型,并在真机上八分钟完成适配,这个思路让具身智能看到了一条可规模化的路径。投资人押注的其实是 Medial 独有的动作标注数据飞轮。
11:29
Hacker News 热门(buzzing.cc 中文翻译)
Anthropic称阿里巴巴非法获取了Claude AI模型的功能Anthropic指控阿里巴巴未经授权提取了其Claude AI模型的能力。该指控基于Anthropic的调查,认为阿里巴巴通过逆向工程或其他手段复制了Claude的核心技术。目前阿里巴巴尚未公开回应。
关联讨论 1 条Ars Technica:AI(RSS)
推荐理由:Anthropic正式指控阿里巴巴非法提取Claude能力,这不是普通知识产权纠纷,而是头部AI公司对模型能力窃取的首次公开控诉,可能重塑API和开源生态的游戏规则。
04:07
OpenRouter:Announcements(RSS)
OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。
推荐理由:ZDR 远不止“不存数据”这么简单,提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了,做合规服务的人可以仔细看看。
00:15
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。
推荐理由:英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多,内存省了近三分之一,代码只需改一行 import,做训练的可以立刻升级。
08:00
HuggingFace Daily Papers(社区热门论文)
可验证搜索不是可学习的链式思维论文以九个确定性生成器推理任务为测试床,证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中,即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练,蒸馏后准确率始终为0.01–0.07,而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八(71%),但无法前向推导。干预实验揭示密码键后,同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录,让模型仅做回忆加验证,才能学会该任务(Private LB 0.92)。结论:蒸馏学到的是记忆和验证,而非搜索。
推荐理由:这篇论文给CoT蒸馏泼了盆冷水,证明回溯搜索这种过程是学不会的,模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。
01:14
Dwarkesh Patel:Podcast & Blog(RSS)
AI中心的数据黑洞智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。
推荐理由:Dwarkesh 把 AI 的‘笨’归因于数据效率远低于人类,计算虽简但直指要害,他给出的一个逆向洞察是开源模型四个月追上闭源,正是数据驱动进步的最好证据。
15:55
HuggingFace Daily Papers(社区热门论文)
HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
推荐理由:让机器人看人类干活视频,预训练效果居然比直接用真实机器人数据更好,这个反直觉发现可能彻底改变具身智能的数据策略,做机器人的值得认真读一读。
23:47
超越 LoRA:如何选择最佳参数高效微调技术?参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
推荐理由:HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛,图像生成任务上 OFT 表现更好,而且切换只需改一行配置。对微调选型有实打实的参考价值,但数据集有限,别全信。
23:05
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
推荐理由:这是AI辅助罕见病诊断的严肃实证,4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远,但证明推理模型能帮专家从旧数据里挖出新线索。
11:43
HuggingFace Daily Papers(社区热门论文)
Sumi:从头训练的7B开源均匀扩散语言模型Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
10:40
首个统一科学大模型 LOGOS 正式开源LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
关联讨论 1 条IT之家(RSS)
推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
11:56
Hacker News 热门(buzzing.cc 中文翻译)
Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。
推荐理由:Wolfram Language 15 把 AI 助手直接内嵌进笔记本,加上符号音乐和 ModelFit 超级函数,对用代码思考的人来说,这是今年最扎实的版本升级。
17:41
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。
推荐理由:Flash-KMeans 把 k-means 从离线预处理拉进了在线循环,200 倍加速不是纸面数字,而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。
01:48
Hacker News 热门(buzzing.cc 中文翻译)
Maxproof 论文发布6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。
推荐理由:MiniMax把数学证明拉到IMO金牌线以上,用的不是更大模型而是群体搜索+验证-修复的test-time scaling,做推理产品的人该看看这套流程。
11:00
HuggingFace Daily Papers(社区热门论文)
WEAVER:一种更优、更快、更长的机器人操作世界模型WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
推荐理由:世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标,真机实验把成功率拉高38%,代码模型全开源,搞具身智能的值得认真读。
23:49
Chubby♨️@kimmonismus Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"杰夫·贝佐斯旗下AI公司Prometheus在成立仅7个月、尚无任何产品交付的情况下,以410亿美元估值完成120亿美元融资(最初估值62亿美元)。该公司定位为“人工通用工程师”,目标是将设计到制造的循环压缩10倍以上。但物理经济无法像互联网数据那样抓取,缺乏制造业训练数据。为此,Prometheus计划斥资1000亿美元收购传统工业企业,通过获取工厂生成的数据构建护城河。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)TechCrunch:AI(RSS)
推荐理由:贝索斯这12B融资最有趣的点不在金额,而在通过收购工厂获取真实制造数据来训练物理AI,这个数据护城河如果建成,后面玩家根本没法追。
17:00
千问推出首个足球预测AI助手,竞猜赢奖并捐建球场千问上线首个足球预测AI助手,基于海量大数据(含历史比赛、球员数据、伤病、美加墨地貌及天气等)。以6月22日挪威对塞内加尔为例,预测“1:1平局”,理由为气候差异。活动:参与全部104场竞猜,预测超80场且准确率超千问可抽万元大奖(100个名额);预测超32场可抽千问AI眼镜G1(1000副),该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场,目标至少50所。
推荐理由:千问把AI预测和世界杯热点捆绑,玩法不算新鲜,但捐球场的设计让这件事多了点人情味。如果你对预测模型感兴趣,可以看看它怎么处理天气和地貌数据,虽然实际准确率还得踢了才知道。
00:19
Google将保存用户的Lens图片、Search Live录音和Translate音频用于AI训练Google更新搜索交互数据保存方式,新增“Search Services History”设置,用于保存用户搜索时使用的图片、文件、音频和视频,包括Google Lens搜索的图片、实时搜索工具Search Live的录音、语音搜索和Translate中的语音片段。这些数据将被用于“提供、改进和开发AI模型”。用户可关闭该设置并禁用“Save Media”选项以避免保存。
推荐理由:Google这回悄悄把图片、录音存下来训练AI,默认开启,虽然可以关,但灰度操作值得每个用搜索的人看一眼。
09:47
Rohan Paul@rohanpaul_ai 中国2950亿美元国家AI算力基础设施计划中国拟投入2950亿美元建设全国性AI基础设施,将数据中心、电信运营商与国产芯片整合为一个国家支持的算力网络。国有企业中国移动、中国电信将主导运营,使AI基础设施更接近铁路、电网等公共服务属性。计划依赖本地供应商,华为技术将提供至少80%的AI芯片等核心技术。
推荐理由:中国把AI基建当国家电网来建,2950亿美元砸进的算力网络会重塑国产芯片和运营商格局,做AI基建和国产替代的都该认真跟一下。
06:40
Hacker News 热门(buzzing.cc 中文翻译)
如果 Claude Fable 不再帮助你,你永远都不会知道Claude Fable 一旦停止提供帮助,用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。
推荐理由:Anthropic 在模型卡中悄悄塞入针对竞争对手的降智策略,被开发者挖出来后又收回。这说明大模型公司的透明度承诺可能随时打折扣,依赖 Claude 做开发的团队该重新评估供应链风险了。
17:55
NeuroBait:微调AI助手,为ADHD大脑点燃多巴胺火花NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手,旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA(r=16, alpha=16)在Unsloth上训练3个epoch,学习率2e-4,最大序列长度2048,使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space(ZeroGPU),使用Gradio和标准transformers+peft,运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单,而是根据用户上下文给出3-6句温暖流畅的回复,引导用户找到一件微小可立即执行的动作,从而激发多巴胺、降低启动阻力。
推荐理由:对ADHD群体来说,这是一次真正从需求出发的AI尝试。它不做计划列表,而是用一个温暖的动感火花打破僵局,让AI从理论走向陪伴。如果你或身边人容易'卡住',可以试试这个Space。
14:55
HuggingFace Daily Papers(社区热门论文)
Reasoning Arena:可验证奖励不足时的迹线锦标赛针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
推荐理由:强化学习训推理模型常遇到奖励无法区分,这篇把被浪费的样本变成有效梯度,训练加速近 50% 同时性能还涨 7.6%,做 RL 训练的人值得细读。
02:15
Dwarkesh Patel:Podcast & Blog(RSS)
样本效率黑洞:AI能力背后隐藏的数据需求深渊将AI比作一个闪耀着能力的星系,其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖,样本效率的瓶颈如同引力中心,将各色能力凝聚在一起。
推荐理由:Dwarkesh 把 AI 样本效率低的问题算透了,人类 2 亿 token 学会的事,模型要万亿级,缩放定律也补不上这个黑洞。做 AI 的该认真想想,数据驱动这条路有没有尽头。
23:48
Job SearcherHugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。
推荐理由:这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。
21:53
Hacker News 热门(buzzing.cc 中文翻译)
您客厅里的智能电视是 AIScraping 经济中的一个节点智能电视被描述为 AI 抓取经济中的节点,客厅设备可能被用于大规模数据采集网络。该观点来自一篇安全博客,揭示了家庭联网设备在 AI 训练数据供应链中的潜在角色。
推荐理由:这篇把智能电视变成 AI 数据抓取节点的黑箱拆开了,逆向工程细节让人后背发凉,建议所有用智能电视或做 AI 数据的人都读一遍。
04:25
Google Research 发布被动心率监测系统 PHRMGoogle Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。
推荐理由:Google 这项发表在 Nature 上的研究,把手机前置摄像头变成了被动心率仪,而且专门解决了深肤色人群精度差的老问题,虽然离产品还远,但方向很对,穿戴设备的护城河可能又浅了一点。
00:00
LMSYS:Blog(Chatbot Arena 团队)
不再遗漏任何Token:解析Miles中的Token-In-Token-Out(TITO)Miles框架提出Token-In-Token-Out(TITO)原则,解决智能体强化学习中训练-推理不匹配:确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列(每任务一个样本),节省一个数量级计算开销并维持on-policy性。三种破坏场景:反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务(如SWE-Bench)轨迹含30-50轮。
推荐理由:LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了,TITO原则直接告诉你为什么之前训练不稳,做agent训练的都该看看这篇。
19:42
Nemotron 预训练的任务种子合成问答生成在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。
推荐理由:NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论,用 70 个公开任务训练集做种子生成新题目,100B token 实验把 GPQA 拉高 11 个点,做预训练的人值得看看他们怎么造的数据。