AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
6月18日周四
23:45HuggingFace Daily Papers(社区热门论文)55Discriminator-Guided RL:用数据自身奖励修正流匹配模型
23:20Epoch AI23Epoch AI 招聘设计师,推动研究可视化
23:14IT之家(RSS)68盖洛普最新研究:不经常使用 AI 的员工更容易成为被裁员对象
23:05OpenAI:官网动态(RSS · 排除企业/客户案例)72精选OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%
21:44HuggingFace Daily Papers(社区热门论文)51RODS:多轮工具智能体奖励驱动在线数据合成
20:53Rohan Paul73AI推动互联网内容生产进入新阶段
20:44HuggingFace Daily Papers(社区热门论文)57STARE:基于惊喜度的Token级优势重加权实现策略熵稳定
19:44HuggingFace Daily Papers(社区热门论文)48EfficientRollout:面向RL推理生成的自推测解码框架
16:56Alibaba Cloud18Quick BI V6.2 发布,9 大 AI 功能升级
16:14IT之家(RSS)40小米汽车详解超级电机 V8s EVO:AI 拓扑优化实现 28000rpm 高转速
13:14IT之家(RSS)71阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM
11:43HuggingFace Daily Papers(社区热门论文)74精选Sumi:从头训练的7B开源均匀扩散语言模型
10:43HuggingFace Daily Papers(社区热门论文)47Turing-RL:利用图灵奖励学习用户模拟器
10:40公众号:通义实验室(千问)75精选首个统一科学大模型 LOGOS 正式开源
10:21Deedy60Meta让核心工程师三到五成做数据标注
08:50Nathan Lambert64OpenAI 解决其所谓规模预训练问题
08:14IT之家(RSS)53SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM
08:00HuggingFace Daily Papers(社区热门论文)47DO-ALL:基于数据集蒸馏的持续测试时间适应框架
08:00HuggingFace Daily Papers(社区热门论文)41停车位占用识别的自监督方法
08:00HuggingFace Daily Papers(社区热门论文)48Grouped Query Experts:在 GQA 自注意力上的混合专家模型
08:00HuggingFace Daily Papers(社区热门论文)46流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习
08:00HuggingFace Daily Papers(社区热门论文)48HydraHead:从头部级功能异质性到专用注意力混合
08:00HuggingFace Daily Papers(社区热门论文)46Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体
08:00HuggingFace Daily Papers(社区热门论文)49何时、何地、如何:表格自监督学习的自适应分箱
05:42Epoch AI41Epoch AI 提出前沿AI研究60+任务分类法
04:48OpenAI68OpenAI 发布 LifeSciBench 生命科学基准测试
04:12GitHub Blog61精选GitHub 发布 CC0-1.0 开源多语言仓库级数据集,覆盖 README、Issue 和 PR
6月17日周三
23:15Ethan Mollick59OpenAI盈利背后:训练昂贵,自动化研究提效
23:02TechCrunch:AI(RSS)60XDOF获7000万美元融资,构建机器人训练数据基础设施
22:55CMU:Machine Learning Blog54预训练还不够"苦涩"
21:45Nathan Lambert28PPO vs GRPO辩论:策略梯度才是关键
21:30Hacker News 热门(buzzing.cc 中文翻译)50高分辨率神经细胞自动机(NCA)
20:42HuggingFace Daily Papers(社区热门论文)51EgoCS-400K:面向世界模型的第一人称游戏数据集
19:44Rohan Paul50SEFD:将SEC文件转化为LLM训练数据的新方法
19:12Rohan Paul55斯坦福发布SEFD:152B token结构化SEC文件数据集
18:00公众号:小红书技术(dots.llm)55小红书联合浙大推出 RedParrot:基于语义缓存的 NL-to-DSL 加速框架(ICDE 2026)
15:36HuggingFace Daily Papers(社区热门论文)47从自我未来学习:面向dLLMs的在线策略自蒸馏
11:56Hacker News 热门(buzzing.cc 中文翻译)76精选Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能
11:35HuggingFace Daily Papers(社区热门论文)38Spectral Forcing:通过输入侧频谱先验提升像素空间扩散模型效率
10:33HuggingFace Daily Papers(社区热门论文)43Looped World Models:循环架构实现世界模型参数效率提升达100倍
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
23:45
HuggingFace Daily Papers(社区热门论文)
55
Discriminator-Guided RL:用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。

arXiv图像生成数据/训练论文/研究
23:20
Epoch AI@EpochAIResearch
23
Help shape how the world understands AI. We're hiring two designers at Epoch AI to turn complex research into dashboards and visualizations researchers and policymakers can easily use. 帮助塑造世界理解 AI 的方式。Epoch AI 正在招聘两名设计师,将复杂研究转化为研究人员和政策制定者易于使用的仪表盘和可视化。
数据/训练行业动态
23:14
IT之家(RSS)
68
盖洛普最新研究:不经常使用 AI 的员工更容易成为被裁员对象

盖洛普今年2月对超2.3万名美国劳动者的调查显示,经常使用AI的员工被裁员风险更低。在美国科技行业,每月至少使用一次AI的员工预计被裁概率约6%,使用较少的达18%。科技行业外也存在类似趋势但差距较小。排除年龄、学历等因素后关联仍然存在。AI正形成新的职业分水岭,企业招聘已考察AI熟练程度。仅约1%被裁员工认为AI是直接原因,更多人归因于组织重组,但研究人员认为AI可能间接影响。

数据/训练现象/趋势
23:05
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。

OpenAI推理数据/训练论文/研究

推荐理由:这是AI辅助罕见病诊断的严肃实证,4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远,但证明推理模型能帮专家从旧数据里挖出新线索。
21:44
HuggingFace Daily Papers(社区热门论文)
51
RODS:多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。

智能体数据/训练论文/研究
20:53
Rohan Paul@rohanpaul_ai
73
AI推动互联网内容生产进入新阶段

《经济学人》数据显示,AI大幅提升了内容产量。亚马逊电子书月发布量从ChatGPT-3.5前的约10万增至2025年底约30万,AI生成文本是主要推手。美国自行提交民事诉讼2023—2025年翻倍至4.1万,2026年样本中18%由AI撰写,成功率未降。arXiv论文拒稿率自2023翻倍,2025年57%论文带AI影响语言(2023年12%)。iOS App月发布量突破10万(此前低于5万)。音乐领域每日新增7.5万首AI歌曲(此前1万),44%新上传为AI制作,97%听众无法区分真伪。

The Economist: From literature to law to music, AI has lowered the skills and effort required for some work. These charts show how much...

数据/训练现象/趋势
20:44
HuggingFace Daily Papers(社区热门论文)
57
STARE:基于惊喜度的Token级优势重加权实现策略熵稳定

STARE是一种基于惊喜度的token级优势重加权方法,用于解决GRPO等可验证奖励强化学习中常见的策略熵崩溃问题。通过对GRPO下token级熵动态的一阶梯度分析,STARE识别出熵关键token子集并选择性重加权其有效优势,同时引入目标熵闭环门控实现稳定熵调节。在1.5B至32B参数的模型上,覆盖短思维链、长思维链和多轮工具使用三类任务,STARE能稳定训练数千步,保持策略熵在目标带内。在AIME24和AIME25基准上,STARE平均准确率高出DAPO等基线4%–8%,且反思token和响应长度协同增长。代码已开源。

GitHub数据/训练论文/研究
19:44
HuggingFace Daily Papers(社区热门论文)
48
EfficientRollout:面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式,但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型,无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架:从目标模型量化出草稿模型,无需额外预训练或在线适应;同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线,该框架将推理生成延迟降低最高19.6%,端到端延迟降低12.7%,且不损失最终模型质量。

推理数据/训练论文/研究
16:56
Alibaba Cloud@alibaba_cloud
18
🚀 Quick BI V6.2 刚刚发布--带来 9 项重大核心功能升级,旨在让 AI 真正服务于实际业务运营。 👉🏻 点击查看详情→https://int.alibabacloud.com/m/1000414628/ #QuickBI #BusinessIntelligence #DataAnalytics #AIforBusiness #SmartQ
产品更新数据/训练
16:14
IT之家(RSS)
40
小米汽车详解超级电机 V8s EVO:AI 拓扑优化实现 28000rpm 高转速

小米超级电机 V8s EVO 最高转速 28000rpm,借助 AI 拓扑优化模拟超 100 万种硅钢片结构,无需碳纤维缠绕即扛住离心力,单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流,电控峰值功率密度 120kW/L,电机功率提升 5.9%。峰值效率 98.38%,0.15mm 超薄硅钢片使铁损降 18.7%,X-Pin 绕组降铜损 3.6%,为 YU7 GT 带来 6.4km CLTC 续航提升。双电机(V8s EVO + V6s Plus)合计 1003PS,极速 300km/h,0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。

教程/实践数据/训练部署/工程
13:14
IT之家(RSS)
71
阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM

6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。

开源生态数据/训练模型发布
11:43
HuggingFace Daily Papers(社区热门论文)
精选74
Sumi:从头训练的7B开源均匀扩散语言模型

Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。

arXivHugging Face开源生态数据/训练

推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
10:43
HuggingFace Daily Papers(社区热门论文)
47
Turing-RL:利用图灵奖励学习用户模拟器

提出Turing-RL,一种基于图灵测试的强化学习方法,用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励,根据用户历史评估生成回复是否与真实用户不可区分,用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域,Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明,优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。

arXiv数据/训练论文/研究
10:40
公众号:通义实验室(千问)
精选75
首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
10:21
Deedy@deedydas
60
我以为这是个玩笑。 Meta现在让核心团队中30-50%的软件工程师变成了数据标注员。 他们的工作是在一个名为Agent Data Optimization的部门中"对AI生成的GitHub仓库提供人类反馈"。 也许我们终究都是训练数据生成器。
Meta数据/训练现象/趋势
08:50
Nathan Lambert@natolambert
64
OpenAI 刚刚解决了他们所谓的"规模预训练问题"。

Noam Shazeer: I'm excited to share that I'll be joining OpenAI and look forward to working with the exceptional team there. It was a d...

GoogleOpenAI数据/训练行业动态
08:14
IT之家(RSS)
53
SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM

SK海力士今日宣布,已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM,较HBM4引脚速率最高达16Gbps,能效提高20%以上,热阻降低约17%。采用先进MR-MUF工艺,12层堆叠实现48GB容量,并降低数据传输延迟,旨在提升下一代AI数据中心和大规模计算系统的处理效率。

产品更新推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
47
DO-ALL:基于数据集蒸馏的持续测试时间适应框架

DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。

arXiv开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
停车位占用识别的自监督方法

提出一种无需目标停车场标注样本的自监督占用识别方法。训练策略包含两个自监督阶段(先在未标注通用数据上预训练,再在未标注目标数据上微调),然后仅在通用停车场标签上监督微调。采用SimCLR与ResNet-50编码器,在PKLot、CNRPark-EXT和PLds三个数据集上通过留一法交叉环境评估。还引入两阶段部署策略:先部署强通用模型,再结合部署前N天收集的未标注图像自监督训练专用模型。强通用模型平均准确率97.2%,两阶段策略提升至97.8%。模型和代码已开源。

GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Grouped Query Experts:在 GQA 自注意力上的混合专家模型

Grouped Query Experts(GQE)在分组查询注意力(GQA)的每个组内增加混合专家层,由路由器为每个 token 挑选 k 个 query-head 专家激活,而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下,GQE 在下游准确率上与全激活 GQA 基线持平,同时每 token 仅激活一半 query heads,减少了注意力计算量。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
HydraHead:从头部级功能异质性到专用注意力混合

HydraHead 沿 head 轴混合 Full Attention(FA)与 Linear Attention(LA),通过可解释性驱动策略保留检索关键 head 的 FA,并设计缩放归一化融合模块弥合二者输出分布差异。借助三阶段迁移流水线(参数复用与知识蒸馏),仅训练 15B tokens,HydraHead 在 512K 上下文长度上较基线提升超 69%,以 7:1 的 LA-to-FA 比例达到 3:1 逐层混合的长上下文性能,接近同体量原生 256K 上下文长度的 Qwen3.5。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Connect the Dots:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体

Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
何时、何地、如何:表格自监督学习的自适应分箱

针对医学表格数据标签获取成本高的问题,研究者提出训练自适应离散化预任务Adaptive Binning。该方法将离散化与学习过程耦合,通过特征级粗到细课程逐步细化分箱,并在检测到训练平台期时选择表征感知的分割点,同时优化值空间和表征空间一致性。异质性感知目标统一分类重建与有序监督。在公共医学表格数据集上,线性探测和微调均取得一致提升,无需数据集特定分箱调参。还引入标准化医学表格SSL基准。代码已开源。

arXiv数据/训练论文/研究
05:42
Epoch AI@EpochAIResearch
41
AI 距离自动化 AI 研发还有多远?目前,经济学家用于追踪自动化的工具过于粗糙。 在本周的新闻通讯中,@datagenproc、@joemkwon 和 @ansonwhho 提出了一种更精细的工具:对前沿 AI 研究中 60 多项任务进行详细分类。🧵
数据/训练论文/研究
04:48
OpenAI@OpenAI
68
推出 LifeSciBench,一个用于衡量和改进 AI 如何支持现实世界生命科学研究的基准测试。 该基准测试与 173 位来自生物技术和制药研究的科学家共同开发,包含 750 项专家编写的任务,覆盖七个生物学研究工作流程。
OpenAI数据/训练论文/研究
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
04:12
GitHub Blog
精选61
GitHub 发布 CC0-1.0 开源多语言仓库级数据集,覆盖 README、Issue 和 PR

GitHub 推出一个新的仓库级数据集,采用 CC0-1.0 许可证,旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容,加速多语言 AI 开发。

GitHub开源/仓库数据/训练

推荐理由:GitHub 发布了一个多语言开发者内容数据集,CC0 许可,对于训练跨语言代码模型和辅助翻译有直接价值,做多语言 Copilot 的团队应该会关注。
6月17日
23:15
Ethan Mollick@emollick
59
如果泄露的财务数据正确,OpenAI 在服务客户方面实现盈利,毛利率达 40% 以上。但训练成本仍然极其高昂。 自动化 AI 研究也可能是一种提高训练效率的策略:超人类研究员可以用更少资源做更多事。
OpenAI数据/训练行业动态
23:02
TechCrunch:AI(RSS)
60
XDOF获7000万美元融资,构建机器人训练数据基础设施

机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。

具身智能数据/训练行业动态
22:55
CMU:Machine Learning Blog
54
预训练还不够"苦涩"

Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。

大佬观点数据/训练
21:45
Nathan Lambert@natolambert
28
我还没准备好面对这场PPO vs GRPO的辩论。又是老调重弹。事实就是策略梯度好。
大佬观点安全/对齐数据/训练
21:30
Hacker News 热门(buzzing.cc 中文翻译)
50
高分辨率神经细胞自动机(NCA)

针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。

图像生成数据/训练论文/研究
20:42
HuggingFace Daily Papers(社区热门论文)
51
EgoCS-400K:面向世界模型的第一人称游戏数据集

EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。

多模态数据/训练论文/研究
19:44
Rohan Paul@rohanpaul_ai
50
SEFD:将SEC文件转化为LLM训练数据的新方法

斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法,将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式,保留合并表头、缩进、符号、跨度和表格层级,同时压缩冗余呈现模板,使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照,估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。

开源生态数据/训练论文/研究
19:12
Rohan Paul@rohanpaul_ai
55
斯坦福发布SEFD:152B token结构化SEC文件数据集

斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。

arXiv开源生态数据/训练论文/研究
18:00
公众号:小红书技术(dots.llm)
55
小红书联合浙大推出 RedParrot:基于语义缓存的 NL-to-DSL 加速框架(ICDE 2026)

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架,通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG,将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上,平均实现 3.6x 推理加速,执行准确率提升 8.26%,表选择准确率达 85.99%;在开放基准 Spider-DSL 和 BIRD-DSL 上,准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底,支持增量缓存更新。

检索增强数据/训练论文/研究
15:36
HuggingFace Daily Papers(社区热门论文)
47
从自我未来学习:面向dLLMs的在线策略自蒸馏

d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。

推理数据/训练论文/研究
11:56
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。

产品更新多模态数据/训练

推荐理由:Wolfram Language 15 把 AI 助手直接内嵌进笔记本,加上符号音乐和 ModelFit 超级函数,对用代码思考的人来说,这是今年最扎实的版本升级。
11:35
HuggingFace Daily Papers(社区热门论文)
38
Spectral Forcing:通过输入侧频谱先验提升像素空间扩散模型效率

像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。

图像生成数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
43
Looped World Models:循环架构实现世界模型参数效率提升达100倍

Looped World Models(LoopWM)首次将循环架构引入世界建模。通过参数共享的Transformer模块迭代精炼潜在环境状态,LoopWM在自适应计算中自动匹配每个预测步骤的复杂度,相比传统方法参数效率提升达100倍。该项工作正交于模型规模与训练数据扩展,将迭代潜在深度确立为世界模拟的新扩展轴。

数据/训练论文/研究
‹ 上一页
1…678910…42
下一页 ›