AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
6月4日周四
08:00HuggingFace Daily Papers(社区热门论文)56OPDLM:基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换
08:00HuggingFace Daily Papers(社区热门论文)57压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩
02:49Google Research:Blog(网页)72精选洪水韧性新篇章:Google 开源水文建模框架
02:42HuggingFace Daily Papers(社区热门论文)57条件假设生成:基于大语言模型的文本分析中研究者指定协变量
01:23Claude:Blog(网页)73精选Anthropic 用 Claude 赋能自助数据分析
6月3日周三
22:09IT之家(RSS)68谷歌母公司 Alphabet 宣布将股权融资规模增至 847.5 亿美元
21:41Hugging Face:Blog(RSS)55精选DharmaOCR 利用 DPO 将文本退化率降低 59.4%
20:49Chubby♨️60Microsoft MAI 技术报告:1T参数MoE,零蒸馏训练
19:37Hacker News 热门(buzzing.cc 中文翻译)49自然界中蛋白质折叠的不合理冗余
18:09IT之家(RSS)41SK 海力士展出 12 层堆叠 48GB HBM4E 内存,引脚速率 16Gbps
17:16The Verge:AI(RSS)61AI 用水问题,Google 认为找到了解决办法
15:39Alibaba Cloud46阿里云谈企业AI:从技术突破走向业务成果
14:42HuggingFace Daily Papers(社区热门论文)64PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿
13:09IT之家(RSS)52智元开源行业首个聚焦物理交互的具身数据集
11:37向阳乔木58斯坦福团队研究:未过滤数据训练大模型,效果可能优于清洗数据
11:09IT之家(RSS)60谷歌付费获取安卓开发者私有代码库访问权以改进AI编程工具
10:41HuggingFace Daily Papers(社区热门论文)56Humanoid-GPT:通过规模化数据与结构实现零样本动作追踪
10:32Satya Nadella82微软MAI模型与前沿调优能力发布
09:16MarkTechPost(RSS)64如何在 Google Colab 上使用 QLoRA 和 DPO 微调 LFM2:完整分步编码教程
09:09IT之家(RSS)58Meta 让步:员工可暂停鼠标键盘数据收集 30 分钟
08:00HuggingFace Daily Papers(社区热门论文)55Muon 优于 Adam 的曲率视角解释
08:00HuggingFace Daily Papers(社区热门论文)61DistIL:基于分布化DAgger的丰富反馈强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)55VideoKR:面向知识与推理密集型视频理解
08:00HuggingFace Daily Papers(社区热门论文)61重新思考持续经验内化:面向自进化LLM智能体
04:47Chubby♨️36Mustafa疑似泄露Mythos模型FLOP数据
04:32Perplexity58Perplexity 新增 Apple Health 数据接入与实验室功能
03:41HuggingFace Daily Papers(社区热门论文)66DOT-MoE:用于MoE化的可微最优传输
03:00Epoch AI46Epoch AI 发布 AI 发展轨迹调查问卷
02:32swyx38Mustafa泄露Mythos FLOP数据引热议
02:23🚨 AI News | TestingCatalog74TinyFish开源Bigset:自然语言生成实时更新数据集
01:40HuggingFace Daily Papers(社区热门论文)71精选AFUN: 迈向功能理解的可供性基础模型
00:22Gary Marcus:The Road to AI We Can Trust(RSS)55精选Gary Marcus:为什么事情终将崩塌
6月2日周二
22:44Rohan Paul57AI驱动预测最便宜安全AWS Spot实例舰队
20:40HuggingFace Daily Papers(社区热门论文)71精选NLP领域2018-2025年人类标注报告实践的大规模审计
16:47Berryxia.AI60字节跳动研究员顾全全宣布离职
16:43Rohan Paul64SK hynix宣布五年内晶圆产能翻倍,AI内存供应仍将持续紧张
15:07IT之家(RSS)56国家版权局等四部门启动"剑网 2026"专项行动
13:07IT之家(RSS)54三星在 2026 台北电脑展展示全球首款 HBM5 内存
11:40HuggingFace Daily Papers(社区热门论文)67PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型
10:07IT之家(RSS)47AI 气象模型 WeatherMesh-6 发布,预报精度超欧洲政府机构顶尖系统
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
08:00
HuggingFace Daily Papers(社区热门论文)
56
OPDLM:基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

现有方法将自回归模型(ARLM)转换为扩散语言模型(DLM)时面临两种分布偏移:目标函数切换导致知识丢失,以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM,采用On-Policy蒸馏(OPD)进行转换。学生模型(双向注意力的ARLM)生成自身轨迹,教师模型(冻结的原ARLM)在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练,消除了DLM的训练-推理不匹配,蒸馏机制保留了原ARLM知识。实验表明,OPDLM仅需原训练token量的1/15至1/7000,在多样任务上表现强劲,使DLM转换成为ARLM后训练手段。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹,经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%,训练速度提升2.0–7.6倍,推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率;压缩学生模型可保留高达96%的原始准确率,同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时,压缩轨迹缩小了与原始轨迹的差距,但未超过原始。

推理数据/训练论文/研究
02:49
Google Research:Blog(网页)
精选72
洪水韧性新篇章:Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由:谷歌开源的水文模型框架,是少数真正能救命的AI应用。不是秀参数,而是把工具直接塞给一线预报员,让他们用本地数据训练。务实,值得给赞。
02:42
HuggingFace Daily Papers(社区热门论文)
57
条件假设生成:基于大语言模型的文本分析中研究者指定协变量

计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式,忽略研究者领域知识中的协变量,导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架,通过纳入研究者指定的协变量,引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足(层不平衡)和差异方向可能逆转(符号反转)两个挑战,提出两种方法:引入特征-协变量交互检测符号反转,以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明,协变量感知的生成方法能在相关子群内产出更有用的假设。

arXiv数据/训练论文/研究
01:23
Claude:Blog(网页)
精选73
Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开,技能模板和「语义层优先」的强制流程是实打实的干货,做数据 agent 的团队可以直接抄作业。
6月3日
22:09
IT之家(RSS)
68
谷歌母公司 Alphabet 宣布将股权融资规模增至 847.5 亿美元

Alphabet 将股权融资规模从 800 亿美元增至 847.5 亿美元,用于投资 AI 基础设施与算力。其中 A 类普通股和 C 类资本股发行增至 180 亿美元,存托股份发行增至 167.5 亿美元;伯克希尔·哈撒韦以私募形式投资 100 亿美元。发行预计 2026 年 6 月初完成。

数据/训练行业动态
21:41
Hugging Face:Blog(RSS)
精选55
DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。

Hugging Face教程/实践数据/训练

推荐理由:DPO 不只能对齐,这篇直接用模型自身的垃圾输出当反例,把 OCR 的重复错误平均降了 59%。思路不复杂,但告诉做结构化生成的工程师:训练数据里最该保留的就是模型犯的错。
20:49
Chubby♨️@kimmonismus
60
Microsoft MAI 技术报告公开模型细节:1T 总参数,35B 活跃参数,在 33.5T tokens 上训练。最突出的特点是零合成数据、零知识蒸馏,推理、智能体行为、工具使用全部在后训练中从头学习。报告透明度极高,首次在此规模公开各迭代的 MFU 和完整缩放方案,目标成为前沿实验室。

elie: microsoft MAI tech report is a gold mine, one of the most transparent for a model at this scale. this model uses zero sy...

Microsoft数据/训练论文/研究
19:37
Hacker News 热门(buzzing.cc 中文翻译)
49
自然界中蛋白质折叠的不合理冗余

标题为《自然界中蛋白质折叠的不合理冗余》,指出蛋白质折叠结构存在不合理的冗余现象。文章发布于 research.ligo.bio,在 Hacker News 获得 100 点赞。

数据/训练论文/研究
18:09
IT之家(RSS)
41
SK 海力士展出 12 层堆叠 48GB HBM4E 内存,引脚速率 16Gbps

SK 海力士在 COMPUTEX 上展出 HBM4E 48GB 12Hi 样品,基于 12 层 32Gb 1cnm DRAM Die,引脚速率 16.0Gbps,带宽 4.0TB/s,较前代带宽提升 38%、单 Die 容量提升 33%。客户端存储方面,确认基于 V9 TLC 的 PVF01 为首款 DRAM-less PCIe Gen5 客户端 SSD。其他展品包括用于 DGX Spark 的 1anm 16GB LPDDR5X-8533、支持 DLC 液冷的 PEB210 E1.S SSD 及面向 Vera Rubin 的 1cnm 96GB LPDDR5X-9600 SOCAMM2。

数据/训练行业动态
17:16
The Verge:AI(RSS)
61
AI 用水问题,Google 认为找到了解决办法

Google 发布五项水管理新承诺,旨在减少 AI 数据中心对当地水资源的影响。核心目标包括到 2030 年实现补水总量超过数据中心用水量,同时投资当地水基础设施、寻找替代水源,并提高用水信息透明度。该公司表示将公开其整体用水情况。

Google数据/训练行业动态
15:39
Alibaba Cloud@alibaba_cloud
46
阿里云谈企业AI:从技术突破走向业务成果

阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

智能体数据/训练行业动态
14:42
HuggingFace Daily Papers(社区热门论文)
64
PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。

arXiv多模态数据/训练论文/研究
13:09
IT之家(RSS)
52
智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。

Hugging Face具身智能开源/仓库数据/训练
11:37
向阳乔木@vista8
58
斯坦福团队研究:未过滤数据训练大模型,效果可能优于清洗数据

斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。

数据/训练论文/研究
11:09
IT之家(RSS)
60
谷歌付费获取安卓开发者私有代码库访问权以改进AI编程工具

据IT之家报道,谷歌正联系安卓应用开发者,希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”,用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式,开发者保留100%知识产权。谷歌表示,真实代码包含生产环境中的复杂逻辑与业务背景,比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出,该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。

Google数据/训练编码行业动态
10:41
HuggingFace Daily Papers(社区热门论文)
56
Humanoid-GPT:通过规模化数据与结构实现零样本动作追踪

Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。

具身智能数据/训练论文/研究
10:32
Satya Nadella@satyanadella
82
凭借我们今天宣布的全新MAI模型和前沿调优能力,我们致力于帮助每家公司从仅仅使用前沿模型,转变为全面参与前沿领域。
Microsoft数据/训练模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)The Decoder:AI News(RSS)
09:16
MarkTechPost(RSS)
64
如何在 Google Colab 上使用 QLoRA 和 DPO 微调 LFM2:完整分步编码教程

本教程详细介绍了如何在 Google Colab 环境中,使用 QLoRA 和 DPO 方法对 LFM2 模型进行微调。内容涵盖了使用 TRL 和 PEFT 库进行监督微调、DPO 对齐以及适配器合并的完整分步编码过程。

教程/实践数据/训练
09:09
IT之家(RSS)
58
Meta 让步:员工可暂停鼠标键盘数据收集 30 分钟

Meta 已缩减其在办公电脑中预装追踪软件、收集员工鼠标移动与键盘输入数据用于 AI 训练的计划。根据内部备忘录,新控制功能允许员工每次暂停数据收集长达 30 分钟,并可申请豁免参与该项目。此前,该计划因软件过度消耗流量与电脑电量、涉嫌侵犯个人隐私而遭到员工强烈反对,部分员工将 Meta 称作“员工数据收割工厂”。Meta 表示,此举亦可能加重其在欧盟地区的合规风险。

Meta数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
55
Muon 优于 Adam 的曲率视角解释

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
DistIL:基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考持续经验内化:面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体arXiv数据/训练论文/研究
04:47
Chubby♨️@kimmonismus
36
什么?训练FLOPs和Gemini 3.1 Pro一样?

swyx: uhhh did Mustafa just leak the Mythos FLOP count?? was this public knowledge before, even if its an estimate i dont get ...

数据/训练行业动态
04:32
Perplexity@perplexity_ai
58
两种新方式将你的健康数据带入 Perplexity。 Perplexity 现在可在 iPhone 上连接 Apple Health。在 Computer 中使用你的睡眠、活动和 HRV 数据。 该功能现已在 Perplexity Health 中可用。添加实验室数据,询问生物标志物、抽血或检测结果。
产品更新搜索数据/训练
03:41
HuggingFace Daily Papers(社区热门论文)
66
DOT-MoE:用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。

arXiv推理数据/训练论文/研究
03:00
Epoch AI@EpochAIResearch
46
我们正在进行一项简短调查,以确保我们能产出关于 AI 发展轨迹最有价值的工作。 如果您尚未参与,我们很乐意听取您的意见。 (您可以在问卷末尾注册,加入我们的有偿用户研究小组。)

Epoch AI: Help us produce the most useful work on AI by taking our 5-minute survey: https://docs.google.com/forms/d/e/1FAIpQLSfzw_...

数据/训练行业动态
02:32
swyx@swyx
38
Mustafa是不是刚泄露了Mythos的FLOP数据?? 这之前是公开信息吗,就算是个估计值我也不明白这有什么好处

swyx: 12.30pm today on the @Microsoft Build stream @NoPriorsPod x @latentspacepod x @satyanadella Join us! :)

Microsoft数据/训练行业动态
02:23
🚨 AI News | TestingCatalog@testingcatalog
74
TinyFish发布了Bigset,一个开源的多智能体系统。用户只需用一句自然语言描述所需数据,系统的智能体便会从网络实时抓取、去重并整合信息,生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式,并支持用户自定义的刷新频率以保持数据始终为最新状态。

TinyFish: What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...

智能体开源/仓库搜索数据/训练
01:40
HuggingFace Daily Papers(社区热门论文)
精选71
AFUN: 迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由:在 affordance 基础模型方向做出一步,跨 8 个测试集大幅超越基线,并可直接部署到真实机器人,对具身智能的通用化是个值得关注的信号。
00:22
Gary Marcus:The Road to AI We Can Trust(RSS)
精选55
Gary Marcus:为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。

AnthropicOpenAI大佬观点数据/训练

推荐理由:Gary Marcus 把 AI 行业缺乏护城河、价格战、ROI 存疑的经济死结讲得很直白,金融圈越来越认同。虽然观点不新,但这回时机恰好卡在 Google 融资和 Anthropic 取消无限 API 的时候,信号意义很强。
6月2日
22:44
Rohan Paul@rohanpaul_ai
57
AI驱动预测最便宜安全AWS Spot实例舰队

该研究提出了一种AI驱动的服务,用于在启动前预测最便宜且安全的AWS Spot实例舰队。该服务通过时间感知模型学习AWS创建舰队的模式,并估算9个区域的舰队组合与成本,向用户返回排序后的区域选项。测试显示,在最多1500 vCPU的舰队上,预测结果与AWS完全匹配的比例达92.78%,整体准确率为99.79%,且所有推荐舰队均被AWS接受。关键发现是选择最佳区域比在单个区域内调整策略更重要,潜在成本节省最高可达64%。

数据/训练论文/研究部署/工程
20:40
HuggingFace Daily Papers(社区热门论文)
精选71
NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。

arXivHugging Face数据/训练论文/研究

推荐理由:NLP论文里的标注环节一直是个黑箱,这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍,值得每个做数据和评估的人细看。
16:47
Berryxia.AI@berryxia
60
字节跳动研究员顾全全宣布离职

2026年6月2日,字节跳动Seed团队研究员顾全全宣布离开。他在字节的三年间同时主导了AI药物发现与大语言模型两个核心方向。在AI药物发现领域,他主导构建了SeedFold(在多项benchmark上超越AlphaFold 3)、SeedProteo(性能优于AlphaProteo、RFdiffusion等)及DPLM系列蛋白质语言模型。在大语言模型方向,他于2025年初组建了优化与Scaling团队,搭建了可扩展的预训练技术栈,直接支撑了Seed 2.0及后续前沿模型的训练。

Quanquan Gu: Today marks my last day at ByteDance Seed. Over the past 3 years, I had the opportunity to work across two of the most e...

数据/训练行业动态
16:43
Rohan Paul@rohanpaul_ai
64
SK hynix宣布五年内晶圆产能翻倍,AI内存供应仍将持续紧张

为应对AI驱动的巨大需求,SK hynix计划在五年内将其晶圆产能翻倍,但仍预计供应紧张局面将持续至2030年。2026年第一季度,其在DRAM市场占比28.8%,在用于AI的HBM市场则以58%的份额领先。HBM因采用垂直堆叠封装以提供更高带宽,但受限于先进DRAM、封装和测试等物理因素,产能难以快速扩张。目前,SK hynix正与Nvidia、TSMC合作开发下一代HBM4基础芯片。

数据/训练行业动态
15:07
IT之家(RSS)
56
国家版权局等四部门启动"剑网 2026"专项行动

国家版权局、工业和信息化部、公安部、国家互联网信息办公室联合启动“剑网 2026”专项行动,时间从 6 月持续至 11 月。这是四部门第 22 次开展此项工作。行动重点关注四大领域:影视剧版权保护、文创版权保护、图书版权保护,以及人工智能领域版权整治。其中,人工智能领域重点推动解决大模型训练语料版权合规问题,并查处利用 AI 工具非法复制、改编、传播作品等侵权行为。

政策/监管数据/训练
13:07
IT之家(RSS)
54
三星在 2026 台北电脑展展示全球首款 HBM5 内存

三星在2026年台北电脑展上展示了全球首款HBM5内存。HBM5是面向高性能计算(HPC)和人工智能(AI)训练需求设计的第八代存储技术,预计于2029年至2031年间推出。该技术采用2nm基础裸片搭配1c nm DRAM制造工艺,并将采用浸没式冷却技术以应对超高功耗。性能方面,其I/O通道提升至4096-bit,以16-Hi(16层)堆叠为标准,预期每个堆叠的带宽将提升至4 TB/s。

产品更新数据/训练
11:40
HuggingFace Daily Papers(社区热门论文)
67
PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型

论文提出,参数高效微调(PEFT)不仅是全参数微调的低成本替代,更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开:Scale Up(更强共享先验提升小适配器效用)、Scale Down(探索适配器可靠性的最小化边界)、Scale Out(大规模持久化适配实例共存)。以MinT为例,展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明,PEFT有潜力成为持久化个人模型的紧凑底座,而不仅仅是预算替代方案。

智能体数据/训练论文/研究
10:07
IT之家(RSS)
47
AI 气象模型 WeatherMesh-6 发布,预报精度超欧洲政府机构顶尖系统

初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心(ECMWF)的传统与AI预报产品,其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据,形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资,估值8500万美元。

数据/训练模型发布
‹ 上一页
1…1415161718…43
下一页 ›