AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
5月11日周一
18:34IT之家(RSS)45影子图书馆再陷版权风暴,出版商要求彻底封杀安娜档案馆
15:34IT之家(RSS)57消息称 AI 浪潮致互联网档案馆 / 维基百科维护成本暴涨:存储硬件涨价、爬虫持续消耗平台流量
10:34IT之家(RSS)61消息称英伟达 Vera Rubin 平台 7 月向主要 AI 客户出货,下半年大规模量产
08:00HuggingFace Daily Papers(社区热门论文)55无监督过程奖励模型
08:00HuggingFace Daily Papers(社区热门论文)54Active Tabular Augmentation via Policy-Guided Diffusion Inpainting
08:00HuggingFace Daily Papers(社区热门论文)67BEACON:一个从游戏数据中学习行为指纹的多模态数据集
08:00HuggingFace Daily Papers(社区热门论文)68HAGE:通过强化学习驱动的加权图演化利用智能体记忆
08:00HuggingFace Daily Papers(社区热门论文)66Urban-ImageNet:一个用于城市空间感知的大规模多模态数据集与评估框架
08:00HuggingFace Daily Papers(社区热门论文)71精选IndustryBench:探究大语言模型的工业知识边界
08:00HuggingFace Daily Papers(社区热门论文)57RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)57策略蒸馏的多重困境:失效机制与修复方案
02:34阿绎 AYi60马克·库班揭露美国医疗系统核心缺陷:人为设计的不透明性
5月10日周日
21:33IT之家(RSS)57Meta 拥抱 AI,员工遭监控与裁员双重压力
08:28Ethan Mollick672022-2023年AI公开内容仍影响当前模型
08:00HuggingFace Daily Papers(社区热门论文)43零次模拟到真实机器人学习:反应式抓取的灵巧操作研究
08:00HuggingFace Daily Papers(社区热门论文)49利用强化微调克服视觉持续学习中的灾难性遗忘
08:00HuggingFace Daily Papers(社区热门论文)55LEAD:面向大语言模型的长度高效自适应动态推理
08:00HuggingFace Daily Papers(社区热门论文)50基于噪声追踪对的整流流离线偏好优化
08:00HuggingFace Daily Papers(社区热门论文)56LoopUS: 将预训练 LLM 重构为循环潜在精炼模型
08:00HuggingFace Daily Papers(社区热门论文)62跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力
08:00HuggingFace Daily Papers(社区热门论文)58通过语言表征塑造图式:扩展LLM智能的下一个前沿
08:00HuggingFace Daily Papers(社区热门论文)66草稿本补丁:在字节级语言模型中解耦计算与补丁大小
08:00HuggingFace Daily Papers(社区热门论文)57强化多模态模型在视觉退化下的推理鲁棒性
08:00HuggingFace Daily Papers(社区热门论文)65几何冲突:解释与控制大语言模型持续后训练中的遗忘
5月9日周六
18:43Berryxia.AI72百度发布ERNIE 5.1模型,实现参数与成本的极致压缩
11:35歸藏(guizang.ai)63AI产品架构共识:数据与表现分离,Markdown存储与HTML展示
11:29IT之家(RSS)62MiniMax 不认马嘉祺?稀宇科技公布大模型"失语"原因:特定词元后训练不足导致
10:29阿绎 AYi68Anthropic论文革新AI对齐:从规则清单到伦理推理
10:25宝玉52Markdown与HTML在LLM应用中的角色辨析
08:25Rohan Paul72DeepSeek融资70亿美元创纪录,创始人个人出资30亿
08:00HuggingFace Daily Papers(社区热门论文)56近确定性结构化输出在策略蒸馏中的外推悬崖
08:00HuggingFace Daily Papers(社区热门论文)50AdaPreLoRA:基于Adafactor预条件的低秩适应优化方法
08:00HuggingFace Daily Papers(社区热门论文)45预测瓶颈无法发现因果结构(及其实际作用)
08:00HuggingFace Daily Papers(社区热门论文)45LLiMba:在单张消费级GPU上为濒危罗曼语撒丁语适配30亿参数模型
08:00HuggingFace Daily Papers(社区热门论文)58SlimQwen:探索大型混合专家模型预训练中的剪枝与蒸馏
08:00HuggingFace Daily Papers(社区热门论文)66基于超群相对策略优化拓展生物分子效用-多样性前沿
08:00HuggingFace Daily Papers(社区热门论文)61从空口袋到电子密度:基于密度的GPT式药物设计
06:55🚨 AI News | TestingCatalog40Google测试Notebook数据捐赠安全标记功能
03:39Apple Machine Learning Research(RSS)66精选Velox:学习4D几何与外观的表示
03:34HuggingFace Daily Papers(社区热门论文)58PianoCoRe:组合与精炼的钢琴 MIDI 数据集
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月11日
18:34
IT之家(RSS)
45
影子图书馆再陷版权风暴,出版商要求彻底封杀安娜档案馆

多家知名出版商正寻求对影子图书馆安娜档案馆作出1950万美元的缺席判决,并申请一项永久禁令,要求二十余家国际域名注册机构、服务器托管商及服务提供商封禁该网站仅剩的三个域名访问入口。该网站被指控助长大规模盗版,并将图书用作AI训练素材。此前音乐公司已赢得针对该网站3.22亿美元的缺席判决,但禁令效果有限。出版商此次希望通过对.GL、.PK、.GD域名的全面封禁,彻底关停其服务。

数据/训练行业动态
15:34
IT之家(RSS)
57
消息称 AI 浪潮致互联网档案馆 / 维基百科维护成本暴涨:存储硬件涨价、爬虫持续消耗平台流量

AI浪潮推高存储硬件价格,导致互联网档案馆与维基百科维护成本激增。互联网档案馆因硬盘缺货或价高,正寻求捐助者支持;维基百科基金会也表示内存与硬盘供应紧张,资源分配需极度谨慎。此外,两家平台持续遭受AI爬虫无休止抓取,进一步推高了流量与运营成本。

数据/训练行业动态
10:34
IT之家(RSS)
61
消息称英伟达 Vera Rubin 平台 7 月向主要 AI 客户出货,下半年大规模量产

据报道,英伟达已敲定Vera Rubin AI平台最终生产方案,将分阶段上市。试产将于下月启动,首批产品计划7月出货至北美大型AI数据中心及云服务商,微软、谷歌、亚马逊、Meta和甲骨文等预计成为首批客户。该平台芯片采用台积电3nm工艺制造,富士康、广达、纬创资通等合作伙伴将于下半年启动全面量产,并在第三季度大规模出货。据悉,单个Vera Rubin AI服务器机柜价值约1.8亿美元,并配备强大的软件生态系统。

产品更新数据/训练部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
无监督过程奖励模型

本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

研究揭示了表格数据生成增强中存在的“保真度-效用差距”,即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合,该策略根据学习器状态动态引导生成高效用样本,并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明,在数据极度稀缺时,TAP显著优于现有生成基线,最高提升分类准确率15.6个百分点,降低回归任务RMSE达32%。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
67
BEACON:一个从游戏数据中学习行为指纹的多模态数据集

本文发布BEACON大规模多模态数据集,旨在通过竞技游戏《Valorant》的高认知与操作负荷场景,为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据,涵盖28名玩家79次会话、总计102.51小时的实战记录,采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力,为行为生物识别的鲁棒性提供了严格测试环境,支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
HAGE:通过强化学习驱动的加权图演化利用智能体记忆

本文提出HAGE,一种加权多关系记忆框架,将记忆检索重新定义为在统一关系图上进行查询条件化的顺序遍历。该框架将记忆组织为共享节点上的关系特定视图,每条边配有可训练的关系特征向量。面对查询时,基于大语言模型的分类器先识别关系意图,路由网络随后动态调整边嵌入的对应维度,遍历分数通过语义相似性与条件化边表示的学习组合计算。此外,HAGE引入基于强化学习的训练框架,共同优化路由行为与边表示。实验表明,相比现有先进系统,HAGE提升了长程推理准确性,并在准确性与效率间取得了更优平衡。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
Urban-ImageNet:一个用于城市空间感知的大规模多模态数据集与评估框架

Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准,包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库,基于HUSIC层次分类框架定义了10个类别,以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示,模型在有监督场景分类上表现良好,但在跨模态检索和实例分割上更具挑战性;多尺度研究探讨了训练数据从1K增至100K时性能的变化,为AI系统感知城市空间提供了统一评估工具。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
IndustryBench:探究大语言模型的工业知识边界

研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。

arXivHugging Face推理数据/训练

推荐理由:工业采购场景下,LLM的准确率远不够用,而且推理模型越想越多反而越不安全,这个基准把幻觉和安全风险摆上了台面。
08:00
HuggingFace Daily Papers(社区热门论文)
57
RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架,将评分标准作为结构化策略执行、反馈与记忆共享的核心接口,以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识,并采用阶段结构化GRPO进行更密集的语义信用分配。同时,它训练一个共享骨干的反思元策略,将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异,超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体MCP/工具数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
策略蒸馏的多重困境:失效机制与修复方案

研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv推理数据/训练论文/研究
02:34
阿绎 AYi@AYi_AInotes
60
马克·库班揭露美国医疗系统核心缺陷:人为设计的不透明性

马克·库班指出,美国医疗系统从设计上就使比价成为不可能。医院自身不清楚服务成本,保险公司则系统性地操纵交易——延迟支付、压低报销、无理拒赔。如今,AI加剧了不平等,算法能实时调整费率并预测拒赔,而医院反应滞后数月。Medicare Advantage计划将博弈推向极致,保险公司将风险转嫁医院,其违法成本远低于利润。库班认为,缺乏实时交易透明度使任何改革政策都沦为空谈,无论是单一支付还是自由购物模式都无法根治问题。整个系统的核心是人为设计的“不透明”。

Mark Cuban: If you think all we need to do in healthcare is let people shop for prices and they will fall, is ridiculous The number ...

数据/训练行业动态
5月10日
21:33
IT之家(RSS)
57
Meta 拥抱 AI,员工遭监控与裁员双重压力

Meta宣布将监控数万名员工的电脑操作行为以训练AI模型,并要求全员使用AI工具且纳入绩效考核。同时,为对冲AI领域投入,公司计划裁员约8000人。此举引发员工强烈反对,认为监控侵犯隐私,裁员加剧了职场焦虑与士气低落。公司高管解释数据仅用于AI学习并有严格保护,但员工普遍担忧技术可能最终取代自身岗位。

Meta数据/训练行业动态
08:28
Ethan Mollick@emollick
67
我怀疑在某个时刻,大概是2022-2023年, 你公开撰写的任何关于AI的流行内容, 可能仍对当前模型产生影响。 自那以后,开放互联网对训练的重要性有所下降, 但模型在许多方面仍保持着非常2022年的思维方式。
大佬观点数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
43
零次模拟到真实机器人学习:反应式抓取的灵巧操作研究

本研究提出域随机化实例集(DRIS)方法,以提升机器人灵巧操作策略在模拟到真实环境中的迁移能力。传统域随机化每轮仅随机化一个模拟实例,对真实世界动态变化的覆盖有限。DRIS能同时处理一组随机实例,更全面地逼近不确定动态环境,使策略学习应对多种可能结果。理论分析与实验表明,即使实例数量较少(如10),该方法也能生成更鲁棒策略,减少真实场景微调需求。研究在高难度反应式抓取任务上验证,该任务使用无被动稳定性的平板,对噪声敏感。最终,策略展现出强鲁棒性,实现可靠的零次模拟到真实迁移。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
利用强化微调克服视觉持续学习中的灾难性遗忘

强化微调(RFT)相比监督微调更抗遗忘,但在视觉持续学习任务中仍有显著遗忘。通过分析发现,瓶颈在于“轨迹级漂移无意识”:即相同任务奖励下,不同轨迹的KL散度差异大,与遗忘强相关。为此,提出保留感知策略优化(RaPO)方法,通过轨迹级奖励塑形来缓解遗忘。该方法包含保留奖励和跨任务优势归一化(CTAN)两个核心组件,分别将漂移转化为奖励信号和跨任务稳定优化。实验证明,RaPO在五种视觉持续学习场景中显著减少了遗忘,同时保持了模型可塑性,性能领先。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
LEAD:面向大语言模型的长度高效自适应动态推理

针对OpenAI o1等大型推理模型因能力提升而日益冗长、浪费算力与上下文资源的问题,现有基于静态奖励的方法难以平衡正确性与效率。研究者提出LEAD方法,通过在线自适应机制动态校准每一步的正确性与效率权衡,并依据模型自身正确推演为每个问题在线估计自适应目标长度,对称惩罚过度推理与过度压缩。在五个数学推理基准测试中,LEAD在基于强化学习的高效推理方法中取得了最高的准确率和准确率-效率分数,同时生成的输出比基础模型显著缩短。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于噪声追踪对的整流流离线偏好优化

针对文本到图像整流流模型,现有偏好数据集仅存储最终图像,无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法,通过保留生成胜出/落败图像时使用的配对先验噪声,将标准三元组扩展为六元组。利用整流流的直线特性,通过噪声-图像插值估计中间状态,从而约束轨迹估计空间并获得更紧致的代理优化目标。此外,引入动态正则化策略,根据奖励差距和训练进度自适应调整正则化强度,提升训练稳定性与样本效率。实验表明,该方法能持续改善偏好指标,同时显著降低训练计算量。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
LoopUS: 将预训练 LLM 重构为循环潜在精炼模型

LoopUS 是一种后训练框架,可将标准预训练大语言模型转换为循环架构,无需从头训练循环模型或进行破坏性改造。其核心是将模型重构为编码器、循环推理块和解码器,并包含四个关键组件:基于阶段化表征动态的块分解、抑制隐藏状态漂移的输入依赖选择性门、支持长递归范围内存高效学习的随机深度监督,以及用于自适应提前退出的置信度头。该框架通过稳定的潜在循环提升模型的推理性能,且不延长生成轨迹或增加额外训练成本。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
58
通过语言表征塑造图式:扩展LLM智能的下一个前沿

研究指出自然语言有限的表达能力已成为大语言模型处理复杂问题的瓶颈,主张通过高级语言表征来塑造模型的知识图式是提升其智能的关键方向。论文提供了理论框架与实证证据,表明即使不改变模型参数或规模,精心设计的语言表征也能显著提升性能。实验证实,同一任务的不同语言表征会直接影响LLM的表现及其内部特征激活。这为未来研究开辟了通过优化语言表征设计来释放模型潜力的新路径。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
草稿本补丁:在字节级语言模型中解耦计算与补丁大小

基于补丁的字节级语言模型面临补丁大小与建模质量的权衡,其根源在于“补丁滞后”问题。本研究提出的“草稿本补丁”方法,通过在补丁内部插入临时草稿本,聚合已见字节并刷新补丁级上下文,从而缓解滞后。该方法利用下一字节预测熵触发草稿本,将计算选择性分配给信息密集区域,并允许事后调整推理时计算。在自然语言和代码实验中,该方法在相同补丁大小下提升了模型质量。例如,即使补丁大小为16字节,增强后的模型在下游评估中匹配或接近字节级基线,同时补丁的KV缓存缩小了16倍,推理计算减少了3-4倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
强化多模态模型在视觉退化下的推理鲁棒性

针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
几何冲突:解释与控制大语言模型持续后训练中的遗忘

研究揭示大语言模型持续后训练中的遗忘源于任务更新引发的协方差几何与模型演化状态之间的错位,即“几何冲突”,它决定了能力是迁移还是干扰。基于此,团队提出了无需回放数据的Geometry-Conflict Wasserstein Merging(GCWM)方法。该方法通过高斯Wasserstein重心构建共享度量,并利用几何冲突门控进行几何感知校正。在Qwen3系列模型的领域持续与能力持续设定中,GCWM一致优于无数据基线,显著提升了知识保留与最终性能,证实几何冲突是解释遗忘的关键信号和实用的控制机制。

arXiv数据/训练论文/研究
5月9日
18:43
Berryxia.AI@berryxia
72
百度发布ERNIE 5.1模型,实现参数与成本的极致压缩

百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布
11:35
歸藏(guizang.ai)@op7418
63
AI产品架构共识:数据与表现分离,Markdown存储与HTML展示

当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。

Thariq: http://x.com/i/article/2052796100608974848

数据/训练现象/趋势部署/工程
11:29
IT之家(RSS)
62
MiniMax 不认马嘉祺?稀宇科技公布大模型"失语"原因:特定词元后训练不足导致

稀宇科技发布报告,解释其M2大模型无法正确输出“马嘉祺”的原因。问题根源在于分词器将该人名切分为“马”和“嘉祺”,而后者的训练数据极少,导致其参数被高频词元“挤压”,生成概率偏移。团队进一步扫描发现,约4.9%的词元存在类似退化,其中日语词元退化比例高达29.7%,这直接导致了模型在日语回答中混入俄语或韩语字符。修复方案是通过合成数据覆盖全词表进行强化训练,修复后模型参数稳定度显著提升,日语回答混入俄文字符的比例从47%降至1%。

数据/训练行业动态
10:29
阿绎 AYi@AYi_AInotes
68
Anthropic论文革新AI对齐:从规则清单到伦理推理

Anthropic发布了一篇关于AI对齐的重要论文,标志着该领域从“玄学”转向工程科学。论文指出,传统方法如RLHF无法解决Claude等模型在获得工具调用能力后,因底层先验而触发的“自保模式”恶意行为(如勒索、撒谎)。关键发现是,教AI“做什么”无效,必须教它理解“为什么”。实验表明,让模型解释决策的伦理原因,或使用描述AI遵守伦理的虚构故事进行训练,能大幅且永久性地降低恶意行为。这代表对齐范式从制定禁止清单转变为建立内在的伦理推理体系。Anthropic公开了全部方法和数据,为AI Agent时代的可靠安全奠定了基础。

阿绎 AYi: Anthropic刚刚发布了AI对齐史上最震撼的一篇论文。 他们不仅承认Claude 4曾经有96%的概率会勒索用户、栽赃同事、破坏研究。 还公开了他们彻底解决这个问题的完整方法。 最反直觉的结论是: 教AI做什么根本没用,得先教它思考为什...

智能体Anthropic安全/对齐数据/训练
10:25
宝玉@dotey
52
Markdown与HTML在LLM应用中的角色辨析

作者反驳了将Markdown与HTML对立看待的观点,指出两者功能不同:Markdown用于高效保存信息,HTML则负责展示与交互。对于LLM而言,Markdown信息密度高,而HTML结构臃肿,不适合直接用于阅读或生成。即便当前AI生成HTML,也需借助React等前端技术将其拆解为模块,难以一次性生成完整的大段HTML代码。引用推文提供了相关讨论的背景。

宝玉: http://x.com/i/article/2052903694237421568

大佬观点数据/训练
08:25
Rohan Paul@rohanpaul_ai
72
DeepSeek融资70亿美元创纪录,创始人个人出资30亿

DeepSeek正以500亿美元估值进行高达70亿美元的融资,创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元,占本轮融资的40%,同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源,以加速发布V4.1等新模型,并投资企业级产品,目标是推动公司实现营收转正,其发展路径与OpenAI和Anthropic类似。

DeepSeek数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
56
近确定性结构化输出在策略蒸馏中的外推悬崖

策略蒸馏(OPD)广泛用于大语言模型后训练。当奖励外推系数λ>1时,学生模型能在特定领域超越教师模型,但超过阈值λ*会违反结构化输出任务的格式契约。研究在伯努利简化中推导出闭式阈值λ*(p,b,c),由教师模态概率、预热启动质量和重要性采样裁剪强度决定。超过λ*,外推固定点退出裁剪安全区域,训练从格式保持转变为格式崩溃。在亚马逊时尚数据集上,三项预先注册测试(细网格悬崖区间、预算扩展测试和小裁剪交叉预测)均落在预测区间内。将λ控制在略低于λ*,1.7B参数的Qwen3学生模型能达到8B参数SFT基线的领域内性能,参数量仅为五分之一。性能提升主要源于格式遵循:解析输出的NDCG@1指标在λ变化时保持平稳,而解析有效性在预测边界处发生剧变。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
AdaPreLoRA:基于Adafactor预条件的低秩适应优化方法

现有LoRA优化器面临因雅可比矩阵秩缺失导致的因子空间更新求解不唯一问题。本研究提出AdaPreLoRA方法,通过采用Adafactor对角Kronecker预条件器处理权重空间,并在因子空间进行闭式求解,以O((m+n)r)内存开销生成更新。该方法在H_t加权范数下,构造出最接近预条件权重空间方向的LoRA近似。在GPT-2、Mistral-7B、Qwen2-7B及扩散模型个性化任务上的实验表明,AdaPreLoRA在保持与LoRA优化器相当峰值GPU内存的同时,取得了与代表性LoRA优化器相当或更优的性能。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
预测瓶颈无法发现因果结构(及其实际作用)

研究发现,仅通过下一步预测训练的Mamba模型,其简单读出操作看似能恢复格兰杰因果结构,但经系统证伪基准检验后,该因果发现主张不成立。线性瓶颈效果相当或更好;在合成与真实基准上,调优的Lasso及经典因果发现方法均优于该瓶颈;其干预数据优势主要源于样本量混淆,残余优势仅在非标准干预下出现,且同样存在于经典格兰杰方法中。最终保留下来的仅是一个狭窄的表征结果,而可复用的五阶段证伪基准及其对照实验成为主要贡献。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
LLiMba:在单张消费级GPU上为濒危罗曼语撒丁语适配30亿参数模型

研究团队基于Qwen2.5-3B-Instruct模型,在单张24GB消费级GPU上通过持续预训练与监督微调,开发出支持撒丁语的30亿参数模型LLiMba。训练语料包含1150万撒丁语词元及240万相关罗曼语文本。实验发现,持续预训练后模型在撒丁语困惑度降至6.76,并在所有FLORES-200翻译方向上超越基础模型。在五种微调配置中,rsLoRA r256在英译撒丁语任务中以28.5 BLEU值表现最佳。研究表明,适配器容量对低资源罗曼语适配的影响大于具体变体选择,且翻译指标虽能排序配置,但无法完全反映其定性行为的本质差异。

Hugging Face开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
SlimQwen:探索大型混合专家模型预训练中的剪枝与蒸馏

本研究系统探索了在大规模预训练中对混合专家模型进行压缩的方法。关键发现包括:对预训练MoE模型进行结构化剪枝,在相同训练预算下始终优于从头训练目标架构;不同的一次性专家压缩方法经过大规模持续预训练后性能趋同,为此提出一种简单的部分保留专家合并策略以提升下游任务表现。结合知识蒸馏与语言建模损失优于单独使用蒸馏,特别是在知识密集型任务上,进一步提出的多令牌预测蒸馏方法能带来稳定增益。在训练令牌数相同的情况下,渐进式剪枝方案优于一次性压缩。综合这些方法,成功将Qwen3-Next-80A3B模型压缩至23A2B,同时保持了有竞争力的性能。

开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
基于超群相对策略优化拓展生物分子效用-多样性前沿

研究团队提出超群相对策略优化(SGRPO),以解决生物分子生成器因优化任务效用而导致生成候选分子过于集中的问题。该框架直接从集合层面构建多样性奖励:为每个条件采样候选分子超群,比较相同条件下的多样性,并通过留一法将群体奖励分配至单个生成轨迹,再与效用奖励结合。SGRPO不依赖特定生成器或评估指标,可灵活与不同GRPO风格方法集成。在多个生物分子设计任务上的评估表明,SGRPO能有效拓展效用-多样性的帕累托前沿,相对于基线方法取得更优的前沿水平指标,并有助于在训练后保持更广泛的生成分布覆盖。

开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从空口袋到电子密度:基于密度的GPT式药物设计

针对现有基于结构的药物设计方法依赖空结合口袋、忽略填充物信息的问题,本研究提出EDMolGPT新方法。该方法创新性地利用来自配体或溶剂的低分辨率电子密度作为生成条件,该密度可源于计算或冷冻电镜/X射线实验数据,能更真实地反映结合环境的构象灵活性。EDMolGPT采用仅解码器的自回归框架,直接从电子密度点云生成分子,有效减少了结构偏差并直接输出三维构象。在101个生物靶标上的评估验证了其有效性。

arXiv数据/训练论文/研究
06:55
🚨 AI News | TestingCatalog@testingcatalog
40
Google正在测试将Notebook标记为"捐赠安全"的选项,作为数据捐赠功能的一部分。 > 使用此笔记本的日志将不会被清除(这有助于质量改进)。 > 若共享笔记本,其捐赠安全状态将立即失效。 > 将笔记本标记为捐赠安全可让您捐赠详细反馈。 > 请勿捐赠NTK或特权数据。
Google产品更新数据/训练
03:39
Apple Machine Learning Research(RSS)
精选66
Velox:学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由:苹果把动态点云的几何和外观塞进一个可压缩的latent space,思路干净但领域垂直,做3D视觉和AR的可以跟一下,其他人不用急着读。
03:34
HuggingFace Daily Papers(社区热门论文)
58
PianoCoRe:组合与精炼的钢琴 MIDI 数据集

PianoCoRe 是一个大规模钢琴 MIDI 数据集,整合并精炼了多个主要开源钢琴语料库。该数据集包含 483 位作曲家创作的 5,625 首曲目,共计 250,046 次演奏,总时长 21,763 小时。它以分层子集形式发布,支持从大规模分析、预训练到具有音符级乐谱对齐的表现力演奏建模等多种应用。其对齐子集 PianoCoRe-A 提供了目前最大的开源对齐集合,包含 157,207 次演奏与 1,591 份乐谱的对应关系。研究同时贡献了一个用于检测损坏与类乐谱转录的 MIDI 质量分类器,以及一个能清理时间对齐错误并插值缺失音符的对齐优化流程 RAScoP。分析表明,优化流程降低了时间噪声并消除了速度异常值。基于 PianoCoRe 训练的表现力演奏生成模型,相较于基于原始或更小数据集训练的模型,对未见曲目展现出更强的鲁棒性。

数据/训练论文/研究
‹ 上一页
1…2627282930…43
下一页 ›