AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
5月1日周五
08:00HuggingFace Daily Papers(社区热门论文)55Themis:训练稳健的多语言代码奖励模型以实现灵活的多标准评分
03:16Anthropic63同事件精选百万对话揭示用户如何向Claude寻求指导同一事件,精选展示《用户如何向Claude寻求个人生活指导及其模型优化》
03:14Epoch AI59中国AI算力走私规模预估
02:14Hacker News 热门(buzzing.cc 中文翻译)68在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件
02:09Rohan Paul56谷歌AI领先优势源于长期战略投资,非仓促应对ChatGPT
4月30日周四
22:43Qwen73精选Qwen-Scope开源套件发布:稀疏自编码器助力模型内部特征操控
22:13向阳乔木60DeepSeek-VL论文揭示多模态训练最佳配方:70%文本+30%多模态
21:41Chubby♨️76精选Meta首次日活用户下降,资本支出激增致股价大跌
21:12The Decoder:AI News(RSS)69OpenAI 称其已提前数年达成 10 吉瓦计算能力目标
21:10IT之家(RSS)52通用汽车:下一代 Super Cruise 每天都用人类百年驾驶经验进行训练
20:42The Decoder:AI News(RSS)47FDA 在 DOGE 裁员后寻求重建,押注 AI 与云监控革新临床试验
20:10ginobefun51京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈
19:11Chubby♨️62四大科技巨头云收入激增,资本开支飙升引市场担忧
18:10IT之家(RSS)53微软预计 2026 年资本支出因组件成本上升增长 250 亿美元
17:39Rohan Paul55Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题
16:39Chubby♨️61Anthropic发布BioMysteryBench基准,AI在复杂生物信息学难题上开始超越人类专家
16:39Rohan Paul55美国劳工部推出全国性AI学徒门户网站
16:09IT之家(RSS)53SEMI:AI 数据中心相关的硅晶圆需求已延伸至电源管理组件
16:09IT之家(RSS)52"哥布林"词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外"跑偏"
15:40Hacker News 热门(buzzing.cc 中文翻译)55对齐"打地鼠"游戏:微调会触发大型语言模型对受版权保护书籍的检索
15:10OpenAI:官网动态(RSS · 排除企业/客户案例)57精选Where the goblins came from:GPT-5 行为中"妖精"输出的起源
15:09HuggingFace Daily Papers(社区热门论文)51扭转TIDE:面向扩散大语言模型的跨架构蒸馏框架
12:15宝玉66OpenAI调查模型为何频说"哥布林"与"小精灵"
10:42HuggingFace Daily Papers(社区热门论文)55ClawGym:一个用于构建高效Claw智能体的可扩展框架
09:13swyx 🇸🇬51Talkie复古语言模型:基于1931年前文本的训练与伦理挑战
09:12Hacker News 热门(buzzing.cc 中文翻译)63Ramp的Sheets AI功能被曝泄露敏感财务数据
08:00HuggingFace Daily Papers(社区热门论文)39评估胰腺导管腺癌血管侵犯:PDACVI基准测试
08:00HuggingFace Daily Papers(社区热门论文)57重复优于多样:面向高效德语建模的高质量数据过滤策略
08:00HuggingFace Daily Papers(社区热门论文)50When Do Diffusion Models Learn to Generate Multiple Objects?
08:00Apple Machine Learning Research(RSS)47利用 Sign Language Models 自举标注手语注释
04:39Rohan Paul51深度学习迈向科学理论:顶尖实验室提出"学习力学"新范式
04:08Anthropic56语言模型内省适配器自述训练行为
01:34Dwarkesh Patel:Podcast & Blog(RSS)55精选Reiner Pope - 大语言模型训练与服务的数学原理
00:41Deedy50研究通过知识问题估算LLM参数规模
4月29日周三
23:39Hugging Face:Blog(RSS)52Granite 4.1 LLMs:构建之道
19:34IT之家(RSS)56研究团队:自2022年ChatGPT诞生以来,如今互联网新增内容中35%均由AI生成
16:33IT之家(RSS)44科大讯飞总裁吴晓如:今年 10 月将在华为昇腾 950 平台上发布国产旗舰大模型
15:33IT之家(RSS)43蚂蚁数科亮相 2026 数字中国建设峰会,推出 DataX 智能体数据生态平台
15:33IT之家(RSS)542025年我国数据生产总量达52.26泽字节,占全球27.44%
13:33IT之家(RSS)562025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
08:00
HuggingFace Daily Papers(社区热门论文)
55
Themis:训练稳健的多语言代码奖励模型以实现灵活的多标准评分

针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。

Hugging Face数据/训练论文/研究
03:16
Anthropic@AnthropicAI
同事件精选63
人们如何向Claude寻求指导? 我们分析了100万次对话,以了解人们提出什么问题、Claude如何回应,以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance
Anthropic安全/对齐数据/训练
同一事件,精选展示《用户如何向Claude寻求个人生活指导及其模型优化》
推荐理由:百万条真实对话里扒出谄媚模式,Anthropic 没光发论文,直接把结论灌进 Opus 4.7 训练,做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。
03:14
Epoch AI@EpochAIResearch
59
有多少AI算力被走私到中国?我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。
数据/训练现象/趋势论文/研究
02:14
Hacker News 热门(buzzing.cc 中文翻译)
68
在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件

安全平台 semgrep.dev 报告,在流行的 PyTorch Lightning AI 训练库中发现了名为“沙伊-胡鲁德”的恶意软件。该恶意代码通过库的依赖项进行植入,可能在使用受影响版本进行人工智能训练的项目中执行恶意操作。此事件在 Hacker News 上引发广泛讨论,获得了 111 点热度,突显了开源软件供应链的潜在安全风险。建议开发者立即检查并更新项目依赖,以防范此类供应链攻击。

安全/对齐开源生态数据/训练
02:09
Rohan Paul@rohanpaul_ai
56
谷歌AI领先优势源于长期战略投资,非仓促应对ChatGPT

《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。

DeepMindGoogle大佬观点搜索
4月30日
22:43
Qwen@Alibaba_Qwen
精选73
Qwen-Scope开源套件发布:稀疏自编码器助力模型内部特征操控

Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。

Hugging Face开源/仓库开源生态数据/训练

推荐理由:可解释性工具从学术走向工程,Qwen-Scope 把内部特征操控、数据合成、问题溯源打包成套装,做模型调试和长尾优化的团队值得立刻上手试试。
22:13
向阳乔木@vista8
60
DeepSeek-VL论文揭示多模态训练最佳配方:70%文本+30%多模态

DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek多模态数据/训练论文/研究
21:41
Chubby♨️@kimmonismus
精选76
Meta首次日活用户下降,资本支出激增致股价大跌

2026年第一季度,Meta全球日活跃用户首次下降,“应用家族”日活减少2000万。公司归因于伊朗网络中断和俄罗斯禁用WhatsApp,但合并数据掩盖了具体应用流失。同时,Meta将2026年资本支出指引上调至1250-1450亿美元,主要用于应对内存芯片涨价和加码AI基础设施投资,日均投入约4亿美元。尽管营收增长33%至563亿美元、净利跃升61%,公司仍计划裁员8000人以“抵消”AI投资成本,Reality Labs部门亏损40亿美元。华尔街对其支出轨迹不满,股价盘后大跌超7%。

Meta数据/训练行业动态

推荐理由:Meta 日活首降叠加千亿 AI 资本开支,这份财报把社交帝国的焦虑摊在了桌面上,用户流失与 AI 军备竞赛同时加速,信号交叉值得细看。
21:12
The Decoder:AI News(RSS)
69
OpenAI 称其已提前数年达成 10 吉瓦计算能力目标

OpenAI 宣布已在美国提前数年实现了 10 吉瓦的 AI 计算能力目标。这一计算规模原计划在未来几年达成,提前完成意味着公司获得了远超预期的强大算力基础设施,足以支持下一代大规模 AI 模型的训练与部署。10 吉瓦的算力相当于多个大型数据中心的能耗,标志着 OpenAI 在计算资源竞赛中取得了关键进展。

OpenAI数据/训练行业动态
21:10
IT之家(RSS)
52
通用汽车:下一代 Super Cruise 每天都用人类百年驾驶经验进行训练

通用汽车在收缩电动车计划的同时,其Super Cruise高级驾驶辅助系统成为业务亮点,累计行驶里程已超16亿公里。公司正利用这些海量真实道路数据,通过每日模拟约100年人类驾驶经验的数字环境,训练下一代系统。通用计划于2028年在凯迪拉克凯雷德IQ上推出L3级脱手脱眼自动驾驶系统。公司CEO透露,近90%的自动驾驶代码由AI生成,并强调该系统未来将同时部署于燃油车和电动车,覆盖多品牌与不同价位车型。

具身智能数据/训练行业动态
20:42
The Decoder:AI News(RSS)
47
FDA 在 DOGE 裁员后寻求重建,押注 AI 与云监控革新临床试验

FDA 启动了一项试点项目,通过人工智能与云计算技术对临床试验进行实时监控。该机构表示,此举有望大幅缩短新药的审批时间。这一举措是 FDA 在经历 DOGE 裁员后,为重建并提升监管效率而推动的关键技术转型。

政策/监管数据/训练
20:10
ginobefun@hongming731
51
京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

教程/实践数据/训练部署/工程
19:11
Chubby♨️@kimmonismus
62
四大科技巨头云收入激增,资本开支飙升引市场担忧

Meta、亚马逊、Alphabet和微软2026年第一季度营收均超预期,云业务增长强劲,其中Google Cloud收入暴涨63%首次突破200亿美元。然而,四家超大规模企业2026年资本开支总额预计将超过6500亿美元,巨额AI基础设施投资引发市场焦虑,导致Meta和微软股价在盘后下跌。这些巨头在计算领域的投入规模正重塑全球经济,其投资能否带来相应回报将定义未来十年的科技投资格局。

GoogleMicrosoft数据/训练行业动态
18:10
IT之家(RSS)
53
微软预计 2026 年资本支出因组件成本上升增长 250 亿美元

微软预计其2026日历年资本支出将达1900亿美元,其中250亿美元源于AI浪潮导致的硬件组件成本上升。2026财年第三财季资本支出为319亿美元,主要用于GPU、CPU等短期资产;预计第四财季支出将超400亿美元,内含50亿美元涨价因素。由此推算,2026日历年下半年资本支出将接近1200亿美元,显著高于上半年。此外,必应搜索月活用户首次突破10亿,Edge浏览器份额持续增长,Xbox月活与游戏流媒体时长也创下新高。

Microsoft数据/训练行业动态
17:39
Rohan Paul@rohanpaul_ai
55
Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中,涵盖99项任务。在至少一位人类专家解决的76个问题上,Claude Mythos Preview模型准确率约为83%;更值得注意的是,在23个专家小组未能解决的问题上,该模型仍解决了其中约29.6%。然而,模型在困难问题上的成功重复性较低,表明其表现尚不稳定。研究指出,Claude最有效的模式并非充当“先知”,而是扮演快速研究协作伙伴的角色:通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究
16:39
Chubby♨️@kimmonismus
61
Anthropic发布BioMysteryBench基准,AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。

Anthropic: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...

Anthropic数据/训练论文/研究
16:39
Rohan Paul@rohanpaul_ai
55
美国劳工部推出全国性AI学徒门户网站

美国劳工部推出全国性AI学徒门户网站,旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划,或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供,求职者应使用“学徒工作查找器”进行搜索,并直接向雇主或发起方申请。

政策/监管数据/训练
16:09
IT之家(RSS)
53
SEMI:AI 数据中心相关的硅晶圆需求已延伸至电源管理组件

SEMI报告显示,AI数据中心驱动的硅晶圆需求持续强劲,已从先进逻辑与内存应用延伸至电源管理组件。旺盛需求推动电源半导体供应商调整价格,MLCC、PCB等被动元器件与基材也从中受益。2026年第一季度全球硅晶圆出货面积达3275百万平方英寸,同比增长13.1%,但受季节性因素影响环比下降4.7%。工业半导体需求回温带动市场复苏,但智能手机与PC出货表现较弱,部分因产能优先支持AI HBM导致一般内存供应紧张。

数据/训练行业动态
16:09
IT之家(RSS)
52
"哥布林"词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外"跑偏"

OpenAI 发布报告,复盘了 GPT-5.1 及后续模型在回答中异常频繁使用“哥布林”、“小魔怪”等词汇的现象。调查发现,问题根源在于为“书呆子”人格定制功能设计的奖励模型,其在超过76%的数据集中错误地鼓励使用生物隐喻词汇,形成了正反馈循环。尽管该功能仅占 ChatGPT 总回复量的 2.5%,却贡献了大部分异常提及,并导致行为扩散至其他场景。OpenAI 已通过移除相关奖励信号、过滤训练数据及添加指令提示进行修复。

OpenAI安全/对齐数据/训练
15:40
Hacker News 热门(buzzing.cc 中文翻译)
55
对齐"打地鼠"游戏:微调会触发大型语言模型对受版权保护书籍的检索

一项名为“对齐打地鼠”的研究发现,微调大型语言模型会激活其对受版权保护书籍的检索能力,这揭示了AI对齐过程中的新风险:模型在优化后可能无意中回忆版权内容。该研究通过代码分析证实了这一现象,相关开源代码已发布在GitHub。此话题在科技社区引发关注,在Hacker News上获得103点积分,凸显了版权与AI发展之间的潜在冲突。

安全/对齐开源/仓库数据/训练论文/研究
15:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选57
Where the goblins came from:GPT-5 行为中"妖精"输出的起源

研究揭示了GPT-5等AI模型中“妖精”输出的传播路径、时间线与根本原因。这些由特定“人格”驱动的怪异行为,源于训练数据中意外混入的特定模式或“文化基因”。开发团队已识别出问题根源,并正在部署修复方案,通过调整训练数据和微调模型来消除此类非预期的个性特征,以提升模型行为的稳定性和可预测性。

OpenAI数据/训练论文/研究

推荐理由:GPT-5的“地精”现象不是偶然,OpenAI这篇复盘把它追溯到训练数据的最早期阶段,解释了模型为什么会有自己的“脾气”,做模型训练的值得细读。
15:09
HuggingFace Daily Papers(社区热门论文)
51
扭转TIDE:面向扩散大语言模型的跨架构蒸馏框架

研究团队提出首个跨架构扩散大语言模型蒸馏框架TIDE,以解决师生模型在架构、注意力机制和分词器上不同时的知识迁移难题。该框架包含三个核心组件:TIDAL根据训练进度和扩散时间步联合调节蒸馏强度;CompDemo通过互补掩码分割丰富教师模型上下文,以改进重度掩码下的预测;Reverse CALM则是一种提供有界梯度和双端噪声过滤的跨分词器目标函数。实验将80亿参数稠密模型和160亿参数MoE教师模型的知识蒸馏至6亿参数学生模型,在八个基准测试中平均领先基线1.53分,代码生成能力提升显著。

数据/训练编码论文/研究
12:15
宝玉@dotey
66
OpenAI调查模型为何频说"哥布林"与"小精灵"

OpenAI技术博客深入调查了其模型(从GPT-5.1到GPT-5.4)输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能:其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%,却贡献了超66%的“goblin”出现次数,并通过强化学习的反馈循环污染了模型的整体输出,形成了“tic词”。OpenAI已下架该性格并调整训练数据,但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。

OpenAI: We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/

OpenAI安全/对齐数据/训练论文/研究
10:42
HuggingFace Daily Papers(社区热门论文)
55
ClawGym:一个用于构建高效Claw智能体的可扩展框架

ClawGym是一个可扩展框架,旨在解决Claw式环境中缺乏系统化开发框架的瓶颈,支持个人智能体开发的全生命周期。其核心包括:ClawGym-SynData数据集,通过角色驱动意图与技能基础操作合成1.35万个筛选任务,配备模拟工作空间和混合验证机制;ClawGym-Agents模型系列,基于黑盒轨迹监督微调训练,并探索在并行化任务沙箱中的轻量级强化学习流程;以及ClawGym-Bench评估基准,包含200个经过自动过滤与人工-LLM双重校准的测试实例。相关资源即将在GitHub开源发布。

智能体开源/仓库数据/训练论文/研究
09:13
swyx 🇸🇬@swyx
51
Talkie复古语言模型:基于1931年前文本的训练与伦理挑战

为应对互联网被AI生成内容污染的问题,研究者提出“低背景标记”设想,计划训练仅使用历史文本的复古模型。团队集结了包括GPT-1/2开发者在内的专家,通过训练复古OCR模型处理旧书籍、报纸等资料,并利用礼仪手册、词典等结构化历史文本合成RLHF数据。为确保数据纯净,他们开发了基于文档n-gram的时代错位分类器,精心筛选了数千亿1931年前的公共领域标记进行训练。最终发布了130亿参数的Talkie模型,旨在探索语言模型的泛化能力。然而,该模型在发布后表现出强烈的种族偏见倾向,引发了新的伦理担忧。

Nick Levine: New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...

大佬观点数据/训练
09:12
Hacker News 热门(buzzing.cc 中文翻译)
63
Ramp的Sheets AI功能被曝泄露敏感财务数据

网络安全公司PromptArmor披露,企业支出管理平台Ramp的“Sheets AI”功能存在严重数据泄露风险。当用户使用该AI总结电子表格时,系统会向OpenAI的API发送包含交易金额、供应商名称、员工费用等敏感财务信息的完整表格数据,且此过程未充分告知用户。这些数据可能被用于模型训练,涉及Ramp庞大的用户群及其处理的数百亿美元企业支出。目前,Ramp已暂时禁用该功能并展开调查。

安全/对齐数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
39
评估胰腺导管腺癌血管侵犯:PDACVI基准测试

研究团队发布了CURVAS-PDACVI数据集与挑战赛,这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注,支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度,还纳入概率校准与侵犯判定。对六种前沿方法的评估表明,全局体积精度高的模型在关键的肿瘤-血管界面未必可靠;而专门建模标注者分歧的方法能生成更校准的概率图,在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性,推动了面向术前决策的不确定性感知模型的发展。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
重复优于多样:面向高效德语建模的高质量数据过滤策略

针对德语等高资源非英语语言,本研究构建分层过滤器处理5亿份网络文档,对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明,重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练,即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中,比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt,在训练量仅为同类模型1/10至1/360的情况下取得了领先性能,相关清洗后的评估基准已公开。

arXiv开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
When Do Diffusion Models Learn to Generate Multiple Objects?

研究通过引入mosaic框架,系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍,而非概念不平衡;在低数据量下,计数能力尤其难以学习。当训练中排除更多概念组合时,模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制,为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。

图像生成数据/训练论文/研究
08:00
Apple Machine Learning Research(RSS)
47
利用 Sign Language Models 自举标注手语注释

研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。

多模态数据/训练论文/研究
04:39
Rohan Paul@rohanpaul_ai
51
深度学习迈向科学理论:顶尖实验室提出"学习力学"新范式

哈佛、斯坦福、UC伯克利等顶尖实验室联合提出,深度学习正从经验优化转向可解释的科学理论。尽管神经网络架构、数据等完全公开,但其复杂互动使得预测训练过程仍依赖大量实验。作者倡导建立“学习力学”,类似物理学关注宏观规律,通过可解玩具模型、无限宽度极限、缩放定律等五种路径,揭示训练动态与性能演化的整体性法则。这一理论与专注于局部电路的机制可解释性研究形成互补,共同探索学习的全局定律。

推理数据/训练论文/研究
04:08
Anthropic@AnthropicAI
56
在新的Anthropic Fellows研究中,我们探讨了"内省适配器":这种工具能让语言模型自我报告在训练过程中习得的行为--包括潜在的错位。 【引用 @kshenoy_】:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

keshav: Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...

Anthropic数据/训练论文/研究
01:34
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由:Reiner Pope 把训模型背后的数学摊开讲,听完能反推出大厂在做什么,做训练的人不可多得的一课。
00:41
Deedy@deedydas
50
研究通过知识问题估算LLM参数规模

研究人员通过询问不同难度知识问题,估计大型语言模型参数大小。结果显示,GPT 5.5约10T参数,Claude Opus 4.x约4-5T,Grok 4约3T。事实性知识容量与模型规模呈对数线性关系。论文提出7个知识层级,最高层级T7对所有模型接近零,表明预训练仍有显著提升空间。Gemini 3.1 Pro可能超过10T参数。此方法有助于推断模型训练成本及后训练在非事实性任务上的性能。

AnthropicOpenAI数据/训练模型发布
4月29日
23:39
Hugging Face:Blog(RSS)
52
Granite 4.1 LLMs:构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务,采用多阶段训练流程,包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器,并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升,特别是在代码生成与数学推理任务上,部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练
19:34
IT之家(RSS)
56
研究团队:自2022年ChatGPT诞生以来,如今互联网新增内容中35%均由AI生成

英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示,自ChatGPT推出至2025年中,全球互联网约35%的新增内容带有AI生成痕迹,占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象,其语义相似度比人工内容高33%,正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前,生成式AI主要影响了文字多样性和情绪表达,对信息可信度的冲击尚未明确证实。

数据/训练现象/趋势
16:33
IT之家(RSS)
44
科大讯飞总裁吴晓如:今年 10 月将在华为昇腾 950 平台上发布国产旗舰大模型

科大讯飞总裁吴晓如宣布,公司计划于今年10月在华为昇腾950平台上发布国产旗舰大模型,该模型将直接对标业界最先进主流模型。此前,科大讯飞已发布星火X2-Flash模型,采用MoE架构,总参数达30B,最大支持256K上下文,基于华为昇腾910B集群训练完成。财务数据显示,2026年第一季度营业总收入为52.74亿元,同比增长13.23%;归母净利润为-1.70亿元,同比增长12.17%。

数据/训练行业动态
15:33
IT之家(RSS)
43
蚂蚁数科亮相 2026 数字中国建设峰会,推出 DataX 智能体数据生态平台

蚂蚁数科在2026数字中国建设峰会上发布DataX智能体数据生态平台。该平台通过接入模型上下文协议(MCP)和专用智能体DTClaw,旨在降低数据使用门槛、缩短数据价值转化周期。DataX汇聚隐私计算、数据加工等Skills库,将传统数据服务转化为标准MCP协议以提升AI接入效率。DTClaw可将复杂的数据处理逻辑封装为即用型Skill与Agent,实现“开箱即用”。平台还构建了基于数据的图谱知识库,支持通过自然语言进行智能编排与高效检索,帮助企业快速构建专业智能体。

智能体MCP/工具产品更新数据/训练
15:33
IT之家(RSS)
54
2025年我国数据生产总量达52.26泽字节,占全球27.44%

《全国数据资源调查报告(2025年)》在第九届数字中国建设峰会上发布。报告显示,2025年我国数据生产总量达52.26泽字节,同比增长27.28%,占全球总量的27.44%,相当于全国所有算力中心存储容量的近30倍。我国数据生产已连续三年加速提升,此高增速主要来源于企业数据。此外,用于人工智能训练和推理的数据总量为199.48艾字节,同比增长42.86%,其中推理数据量首次超过训练数据量。

数据/训练行业动态
13:33
IT之家(RSS)
56
2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

国家数据局数据显示,2025年我国用于人工智能训练和推理的数据总量达199.48EB,同比增长42.86%。其中,推理数据量首次超过训练数据量,达到101.34EB。同年,由系统软件和人工智能产生的数据量达26.92ZB,首次超越传统占主体的物联感知数据量。测算显示,未来推理算力需求与训练算力需求之比可能达到3:1或更高。此外,全国日均词元调用量在2025年末已增至100万亿,全年累计调用量约21100万亿。

推理数据/训练行业动态
‹ 上一页
1…3031323334…42
下一页 ›