AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1205 条
全部一手资讯X论文
标签「数据/训练」清除
6月16日周二
08:00HuggingFace Daily Papers(社区热门论文)44信任正确的教师:面向GUI Grounding的质量感知自蒸馏
07:59IT之家(RSS)52AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径
03:59GitHub Blog54GitHub 发布新开源数据集,加速多语言 AI 研究与开发
6月15日周一
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:30The Decoder:AI News(RSS)70同事件精选Pokémon Go 玩家扫描数据用于训练军事无人机导航 AI同一事件,精选展示《Pokémon Go玩家无意中为军用无人机技术贡献数据,引发持续审视》
17:41MarkTechPost(RSS)73精选Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上
08:00HuggingFace Daily Papers(社区热门论文)51后训练如何塑造生物推理模型
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)45无资源、无基准、没问题?评估与改进LLM在无资源语言上的代码生成
08:00HuggingFace Daily Papers(社区热门论文)44Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)55LOGOS:面向自然科学的通用科学生成语言模型
08:00HuggingFace Daily Papers(社区热门论文)54基于梯度的 RLVR 稳定性分析与 WAPO
08:00HuggingFace Daily Papers(社区热门论文)48ProCUA-SFT 技术报告
08:00HuggingFace Daily Papers(社区热门论文)51ACE-EGO-0:统一自我中心人类与机器人数据的VLA预训练框架
05:06MarkTechPost(RSS)65FineWeb 流式加载、过滤、去重、分词与大规模网络语料库分析实践教程
04:29Hacker News 热门(buzzing.cc 中文翻译)60毕马威因报告中出现明显"幻觉"而撤回关于人工智能应用的报告
02:29Hacker News 热门(buzzing.cc 中文翻译)62里约热内卢的"本土化"LLM 似乎是现有模型的融合体
6月14日周日
08:00HuggingFace Daily Papers(社区热门论文)48AC-ODM:Actor-Critic在线数据混合实现高效LLM预训练
08:00HuggingFace Daily Papers(社区热门论文)45从示例中提炼任务指令:面向真实世界B2B对话的增强上下文学习
08:00HuggingFace Daily Papers(社区热门论文)42SSync:面向视频目标中心学习的选择性协同学习方法
08:00HuggingFace Daily Papers(社区热门论文)49无需强假设:通过时序差异进行视觉表征学习
08:00HuggingFace Daily Papers(社区热门论文)45Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务
6月13日周六
23:52Hacker News 热门(buzzing.cc 中文翻译)65美国禁止在人口普查数据中使用差分隐私技术
23:37IT之家(RSS)60毕马威AI报告被指由AI生成:引文45条仅5条准确,多处案例不实
17:54公众号:百度智能云(文心)56第一!百度智能云领跑中国零售信贷决策工具市场
10:58MarkTechPost(RSS)52基于city2graph、OSMnx和PyTorch Geometric的空间图神经网络城市功能推断编码实现
08:00HuggingFace Daily Papers(社区热门论文)37RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习
08:00HuggingFace Daily Papers(社区热门论文)44SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架
08:00HuggingFace Daily Papers(社区热门论文)55重新思考高效注意力在混合架构中的作用
08:00HuggingFace Daily Papers(社区热门论文)49CODA-BENCH:代码智能体能处理数据密集型任务吗?
01:48Hacker News 热门(buzzing.cc 中文翻译)71精选Maxproof 论文发布
6月12日周五
20:36IT之家(RSS)43国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台
15:26MarkTechPost(RSS)58基于MONAI与UNet的医学CT三维脾脏分割端到端实现教程
13:53TechCrunch:AI(RSS)64Avataar AI 发布蒸馏视频生成模型,面向印度市场
11:00HuggingFace Daily Papers(社区热门论文)60LabVLA:面向科学实验室的视觉-语言-动作模型
11:00HuggingFace Daily Papers(社区热门论文)75精选WEAVER:一种更优、更快、更长的机器人操作世界模型
08:34IT之家(RSS)53三星有望代工谷歌 TPU v10 的 2nm I/O Die 芯片
08:00HuggingFace Daily Papers(社区热门论文)46FastMix: 基于梯度下降的快速数据混合优化
08:00HuggingFace Daily Papers(社区热门论文)44ViT-Up:面向视觉Transformer的高保真特征上采样
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
08:00
HuggingFace Daily Papers(社区热门论文)
44
信任正确的教师:面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv多模态数据/训练论文/研究
07:59
IT之家(RSS)
52
AMD 收购 MEXT,为 AI 负载吃内存寻找降本新路径

6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。

数据/训练行业动态部署/工程
03:59
GitHub Blog
54
GitHub 发布新开源数据集,加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集,涵盖多语言开发者内容,包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论,以推动多语言 AI 的构建与优化。

GitHub开源/仓库数据/训练
6月15日
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
21:30
The Decoder:AI News(RSS)
同事件精选70
Pokémon Go 玩家扫描数据用于训练军事无人机导航 AI

Pokémon Go 玩家自愿提交的数百万份 3D 扫描数据训练了 Niantic Spatial 的视觉定位基础模型。该模型与国防承包商 Vantor 的 Raptor 软件及卫星地形数据组合,形成共享坐标系统,在 GPS 信号被干扰、欺骗或阻断时仍能为无人机等设备导航。早期测试显示误差降低 70%,精度约 1.5 米,且对标准信号干扰免疫。Vantor 于 2026 年 2 月获得美国陆军 2.17 亿美元合同用于“One World Terrain”项目。Niantic Spatial 强调玩家数据仅用于训练基础模型,未直接移交 Vantor。

数据/训练行业动态
同一事件,精选展示《Pokémon Go玩家无意中为军用无人机技术贡献数据,引发持续审视》
推荐理由:玩家自愿扫描以为只是在玩游戏,但数据训练的 AI 模型最终与军事承包商合作。这暴露出 AI 基础数据用途的不可控性,做产品的人都应该重新审视用户授权边界。
17:41
MarkTechPost(RSS)
精选73
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由:Flash-KMeans 把 k-means 从离线预处理拉进了在线循环,200 倍加速不是纸面数字,而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。
08:00
HuggingFace Daily Papers(社区热门论文)
51
后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
45
无资源、无基准、没问题?评估与改进LLM在无资源语言上的代码生成

针对LLM几乎未见训练数据的无资源编程语言,团队构建并发布了三个代码生成基准。实验发现,在目标语言上进一步预训练能最大提升性能,但直接用于指令微调模型会损害指令遵循能力。为此,从基础模型出发,先预训练再通过权重差异迁移从指令模型注入指令遵循能力,显著提升了无资源场景的代码生成表现,使公司能以低成本部署专用指令模型。

数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法

混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
LOGOS:面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
基于梯度的 RLVR 稳定性分析与 WAPO

带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。

GitHub推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
ProCUA-SFT 技术报告

ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ACE-EGO-0:统一自我中心人类与机器人数据的VLA预训练框架

视觉-语言-动作(VLA)模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架,构建可扩展的第一人称视频到动作流水线,将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块,使伪标签与机器人演示可比。针对人类视频中的噪声伪动作,设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练,在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优,并展现对真实世界双臂操作的强迁移能力。

具身智能数据/训练论文/研究
05:06
MarkTechPost(RSS)
65
FineWeb 流式加载、过滤、去重、分词与大规模网络语料库分析实践教程

该教程演示如何在不下载完整多 TB 语料库的前提下,通过 HuggingFace 的 load_dataset 流式接口加载 FineWeb sample-10BT 子集的 3000 条文档,检查其 schema 及 url、language、language_score、token_count 等元数据字段,并复现 FineWeb 的质量过滤流程(Gopher / C4 / FineWeb 自定义规则)、采用 MinHash 进行近似重复检测、用 GPT-2 tokenizer 验证 token 计数,最后生成域名、语言分数、文档长度和 tokenizer 效率等统计图表。

Hugging Face教程/实践数据/训练
04:29
Hacker News 热门(buzzing.cc 中文翻译)
60
毕马威因报告中出现明显"幻觉"而撤回关于人工智能应用的报告

毕马威(KPMG)撤回了一份关于人工智能应用的报告,原因是该报告中出现了明显的模型幻觉(hallucinations)。目前该报告已从公开渠道下架,具体涉及的内容及幻觉细节尚未披露。

数据/训练行业动态
02:29
Hacker News 热门(buzzing.cc 中文翻译)
62
里约热内卢的"本土化"LLM 似乎是现有模型的融合体

里约热内卢声称自主研发的大语言模型(LLM)被指实为现有模型的融合体,相关代码托管于 GitHub。

开源/仓库数据/训练行业动态
6月14日
08:00
HuggingFace Daily Papers(社区热门论文)
48
AC-ODM:Actor-Critic在线数据混合实现高效LLM预训练

AC-ODM从强化学习视角出发,通过参数化策略实现动态数据混合,理论证明该策略作为线性代理最大化梯度正干涉。支持代理模式(小模型策略迁移至大模型)和非代理模式(无先验端到端训练)。在Pythia-1B上,相比基线用少66%训练步骤达到最优验证困惑度,MMLU准确率相对提升27.5%,HumanEval pass@1提升2.23倍,每步耗时仅增0.4%、内存开销仅增2%。代码已开源。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
从示例中提炼任务指令:面向真实世界B2B对话的增强上下文学习

Call Playbook数据集包含五个分类任务,源自真实世界B2B对话。提出的知识提取方法将冗长示例蒸馏为紧凑的结构化分类标准和任务描述,使token使用减少99%,宏平均AUC比传统上下文学习(ICL)提升最多7%。与先进的token压缩基线(在上下文增长时F1下降超过9点)不同,该方法保持稳健。框架还支持直接优化分类逻辑,满足透明性、效率和用户交互需求。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
SSync:面向视频目标中心学习的选择性协同学习方法

针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。

arXivGitHub开源/仓库数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
49
无需强假设:通过时序差异进行视觉表征学习

TDV(Temporal Difference in Vision)是一种新的自监督视觉表征学习范式,放弃数据增强、掩码等强归纳偏置,依赖“过去导致未来”的因果假设。它联合训练图像编码器和运动编码器,使当前帧表示加上编码的运动等于下一帧表示。实验表明,归纳偏置的最优强度随数据量增长而下降。在无需强假设下,TDV在密集空间任务上匹配当前最优方法,为弱假设表征学习奠定基础。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务

提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。

arXiv具身智能数据/训练论文/研究
6月13日
23:52
Hacker News 热门(buzzing.cc 中文翻译)
65
美国禁止在人口普查数据中使用差分隐私技术

美国政府禁止在人口普查数据中使用差分隐私技术。该消息来自Hacker News的热门讨论,文章于2026年6月13日发布,获得128个点赞,原文标题为“US bans differential privacy in Census data”,来自desfontain.es博客,并配有一张相关图片。

政策/监管数据/训练
23:37
IT之家(RSS)
60
毕马威AI报告被指由AI生成:引文45条仅5条准确,多处案例不实

毕马威去年10月发布的AI报告被指由AI生成,充斥幻觉。GPTZero检测发现,45条引文中仅5条准确对应真实来源,28条对真实标题改写或添加不存在内容,约一半主张存在虚假。例如,阿联酋航空的Sara被描述为可更改航班的AI聊天机器人,实为移动助手;瑞银被指全面整合智能体,瑞银回应“与事实不符”;瑞士联邦铁路SBB被称拥有AI智能体,SBB发言人表示“不准确”。毕马威已撤下报告并启动审查。

数据/训练行业动态
17:54
公众号:百度智能云(文心)
56
第一!百度智能云领跑中国零售信贷决策工具市场

6月11日,IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元,同比增长13.5%。百度智能云在决策工具及服务市场位居第一,收入翻倍,服务客户数同比增长近100%,覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”,涵盖挖掘、模型、策略三大模块;与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%,风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品,依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。

智能体数据/训练行业动态
10:58
MarkTechPost(RSS)
52
基于city2graph、OSMnx和PyTorch Geometric的空间图神经网络城市功能推断编码实现

构建了一个端到端空间图学习流程,使用city2graph从OpenStreetMap收集城市POI和街道网络数据,并以合成回退保障可靠性。工程化空间特征后,构造多个邻近图族并比较各自对同一城市环境的表征能力。随后将异质图和同质图转换为PyTorch Geometric格式,训练GraphSAGE模型从空间结构预测POI类别。

开源生态教程/实践数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
37
RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习

RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
重新思考高效注意力在混合架构中的作用

混合语言模型结合全注意力与高效注意力模块(如SWA),但高效模块对模型能力的影响不明确。系统分析从缩放、机制和架构三角度揭示:高效设计主要影响长上下文能力涌现速度,充分训练后不同架构性能可比;长距离检索由全注意力承载,高效注意力塑造其优化轨迹,解释“大窗口懒惰”现象;对小窗口SWA混合的全注意力层仅应用NoPE可显著提升长上下文性能,短上下文影响极小。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
CODA-BENCH:代码智能体能处理数据密集型任务吗?

CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试,专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建,包含数百个数据集,共 1009 个任务,覆盖 31 个社区。每个任务环境平均拥有 980 个文件,模拟真实的数据规模与噪声。对现有高级智能体的评估显示,即使表现最佳的系统也难以有效整合数据发现与代码执行,成功率仅为 61.1%,暴露了当前智能体在处理数据密集型任务时的能力缺口。

智能体数据/训练评测/基准
01:48
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Maxproof 论文发布

6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。

推理数据/训练论文/研究

推荐理由:MiniMax把数学证明拉到IMO金牌线以上,用的不是更大模型而是群体搜索+验证-修复的test-time scaling,做推理产品的人该看看这套流程。
6月12日
20:36
IT之家(RSS)
43
国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台

沐曦股份董事会通过议案,拟发行H股并在香港联交所主板上市,初始发行规模不超过发行后总股本的5%,另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市,2025年营收16.44亿元同比增121.26%,GPU累计销量超5.5万颗;2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。

推理数据/训练行业动态
15:26
MarkTechPost(RSS)
58
基于MONAI与UNet的医学CT三维脾脏分割端到端实现教程

该教程使用MONAI框架在Medical Segmentation Decathlon Task09数据集上搭建了端到端的三维医学图像分割流程。处理对象为脾脏的CT容积扫描,依次应用方向对齐、体素间距归一化、强度窗值调整、前景裁剪和基于补丁的采样等医学影像变换,最后训练一个3D UNet模型用于分割。

教程/实践数据/训练
13:53
TechCrunch:AI(RSS)
64
Avataar AI 发布蒸馏视频生成模型,面向印度市场

Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。

数据/训练模型发布视频
11:00
HuggingFace Daily Papers(社区热门论文)
60
LabVLA:面向科学实验室的视觉-语言-动作模型

科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。

具身智能数据/训练论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
精选75
WEAVER:一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv具身智能数据/训练论文/研究

推荐理由:世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标,真机实验把成功率拉高38%,代码模型全开源,搞具身智能的值得认真读。
08:34
IT之家(RSS)
53
三星有望代工谷歌 TPU v10 的 2nm I/O Die 芯片

消息称,谷歌正与三星晶圆代工部门洽谈生产其自研 TPU 芯片。目前谷歌第七代 Ironwood TPU 超 60% HBM 由三星提供。内部人士透露,谷歌推进代号“冰鱼”的 TPU v10,其计算引擎仍由台积电代工,而内存 I/O Die 可能交由三星 2nm 工艺生产。TPU 性能与英伟达 H100 相当,成本降低约 80%。双方尚未签署正式协议。

Google数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
46
FastMix: 基于梯度下降的快速数据混合优化

FASTMIX是一个自动化数据混合发现框架,只需训练单个代理模型,即可通过梯度下降联合优化混合系数和模型参数。该方法将混合选择重新表述为双层优化问题,将混合系数嵌入可微的迭代优化目标中,交替更新模型参数和混合比例。在预训练和后训练场景中,FASTMIX均优于基线方法,同时大幅降低搜索成本。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
ViT-Up:面向视觉Transformer的高保真特征上采样

ViT-Up提出隐式特征上采样框架,利用中间ViT隐藏状态构建逐层查询,替代外部图像引导,可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上,ViT-Up一致优于现有图像引导上采样方法:在DINOv3-S+骨干上,Cityscapes提升+2.07 mIoU,SPair-71k提升+4.17 PCK@0.10;在DINOv3-B骨干上,提升分别达+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up随骨干容量增长性能更优。

数据/训练论文/研究
‹ 上一页
1…56789…31
下一页 ›