Must-listen interview by @Changxche with ex-ByteDance AI researcher: - Benchmaxxing - Distillation on US models - Poor d...
Must-listen interview by @Changxche with ex-ByteDance AI researcher: - Benchmaxxing - Distillation on US models - Poor d...
LARYBench 是一个系统化评测基准,旨在从大规模视觉数据中学习通用的隐式动作表征。它首次提供了度量标准,用于评估从人类视频学习到的表征的泛化能力,类似 ImageNet 在视觉领域的定位。
It begins. Exactly what I wrote 4 months ago: STEP 1: Companies install keyloggers etc on employees' computers STEP 2: A...
研究团队提出RDP LoRA方法,将大语言模型隐藏状态演化建模为高维几何轨迹,利用Ramer-Douglas-Peucker算法无训练地识别表征路径关键断点,并直接作为层选择信号。在Qwen3-8B-Base的LoRA微调实验中,仅需适配13个RDP选择的层,便在MMLU-Math上达到81.67%准确率,显著优于全层适配的79.32%和随机选择的75.56%,证明几何轨迹分析可优化参数高效微调中的层选择决策。
OpenAI 发布 Privacy Filter,一款用于检测和脱敏文本中个人身份信息(PII)的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率,支持开发者本地部署和定制。作为开放权重模型,它可自动识别并编辑敏感个人信息,为企业数据隐私保护和合规处理提供高效的技术解决方案。
In January 2025, we committed to generating 10GW of compute and have already identified over 8GW of that. Now, we're pla...
Meta 正在为其美国员工的电脑安装新型监控软件,实时捕捉鼠标移动、点击和按键操作。这些详细的交互数据将直接用于训练 AI agents,使其学习并模仿人类计算机操作行为。此举标志着该公司在 AI 训练数据获取策略上的重大转变,通过收集内部员工的真实工作流数据来构建能够执行复杂任务的自动化系统。
研究团队推出名为Skala的深度学习交换关联泛函,在GMTKN55主族化学基准测试中实现2.8 kcal/mol的误差,精度超越现有混合泛函,同时保持半局域DFT的低计算成本。该方法通过从数据中学习电子结构的非局域表示,绕过昂贵的手工特征工程,打破了传统密度泛函理论中精度与效率的权衡。基于大规模波函数方法高精度参考数据训练,证明现代深度学习可实现随数据集扩展而系统改进的神经网络交换关联模型,推动第一性原理模拟向更高预测能力发展。
本文提出HP-Edit图像编辑人类偏好后训练框架,发布涵盖8类真实任务的RealPref-50K数据集。通过预训练视觉大语言模型和少量偏好数据构建HP-Scorer评估器,用于高效扩展偏好数据集并作为奖励函数优化扩散模型。同步推出RealPref-Bench基准。实验表明,该方法显著提升Qwen-Image-Edit-2509等模型编辑质量,使输出更贴合人类偏好。
研究团队提出ShadowPEFT,一种集中式参数高效微调框架,通过深度共享的影子模块实现层级别细化。该方法在每个Transformer层维护并行影子状态并反复演化,将适应机制从分布式权重扰动(如LoRA)转向集中式层空间优化。影子模块与主干解耦,支持跨深度复用、独立预训练及分离部署,适用于边缘计算。实验表明,在同等可训练参数预算下,ShadowPEFT在生成与理解任务上达到或超越LoRA与DoRA性能。
卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。
TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。
Meta将通过内部工具采集员工在特定应用中的鼠标移动与键盘敲击数据,用于训练协助用户完成日常电脑事务的AI模型。公司声明已设置保护措施确保敏感内容安全,且数据仅限训练用途。此举暴露出AI行业在训练数据短缺压力下,正将企业内部操作行为纳入数据供应链,引发隐私安全担忧。
研究团队发布了一套用于构建精确视频语言模型的开源数据集、基准与可扩展监督方案。其核心是提出了CHAI监督框架,由训练有素的专家对模型生成的初版描述进行批判与修订,生成高质量后版描述。这种分工提升了标注效率与准确性。基于这些修订与偏好数据,团队改进了Qwen3-VL等开源模型在描述生成、奖励建模与批判生成方面的性能。在适度专家监督下,所得模型性能超越了Gemini-3.1-Pro等闭源模型。该方法还被应用于为专业视频重新生成描述,并微调Wan等视频生成模型,使其能精细遵循长达400词的详细提示,实现对摄像机运动、构图等电影摄影元素的控制。
研究团队提出混合策略蒸馏(HPD)方法,通过统一视角将知识蒸馏重新表述为token级重加权对数似然目标。该方法整合前向与反向KL散度的互补优势以平衡模式覆盖与模式寻求,并结合离线数据与轻量级近似在线采样策略。在数学推理、对话及代码任务的验证中,HPD展现出优于现有方法的优化稳定性、计算效率和最终性能,且适用于不同模型家族与规模。
Meta计划开始收集员工的鼠标移动轨迹与键盘按键记录,用于生成AI训练数据。据Economic Times报道,该技术监控措施旨在获取员工工作行为数据以训练人工智能模型,消息在Hacker News上获得105点关注,引发对职场隐私监控范围的讨论。
Meta正在美国员工电脑上部署追踪软件,记录鼠标移动、点击和按键行为,作为Model Capability Initiative的一部分,将日常工作转化为AI训练数据,使模型学习数字工作的逐步模式。这反映了Meta内部更广泛的战略转向:推动员工使用AI代理、将职位重组为AI相关工作,并计划裁员10%。Meta声称收集的数据仅用于模型训练,不会用于绩效评估。
GenRobot推出DAS Ego六摄像头仿生可穿戴设备,以270°零畸变视场角与毫秒级头手同步解决传统单目方案的遮挡与深度盲区,实现毫米级轨迹重建与厘米级关节追踪。同步开源的Gen Ego Data数据集涵盖20余环境及200余项技能,通过第一人称视角采集帮助具身AI模型学习物理规律与"感知-动作-结果"因果关系,为真实场景部署提供核心数据支撑。
Perception is a system problem. One camera misses depth, occlusion, and hand interactions. Gen DAS Ego uses 6 synced cam...
开发者 Steve Cosman 在 GitHub 创建项目 scosman/pelicans_riding_bicycles,通过上传错误标注的图片故意污染 AI 训练数据。该项目将熊站在滑雪板上的图片标记为「鹈鹕骑自行车 #1」,以此向生成式 AI 注入噪声。这种「数据投毒」旨在干扰模型对特定提示词的理解,博主 Simon Willison 对此表示支持,并承认自己此前发布的类似内容也属于训练集污染。
据《金融时报》报道,杰夫·贝索斯即将为其代号为"Project Prometheus"的 AI 实验室完成一轮 100 亿美元的融资。该融资轮目前已接近关闭阶段,标志着贝索斯在人工智能领域的重大资本布局。
上海市发布《国家数字经济创新发展试验区(上海)实施方案》,明确到2028年数据要素价值全面激活的目标。方案提出加速脑机接口、6G、量子计算、Web3.0等前沿技术应用试点及产品化,推动千帆星座卫星互联网商用试点和低空智能网联基础设施建设,部署高性能国产智算集群,建设区块链网络枢纽,培育50家数字经济标杆企业,深化数据要素市场化配置与实数融合。
本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
爱奇艺CEO龚宇回应"AI艺人库"争议,明确科技以人为本,AI应用旨在服务观众与创作者,而非取代人类。针对昨日公布的包含100多位艺人的AI艺人库遭张若昀、于和伟等否认授权一事,龚宇澄清该清单仅表示演员有AI创作授权意愿,实际使用需遵循与现实拍摄相同的规则:逐个项目、角色获得演员及经纪公司同意,并非一次性授权所有项目。
现有情感支持对话系统通常假设每轮仅使用单一策略,但现实中单轮常包含多种支持策略。本研究将ESC任务重新定义为多策略话语生成,提出All-in-One和One-by-One两种方法,分别通过单步解码和迭代方式生成策略-回复对,并引入强化学习引导的认知推理优化策略选择。在ESConv数据集上的实验表明,该方法能有效建模多策略话语,显著提升支持质量与对话成功率,首次系统验证了单轮多策略的可行性和有效性。
几何稳定性为语言模型部署提供双重诊断。监督式Shesha通过测量任务对齐的表征稳定性,在35-69个模型中以0.89-0.97相关系数精准预测线性可控性;无监督稳定性虽在可控性预测上失效(ρ≈0.10),却在漂移检测中表现优异:较CKA捕捉近2倍(Llama中5.23倍)几何变化,于73%模型中提前预警,假阳性率较Procrustes低6倍。两者分别适用于部署前可控性评估与部署后监控。
研究提出EmbodiedMidtrain方法,以解决视觉-语言-动作模型直接沿用通用视觉-语言模型导致的性能限制。该方法首先量化两类模型的数据分布差异,发现VLA数据集中于与广泛VLM分布分离的紧凑区域。随后构建中间训练数据引擎,通过轻量可学习的邻近度估计器从大规模VLM数据池中筛选出最适配具身任务的数据,对VLM进行中间训练后再进行下游VLA微调。在三个机器人操作基准测试中,该方法使不同VLM骨干模型性能平均提升5-12%,达到与专家级VLA模型相当的水平。分析表明中间训练为VLA微调提供了更优初始化,且数据引擎能同时捕获数据集与样本层级的对齐信号。所有代码、数据与模型将开源。
UniT(Unified Latent Action Tokenizer via Visual Anchoring)框架通过视觉锚定建立跨具身的统一物理语言,基于异构运动学共享通用视觉后果的核心理念,采用三分支交叉重建机制生成与具身无关的共享离散潜在空间。VLA-UniT在策略学习中利用人类数据实现SOTA数据效率与OOD泛化,达成零样本任务迁移;WM-UniT在世界建模中实现直接的人到人形机器人动作迁移。t-SNE可视化证实人类与人形机器人特征收敛至共享流形。
研究团队提出 expert upcycling 方法,在持续预训练期间通过复制现有专家并扩展路由器来逐步增加 MoE 模型容量,保持每 token 推理成本不变。该方法利用热初始化继承已学习的表示,显著降低初始损失,后续训练打破对称性以实现专家专业化。在 7B-13B 参数实验中,相比从头训练节省 32% GPU 小时,且基于梯度重要性分数的效用选择策略可将质量差距缩小三倍以上。
研究团队提出基于合作博弈论的SAVOIR框架,结合期望效用(前瞻性评估话语的战略潜力)与Shapley值(公理化保证公平信用分配),解决多轮对话强化学习中的信用分配难题。在SOTOPIA基准测试中,该框架取得全新SOTA成绩,7B参数模型性能匹敌甚至超越GPT-4o和Claude-3.5-Sonnet。实验还发现大型推理模型在社交智能任务上持续表现不佳,揭示社交能力与分析推理存在本质差异。
研究团队发布Tadabur大规模古兰经音频数据集,收录逾1400小时朗诵音频,涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性,大幅扩展了现有古兰经语音数据的规模与变异性,旨在为相关研究提供全面资源并推动标准化基准建立。
当前开放权重模型与闭源实验室的性能差距维持动态平衡。在训练范式改变前,开放模型能够持续 fast-follow 闭源模型,尚无证据表明前者会落后。这一均衡取决于基准测试演变、模型实际表现与排名关联度,以及训练制度调整等因素。若闭源模型通过整合用户训练数据形成数据壁垒,或经济力量驱动战略转变,现有格局才可能被打破。
Reading today's open-closed performance gap The complex factors that determine the single evaluation number so many focu...
Atlassian 已默认开启数据收集功能,将用户数据用于训练人工智能模型。这一政策变更意味着用户交互数据将自动纳入 AI 训练流程,除非用户主动选择退出。该消息于 2026 年 4 月 20 日发布后在 Hacker News 获得 104 个赞,引发关于企业数据隐私和默认权限设置的讨论。
本文提出UDM-GRPO框架,首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题,该方法将最终干净样本作为动作,并通过扩散前向过程重建轨迹以对齐预训练分布。此外,引入Reduced-Step和CFG-Free策略提升效率。实验表明,GenEval准确率从69%提升至96%,PickScore从20.46提升至23.81,OCR基准准确率从8%跃升至57%,在文本到图像任务中达到SOTA性能。
研究人员提出基于极性反转的双视角数据合成策略,通过提示 LLM 生成互补指令,使相关文档与违反指令的难负样本交换相关性标签,强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上,该方法在 FollowIR 基准测试中性能提升 45%,超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用,前者保持通用检索质量,后者提升指令敏感度。
Larry Page于2007年提出对AI发展的核心洞见:人工智能的突破将依赖海量计算(computation)而非精巧算法设计。他以人类DNA仅约600MB压缩数据却能构建完整生命系统为例,说明复杂智能不需要庞大代码库。这一观点精准预示了现代AI依靠算力规模取胜的技术范式,体现了对机器学习本质的深刻洞察。
针对联合图像-特征扩散模型中语义表示空间固定不变的问题,CoReDi 框架通过协同进化机制,在训练过程中联合优化轻量级线性投影与扩散模型,动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃,增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明,相比固定表示空间的方法,CoReDi 实现了更快的收敛速度和更高的样本质量。
针对从观测数据恢复潜在变量的不适定问题,研究者提出多样化字典学习框架。该框架证明,即使在没有线性假设或辅助监督的一般场景下,潜在变量的交集、补集、对称差及依赖结构仍可被识别。通过集合代数组合,可构建隐藏世界的结构化视图。当数据具有足够结构多样性时,所有潜在变量均可被完全识别。该方法仅需简单的归纳偏差即可集成到现有模型,并在合成与真实数据上验证有效。