美国劳工部推出全国性AI学徒门户网站,旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划,或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供,求职者应使用“学徒工作查找器”进行搜索,并直接向雇主或发起方申请。
美国劳工部推出全国性AI学徒门户网站,旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划,或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供,求职者应使用“学徒工作查找器”进行搜索,并直接向雇主或发起方申请。
OpenAI技术博客深入调查了其模型(从GPT-5.1到GPT-5.4)输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能:其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%,却贡献了超66%的“goblin”出现次数,并通过强化学习的反馈循环污染了模型的整体输出,形成了“tic词”。OpenAI已下架该性格并调整训练数据,但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。
We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/
为应对互联网被AI生成内容污染的问题,研究者提出“低背景标记”设想,计划训练仅使用历史文本的复古模型。团队集结了包括GPT-1/2开发者在内的专家,通过训练复古OCR模型处理旧书籍、报纸等资料,并利用礼仪手册、词典等结构化历史文本合成RLHF数据。为确保数据纯净,他们开发了基于文档n-gram的时代错位分类器,精心筛选了数千亿1931年前的公共领域标记进行训练。最终发布了130亿参数的Talkie模型,旨在探索语言模型的泛化能力。然而,该模型在发布后表现出强烈的种族偏见倾向,引发了新的伦理担忧。
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
哈佛、斯坦福、UC伯克利等顶尖实验室联合提出,深度学习正从经验优化转向可解释的科学理论。尽管神经网络架构、数据等完全公开,但其复杂互动使得预测训练过程仍依赖大量实验。作者倡导建立“学习力学”,类似物理学关注宏观规律,通过可解玩具模型、无限宽度极限、缩放定律等五种路径,揭示训练动态与性能演化的整体性法则。这一理论与专注于局部电路的机制可解释性研究形成互补,共同探索学习的全局定律。
Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...
研究人员通过询问不同难度知识问题,估计大型语言模型参数大小。结果显示,GPT 5.5约10T参数,Claude Opus 4.x约4-5T,Grok 4约3T。事实性知识容量与模型规模呈对数线性关系。论文提出7个知识层级,最高层级T7对所有模型接近零,表明预训练仍有显著提升空间。Gemini 3.1 Pro可能超过10T参数。此方法有助于推断模型训练成本及后训练在非事实性任务上的性能。
我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布 这应该是全球第二篇与GEO有关的专项论文 论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。
For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...
Must-listen interview by @Changxche with ex-ByteDance AI researcher: - Benchmaxxing - Distillation on US models - Poor d...
It begins. Exactly what I wrote 4 months ago: STEP 1: Companies install keyloggers etc on employees' computers STEP 2: A...
In January 2025, we committed to generating 10GW of compute and have already identified over 8GW of that. Now, we're pla...
卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。
Meta正在美国员工电脑上部署追踪软件,记录鼠标移动、点击和按键行为,作为Model Capability Initiative的一部分,将日常工作转化为AI训练数据,使模型学习数字工作的逐步模式。这反映了Meta内部更广泛的战略转向:推动员工使用AI代理、将职位重组为AI相关工作,并计划裁员10%。Meta声称收集的数据仅用于模型训练,不会用于绩效评估。
GenRobot推出DAS Ego六摄像头仿生可穿戴设备,以270°零畸变视场角与毫秒级头手同步解决传统单目方案的遮挡与深度盲区,实现毫米级轨迹重建与厘米级关节追踪。同步开源的Gen Ego Data数据集涵盖20余环境及200余项技能,通过第一人称视角采集帮助具身AI模型学习物理规律与"感知-动作-结果"因果关系,为真实场景部署提供核心数据支撑。
Perception is a system problem. One camera misses depth, occlusion, and hand interactions. Gen DAS Ego uses 6 synced cam...
当前开放权重模型与闭源实验室的性能差距维持动态平衡。在训练范式改变前,开放模型能够持续 fast-follow 闭源模型,尚无证据表明前者会落后。这一均衡取决于基准测试演变、模型实际表现与排名关联度,以及训练制度调整等因素。若闭源模型通过整合用户训练数据形成数据壁垒,或经济力量驱动战略转变,现有格局才可能被打破。
Reading today's open-closed performance gap The complex factors that determine the single evaluation number so many focu...
Larry Page于2007年提出对AI发展的核心洞见:人工智能的突破将依赖海量计算(computation)而非精巧算法设计。他以人类DNA仅约600MB压缩数据却能构建完整生命系统为例,说明复杂智能不需要庞大代码库。这一观点精准预示了现代AI依靠算力规模取胜的技术范式,体现了对机器学习本质的深刻洞察。
I don't understand the actual concern here. What is the actual risk from uploading a manuscript under review to an LLM f...
Fintool,一个支持用户在高质量公共金融数据之上构建agents的平台,已被Microsoft收购。该公司由Nicolas与Edouard创立,其严谨的工程方法论曾通过广泛传播的技术文章展现。Menlo Ventures曾在种子轮投资该公司,此次收购也为Anthology Fund带来了成功退出。
Our paper on Subliminal Learning was just published in Nature! Last July we released our preprint. It showed that LLMs c...
DavidAU团队基于Qwen3.5-27B Dense魔改出官方不存在的40B Dense模型。首先通过"Heretic"消融实现Uncensored,并用私有Deckard数据集赋予模型性格;随后截取并复制中间50%参数实现"扩增";最后用Unsloth配合Claude Opus推理数据集微调,稳定参数并优化可变长度推理。测试显示该模型在哲学思辨与创意写作上表现惊艳,但代码生成存在变量作用域问题,上下文能力受损。
Enhanced Games 是全球首个允许运动员在医疗监督下透明使用兴奋剂(PEDs)的体育赛事,彻底摒弃 WADA 反兴奋剂体系。赛事设立高额奖金(如破世界纪录奖励 $1M),旨在探索人类在无人工限制下的生理极限。该实验将产生独一无二的生理数据集,对 AI-biotech 交叉领域的研究具有极高价值。赛事已获得 $1.2B 资金支持,将于 5 月 24 日在拉斯维加斯举办。
this is INSANE! the world's first colosseum built for ENHANCED athletes. every competitor FULLY enhanced. every dose tra...
Excited to launch the accompanying free RLHF Course for my book. To kick it off, I've released: - Welcome video - Lectur...
百度论文提出将开放式任务(如写作、主观回答)重构为可验证的多项选择形式,通过"两两比较"替代直接评分,为RL提供清晰奖励信号。在7个基准测试中,14B模型平均比RLHF基线高3.29分。关键创新在于训练任务形式的改变——模型通过对比验证学习识别优劣,而非单纯吸收偏好对。研究同时发现需混合RLHF目标以防止输出长度坍缩。该方法表明,用结构化比较替代模糊评分可能是提升推理能力的普遍对齐策略。