GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
当前FP4硬件路径(如NVIDIA Blackwell/Rubin-class及AMD MI350系列)均基于E2M1格式,但其可表示bin的几何不对称导致系统性负舍入误差——收缩偏差(Shrinkage Bias),该偏差在层间累积并被随机Hadamard变换(RHT)放大,解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案,对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中,UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。
6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。
HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
奖励模型的连续打分存在过度敏感性问题,对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型,并描述一种无训练算法:对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性,实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。
PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。
针对数据受限、算力充裕场景下标准自回归预训练多轮迭代后严重过拟合的问题,研究引入三类正交训练时数据增强:token级噪声(掩码、随机替换)、序列重排(从右至左预测、Fill-in-the-Middle)及目标偏移预测(预测x_{t+i}, i>1)。消融实验表明,单项增强均能延缓过拟合并降低验证损失,其中随机替换效果最优;组合多种增强可进一步降低最小验证损失。该方法有效缓解了自回归预训练在固定语料上重复训练时的数据效率低下问题。代码与数据已开源。
DataClaw_0-9B提出主动智能体化数据定制范式,将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点,构建覆盖五个物理与数字域的大规模数据集,并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val,在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。
PoLAR 在潜在动作空间上施加径向结构,使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理,在双曲空间中实例化,借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中,PoLAR 在仿真和真实机器人实验里提升了下游策略性能,优于潜在动作基线及强预训练 VLA 模型。
REVES是一种两阶段迭代训练框架,通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示,聚焦于答案变换与错误识别,相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上,使用公开测试用例作为反馈,较RL基线提升+6.5点,较标准多轮训练提升+4.0点。在circle packing任务上,仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。
三名亚马逊软件工程师于6月10日被叫入员工关系面谈,公司正调查他们,可能采取包括解雇在内的纪律处分。此前他们本月初在西雅图市议会就数据中心监管作证,并引用该市禁止因政治言论歧视雇员的法规。三人已向民权办公室投诉,指控亚马逊违反该法律。西雅图市议会刚通过一项为期一年的大型数据中心暂停令。
参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。
盖洛普今年2月对超2.3万名美国劳动者的调查显示,经常使用AI的员工被裁员风险更低。在美国科技行业,每月至少使用一次AI的员工预计被裁概率约6%,使用较少的达18%。科技行业外也存在类似趋势但差距较小。排除年龄、学历等因素后关联仍然存在。AI正形成新的职业分水岭,企业招聘已考察AI熟练程度。仅约1%被裁员工认为AI是直接原因,更多人归因于组织重组,但研究人员认为AI可能间接影响。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。
STARE是一种基于惊喜度的token级优势重加权方法,用于解决GRPO等可验证奖励强化学习中常见的策略熵崩溃问题。通过对GRPO下token级熵动态的一阶梯度分析,STARE识别出熵关键token子集并选择性重加权其有效优势,同时引入目标熵闭环门控实现稳定熵调节。在1.5B至32B参数的模型上,覆盖短思维链、长思维链和多轮工具使用三类任务,STARE能稳定训练数千步,保持策略熵在目标带内。在AIME24和AIME25基准上,STARE平均准确率高出DAPO等基线4%–8%,且反思token和响应长度协同增长。代码已开源。
强化学习成为大语言模型主流后训练范式,但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型,无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架:从目标模型量化出草稿模型,无需额外预训练或在线适应;同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线,该框架将推理生成延迟降低最高19.6%,端到端延迟降低12.7%,且不损失最终模型质量。
小米超级电机 V8s EVO 最高转速 28000rpm,借助 AI 拓扑优化模拟超 100 万种硅钢片结构,无需碳纤维缠绕即扛住离心力,单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流,电控峰值功率密度 120kW/L,电机功率提升 5.9%。峰值效率 98.38%,0.15mm 超薄硅钢片使铁损降 18.7%,X-Pin 绕组降铜损 3.6%,为 YU7 GT 带来 6.4km CLTC 续航提升。双电机(V8s EVO + V6s Plus)合计 1003PS,极速 300km/h,0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。
6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。
Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
提出Turing-RL,一种基于图灵测试的强化学习方法,用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励,根据用户历史评估生成回复是否与真实用户不可区分,用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域,Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明,优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
SK海力士今日宣布,已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM,较HBM4引脚速率最高达16Gbps,能效提高20%以上,热阻降低约17%。采用先进MR-MUF工艺,12层堆叠实现48GB容量,并降低数据传输延迟,旨在提升下一代AI数据中心和大规模计算系统的处理效率。
DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。
提出一种无需目标停车场标注样本的自监督占用识别方法。训练策略包含两个自监督阶段(先在未标注通用数据上预训练,再在未标注目标数据上微调),然后仅在通用停车场标签上监督微调。采用SimCLR与ResNet-50编码器,在PKLot、CNRPark-EXT和PLds三个数据集上通过留一法交叉环境评估。还引入两阶段部署策略:先部署强通用模型,再结合部署前N天收集的未标注图像自监督训练专用模型。强通用模型平均准确率97.2%,两阶段策略提升至97.8%。模型和代码已开源。
Grouped Query Experts(GQE)在分组查询注意力(GQA)的每个组内增加混合专家层,由路由器为每个 token 挑选 k 个 query-head 专家激活,而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下,GQE 在下游准确率上与全激活 GQA 基线持平,同时每 token 仅激活一半 query heads,减少了注意力计算量。
强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。
HydraHead 沿 head 轴混合 Full Attention(FA)与 Linear Attention(LA),通过可解释性驱动策略保留检索关键 head 的 FA,并设计缩放归一化融合模块弥合二者输出分布差异。借助三阶段迁移流水线(参数复用与知识蒸馏),仅训练 15B tokens,HydraHead 在 512K 上下文长度上较基线提升超 69%,以 7:1 的 LA-to-FA 比例达到 3:1 逐层混合的长上下文性能,接近同体量原生 256K 上下文长度的 Qwen3.5。
Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。
针对医学表格数据标签获取成本高的问题,研究者提出训练自适应离散化预任务Adaptive Binning。该方法将离散化与学习过程耦合,通过特征级粗到细课程逐步细化分箱,并在检测到训练平台期时选择表征感知的分割点,同时优化值空间和表征空间一致性。异质性感知目标统一分类重建与有序监督。在公共医学表格数据集上,线性探测和微调均取得一致提升,无需数据集特定分箱调参。还引入标准化医学表格SSL基准。代码已开源。
GitHub 推出一个新的仓库级数据集,采用 CC0-1.0 许可证,旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容,加速多语言 AI 开发。
机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。
Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。
针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。
EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。
RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架,通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG,将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上,平均实现 3.6x 推理加速,执行准确率提升 8.26%,表选择准确率达 85.99%;在开放基准 Spider-DSL 和 BIRD-DSL 上,准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底,支持增量缓存更新。
d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。