GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。
GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。
6月15日,AMD宣布收购内存优化技术公司MEXT,旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存,利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式,提前将可能调用的数据迁回DRAM,维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖,降低总体拥有成本。
Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版,均仅 4B 参数。在 MiniF2F 测试中,4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B;32B 版本达 89.8% Pass@32 和 92.6% Pass@2024,创当前最佳成绩。核心在于数据效率:构造约 80 万 Lean 验证示例,按易到难训练,并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。
🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...
GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集,涵盖多语言开发者内容,包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论,以推动多语言 AI 的构建与优化。
Y Combinator 发布的新项目 Hub(@hubxyz)为前沿 AI 实验室和机器人提供真实世界训练数据。Hub 指出:人类劳动力占全球 GDP 一半,但几乎从未被记录;它通过全球贡献者网络捕获难以访问的数据。主推文引用印度工厂工人头戴摄像头工作的视频,调侃这是在训练自己的 AI 替代者,现在看 Hub 可能是更大规模的开端——全人类正在成为世界模型的数据生产者。
Hub (@hubxyz) provides real-world training data to frontier AI labs and robotics. Human labor is half of global GDP. Alm...
临床搜索工具 Heidi Evidence 表示,六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练,而非单纯扩大模型规模。在匿名测试中,医生面对同一医学问题、两个匿名答案,选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出,医学领域的关键难点在于知道何时搜索、引用什么、说多少,以及模糊答案何时比不回答更糟。
There's been debate in the last couple days about whether general models beat specialized medical AI. It's the wrong que...
MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》Vista 发布一个开源工具:输入任意 App 名称,自动抓取 AppStore 用户评价,并用 LLM 进行数据分析,将评论转化为产品经理可用的洞察。工具预设了全球各国免费版和付费版 Top 10 App 数据,便于研究学习。代码已开源,链接见评论区。
面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。
Pokémon Go 玩家自愿提交的数百万份 3D 扫描数据训练了 Niantic Spatial 的视觉定位基础模型。该模型与国防承包商 Vantor 的 Raptor 软件及卫星地形数据组合,形成共享坐标系统,在 GPS 信号被干扰、欺骗或阻断时仍能为无人机等设备导航。早期测试显示误差降低 70%,精度约 1.5 米,且对标准信号干扰免疫。Vantor 于 2026 年 2 月获得美国陆军 2.17 亿美元合同用于“One World Terrain”项目。Niantic Spatial 强调玩家数据仅用于训练基础模型,未直接移交 Vantor。
同一事件,精选展示《Pokémon Go玩家无意中为军用无人机技术贡献数据,引发持续审视》UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。
微软CEO Nadella撰文指出,企业真正资产是人类资本(知识、判断力等)与token资本(自建AI能力)相互强化的学习闭环。他提出可落地的AI架构:可替换通用模型+不可丢失的组织经验;通过私有评测(Private Evals)和私有强化学习环境(Private RL Environments)以真实业务结果驱动模型进化;知识库作为可查询的制度记忆。该闭环被称为“爬山机”,具有复利效应。他警告若少数模型攫取全部回报将重演产业空心化,主张构建“前沿生态”而非仅“前沿模型”,让价值广泛流向各行业与国家。
http://x.com/i/article/2065582894790365184
研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。
自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。
针对LLM几乎未见训练数据的无资源编程语言,团队构建并发布了三个代码生成基准。实验发现,在目标语言上进一步预训练能最大提升性能,但直接用于指令微调模型会损害指令遵循能力。为此,从基础模型出发,先预训练再通过权重差异迁移从指令模型注入指令遵循能力,显著提升了无资源场景的代码生成表现,使公司能以低成本部署专用指令模型。
混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。
提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。
LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。
带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。
ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。
视觉-语言-动作(VLA)模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架,构建可扩展的第一人称视频到动作流水线,将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块,使伪标签与机器人演示可比。针对人类视频中的噪声伪动作,设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练,在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优,并展现对真实世界双臂操作的强迁移能力。
Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...
微软CEO Satya Nadella提出“Token资本”概念,认为AI时代每家公司需同时经营人力资本(员工知识、判断力)和自建AI能力(Token资本)。两者互补:人的判断力越强,Token资本增长越快。检验标准:能否随时替换底层通用大模型而不丢失专有经验?若能,则真正拥有AI能力;若不能,则只是租用智能。他建议将工作流、行业知识转化为可迭代AI系统,建立私有评估机制,形成复利式学习飞轮。同时警告:若少数模型垄断行业价值,政治经济体系将无法容忍,类比全球化外包掏空产业的教训。
http://x.com/i/article/2065582894790365184
该教程演示如何在不下载完整多 TB 语料库的前提下,通过 HuggingFace 的 load_dataset 流式接口加载 FineWeb sample-10BT 子集的 3000 条文档,检查其 schema 及 url、language、language_score、token_count 等元数据字段,并复现 FineWeb 的质量过滤流程(Gopher / C4 / FineWeb 自定义规则)、采用 MinHash 进行近似重复检测、用 GPT-2 tokenizer 验证 token 计数,最后生成域名、语言分数、文档长度和 tokenizer 效率等统计图表。
毕马威(KPMG)撤回了一份关于人工智能应用的报告,原因是该报告中出现了明显的模型幻觉(hallucinations)。目前该报告已从公开渠道下架,具体涉及的内容及幻觉细节尚未披露。
里约热内卢声称自主研发的大语言模型(LLM)被指实为现有模型的融合体,相关代码托管于 GitHub。
推文澄清了Siri AI并非在Google Gemini基础上简单封装。苹果并未直接复制Gemini代码,而是从Gemini获得许可,将其作为“教师模型”来训练自己的专有AI模型Apple Foundation Models (AFM)。Siri AI的核心模型和底层架构完全由苹果自主设计与实现,因此是苹果自有的AI产品,而非Gemini的衍生品。
Siri AI is NOT Google Gemini Everyone is saying iOS 27 just slapped an Apple Sticker on Gemini YOU COULD NOT BE MORE WRO...
微软CEO Satya Nadella认为,AI驱动的平台转变首次实现人与数字系统间的认知循环。企业需同时构建人力资本(知识、判断、关系)与token资本(自有的AI能力),且人力资本不会贬值,反而随token资本增长而增值。真正的机会在于建立人力资本与token资本复合增长的学习循环——企业应能替换通用模型而不丢失已内化的专家知识,通过私有评估和强化学习让模型从内部真实轨迹中持续提升。他警告,若所有价值被少数模型吞噬,将重演全球化空心化悲剧,呼吁构建前沿生态系统,让每家企业、行业和国家拥有自己的学习循环。
同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》针对Transformer agent随上下文增长而变慢、变贵的问题,新论文提出“睡眠阶段”:模型暂停,多次重读近期上下文,将有用信息通过状态空间块的fast weights写入固定大小的记忆层,然后清空注意力缓存。额外计算在睡眠时完成,正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明,更长的睡眠提升性能,尤其是需要深入推理的难题。核心启示:长程agent无需无限扩大原始上下文,可通过巩固重要部分、遗忘原始token来解决。
OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器,在200份真实文档(含多栏、学术论文、财报)测试中综合基准得分0.907排名第一,GitHub 2.4万星。本地CPU运行,无需GPU,每页处理仅0.46秒,比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR(80+语言),输出Markdown、JSON(含坐标边界框)、HTML。原生集成LangChain(pip install langchain-opendataloader-pdf)。采用Apache 2.0许可,可商用。
Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上: 上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP...
AC-ODM从强化学习视角出发,通过参数化策略实现动态数据混合,理论证明该策略作为线性代理最大化梯度正干涉。支持代理模式(小模型策略迁移至大模型)和非代理模式(无先验端到端训练)。在Pythia-1B上,相比基线用少66%训练步骤达到最优验证困惑度,MMLU准确率相对提升27.5%,HumanEval pass@1提升2.23倍,每步耗时仅增0.4%、内存开销仅增2%。代码已开源。
Call Playbook数据集包含五个分类任务,源自真实世界B2B对话。提出的知识提取方法将冗长示例蒸馏为紧凑的结构化分类标准和任务描述,使token使用减少99%,宏平均AUC比传统上下文学习(ICL)提升最多7%。与先进的token压缩基线(在上下文增长时F1下降超过9点)不同,该方法保持稳健。框架还支持直接优化分类逻辑,满足透明性、效率和用户交互需求。
针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。
TDV(Temporal Difference in Vision)是一种新的自监督视觉表征学习范式,放弃数据增强、掩码等强归纳偏置,依赖“过去导致未来”的因果假设。它联合训练图像编码器和运动编码器,使当前帧表示加上编码的运动等于下一帧表示。实验表明,归纳偏置的最优强度随数据量增长而下降。在无需强假设下,TDV在密集空间任务上匹配当前最优方法,为弱假设表征学习奠定基础。
提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。
该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。
美国政府禁止在人口普查数据中使用差分隐私技术。该消息来自Hacker News的热门讨论,文章于2026年6月13日发布,获得128个点赞,原文标题为“US bans differential privacy in Census data”,来自desfontain.es博客,并配有一张相关图片。
毕马威去年10月发布的AI报告被指由AI生成,充斥幻觉。GPTZero检测发现,45条引文中仅5条准确对应真实来源,28条对真实标题改写或添加不存在内容,约一半主张存在虚假。例如,阿联酋航空的Sara被描述为可更改航班的AI聊天机器人,实为移动助手;瑞银被指全面整合智能体,瑞银回应“与事实不符”;瑞士联邦铁路SBB被称拥有AI智能体,SBB发言人表示“不准确”。毕马威已撤下报告并启动审查。