针对目标环境分布偏移下的域泛化问题,在反因果设定中(结果变量导致观测协变量),环境扰动不影响结果变量,因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签,从而能利用多环境中的无标签数据。提出两种方法,分别惩罚模型在环境间协变量均值和协方差的变化,并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。
针对目标环境分布偏移下的域泛化问题,在反因果设定中(结果变量导致观测协变量),环境扰动不影响结果变量,因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签,从而能利用多环境中的无标签数据。提出两种方法,分别惩罚模型在环境间协变量均值和协方差的变化,并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。
研究人员提出使用强化学习训练扩散语言模型(dLLM)的采样策略。该方法将掩码扩散采样形式化为马尔可夫决策过程,以 dLLM 为环境,采用单层 Transformer 策略网络将 token 置信度映射为去掩码决策。实验表明,在半自回归(块)生成中,该策略匹配了最先进的启发式方法,在全扩散设置中则超越后者。
Simon Willison 通过 Claude Code 中的异步研究任务(基于 Claude Fable 5)尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano,发现改进方向:模式列表仅给出表名,而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。
研究发现,训练单个Transformer层即可恢复甚至超越全参数强化学习(RL)后训练带来的收益。研究引入“层贡献度”量化指标,在Qwen3和Qwen2.5两个模型家族的七个模型上,使用GRPO、GiGPO、Dr. GRPO三种RL算法,覆盖数学推理、代码生成和智能体决策任务,发现RL收益高度集中于少数Transformer层,且高贡献层集中在堆栈中间,两端层贡献显著较小。
大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。
MemoryLLM将Transformer中的前馈模块(FFN)与自注意力解耦,使其作为无上下文的token级神经检索记忆运行。训练时FFN与自注意力隔离,直接使用token嵌入,从而可预计算为token级查找(ToL),实现VRAM与存储间的按需传输,提升推理效率。此外还提出了介于传统Transformer与MemoryLLM之间的Flex-MemoryLLM架构,以弥补因使用无上下文token嵌入训练FFN导致的性能差距。
VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
7月2日公众评论截止前,15个隐私与消费者保护组织联名致信FTC,要求拒绝X终止数据处理审计的请求。X主张因公司更名及已在欧盟GDPR下承担类似义务而终止。该命令源于Twitter时期将双重认证提交的联系信息用于广告定向。目前X需接受昂贵独立审计,FTC有权直接调取文件。倡导者警告,放任X逃脱监督将对美国人隐私构成严重风险。
研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。
ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。
Transformer使用同一前向计算流同时预测下一个token和存储用于未来预测的状态。为解耦这两个角色,作者提出状态预测分离假说,并设计了一种采用双计算流的Transformer变体。不同规模下的预训练实验表明,该方法在数据和计算效率上持续优于标准Transformer,验证损失更低,下游任务平均性能提升2-3个百分点。进一步的实证分析排除了潜在混淆因素,揭示了新设计在梯度上的根本差异。
Cloudflare 7 月 1 日宣布细化网络爬虫屏蔽管理,为爬虫机器人赋予搜索、代理、训练等标签,计划在 2026 年 9 月 15 日默认禁止 AI 代理与训练爬虫访问含广告的网页。爬虫管理器会为混合型爬虫匹配所有行为模式,只要一种行为被网页所有者禁止,该多任务爬虫就无法在该网站爬取。Cloudflare 还将推出新版归因业务洞察仪表板,适配 SEO 到 GEO 再到 AEO 的变迁,提供页面变动监控以避免重复抓取,并推出按使用计价的抓取付费模式。
CausalMix将大语言模型训练中的数据混合优化重构为因果推断问题,将数据池统计特征作为协变量、领域混合作为处理变量,在512次Qwen2.5-0.5B运行上拟合因果模型估计条件平均处理效应(CATE),外推出800K数据池的最优混合比例并用于训练7B模型。该框架还能泛化至Qwen3-4B-Base的长链式推理数据。通过因果建模隔离混杂偏差,CausalMix动态推断状态依赖的最优数据混合,在多个下游任务上优于RegMix等基线,并借助CATE解释器提供可视化分析。
DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标,动态生成代码探索数据集,且每个发现必须通过统计检验。框架引入二阶元反思机制,周期性分析自身已有发现,识别结构模式、混淆和认知空白,主动将假设探索重定向到未知区域。结合工具使用,可处理多模态来源(如图像)的信息。在 iNatDisco 生态基准上,DiscoPER 恢复 8/9 已知模式,假设支持率 72.7%,优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。
ABot-M0.5 是一种面向机器人移动操作的新型 World Action Model(WAM)。它从三个层面解决现有 WAM 的对齐问题:时间粒度对齐通过引入中间潜在动作捕捉局部视觉状态转换,作为视频潜在与具身控制之间的桥接;动作空间对齐采用双级 Mixture-of-Transformers 架构,解耦模态表示与异构动作子空间(如底座移动与机械臂操作);推理条件对齐提出 dream-forcing 训练策略,在模型预测视频上逐步训练逆动力学,提升自回归推理时的对齐与鲁棒性。在移动与精细操作基准上,ABot-M0.5 在长程任务成功率与细粒度控制精度上均达到当前最优。
Lift 是一个 PDF 到结构化数据的提取工具,本教程构建了完整的受控评估工作流。通过 4-bit NF4 量化,约 10B 参数模型可在 16 GB GPU(如 T4/L4)上运行。教程生成含干扰项的合成多页研究论文,测试模型在真实文档布局中恢复标题、作者、数据集、指标、超参数、局限性和仓库链接的能力,并输出结构化 JSON,实现模式引导的字段级评估。
TRIAGE 提出角色类型化信用分配框架,替代标准 GRPO 的均匀优势信号。结构化判断器将每个智能体片段分类为决定性进展、有用探索、无进展基础设施或回归,并映射为固定角色条件规则下的过程奖励,修正纯结果信用对失败轨迹中有用探索的惩罚和对成功轨迹中冗余/倒退动作的强化。在 ALFWorld、Search-QA 和 WebShop 上,TRIAGE 提升成功率,优于标量判断器过程奖励和结果监督共享主干价值基线。消融实验表明收益来自角色类型化,成功轨迹内的回归检测是主要贡献,探索信用提供二次增益;在完整轨迹上,TRIAGE 分别减少 10.4% 和 14.8% 的环境交互轮数。
Cloudflare宣布,自2026年9月15日起,其默认设置将屏蔽同时用于搜索、AI智能体及训练的“混合用途”爬虫访问托管广告的页面,除非站点所有者手动调整。此举旨在保护出版商内容不被无偿使用。同时将原有的“Pay Per Crawl”模式升级为“Pay Per Use”,允许出版商在内容创造价值时向AI公司收费,初期合作方为Ceramic.ai和You.com。Cloudflare数据显示,AI爬虫超过50%的抓取流量浪费在重复获取未变更页面上。新政策适用于新客户、现有客户的新站点及所有现有免费客户。
同一事件,精选展示《Cloudflare 推出全新AI流量管理选项:区分搜索、智能体与训练爬虫,保护广告页面》Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。
Goku是一个包含200万高质量视频编辑对的百万级数据集,首次将基于指令的视频编辑从单一外观扩展至多任务和结构操控(如主体运动控制)。研究者设计了分解式数据合成流水线与渐进式过滤系统以解决复杂编辑的数据合成难题。基于该数据集训练的Goku-Edit模型采用MLLM作为文本编码器,并采用解耦双分支架构:专用掩码分支处理结构控制,主分支负责外观渲染。配套基准Goku-Bench包含1000个人工验证测试用例和7项新增编辑指标,Goku-Edit的指令遵循能力较其他开源模型提升高达+8%。
施耐德电气宣布以31亿美元全现金收购工业AI软件公司Cognite。Cognite成立于2016年,核心产品为工业数据平台Cognite Data Fusion,2025年营收超1.7亿美元,全球员工约800人。交易完成后Cognite将并入施耐德旗下工业软件业务单元AVEVA,旨在整合工业数据平台与AVEVA软件组合,增强工业人工智能和数据管理能力,预计未来几个季度内完成。
Google Research 发布 TabFM v1.0.0,一种面向表格数据的零样本基座模型,无需针对特定数据集训练、调参或特征工程即可进行分类和回归。TabFM 将整个数据集作为统一提示,通过上下文学习在单次前向传播中生成预测。其架构融合 TabPFN 风格的行/列交替注意力与 TabICL 风格的行压缩和上下文学习。模型在数亿个由结构因果模型动态生成的合成数据集上训练。在 TabArena 基准(38 个分类、13 个回归数据集,样本量 700 至 15 万)上,TabFM 及添加交叉特征和 SVD 特征、采用 32 路集成的 TabFM-Ensemble 均优于经过深度调优的监督算法。模型已开源在 Hugging Face 和 GitHub,Google BigQuery 即将通过 AI.PREDICT SQL 命令集成。
美国能源部长克里斯·赖特称公众对数据中心的担忧并非毫无根据,但程度被“夸大”。他呼吁支持者积极反驳反对声音,称数据中心好处远大于坏处,可降低电力成本,用水量相比创造价值“微不足道”。盖洛普5月调查显示,1000名受访者中七成反对在居住区建设AI数据中心,近一半“强烈反对”。截至去年底,美国已建成或获批超1400座数据中心,其水资源消耗、柴油发电机致空气质量问题及所有权缺乏透明度引发争议。
大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。
针对欧洲石棉污染严重、传统取样送检成本高昂的问题,作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计,配合 Capon 波束成形获得材料密度谱,再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路,仿真结果与实测接近。项目因资金不足未完成,但展示了低成本非接触式石棉检测的可行路径。
美团发布LongCat-2.0,参数规模达1.6万亿,完全基于超5万颗国产AI ASIC芯片集群训练,覆盖35万亿模型token。该模型在SWE-bench Pro(59.5)和SWE-bench Multilingual(77.3)上超越Gemini 3.1 Pro和GPT-5.5,但落后于Claude Opus 4.7和4.8。在IFEval(90.0)、IMO-AnswerBench(81.8)和GPQA-diamond(88.9)上则与Gemini、GPT-5.5存在差距。美团未透露具体芯片厂商,模型暂未在HuggingFace开放,独立验证困难。项目团队始于2023年,首个模型于去年底交付。
Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文,从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上平均表现相同,实际优势来自专门适配;有限资源下,集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论:最大化适应性在于精确拟合特定环境,而非追求通用性。
异步流水线并行消除同步气泡,但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟,但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设,发现AdamW在一步延迟下退化,而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明,所提策略可缩小异步与同步训练的性能差距,展示大规模异步流水线并行的实用潜力。
今天,美团发布LongCat-2.0,1.6万亿参数、100万上下文,全流程在5万张国产算力卡上完成训练和推理,英伟达含量为零,是首个在纯国产算力集群上从零跑通的万亿参数大模型。同日,寒武纪市值突破1万亿人民币,成为科创板首家万亿市值公司。两个“万亿”里程碑叠加Claude封号背景。作者测试显示LongCat-2.0的Agent和Coding能力约在Claude Opus 4.6水平。
BeyondArena是首个统一的表格数据整体基准,支持IID、时序、分组等任务,覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架,在11个模型与142个数据集上的评测显示:现有表格基础模型在中小规模IID数据上表现优秀,但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。
台湾基隆地检署周一突击搜查Super Micro及多家本地合作公司办公室,包括Chief Telecom和Albatron Technology,并搜查六人住所。调查聚焦于涉嫌通过Super Micro服务器将Nvidia AI芯片走私至中国。Super Micro股价当日下跌8%。今年5月已有三人因伪造出口文件、经日本向中国运送至少一批Nvidia芯片被捕。一位Super Micro联合创始人被起诉,公司本身未被指控。Super Micro表示正配合当局保护技术。台湾目前未将向中国出口AI芯片定为刑事犯罪,但正考虑修改以与美国规则对齐。
马斯克透露,SpaceX 已抽调数十名星链和星舰核心工程师,将大部分精力转向 Grok 大模型迭代与算力适配。最新版 Grok 4.5 已在特斯拉和 SpaceX 内部测试。本月 SpaceX 以 600 亿美元收购 AI 代码初创公司 Cursor,其工程师也参与研发。马斯克称 SpaceX 今年将每月推出一款从零全新训练的大模型。此前 xAI 经历大规模重组,11 位联合创始人全部离职,Grok 整体性能落后于 OpenAI、Anthropic 等竞品。SpaceX 完成 850 亿美元 IPO 后,计划搭建百万个轨道数据中心,由星链提供基础设施、星舰送入太空,用于训练 AI 模型。
Meta AI 近日发布 Brain2Qwerty v2,一种基于非侵入式脑磁图(MEG)信号的实时脑到文本解码管线,无需植入或手术。系统在 9 名志愿者约 22,000 句打字数据上训练(每人 10 小时),平均词准确率 61%(WER 39%),最高参与者达 78%,超过半数句子错误不超过一个词。管线由卷积编码器、Transformer 和字符级语言模型组成,并微调大语言模型提取语义表征,用 AI 智能体自动化改进解码流程但最终配置由人工选定。Meta 同时以 CC BY-NC 4.0 协议开源 v1 和 v2 训练代码。
生成分子设计受限于药物性质代理基准和制药数据集预训练,难以迁移到结构不同的领域。为此提出纳米科技分子优化(NMO)基准测试,以量子模拟替代代理oracle,引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观,先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差,在物理性质上超越现有SOTA,并揭示未知结构基元。
Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。
GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。