上海交通大学等六所高校于6月18日在arXiv发布研究,提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情,生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”,可将文本压缩至27.9%,语义准确率保持99.5%。在QuALITY问答中,人类阅读压缩文本后准确率下降,而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2,支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token,任务完成度超96%。
全球海洋热浪致超80%珊瑚白化背景下,伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁,命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C,实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机,单日扫描40英里礁石并拍摄2万张图像,远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况,并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”,连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络,利用洋流让耐热珊瑚幼虫跨区域繁殖。
微软与约克大学新论文指出,许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM,往往一开始就把这些概念内嵌到测试设计中。作者论证,原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机,作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建,输出相似句子,人们将不再认为它“理解”或“有共情”。论文并非否定AI认知,而是揭示测量问题:许多关于LLM类人属性的声称依赖于界面和观察者的预设,而不是系统本身。
客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。
FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。
该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。
麻省理工学院一项为期4周、67人参与的研究发现,过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人,参与者借助AI判断新闻标题和图片真伪时,正确概率提高21%,但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出,AI直接给出答案而非引导思考,短期内提升准确率,长期却削弱独立判断力,约四分之一参与者误以为能力提升,实际表现已变差。
Multi-LCB 是一个新基准,将 LiveCodeBench(LCB)从 Python 扩展到 12 种编程语言,保持原有污染控制和评估协议,并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异,直接暴露了当前 LLM 在多语言代码生成上的关键短板。
当前FP4硬件路径(如NVIDIA Blackwell/Rubin-class及AMD MI350系列)均基于E2M1格式,但其可表示bin的几何不对称导致系统性负舍入误差——收缩偏差(Shrinkage Bias),该偏差在层间累积并被随机Hadamard变换(RHT)放大,解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案,对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中,UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。
OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。
HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架,可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段:跨空间双分支去噪过程在体素空间中动态解码3D潜在表示,通过CLIP引导的视角对齐和SDF融合实现无缝几何融合;视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明,该方法在几何完整性、语义可识别性和效率上显著优于现有方法。
S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。
研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。
JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目,其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务,用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为,瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。
世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
Holo-World 是一种视频世界模型,从单张图像出发,根据显式相机控制、物体控制和可选天气指令,生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间,利用渲染背景、几何缓冲和物体控制维持场景结构,并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差,增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下,天气状态生成优于视频到视频的天气编辑基线。
ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。
SEVRA是一种服务层控制器,使用冻结的Qwen3-4B求解器,通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上,选择性验证达76.3%准确率,高于始终验证的75.5%,后生成token减少26.8%,有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上,选择性策略仅验证3.0%样本,准确率从93.4%提升至94.5%,验证token减少91.2%。部署规则:先调整初始预算,再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。
OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。
As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
REVES是一种两阶段迭代训练框架,通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示,聚焦于答案变换与错误识别,相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上,使用公开测试用例作为反馈,较RL基线提升+6.5点,较标准多轮训练提升+4.0点。在circle packing任务上,仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。
OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。
Jeff Dean 等 Google 同事发布论文,回顾 TPU v2 到 Ironwood 五代训练超算的演进,将于 2026 年 7/8 月发表于 IEEE Micro。关键变化:TPU v2 采用气冷,v3 起改为水冷;互联从 2D 升级为 3D torus;每 pod 芯片数从 256 增至 9216;每 flop 能效提升约 30 倍。此外,Google 内部工作负载已大幅转向基于 Transformer 的模型。
深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。
Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。
Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务,约为去年人类团队(借助 Opus 4.1)耗时 264 分钟的 20 倍,代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球,失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码,但实时物理判断仍具挑战。
New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....
针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。