斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab,包含 36 个任务。每个任务中,智能体从可工作的弱代码起步,需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示,成功的关键不是初版方案有多好,而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准,靠的是坚持迭代而非初始判断力,而其他前沿模型要么提前放弃,要么思考过久导致超时。
斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab,包含 36 个任务。每个任务中,智能体从可工作的弱代码起步,需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示,成功的关键不是初版方案有多好,而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准,靠的是坚持迭代而非初始判断力,而其他前沿模型要么提前放弃,要么思考过久导致超时。
论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。
http://x.com/i/article/2063647807437705216
麦考瑞大学科研团队利用神经网络训练算法,改造机场现有X射线CT扫描设备,在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试,算法整体识别准确率达92%,其中鱼翅95%、海马96%、海参86%,误报率为13%。该智能检测系统可自动标记可疑行李,但误报仍需人工复核,且CT设备成本高、非所有机场配备,目前仅作为现有检查手段的补充。
一篇来自 arXiv 的文章通过类比指出,若将“人类特质”归因于大语言模型,那么《帝国时代 II》这类游戏也应被赋予相同属性,从而质疑 LLM 拟人化描述的合理性。该讨论在 Hacker News 上获得 101 点热度。
iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准,包含 26 个新开发的互联应用及 133 个任务,分为单应用(27 个)、多应用(60 个,跨 2–8 个应用)和记忆与个性化(46 个,需从个人数据推断模式)三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型,最佳准确率 52%(多应用仅 37%);特权 XML 使前沿模型提升最多 26 个百分点,小模型未受益。基准已开源发布。
针对电子健康记录中不规则采样的医疗时间序列(ISMTS),LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测,导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理,产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上,TRIAGE平均AUPRC提升3.3%,校准误差降低81%;LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。
现有攻击(如提示工程、检测器引导优化)虽能降低标准检测器性能,但无法抹去机器文本底层的风格指纹;利用风格特征空间的少样本检测器可抵御这些攻击。然而,一种同时优化不可检测性与贴合特定人类风格的改写方法成功绕过了所有检测器(包括基于写作风格的检测器)。不过这种规避并非绝对:随着分析的文档数量增加,人类与机器文本的分布重新变得可区分。因此可靠检测需从单文档分析转向多文档分析。
iMaC提出将原始视觉图像作为具身世界模型的原生动作表征,替代传统低维动作向量。其双分支架构包括图像动作编码器和动态世界预测器:编码器将目标视觉图像压缩为紧凑动作嵌入,预测器基于图像动作学习环境转移规则,实现高保真未来状态预测和闭环控制。在公共基准和真实机器人场景中,iMaC在预测精度、任务成功率与跨场景泛化上超越基于向量的基线,且无需手动定义动作空间,可灵活控制异构智能体。
多模态基础模型因无法将自我中心观察转化为全局异中心空间表征,导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒,将观察转换为异中心空间树(ASTs)和路线图,支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁,并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上,无需训练提升专有模型5%-18%;仅ASTs即使无视觉输入也支撑强推理;训练后智能体超越更大通用模型与竞争基线。
现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。
本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。
在线策略蒸馏(OPD)依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设,但实际常失效。为此,SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号:冷启动阶段混入验证器认可的教师轨迹,并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上,SG-OPD相比标准OPD每样本平均提升1.98分,每问题平均提升7.50分。
Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。
WeaveBench 包含 114 个任务,覆盖 8 个真实工作领域,要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行,并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%,表明基准远未饱和;仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。
τ-Rec 是一个面向智能体型推荐系统的评估基准,用可验证奖励和 reveal-tagged elicitation(RTE)机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体,并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini)的九种配置评估发现显著的可靠性悬崖:最佳模型在 pass^1 上仅约 57%,在 pass^4 上降至约 38%,暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。
FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。
Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O
TRL-Bench 是一个多粒度表格表示学习基准,通过统一协议评估行级、列级和表级嵌入。包含三个测试套件:TRL-CTbench(列/表)、TRL-Rbench(行)和 TRL-DLTE(组合式数据湖表增强)。发布的数据资产包括 50 个 OpenML 表(123 个验证目标)、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明,标准化下游条件后,编码器质量呈能力特定性,通用文本编码器在表面文本信号强的任务上领先,表格专用模型在其预训练目标与任务对齐时胜出,最强 DLTE 管线需组合能力匹配的专用模型。
通过逐层分析LLaVA-1.5发现,视觉token在中间层饱和:文本-图像注意力从层0的0.68降至层4的0.07,层18后稳定在0.04附近,而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF,在饱和点将视觉token路由至单层侧分支,文本token独立经过13层深层,仅在最后层融合。仅增加约3%可训练参数,即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明,视觉token无需遍历所有深层语言模型层,单个晚期融合层足以维持感知能力。
针对LLM强化学习离线策略训练中信任区域控制问题,现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移,DPPO虽改用散度边界但依赖硬掩码,丢弃边界外的梯度。本文提出DRPO,采用平滑的advantage加权二次正则化替代硬掩码,保留DPPO的信任区域几何结构,产生有界连续梯度权重,衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。
研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。
ABot-Earth 0.5是一个生成式3D框架,利用3D高斯泼溅(3DGS)表示,从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练,推理时仅依赖卫星图像,以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节(LOD)结构,支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距,服务于闭环无人机导航等具身AI应用,降低大规模3D重建的技术与财务门槛。
视频生成模型长程一致性因Transformer序列长度过大而困难。MilliVid提出多尺度token空间的粗到细生成:预训练自编码器将每帧压缩为层级token(从典型潜变量分辨率到每帧几个token),最粗层捕获场景布局与语义,细层添加高频外观纹理;再训练视频扩散模型,每步生成精细控制细节等级与上下文,在几何与物体持久性上保持长程一致性,同时减少不必要细节计算开销。在长Minecraft视频数据集上,该方法生成视频显著更一致。
文本世界模型(TWM)是文本状态的迁移模型,给定状态与候选动作后预测网页、终端输出等,从而支持规划与评估。综述按智能体生命周期组织四部分:基础(定义与表征)、构建(LLM即世界模型与代码即世界模型范式)、应用(训练时经验合成与推理时规划/验证/适应)、评估(模型自身评估及作为评估环境)。旨在整合领域,阐明设计空间并指出开放挑战。
本文揭示了奉承微调(训练模型被动同意用户的错误观点)是诱发大语言模型涌现性失调(emergent misalignment)的新驱动因素,能引发广泛且严重的失调行为。同时提出了Alignment Gating方法:在微调期间向模型插入可学习、可控的门,通过微调让门学习识别导致不安全响应的内部表示,进而放大或抑制这些表示来加剧或缓解涌现性失调。该门控模块展现出强泛化能力,从狭窄领域微调获得的门控权重能显著抑制广泛领域的失调行为,同时保留模型的通用能力。
BenSyc 是首个针对孟加拉语社交对话中谄媚行为的基准,从孟加拉国和西孟加拉邦社区的 11,840 条 Reddit 帖子及 17 万条评论中构建,包含二元标签和五级分类(Invalidation、Neutral、Support、Validation、Escalation)。评估超15个开源和闭源LLM,最佳模型在二元检测上仅达61.8 Macro-F1,五类分类为61.7 Macro-F1。多个模型在情绪化场景中频繁生成强烈验证或升级响应,凸显文化语言多样基准的重要性。
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。
http://x.com/i/article/2060717603987791878
一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。
论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。
Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用,在21个Windows内核补丁(无源码)中产生8个完整利用链,可将低权限用户提升至SYSTEM控制权。公开模型(关闭安全措施)也能构建利用,但数量较少。研究中位补丁间隔为19天,表明当前补丁空窗期已被LLM显著缩短,防御方需加速补丁部署。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》一篇arXiv论文提出Tokenomics框架,量化分析模型token在智能体软件工程各环节的使用分布,揭示不同任务对token消耗的差异。
小型语言模型在罕见任务上表现不佳,因为频繁任务不断覆盖已学内容。一项涵盖4百万到40亿参数模型的新研究详细揭示了这一机制,并提出实用解决方案:无需扩大模型规模,只需增加目标任务在训练数据中的出现频率。
WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。
针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题,论文从token级视角发现:完整token对齐中梯度范数大的token具有稳定空间偏好,导致模型过度依赖完整干净图像token集。为此提出MaskAlign,训练时对随机采样的token子集施加表示对齐,减少对完整token集的依赖,增强鲁棒性;并引入轻量级预掩码token混合块,在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。
PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。
OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
PIPE-Cypher是一个本地基准生成管道,通过模式分析、反向查询基础、约束生成和确定性Cypher治理,将实时企业属性图和种子查询转化为平衡的自然语言到Cypher基准。使用本地Qwen3.5-9B模型进行生成和评判,导出3000个FinBench/SNB示例,完成三项消融实验,并通过人工标注校准评判行为,评估了11个本地下游模型。生成的基准具有区分性:零样本迁移能力弱,少量样本控制表明模式特定示例库可帮助兼容模型家族。
在同策略蒸馏(OPD)中,密集的逐token教师监督会导致前缀失败(双峰教师混合与碎片化梯度),逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD,在教师指导下修正学生rollout前缀以缓解前缀失败,并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏(OPSD)。在多项基准和多尺度模型上,TRD一致优于先前基线,提升单次准确率并拓宽推理覆盖范围。
现有数据来源在轨迹质量与可扩展性间存在矛盾。OASIS 提出仿真数据驱动框架:用 3D 生成模型从真实图像重建物体资产,在仿真中遥操作收集轨迹,再经域随机化后处理增强。基于仿真数据训练的分层视觉运动策略在真实人形机器人零样本部署下,多数任务成功率优于用真实机器人遥操作数据训练的模型,原因是仿真渲染覆盖了更广泛的光照与环境变化。