6月16日

11:27

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotWorld 是一个语言条件视频世界模型，以自然语言为统一动作接口，从当前观测预测物理可行的未来视觉轨迹，覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括：60 层双流 Diffusion Transformer（Double-Stream MMDiT）耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征；具身世界知识语料库（860 万视频-文本对，超 2 亿帧，含 20 余种具身形态和 500 余种动作）；通用+专家渐进式课程训练，先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一，在 WorldModelBench 和 PBench 上超越所有开源模型，RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。

具身智能论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

BRDFusion：物理与生成融合的城市场景逆渲染框架

BRDFusion是一个统一框架，结合物理建模和生成先验，用于从视频中恢复城市场景的显式、一致的场景属性，同时缓解优化歧义。在正向渲染中，物理模型提供基于场景配置的可控渲染，生成模型负责去噪和修复伪影，从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线，并支持新视角重光照、夜间模拟以及动态物体插入/编辑。

图像生成多模态论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

VisualClaw：面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体，通过级联门过滤流式帧与热/冷top-k注入技能库，将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库，在4个视频QA基准上平均准确率提升+3.85%，EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena（200场景多模态智能体基准），在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%，成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次，适合边缘部署。

智能体多模态视频论文/研究

10:27

HuggingFace Daily Papers（社区热门论文）

TokenPilot：面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架，旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面，Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声；局部层面，Lifecycle-Aware Eviction监控上下文片段剩余效用，仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上，孤立模式成本降低61%和56%，连续模式降低61%和87%，同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

超越NL2Code：多模态代码智能结构化综述

本文系统综述了多模态代码智能，即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为：渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类：图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向：多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹，以期从单输出模仿转向证据驱动的可执行系统。

arXiv 多模态编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MCompassRAG：主题元数据作为段落级检索的语义指南针

MCompassRAG是一个元数据引导的检索框架，利用主题级信号作为语义指南针，通过LLM教师蒸馏训练轻量检索器，在不额外调用LLM的情况下实现主题感知检索。在6个复杂检索基准上，MCompassRAG的信息效率（IE）平均提升8.24%，延迟比最强高效RAG基线低5倍以上。代码已开源。

arXiv 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

GeneralVLA-2针对通用视觉-语言-动作系统的两个瓶颈提出改进：引入GeoFuse-MV3D几何先验引导的多视图重建分支，通过输入视图掩码验证外部几何线索、软视觉外壳支持及轴对齐精炼，仅融合几何信息并保留外观，缓解单目SAM3D式重建的姿态与不可见几何幻觉；将原有KnowledgeBank升级为受控长期记忆系统，显式管理质量、置信度、生命周期、验证器与冲突元数据，并配合面向精度的检索。在GSO-30上，GeoFuse-MV3D相比MV-SAM3D基线将CD降低2.20%、LPIPS降低2.02%，PSNR提升2.36%、SSIM提升1.03%。在Terminal-Bench 2.0与SWE-Bench Verified上，KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%，SWE-Bench resolve rate提升3.73%，AS分别降低4.95%和5.65%。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LegalHalluLens：面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%，但掩盖了错误集中方向。LegalHalluLens审计框架包含：类型化幻觉档案（数字、时间、义务权利、事实四类）、风险方向指数（RDI）及校准辩论管线。在510份合同、249,252条款实例中，同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点；两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%，以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式，作为多智能体辩论校准输入。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹级监督何时支持高效离线强化学习？

本文提出OPAC算法，从仅含轨迹级标签（标量回报）的离线数据中学习隐式奖励模型并优化策略。理论证明其高概率保证为tilde O(H^2C_{sa(π^star)}/n)并给出匹配下界。该框架可扩展至偏好反馈。进一步研究发现，当目标和监督均为轨迹级非线性聚合时，一般情形不可学习（全成功目标需Ω(2^H)条轨迹）；引入结构系数κ_μ(σ)和χ_μ(σ)后，广义OPAC可实现多项式样本复杂度。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MaineCoon：首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型，在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互，是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation（ROPD）。同时设计了首个智能体流推理框架，通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM-as-Environment-Engineer：让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架，使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake，支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干，该框架在基准测试中取得最强综合性能，超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现，成功环境更新依赖失败证据并保留已有配置；当前 RL 检查点作为环境工程师优于原始基座模型，表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SR-REAL：空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径：纯语言推理（LOR）和检测后推理（DTR）。LOR 执行逐步语言演绎，DTR 先通过区域 token 检测 3D 几何线索（中心点或边界框），再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督，随后用准确率和格式奖励进行强化学习优化，DTR 额外使用基于离散中心的检测奖励。在多个空间基准上，SR‑REAL 显著优于基线：单个 RL 训练模型支持两种路径，联合训练实现互相增强，且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Kairos：面向Physical AI的原生世界模型栈

Kairos是面向Physical AI的原生世界模型栈。它采用跨具身数据课程进行原生预训练，融合开放世界视频、人类行为数据和机器人交互。其统一架构配备混合线性时间注意力：滑动窗口捕获局部动态，扩张滑动窗口捕获中距离依赖，门控线性注意力维持持久全局记忆，理论上保证长时域状态传播误差可控。通过部署感知系统协同设计，在服务器和消费级硬件上实现低延迟的观察-行动-反馈循环。在具身世界模型、长时域和行为策略基准上，Kairos达到顶级性能并展现强效率-能力权衡。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任正确的教师：面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD（在策略自蒸馏）虽能提供密集token级教师信号，但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏，通过软正确性感知门控和教师概率缩放改善信号质量：门控检查教师当前坐标预测能否在给定前缀下完成到真实框，否则降权；教师概率缩放用置信度校准监督强度。两个组件单独无效，组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Guava：面向具身操作的高效通用框架

Guava 是一个用于具身工具使用的框架，通过系统探索智能体工作流、动作空间和观察空间，确定了三个关键设计：迭代感知-推理-动作循环、语义动作抽象和多模态观察。研究还开发了端到端训练流程，将具身操作能力蒸馏至一个 4B 开源模型，仅用少于 2K 条模拟轨迹。仿真与真实实验表明，Guava 性能接近前沿专有模型，对未见物体、新指令和长时任务有强泛化能力。结果表明，精心设计的框架可作为模型无关的具身操作接口，以极少数据为紧凑开源模型带来涌现能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CEO-Bench：智能体能玩长期游戏吗？

CEO-Bench通过模拟初创公司500天运营，评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策，并处理嘈杂数据库。最强模型（Claude Opus 4.8、GPT-5.5）虽能编写复杂代码预测现金流、挖掘客户偏好，但仅勉强使余额维持起始的100万美元以上，无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

PAIWorld：面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型，通过三大组件解决多视图三维不一致问题：几何感知跨视图注意力模块建立显式视图间通信，几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制，潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性，WorldArena 排行榜第一，AgiBot-Challenge2026 排行榜第二，并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究

07:19

Rohan Paul@rohanpaul_ai

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

Joshua Ong @ ICML: 🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...

开源/仓库推理数据/训练模型发布

04:49

Rohan Paul@rohanpaul_ai

MiniMax Sparse Attention

MiniMax Sparse Attention（MSA）在1M token时，将注意力计算量削减28.4倍，H800 GPU上预填充提速14.2倍、解码提速7.6倍，同时基准性能基本持平全量版本。MSA不放弃softmax注意力，而是在分组查询注意力旁增设一个小型路由分支，让每个查询组自主选择应查看的key-value块，主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题，通过架构内建选择器，用模型自身注意力模式训练路由，使注意力变得有选择性而非穷举。

推理论文/研究部署/工程

00:26

Microsoft Research@MSFTResearch

30倍更快的分析，从SQL自动生成的GPU内核，AI与实验室培育的肿瘤模型匹配用于癌症治疗，以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus：https://msft.it/6010vcYZ4

Microsoft 数据/训练论文/研究

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

21:43

OpenBMB@OpenBMB

面壁智能 OpenBMB 联合发布 FactNet：十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet，构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets，附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据（页面ID、修订版ID、Unicode偏移），99.63% 精确重定位。人工审计 4,200 项，设计加权精度 92.1%（低资源语言 88.5%）。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务，显式惩罚信息泄露，为可验证 AI 提供结构化事实基础。

检索增强数据/训练论文/研究

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型，控制backbone、继续预训练（CPT）、监督微调（SFT）和强化学习（RL）的变化，测量域内（ID）与域外（OOD）性能。结果发现：CPT通过对齐生物语言提升下游性能；SFT持续提高ID但导致OOD先升后降；RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升，最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CoffeeBench：长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济，每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师，其余由固定参考智能体控制。测试多个开源和专有LLM，所有模型均优于不采取行动的被动基线，多数实现正净收入。表现更好的模型通信更频繁，而Claude Haiku 4.5出现空闲漂移失败模式，反复选择不作为。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RL-Index：面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架，将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理（rationales）增强文档，并采用 Group Relative Policy Optimization（GRPO）与检索相似度作为可验证奖励信号，直接优化索引决策以提升检索效果。在 BRIGHT 基准上，RL-Index 持续提升检索与下游问答性能，显著降低在线推理延迟，且所学的推理增强可跨不同检索器与生成器泛化，作为一种即插即用的索引策略。

检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反思掩码（RM）激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思，但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑，但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM)，通过轻量后训练激发MDMs的多轮掩码能力，迭代修改先前输出。RM还引入免参数的历史参考机制，利用中间去噪状态提升修订效果。无需架构改动，在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MemSlides：面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架

MemSlides提出分层记忆框架，将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆（存储面向意图的配置，支持初始个性化）和工具记忆（存储可复用执行经验，支持可靠局部编辑）；工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制，仅更新最小影响区域。实验表明：用户画像记忆提升多人物多意图场景的人物对齐效果，工具记忆改善闭环修改行为，工作记忆能有效传递偏好。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ContextRL：面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法，通过让模型从两个相似上下文中选出支持查询-答案对的上下文，改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据，针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%，在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比，后者几乎无改进，表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无资源、无基准、没问题？评估与改进LLM在无资源语言上的代码生成

针对LLM几乎未见训练数据的无资源编程语言，团队构建并发布了三个代码生成基准。实验发现，在目标语言上进一步预训练能最大提升性能，但直接用于指令微调模型会损害指令遵循能力。为此，从基础模型出发，先预训练再通过权重差异迁移从指令模型注入指令遵循能力，显著提升了无资源场景的代码生成表现，使公司能以低成本部署专用指令模型。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Taylor-Calibrate：混合线性注意力蒸馏的原则性初始化方法

混合线性注意力模型可加速长上下文推理，但将预训练Transformer转换为Gated DeltaNet学生模型时，直接复制教师注意力投影会导致初始化脆弱，需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法，利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门，再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下，Taylor-Calibrate显著提升零样本学生性能，代表性消融改进高达88倍，达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

理解环境感知信息检索的行为：强化学习如何为不同检索器定制查询策略

基于检索增强生成（RAG）的方法在处理复杂查询时表现出色，但不同检索器需要截然不同的查询构建策略。该工作首次系统分析大语言模型（LLM）如何通过强化学习（RL）学习为不同检索器定制查询策略。实验表明，RL能有效指导LLM根据检索器特性调整查询风格，且不同检索器对描述型或疑问型查询的偏好显著不同。引入分支式rollout技术提升了多步检索轨迹下的训练稳定性。研究为构建真正检索器感知的RAG系统提供了实证证据和可操作洞见。代码与资源已公开。

检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视觉锚定推理（Thinking with Visual Grounding）

提出视觉锚定推理，让VLM在生成自然语言推理步骤时，显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象，用SAM3-based agent获取锚定掩码，派生点与框监督。进一步提出锚定感知强化学习，结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上，Gemma3-4B-IT应用后性能提升，空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数，框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MyPCBench：面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中，基于《办公室》角色Michael Scott单一画像生成184个任务，测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测，最佳模型Claude Opus 4.6仅完全解决55.4%任务，是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

LOGOS：面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型，将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列，无需依赖坐标或几何神经网络，即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上，LOGOS 匹配或超越领域专用基线，且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv 开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多智能体LLM系统中并发异常的验证检测与预防

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作，并在TLA+中形式化四种并发异常。通过274个Verus义务（零assume，零admit）证明检测器对规范的正确性和完备性，实现三个Rust运行时（L0-L1悲观锁、可序列化快照隔离、默认SI）。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering，并给出形式化修复。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

RepSelect：通过表示选择性实现鲁棒的LLM遗忘

现有LLM遗忘方法易被微调或少量提示逆转，原因在于目标表示与保留集及攻击者可恢复子空间共享，破坏通用能力且易反制。RepSelect在前向更新前坍缩权重梯度主成分，隔离遗忘集独有表示。在Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四种模型上，针对生物危害知识和滥用倾向两类任务，与GradDiff等五个基线相比，RepSelect使重学习后答案准确率降幅比最强基线大4–50倍，对少量提示攻击近乎完全鲁棒。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TV-Edit：文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令，以文本作为语义意图、稀疏视觉指令（拖拽/点）作为空间指导，实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集，将视觉指令与图像-文本语义融合为语义感知控制表征，输入预训练编辑骨干。相比纯文本或纯拖拽方法，空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估，TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LectūraAgents：面向自适应个性化AI辅助学习与具身教学的多智能体框架

LectūraAgents提出层级多智能体框架，模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课，执行手写、高亮、下划线等可视教学动作。核心贡献包括：层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估，经专家教育者验证，在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。

智能体论文/研究