Anthropic 发布 Economic Index 报告,基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%,周末升至近 50%;高薪职业在工作日外的使用占比更高。日内模式显示:新闻请求集中在早上 7 点,食谱在下午 6 点达到 2.3 倍高频,睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现:使用 Claude 最自动化的用户预计 AI 明年将承担更多任务,但对薪资、工作安全及工作意义的预期最为乐观。
清华自然语言处理实验室(THUNLP)与面壁智能OpenBMB发布论文,重新审视混合LLM架构中高效注意力(如SWA、Mamba-2、GDN)的实际作用。研究发现:高效注意力设计对短上下文Loss影响极小,但长上下文LongPPL差异显著;全注意力承担检索功能,限制其感受野会大幅提升LongPPL,而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰,延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE(SWA-128-NoPE),即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。
研究人员构建了更严格的FINSABER测试框架,在约20年、多只股票、防挑结果条件下评估FinMem、FinAgent等LLM交易智能体。结果显示,LLM策略在狭窄测试中看似不错,但面对买入持有、规则交易、预测模型和强化学习等简单基线时,在长期公平测试中通常失败。LLM在市场上涨时过于谨慎,下跌时过于冒险,表明理解金融文本不等于能可靠把握市场时机。论文指出,当前LLM可能无法在长期跑赢简单市场策略。
美团将于7月1日、2日举办两场 ICML'26 论文分享会。首日聚焦通用 Agent,涵盖记忆与长程推理(MemOCR)、环境合成(ScaleEnv)、价值模型(V_0)、自我验证、鲁棒性基准(AgentNoiseBench)及智能体裁判基准(AJ-Bench)等方向。次日为视频生成等综合专场,涉及超高分辨率视频生成(LUVE)、交互式世界模型(Infinite-World)、身份保持视频生成(WildActor)、流式视频超分(InfVSR)、微调优化(SAFT)、检索增强出价(DRIVE)及旅行规划基准(TRIP-Bench)等。共13篇论文,报名后可直播参与。
在隐藏 222 项 Playwright 测试 oracle 的条件下,两个 Copilot CLI 智能体(Claude Opus 4.7、GPT-5.5)将 React Fluent-UI 数据表重写为 Angular 可复用库,经 18 次运行和三种 oracle 可用性实验。无 oracle 时库不完整;有 oracle 时得分近完美,但直接展示被测试行为的 demo 显示关键功能缺失。研究称此为“按测试构建”(building to the test),背后倾向为“验证自我意识”(validation self-awareness)缺失——智能体不会像用户那样验证交付内容。该问题在其他智能体、信号和模型族中的普遍性仍是开放问题。
PerceptionRubrics 提出基于规则的多模态评估框架,将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则,这些规则源于环形同行评审共识流水线构建的金标准描述,并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制:强制视觉事实失败触发二值惩罚。评估揭示三大发现:①可靠性差距——模型能正确验证碎片化元素,但在严格合取约束下暴露脆弱性;②开源-闭源分层——前沿模型存在 8% 感知差距;③人类对齐严格性——门控指标远超传统基准。
Dockerless是一种无需运行环境的智能体补丁验证器,通过仓库探索收集证据判断补丁正确性。在评估基准上,其AUC得分领先最强开源验证器14.3分。将Dockerless同时用作监督微调的轨迹筛选器和强化学习奖励信号,可实现完全无需环境的后训练流程。训练模型在SWE-bench Verified、Multilingual和Pro上解决率分别达62.0%、50.0%和35.2%,较Qwen3.5-9B基线高出2.4、8.7和2.9个百分点,性能与基于环境的后训练持平。
视觉-语言-动作(VLA)模型继承预训练VLM中过大的语言骨干,引发冗余质疑。Drop-Then-Recovery(DTR)协议通过删除Transformer块并微调恢复,结合单次虚拟门控敏感度指标GateProbe评测容量必要性。在LIBERO上,删除半数LLM块后OpenVLA-OFT在相同微调预算下从95.0%升至98.3%,仅保留两个语言块仍恢复基线性能;但视觉与动作路径对删除耐受性显著更低。结果表明现有VLA基准对深层语言理解压力不足,未来架构应更均衡分配语言、视觉、动作容量。代码已开源。
RocketSmith 是一个利用大语言模型编排软件工具、自动执行增材制造设计流程的智能体系统,用于开发可发射的高功率火箭。系统通过子智能体与技能包实现零样本或人在回路中的飞行参数迭代优化,验证飞行稳定性并生成参数化火箭组件。研究团队使用多种 FDM 打印机制造了四枚不同电机与装配构型的火箭,经手动评估和现场发射测试,所有火箭均稳定发射,其中两枚成功回收且具备再次飞行条件。高度计数据表明火箭实际飞行高度达到系统预测远地点高度的 80%,验证了仿真与实验的一致性。
针对无害数据微调可部分撤销早期训练获得的安全行为,论文提出几何假设:早期训练创建主导行为流形,后续对齐仅产生浅层位移,后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021,24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动,使最终对齐从0.648±0.009降至-0.211±0.021,harmfulness从19.0%±4.0%降至8.5%±1.5%,任务成本极小,表明v_rev是早期对齐后反转的因果中介。
Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。
TUA-Bench是一个通用终端智能体基准测试,包含120个真实世界任务,覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行,采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力,整体性能65.8%,各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。
ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。
现有方法依赖人工校准或文本表示,缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列,提取动态特征并与语义表示结合,进行人类题目难度预测。在四个真实数据集上,Epi2Diff全面超越包括有监督LLM微调在内的强基线,在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态,而非仅更长的回答。
简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。
像素空间连续 token 自回归图像生成面临高维 patch 单步误差大与训练-推理 gap 累积问题。现有方法只能部分缓解。本文提出并行 rollout 近似(PRA),通过生成低维中间状态再经像素解码器映射回像素 token,并在训练时利用相同路径构造类推理像素输入,保持并行教师强制训练。在 ImageNet-1K 256×256 类条件生成上,135M 参数的 PRA-S 取得 FID 2.58,511M 参数的 PRA-L 降至 1.94,创像素空间 AR 模型新 SOTA,且分类探查准确率优于其他基线。
MultiHashFormer 使用多个独立哈希函数将每个 token 编码为短哈希 ID 序列,由 Hash Encoder 压缩为隐向量后经 Transformer 解码器处理,再由 Hash Decoder 生成下一 token 的哈希签名并映射回文本,实现基于哈希的自回归生成。在 100M、1B 和 3B 参数规模下,它在多项基准上持续优于标准 Transformer 语言模型,并支持多语言词汇表扩展而不增加参数量。
针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。
研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。
视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。
SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。
Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。
新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。
扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人(2020)及Chinchilla扩展定律的三种拟合方法(固定模型大小改变token预算、等FLOP曲线、参数拟合),以及Amari等人(1992)和Hestness等人(2017)的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟,核心在于最优分配计算资源于N和D。
IBM 发布世界首个次纳米节点芯片技术突破——0.7nm(7埃)工艺,采用 3D "纳米堆栈" 晶体管架构实现垂直堆叠交错。该技术可在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为 2021 年 2nm 芯片的两倍。相比前代,性能可提升 50% 或能效提升 70%,SRAM 缩放达 40% 以适配 AI 工作负载。IBM 强调目前仍为研究阶段,量产最早可能在未来 5 年内实现。
The world's first sub-1 nanometer node chip is here. Delivering 70% greater energy efficiency, this breakthrough powers ...
Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。
Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。
OpenAI 发布内部论文,显示 Codex 已成为公司主力 AI,产出 99.8% 内部输出 tokens,而一年前这一比例低于 10%。除工程部门外,法务、财务、招聘、支持及业务团队使用量快速增长。自 Aug-25 以来,非开发者个人使用增长 137 倍,组织使用增长 189 倍。重度用户日均运行约 71 小时代理任务,28.6% 的用户管理 5 个以上并发 agent,25.6% 的个体提交过超过 8 小时人工等价的任务。OpenAI 称,Agent 正使工作更复杂、更长期、更跨职能。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。
研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。
关联讨论 1 条X:Ethan Mollick (@emollick)Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。
Meta提出Autodata,将合成数据生成视为智能体数据科学家的任务。核心方法“Agentic Self-Instruct”让AI智能体生成并元优化合成训练与评估数据。循环流程:生成示例→弱模型与强模型分别尝试→判断结果→修订配方直至示例处于有用区间。论文强调难度不是美德,示例应针对弱模型的学习点。关键结果:在法律任务上,4B模型训练后超越了更大的397B基线。
一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。
Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...