长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。
长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。
高通正就收购AI芯片企业Modular Inc.开展深度洽谈,对其估值约40亿美元。相比9个月前Modular在融资中16亿美元的估值,本次估值大幅跃升。Modular成立于2022年,累计融资3.8亿美元。另据报道,高通同时在洽谈收购AI芯片初创Tenstorrent,估值区间80亿至100亿美元。交易或于未来数周内官宣,但谈判仍存在破裂可能。
AI 初创企业 Groq 去年底与英伟达签署非独家授权协议,以 200 亿美元授权 LPU 推理技术,部分团队加入英伟达。2026 年 6 月 22 日,Groq 宣布完成新一轮 6.5 亿美元融资,转型为 AI 推理 CSP。该公司拥有世界唯一具备大规模 LPU 实操经验的工程团队,运营 13 座数据中心,服务超 500 万开发者,Token 周消耗量以万亿计。下一步将扩大 AI 推理基础设施,部署最新推理技术和 NVIDIA LPX 系统,目标到 2027 年底拥有 200MW 算力资源。
字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro
Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。
在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。
语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。
对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的
研究提出两通道评估协议Cavewoman,同时测量任务准确率、实际成本及与无约束基准的文本一致性。在5个数据集上对8个模型进行5级压缩测试,发现输出压缩降低API模型实际成本1.4–2.4倍(最佳达3倍),开源权重模型同样受益;输入压缩则严格双输:平均成本升高约1.15倍(最差1.8倍,强压缩2.7倍),准确率暴跌,半数正确生成不再蕴含模型自身无约束基准文本。该分歧在长度控制重评分、多重比较校正及补充语义度量下仍然稳健。
现有低比特KV量化器将每个key视为平面向量,而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE,为每层和KV头计算每个RoPE块的无标签能量分数,通过边际增益贪心分配整数位宽。在10模型诊断集上,2/3 b/dim单K量化下每层MAE降低32–80%,367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下,六任务NIAH平均分从70.6提升至97.4,LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上,K3V2无fp16近期key缓冲区时得分51.7/37.5,接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上,K3V3实现3.24倍压缩,128K下比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB,并在256K和512K下仍可运行。
统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。
6 月 23 日,AI 芯片公司 Groq 宣布完成 6.5 亿美元新融资。此前约 6 个月,英伟达签署非独占性技术许可协议并挖走其创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 等核心员工,交易金额为 200 亿美元。Groq 未披露新估值,上一轮 7.5 亿美元融资后估值为 69 亿美元。Groq 已转向 neocloud 业务,目前运营 13 个数据中心,服务超过 500 万开发者及数千家 AI 公司,每周处理数万亿模型 token。公司同时引进新高管:Alan Rice 任 COO,Sinclair Schuller 任 CTO,Rakesh Malhotra 任 CPO。
以成本价转售推理(inference)是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆,知识蒸馏(distillation)可暂时提供防御性优势。自带密钥(BYOK)模式打破了成本加成,保留了价值定价。
联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器,集成 Radeon 8060S 显卡与 50 TOPS NPU,板载 128GB LPDDR5x 统一内存(可分配 96GB 显存)。本地部署 OpenClaw 和 Qwen3.6 35B 模型;LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s,120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts,3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体,可接入微信、钉钉等平台。
6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。
一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。
2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。
ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。
SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列,可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式,并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准,含56,340个样本,覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族(35个数据集)上均取得平均F1 SOTA;动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。
同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。
VeriEvol 是一个迭代框架,将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示;HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上,将进化 SFT 数据从 10K 扩展至 250K 样本,平均准确率从 35.42 升至 54.73;固定 backbone、SFT 初始化和 GRPO 配方后,VeriEvol 相比未进化 RL 基线累积提升 +3.88,其中进化提示贡献 +1.82,验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。
系统评估12个多模态任务(14个非推理模型、8个推理模型),发现:①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能,在数学、科学、多图像推理中有效;②现有开源多模态推理模型相比原始模型整体提升有限,可能因过度侧重数学推理而牺牲其他能力;③视觉推理是瓶颈,模型呈现“Look Light, Think Heavy”模式——语言反思起伏,视觉反思持续减弱,缺乏全程深度视觉内省。
PlanBench-XL是一个交互式基准测试,包含327个零售任务和1,665个工具,用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性,迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示,GPT-5.4在无阻塞条件下准确率为51.90%,最严重阻塞下骤降至11.36%。分析表明,当故障缺乏明确错误信号或恢复需要更长替代工具路径时,智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。
上海交通大学等六所高校于6月18日在arXiv发布研究,提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情,生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”,可将文本压缩至27.9%,语义准确率保持99.5%。在QuALITY问答中,人类阅读压缩文本后准确率下降,而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2,支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token,任务完成度超96%。
科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。
论文以九个确定性生成器推理任务为测试床,证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中,即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练,蒸馏后准确率始终为0.01–0.07,而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八(71%),但无法前向推导。干预实验揭示密码键后,同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录,让模型仅做回忆加验证,才能学会该任务(Private LB 0.92)。结论:蒸馏学到的是记忆和验证,而非搜索。
大语言模型自动回归生成传统上从最终层解码,但研究发现最终层可能将预测扰动到通用或对齐偏好的token,造成对齐税。Confident Decoding是一种无需训练的解码策略,通过熵引导的保守向后搜索动态选择最可靠的近最终层,并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上,该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进,零内存开销,延迟增加不到2%。结果表明,动态绕过最终层扰动可以解锁更强推理能力。
NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。
新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。
Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。
OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。
SEVRA是一种服务层控制器,使用冻结的Qwen3-4B求解器,通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上,选择性验证达76.3%准确率,高于始终验证的75.5%,后生成token减少26.8%,有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上,选择性策略仅验证3.0%样本,准确率从93.4%提升至94.5%,验证token减少91.2%。部署规则:先调整初始预算,再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。
大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。
REVES是一种两阶段迭代训练框架,通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示,聚焦于答案变换与错误识别,相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上,使用公开测试用例作为反馈,较RL基线提升+6.5点,较标准多轮训练提升+4.0点。在circle packing任务上,仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。
AI推理公司Baseten接近完成15亿美元融资,估值130亿美元,据《华尔街日报》报道。本轮为分价轮,部分投资者以130亿美元估值进入,部分以110亿美元。交易由Spark Capital、Sands Capital、Altimeter Capital和Wellington Management联合领投。五个月前该公司刚完成3亿美元E轮融资(估值50亿美元),再之前九个月完成1.5亿美元D轮。Baseten成立于2019年,致力于快速推理并通过路由请求至最优低成本开源模型来控制成本,受益于“推理淘金热”。
Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。
开发者使用Claude Code控制并调试MAME的Power Macintosh仿真。Claude通过生成Lua脚本和修改日志,发现了6522 VIA仿真故障、PowerPC DRC缓存值未覆盖实际状态的反模式、PowerPC 601的两处Bug,以及原子加载/存储指令模拟错误。修复后,Pippin播放启动音并显示Logo、鼠标可移动;PowerMac 7200显示启动磁盘搜索画面;PowerMac 6100成功启动System 7.5.3和7.5.5。此外,GPT 5.5 Pro(经Codex)在固件逆向中能快速给出内存映射和子程序猜测。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。
针对在线自蒸馏(OPSD)直接扩展到多模态大语言模型(MLLM)时产生的捷径(特权目标依赖文本参考而非图像),ViGOS提出视觉引导的OPSD框架:学生先写出视觉描述再推理。有效rollout中,纯图像感知教师监督描述,特权推理教师监督推理和答案;无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势,并改善了图像依赖行为。