研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
本研究提出了HRBench,一个统一的评测框架,用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族(基于提示的选择、外部路由、推测执行)与四种训练方式(免训练、SFT、离线RL、在线RL)两个维度设计空间,形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型,以及数学、科学、代码等5个推理基准上,重新实现了12余种现有方法并进行评估。分析表明,不同策略在有效性与效率的权衡中特点各异,且策略偏好随模型规模和任务领域变化。
Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。
本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。
由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。
面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。
Hugging Face 推出一款售价为 $2,500 的双足机器人项目,旨在为构建者和研究人员提供支持。该项目的核心设计为人形腿部,并且其部件支持可3D打印。
面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B,一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分,超越所有2B以下参数模型,包括Qwen3.5-2B(16.3分),验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB,可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain(全球首个完全由AI编写,训练速度比Megatron快10%)在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案,支持Llama_factory、SGLang、vLLM等主流框架。
<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。
4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。
TransitLM是首个支持绕过地图依赖的公交路线规划数据集,包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练,也设立了三项互补的评估任务。实验表明,基于该数据集训练的大语言模型能高准确率地生成结构合理的路线,并能隐式地将GPS坐标匹配至站点,无需显式地图。这证明公交路线规划可完全从数据中学习,实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。
本文提出了Bernini,一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作:MLLM负责在ViT嵌入空间预测目标语义表示,扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入,模型引入了分段感知三维旋转位置编码,并结合思维链推理,显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化,在多项视频生成与编辑基准测试中均取得最优表现。
美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。
关联讨论 1 条IT之家(RSS)全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。
GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹,代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同,GenEvolve通过对比同一请求的多个轨迹,将优劣差异提炼为结构化视觉经验,并仅提供给特权教师分支。借鉴策略自蒸馏思想,这些经验为学生代理提供了密集的token级监督,从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准,实验表明该方法达到了最先进的性能。
OlmoEarth v1.1 是新一代地球观测模型家族,将计算成本降低最多 3 倍,同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率(10m、20m、60m)的 token 合并为单个 token,大幅缩短输入序列长度,从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸,权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。
Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。
本文发布了首个大规模数据集ThoughtTrace,该数据集首次将真实世界的人机多轮对话与用户的自述思维(即发送提示的原因和对助手回复的反应)进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明,这些思维捕捉了长周期、主题多样的交互,且与消息本身语义不同,前沿LLM难以从对话中准确推断。研究证实,思维数据可用于改进推理时的用户行为预测,并通过思维引导的改写为个性化助手训练提供细粒度对齐信号,为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。
PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。
针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题,本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型,联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制,并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明,SENSE生成的图像视觉保真度高,且符合物理标准。该模型能利用少量标注数据生成合成数据集,显著提升了下游预测任务的性能并降低了误差,为城市可持续规划提供了新方案。
蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。
蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。
针对现有金融基准测试在评估大语言模型(LLM)专业能力上的局限性,研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA(特许金融分析师)等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现,并提出了基于LLM-as-Judge范式的自动化评分方案,为实质性评估LLM的金融专业能力提供了新工具。
Hugging Face平台出现伪装成OpenAI官方“Privacy Filter”隐私脱敏模型的山寨恶意项目“Open-OSS / privacy-filter”。该仓库文件目录与正版高度一致,但实际暗藏信息窃取木马,在下架前下载量已超过20万次。安全公司HiddenLayer披露,用户若运行该文件会导致系统被入侵,建议受影响者彻底重建开发环境,并在清理前避免登录和输入敏感信息。
一个伪装成OpenAI发布的Hugging Face仓库被发现传播信息窃取恶意软件,该仓库针对Windows系统,在被移除前记录了约24.4万次下载。AI安全公司HiddenLayer的研究指出,实际下载量可能被攻击者人为夸大以制造流行假象,目前无法确定真实受害范围。该事件暴露了主流AI模型分发平台面临的安全风险。
DocAtlas是一个多语言文档理解框架,覆盖82种语言。它通过差异渲染与合成生成双流程,构建高保真OCR数据集与基准测试,产出统一结构化标注。研究评估16个模型,发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号,通过直接偏好优化实现了稳定的多语言适配,在域内和域外准确性上均实现提升,且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。
Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。
研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。
MachinaCheck是一款基于多智能体AI的系统,旨在革新小型CNC机加工车间的报价分析流程。传统上,车间经理需花费30-60分钟手动分析图纸,而该系统在上传STEP文件及材料、公差等简单输入后,能在30秒内生成完整的可制造性报告,明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型,利用192GB HBM3显存确保客户设计数据无需离开本地,满足了制造业对数据隐私的严格要求。系统采用五组件流水线,结合精确的几何特征提取与LLM的制造知识推理,最终输出结构化报告。
研究团队推出TD3B,一种基于序列的生成框架,专门设计具有指定激动剂或拮抗剂行为的蛋白质配体。该方法通过过渡导向控制目标,结合目标感知的方向预测器、软结合亲和力门控机制,并对预训练的离散扩散模型进行摊销微调。TD3B能够生成与结合亲和力解耦、且基于平衡或纯推理基线无法实现的定向配体,尤其针对临床相关的GPCRs,解决了现有基于静态结构的设计方法无法表征非可逆方向性效应的局限。代码与模型已开源。
研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。
研究团队基于Qwen2.5-3B-Instruct模型,在单张24GB消费级GPU上通过持续预训练与监督微调,开发出支持撒丁语的30亿参数模型LLiMba。训练语料包含1150万撒丁语词元及240万相关罗曼语文本。实验发现,持续预训练后模型在撒丁语困惑度降至6.76,并在所有FLORES-200翻译方向上超越基础模型。在五种微调配置中,rsLoRA r256在英译撒丁语任务中以28.5 BLEU值表现最佳。研究表明,适配器容量对低资源罗曼语适配的影响大于具体变体选择,且翻译指标虽能排序配置,但无法完全反映其定性行为的本质差异。