该项目使用AMD Instinct MI300X(192 GB HBM3显存)和ROCm,通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本,约5分钟完成,仅更新约220万参数(占模型总参数的0.1443%),全程采用fp16精度,无需量化。HuggingFace生态(Transformers、PEFT、TRL、Accelerate)在ROCm上无缝运行,无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。
该项目使用AMD Instinct MI300X(192 GB HBM3显存)和ROCm,通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本,约5分钟完成,仅更新约220万参数(占模型总参数的0.1443%),全程采用fp16精度,无需量化。HuggingFace生态(Transformers、PEFT、TRL、Accelerate)在ROCm上无缝运行,无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。
开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。
刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3
A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...
为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后,在线强化学习训练结果与 V0 参考运行一致,团队优先修复后端行为而非调整 RL 目标。关键修复包括:将日志概率模式设为 processed_logprobs 以匹配采样器分布;禁用 V1 特有的前缀缓存和异步调度等运行时默认值;调整权重更新路径以匹配 V0 的缓存保留行为;并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差,使 V1 在 KL 散度、熵等指标上与 V0 达成一致。
Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。
本文提出定制化多模态角色扮演任务,旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制,并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集,并开发了名为UniCharacter的两阶段训练框架,包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例,模型即可习得目标角色特征,并在文本与图像生成中展现一致的角色表现,训练约需100 GPU小时。实验表明,该方法显著优于现有方案,消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。
Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B activ...
Qwen开源了Qwen-Scope,这是一个为Qwen模型家族设计的稀疏自编码器完整套件,旨在将SAE特征转化为实用工具。该套件提供四大核心功能:在推理方面,可直接操纵模型内部特征以控制输出,无需依赖提示工程;在数据方面,能用极少样本对目标数据进行分类和合成,增强模型的长尾能力;在训练方面,能精准追溯代码切换和重复生成等问题的根源并进行修复;在评估方面,可通过分析特征激活模式来智能筛选基准测试,减少冗余。Qwen希望社区能利用此工具深入探索模型内部机制并开发更多应用。
Today we're releasing Qwen-Scope 🔭, an open suite of sparse autoencoders for the Qwen model family. It turns SAE featur...
Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。
阿里千问开源可解释性模块 Qwen-Scope,该模块基于 Qwen3 和 Qwen3.5 系列模型训练,通过稀疏自编码器提取可解释特征以分析大模型内在机制。开源权重覆盖 7 个大模型,包含 14 组稀疏自编码器,训练数据规模达 0.5B 词元。Qwen-Scope 能实现推理结果的定向控制、数据分类与合成、模型训练优化及评估冗余分析,在数据合成中使训练能效比提升约 15 倍。
AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。
DeepInfra 作为高性能、低成本的推理服务提供商,现已在 Hugging Face 平台正式上线。该服务支持众多开源模型,包括 LLaMA、Mistral 等系列,并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号,显著降低了 AI 模型部署与调用的门槛,进一步推动了开源人工智能技术的普及与应用。
IBM发布了三款采用Apache 2.0许可的Granite 4.1开源模型(30B、8B、3B)。其核心特点是极高的令牌效率,例如8B模型运行智能指数仅需4M输出令牌,远低于同类模型。在开放性指数上,三款模型均获得61分,领先多数同行。但高效率也带来了智能指数的相对折衷,其得分低于Qwen3.5、Gemma 4等竞品。不过,与上一代Granite 4.0系列相比,新模型的智能表现仍有提升。该系列模型拥有128K令牌的上下文窗口,主要面向企业和边缘部署,可通过WandB、Replicate和Hugging Face获取。
腾讯开源了Hy-MT1.5-1.8B-1.25bit翻译模型,其参数量为18亿,经量化后仅440MB,可在手机上完全离线运行。该模型支持33种语言、5种方言及1056个翻译方向,包括藏语、蒙古语等少数语言。在标准测试中,其性能媲美商业翻译API和2350亿参数的大模型。通过量化至1.25比特,模型内存占用从FP16格式的3.3GB大幅降低,比之前的1.67比特方法体积缩小25%、速度提升约10%,且无精度损失。该模型已在国际机器翻译竞赛中获得30项第一,并部署于腾讯多个产品中。
腾讯混元开源了手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,其体积仅440MB,可在手机本地离线运行。该模型支持33种语言及1056个翻译方向,基于1.8B参数原型通过极致量化压缩实现。其1.25-bit版本采用稀疏高效三值量化技术,将原始3.3GB模型大幅缩减。官方称其翻译质量优于谷歌翻译等主流系统,并提供了2-bit和1.25-bit两种量化方案以适配不同机型。模型完全离线工作,不收集用户数据,相关资源已全面开源。
🔥Native Unified Multimodal Model Open Sourced🔥 🚀SenseNova U1🚀 is the first native multimodal model that unifies mult...
SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1
inclusionAI 发布了 Ling-2.6-1T 模型,这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力,同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展,为研究者和开发者提供了可访问的高性能工具。
研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。
本文提出Memanto,一种用于智能体AI的通用记忆层,挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理,其核心由无需索引的Moorcheh信息论搜索引擎驱动,可在低于90毫秒延迟内实现确定性检索,且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中,Memanto分别以89.8%和87.1%的准确率取得最优结果,超越所有基于混合图与向量检索的系统,仅需单次查询、无摄入成本并显著降低运行复杂度。
研究团队提出RDP LoRA方法,将大语言模型隐藏状态演化建模为高维几何轨迹,利用Ramer-Douglas-Peucker算法无训练地识别表征路径关键断点,并直接作为层选择信号。在Qwen3-8B-Base的LoRA微调实验中,仅需适配13个RDP选择的层,便在MMLU-Math上达到81.67%准确率,显著优于全层适配的79.32%和随机选择的75.56%,证明几何轨迹分析可优化参数高效微调中的层选择决策。
TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。
针对大语言模型在长程交互环境中难以持续决策的问题,本文提出COSPLAY协同进化框架。该框架包含两个互相促进的模块:LLM决策智能体从可学习技能库检索技能指导行动生成;技能库智能体则从智能体无标签轨迹中持续发现、提取和更新可重用技能。在六个游戏环境测试中,基于8B基础模型的COSPLAY在单人游戏基准上较四个前沿LLM基线实现25.1%的平均奖励提升,在多人社交推理场景中也保持竞争力。
研究团队推出CreativeGame多智能体系统,实现HTML5游戏的迭代式生成与进化。该系统通过程序化信号奖励、谱系范围记忆、运行时验证及机制引导规划四者耦合,将游戏机制作为可规划、追踪的显式对象而非事后描述。系统已积累71个存储谱系、88个保存节点及774条全局机制档案,代码量达6181行。真实4代演化案例表明,机制级创新可在后期版本中涌现,支持通过显式机制变化观察渐进演化过程。