5月8日

16:23

Hugging Face：Blog（RSS）

精选58

MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X（192 GB HBM3显存）和ROCm，通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本，约5分钟完成，仅更新约220万参数（占模型总参数的0.1443%），全程采用fp16精度，无需量化。HuggingFace生态（Transformers、PEFT、TRL、Accelerate）在ROCm上无缝运行，无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face 开源生态教程/实践数据/训练

推荐理由：一个月前的教程了，但如果你是 AMD 党想跑医疗微调，这篇把坑都踩完了，代码直接能复现，LoRA 适配器也挂在 Hub 上，拿来就能用。

08:00

HuggingFace Daily Papers（社区热门论文）

ModelLens：从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型，但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池，或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录，通过学习模型-数据集-指标三元组的性能感知潜在空间，可直接为未见过的数据集推荐未见过的模型，无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中，其性能超越了依赖元数据或需运行每个候选模型的基线方法，并能将多种路由方法的性能提升高达81%，在文本和视觉-语言任务上展现了泛化能力。

arXiv Hugging Face 多模态开源生态

5月7日

23:04

AK@_akhaliq

RLDX-1 技术报告论文：https://huggingface.co/papers/2605.03269

Hugging Face 论文/研究

23:04

AK@_akhaliq

Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏论文： https://huggingface.co/papers/2605.03849

Hugging Face 多模态视频论文/研究

17:20

Berryxia.AI@berryxia

开源20B参数MoE模型本地流畅运行

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3，真的有点爽啊！ OpenAI自己开源的20B参数MoE模型，被社区用TurboQuant 3-bit量化 + MLX优化后，竟然能直接在普通MacBook上本地丝滑跑起来。完全不用联网、不用交月费，还支持131K超长上下文。日常聊天、写作、写代码这些日常需求，现在都能在自己笔记本上搞定。非常适合公司的一些部门使用啊！以前本地跑大模型还得配高端显卡，现在一台M系列Mac就够了。模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Hugging Models: A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...

Hugging Face OpenAI 开源/仓库部署/工程

03:22

Hugging Face：Blog（RSS）

精选65

vLLM V0 到 V1：在线强化学习中优先确保后端行为正确性

为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后，在线强化学习训练结果与 V0 参考运行一致，团队优先修复后端行为而非调整 RL 目标。关键修复包括：将日志概率模式设为 processed_logprobs 以匹配采样器分布；禁用 V1 特有的前缀缓存和异步调度等运行时默认值；调整权重更新路径以匹配 V0 的缓存保留行为；并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差，使 V1 在 KL 散度、熵等指标上与 V0 达成一致。

Hugging Face 推理教程/实践部署/工程

推荐理由：vLLM V1迁移时踩的四个坑全在这里，从logprob语义到fp32投影头，修完才调RL目标，做在线RL的团队可以直接抄这份配置清单。

5月6日