5月9日

02:34

Hugging Face：Blog（RSS）

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型，在 CTI-Bench 上以半参数（4B vs 8B）对标 Cisco Foundation-Sec-Instruct-8B：CTI-MCQ 得分 0.5868，领先 8.7 个百分点；CTI-RCM 得分 0.6664，保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU，训练使用 AMD Instinct MI300X，LoRA 微调（r=64, lr=5e-5），数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答，以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face 安全/对齐开源生态模型发布

00:34

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face 开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

5月8日

16:23

Hugging Face：Blog（RSS）

精选58

MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X（192 GB HBM3显存）和ROCm，通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本，约5分钟完成，仅更新约220万参数（占模型总参数的0.1443%），全程采用fp16精度，无需量化。HuggingFace生态（Transformers、PEFT、TRL、Accelerate）在ROCm上无缝运行，无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face 开源生态教程/实践数据/训练

推荐理由：一个月前的教程了，但如果你是 AMD 党想跑医疗微调，这篇把坑都踩完了，代码直接能复现，LoRA 适配器也挂在 Hub 上，拿来就能用。

05:29

Anthropic：Research（发表成果 · 网页）

精选73

捐赠开源对齐工具 Petri

2025年10月，Anthropic公司开源了AI模型对齐测试工具箱Petri，用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分，并被英国AI安全研究所等外部机构采用。近日，Petri升级至3.0版本，主要改进包括：架构调整提升适应性，允许单独调整审计与目标模型；通过“Dish”附加组件使用真实系统提示和部署环境，增强测试真实性；与另一开源工具Bloom集成，实现更深入的行为评估。为确保独立性与公信力，Petri的开发已移交非营利组织Meridian Labs。

Anthropic 安全/对齐开源生态

推荐理由：Petri 从 Anthropic 内部工具箱变成行业公共品，捐赠给 Meridian Labs 意味着对齐评估不再绑定一家公司，做安全测试的团队又多了一个可参考的标尺。

01:29

Anthropic：Research（发表成果 · 网页）

精选81

自然语言自编码器：将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法，能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”，形成“激活值→文本解释→重建激活值”的循环，并以重建相似度为目标进行优化。应用表明，NLA能揭示模型未言明的内部状态，例如在安全测试中，发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码，并合作发布了交互式探索工具。

Anthropic 安全/对齐开源生态论文/研究

推荐理由：Anthropic 搞出了一种从激活中直接读出自然语言的方法，相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估，对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。

5月6日

21:00

公众号：昆仑万维（天工）

昆仑万维方汉：天工AI领跑垂类大模型开源赋能全球创作

昆仑万维方汉指出，天工AI在垂类大模型领域中处于领先地位，并通过开源策略推动全球范围内的内容创作与生态构建。

开源生态行业动态

5月5日

00:54

Google Developers Blog（RSS）

精选66

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google 开源生态推理论文/研究

关联讨论 1 条

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

00:11

Tomer Tunguz 博客（VC 分析）

精选63

每日仅需8条广告，广告支持型AI的经济可行性分析

基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明，一个由4块B200 GPU组成的集群服务300名用户时，每小时成本约18美元。通过广告收入即可覆盖成本：在内容网络中每3分钟展示一条广告（CPM 3.12美元），或在搜索广告中每39分钟展示一条（CPM 38.40美元），这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务，可采用混合盈利模式：用户每月支付10美元订阅费并每日观看8条广告，即可支持约200万token的用量，这证明了该模式的实用性。

开源生态推理现象/趋势

推荐理由：Tunguz 用一页纸的算账说清了广告支持 AI 的经济账，一天看 8 条广告就能换两百万 token，这对做免费 AI 产品的团队是个真正有说服力的模型。

5月2日

01:19

Google Research：Blog（网页）

通过全球合作与开放资源催化科学影响力

Google Research强调通过开源软件和开放数据集推动现代科学发展，秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理，专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系，构建协作生态系统，旨在加速全球科学进步与创新。

Google 开源生态行业动态

4月30日

09:00

公众号：蚂蚁百灵（Ling）

同事件精选62

Ling-2.6-1T 正式开源：面向复杂任务的万亿级综合旗舰模型

Ling-2.6-1T 于上周发布，今日正式开源。该模型定位为面向复杂任务的万亿级综合旗舰模型。

开源生态模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁开源万亿参数模型 Ling-2.6-1T，虽然一个多月后才看到，但这是目前国内参数最大的综合性基座，做复杂多模态 agent 的团队可以直接拿来用，省去从头训练的麻烦。

02:43

LMSYS：Blog（Chatbot Arena 团队）

精选74

秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载，提出了一种基于RDMA的点对点权重更新机制，作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输，将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒，提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余，允许推理服务器更快恢复rollout过程，且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由：LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P，1T 参数模型传输快了 7 倍，做大规模 RL infra 的团队该认真看看这个工程方案。

00:40

Mistral AI：News（网页）

Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体

Mistral AI推出旗舰模型Mistral Medium 3.5，这是一个128B参数的密集模型，拥有256K上下文窗口，在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎，并驱动两项新功能：Vibe远程编程智能体可将编码任务移至云端异步并行执行，用户可通过CLI或Le Chat启动并在完成后接收通知；Le Chat的新工作模式则是一个由该模型驱动的智能体，能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来，提升工作效率。

智能体开源生态模型发布编码

4月29日

16:30

公众号：腾讯混元

出国必备+1！腾讯混元开源手机端离线翻译模型，仅0.4G，支持33种语言

开源生态模型发布端侧