Cloudflare 现已作为新模型提供商上线 OpenRouter 平台,首批支持其新推出的 Gemma 模型以及多款热门的 Llama 系列模型。此次合作扩大了开发者在部署和调用大语言模型时的基础设施选择,可直接通过 Cloudflare 全球网络访问这些模型。
Cloudflare 现已作为新模型提供商上线 OpenRouter 平台,首批支持其新推出的 Gemma 模型以及多款热门的 Llama 系列模型。此次合作扩大了开发者在部署和调用大语言模型时的基础设施选择,可直接通过 Cloudflare 全球网络访问这些模型。
Mistral AI 发布 Mistral Small 3,一款基于 Apache 2.0 开源、延迟优化的 24B 参数大语言模型。其性能可与 Llama 3.3 70B、Qwen 32B 等更大模型竞争,并作为 GPT-4o-mini 的开源替代。指令微调版本在代码、数学、通用知识等基准测试中表现出色,MMLU 准确率超 81%,推理速度达 150 tokens/s。该模型未使用强化学习或合成数据训练,提供预训练和指令微调两个检查点,适合本地部署,经量化后可在单块 RTX 4090 或 32GB 内存 MacBook 上运行。现已在 la Plateforme 平台提供,并与 Hugging Face、Ollama、Together AI 等合作推出。
OpenRouter 宣布为 Llama 3.3 70b 降价,同时提供该模型的六个版本及对应提供商。
OpenRouter 宣布对 Llama 3.3 70b 进行价格下调,同时新增六个模型及相应供应商。此次调整扩大了 Llama 3.3 70b 的可选提供商范围,并降低了调用成本。
Meta 最新发布了 Llama 3.3 70B 模型,并同步推出了六个不同规格的版本及服务提供商。此次发布伴随着显著的价格下调,旨在提升模型的可及性与市场竞争力。关键变化在于以更低的成本提供强大的 700亿参数模型,具体降价幅度因提供商和版本而异,但整体趋势是大幅降低使用门槛。这一举措预计将推动大语言模型在更广泛场景中的应用与部署。
DeepSeek-V2.5 在 LMSYS ChatBotArena(全球大模型竞技场)榜单中上榜,创下国产大模型在该竞技场的最高得分记录。
RedTeam Arena 是一个开源的大语言模型红队测试平台,由 LMSYS 与 Pliny 及 BASI 社区联合推出。平台首发游戏 Bad Words 已吸引数千用户参与,玩家需诱导模型说出特定敏感词汇。团队提出新型统计方法 Extended Elo,通过逻辑回归分别计算玩家、模型和提示词的独立评分,相比传统 Elo 算法实现样本量的二次方级节省。所有代码已开源,数据将在短期延迟后向公众开放。
研究团队构建并开源了一套针对稀疏自编码器特征的自动可解释性管道,建立了从特征解析到语义标注的完整自动化流程与评估体系。该方案实现了对神经网络内部特征的批量自动解读,显著提升大语言模型机制研究的效率与可复现性,为AI安全与透明度研究提供标准化开源工具。
LMSYS.org 推出 SGLang Runtime v0.2,一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中,该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量(Llama-70B 场景),并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度,核心调度器仅约 4000 行代码,已在 Chatbot Arena 等平台累计生成数万亿 token。
DeepSeek-V2-0628在「全球大模型竞技场」榜单更新中位列开源模型榜首,成为全球开源大模型性能第一。
Mistral AI团队与NVIDIA合作发布了Mistral NeMo,这是一个12B参数的大语言模型。它提供高达128k tokens的上下文窗口,并在推理、世界知识和编码能力上达到了其规模的前沿水平。该模型基于标准架构,是Mistral 7B的即插即用替代品,并支持FP8推理。Mistral NeMo以Apache 2.0许可开源,包含预训练和指令微调版本,权重已发布在HuggingFace并可通过其API平台调用。新引入的Tekken分词器在超过100种语言上训练,在压缩多种语言文本时效率显著高于前代。
Mistral AI 团队发布了 Codestral Mamba 模型。该模型由 Albert Gu 和 Tri Dao 协助设计,采用 Mamba 架构而非 Transformer,具备线性时间推理优势,并在代码与推理能力上进行了训练,以达到与 SOTA Transformer 模型相当的性能。模型在高达 256k tokens 的上下文检索能力上进行了测试。它是一个指令微调版本,参数规模为 7,285,403,648,以 Apache 2.0 许可证开源。用户可通过 mistral-inference SDK 或 TensorRT-LLM 进行部署,权重可从 HuggingFace 下载,也已在 la Plateforme 上提供。
Mistral AI 在 la Plateforme 平台推出模型定制服务,提供三种微调途径:面向开源开发者的 mistral-finetune 轻量代码库(基于 LoRA),支持在自有基础设施上微调;平台内的无服务器微调服务,利用专有技术对 Mistral 7B 和 Mistral Small 进行快速、低成本的适配与部署;以及面向部分客户的深度定制训练服务(如持续预训练),使用客户自有数据进行。未来数周内将为微调服务添加更多模型支持。
Mistral AI发布名为“Mistral AI非生产许可证”(MNPL)的新许可协议。该协议允许开发者将Mistral AI技术用于非商业目的和研究工作,并规定基于其技术进行商业开发需确保对所有参与方公平且可持续。今日,Codestral模型已基于MNPL发布。Mistral AI承诺将继续以Apache 2.0协议发布部分模型与代码。
Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶,参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出,胜率达 60%,但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加,其胜率从 50% 显著下降至 40%。分析显示,Llama 3 的输出风格更友好且具对话性,这成为其获得用户偏好的关键因素。
Mistral AI发布其最新开放模型Mixtral 8x22B。该模型基于稀疏混合专家(SMoE)架构,在141B总参数中激活39B参数,拥有64K tokens上下文窗口,支持英语、法语、意大利语、德语和西班牙语,并具备强大的数学、编码及原生函数调用能力。在MMLU等标准基准测试中,其推理性能超越其他开源模型,且推理速度优于任何密集型70B模型。该模型以Apache 2.0许可证开源发布。
Pile-T5 是研究人员基于 T5 架构,在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架,通过在大规模多样化语料上的预训练,提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体,适用于各类下游自然语言处理任务。
文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。
LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台,基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票,评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则,仅收录API或开源权重可访问的公开模型,同时支持未发布模型匿名测试。团队定期开放20%投票数据(含提示词、回答及用户偏好),致力于通过社区驱动的实时评估推进大语言模型研究。
发布全新资源 FM Dev Cheatsheet,这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息,涵盖架构设计、训练优化及部署等环节的核心要点,帮助快速查阅技术规范与最佳实践,提升开发效率与项目质量。
Mistral AI 发布开源模型 Mixtral 8x7B,采用 Apache 2.0 许可证。这是一个稀疏混合专家(SMoE)模型,总参数 46.7B,但每个 token 仅激活 12.9B 参数。其推理速度比 Llama 2 70B 快 6 倍,并在多数基准测试中匹配或超越 GPT-3.5。模型支持 32k token 上下文窗口,掌握英语、法语、意大利语、德语和西班牙语,并具备强大的代码生成能力。同步发布经监督微调和直接偏好优化(DPO)的指令版本 Mixtral 8x7B Instruct,其在 MT-Bench 上得分 8.3。
Chatbot Arena平台已收集超13万张投票,对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先,性能接近GPT-3.5;基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异,而GPT-3.5-turbo-1106版本出现意外性能下滑。
EleutherAI 回顾了过去一年的研究工作,重点总结了在扩展 RoPE(旋转位置编码)方面的技术探索与成果。团队针对位置编码提出了优化方案,改进了旋转位置编码的基数调整与插值方法,显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。
Mistral AI发布其首个7B参数开源模型Mistral 7B,采用Apache 2.0许可开源。该模型在所有标准的英语和代码基准测试上,性能超过了此前所有参数在13B以下的开源模型。文章指出,开源模型能允许开发者更精细地控制、定制并降低成本,是应对闭源模型黑箱问题和AI寡头垄断的可行路径。公司承诺将持续发布性能比肩闭源方案的开源模型,并正研发更大规模模型与新架构。
Mistral AI团队开源了其7.3B参数模型Mistral 7B。该模型在所有基准测试中超越Llama 2 13B,在许多测试中超越Llama 1 34B,并在代码任务上接近CodeLlama 7B的性能。它采用Grouped-query attention (GQA)以加速推理,并使用Sliding Window Attention (SWA)以更低的成本处理长序列。在推理、理解和STEM推理(MMLU)上,其性能相当于超过3倍大小的Llama 2模型。模型以Apache 2.0许可证开源,并提供了一个针对对话微调的Mistral 7B Instruct版本,其在MT-Bench上表现优于所有7B模型。
EleutherAI 阐述其针对欧盟AI法案(EU AI Act)支持开源与开放科学的立场及具体策略。该AI研究机构就欧盟人工智能监管法规提出系统性建议,主张在合规框架内保障开源模型开发与科学研究的开放性,致力于平衡AI安全监管与技术创新自由,确保开源社区在严格监管环境下仍能持续发展并促进技术民主化。
LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集:33K 条真实对话(涵盖 GPT-4、Claude 等 20 个模型)及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票,覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出,可用于 RLHF 训练与模型安全研究。
LMSYS Org发布LongChat-7B与LongChat-13B模型,通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条(7B)和1.8万条(13B)curated对话数据微调,训练成本分别为300美元与700美元。评估显示,LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍,在MT-Bench基准测试中表现优异,显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。
Chatbot Arena发布第8周排行榜,新增Vicuna-v1.3系列开源模型(7B-33B参数)及MT-Bench评估基准。MT-Bench包含80道多轮题目,涵盖写作、推理等8类,由GPT-4评分。新榜采用三项指标:基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示,GPT-4以8.99分和1227分领先,Vicuna-33B获7.12分,性能接近Claude与GPT-3.5-turbo。
Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计,结果证实该库安全可靠,具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布,相关博客文章将进一步阐述该库的技术背景与后续实施计划。
该研究利用 TransformerLens 可解释性工具,针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析,系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析,揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构,为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。
EleutherAI 发布第二次年度回顾长文,梳理该开源 AI 研究组织过去一年的主要工作进展与成果。由于提供的正文仅包含引言部分,具体涉及的新模型发布、技术迭代、数据集更新及性能指标等关键信息未在现有内容中详细展开,无法提取详细的技术参数与量化数据。
EleutherAI 发布第二份回顾报告序言,梳理该开源 AI 研究组织过去一年半的工作进展。文章从宏观视角概述了其在开源模型、工具开发及社区建设等方面的阶段性成果,为后续详细技术回顾提供背景脉络,但未披露具体性能指标与版本迭代细节。
GPT-NeoX-20B 正式发布。这款拥有 200 亿参数的大规模语言模型由开发团队与云计算服务商 CoreWeave 合作训练完成。该模型在参数量级上达到 200 亿规模,通过双方协作完成训练流程,为自然语言处理研究和应用提供了新的基础模型选择。
EleutherAI 在成立一周年之际回顾转型历程,从松散志愿者社区发展为正式开源 AI 研究机构,期间发布 GPT-Neo(27 亿参数)、GPT-J(60 亿参数)等大语言模型及 The Pile(825GB)数据集,推动大模型训练民主化。首年成果为开源社区提供了可商用的 GPT 替代方案,标志着去中心化 AI 研究模式的成熟。
创造并开源大语言模型对AI安全具有净收益价值。文章论证了公开发布大模型能够提升AI系统的安全性与透明度,详细阐述了支持开放源代码策略的核心理由,解释了这种发布方式为何有助于推动AI安全领域的整体发展,而非增加潜在风险。