AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源生态」清除
4月8日周三
22:43Nathan Lambert最新开源模型采用趋势报告:中国模型持续领跑
10:41公众号:智谱(GLM)62精选GLM-5.1开源:一个独立工作8小时的模型
4月4日周六
11:00SemiAnalysisNVIDIA被指开源承诺反复,DGX Lepton核心仍未开放
02:10Nathan Lambert精选人们过于痴迷开源模型的基准测试,成功的关键其实是工具支持与可微调性
00:57Nathan Lambert:Interconnects(RSS)精选Gemma 4 与开放模型成功之道
00:37François CholletKeras 团队将于今天上午10点 PT 进行一场社区会议。还有25分钟开始。会议对所有人开放--欢迎加入了解最新功能和未来规划,并提出你的问题!
4月3日周五
22:01Demis Hassabis精选Gemma 4 性能超越体量 10 倍以上的模型!(注意 x 轴为对数坐标!)
13:08Steve Yegge:Medium(RSS)47Gas Town与Beads同步发布1.0.0正式版
11:57Artificial Analysis印度发布首批从头预训练开源大模型Sarvam 105B与30B
01:09Artificial Analysis精选Google发布Gemma 4多模态开源模型系列
00:13Sundar Pichai精选Gemma 4 正式发布,单位参数量智能密度极高 👇
00:08Demis Hassabis精选Gemma 4 发布:各尺寸最强的开源模型
4月2日周四
08:25Nathan Lambert2026 年美国开源模型迎来爆发:Nemotron Super / Ultra、Arcee Trinity Large 等即将发布
07:16Tibo算了,其实想起来了,我们决定开源 Codex 核心,因为这样可以……
4月1日周三
15:13Hugging Face:Blog(RSS)70精选Falcon Perception
3月31日周二
16:23Hugging Face:Blog(RSS)83精选以165美元成本训练25个物种的mRNA语言模型:构建从结构预测到密码子优化的AI流程
15:06Steve Yegge:Medium(RSS)49氛围维护者
3月30日周一
21:02Nathan Lambert:Interconnects(RSS)最新开源成果第20期发布:新增组织与模型类型,涵盖 Nemotron Super、Sarvam、Cohere Transcribe 等
11:25美团 LongCat:HuggingFace 新模型精选LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型
3月27日周五
08:00Hugging Face:Blog(RSS)43解放你的OpenClaw:致力于通过开源与开放科学推动AI民主化
3月25日周三
21:18美团 LongCat:HuggingFace 新模型美团 LongCat-Next
20:00公众号:月之暗面(Kimi)47Kimi 杨植麟「2026 中关村论坛」演讲全文(附视频)
09:06公众号:MiniMax(稀宇科技)55MiniMax Office Skills:开源一套生产级办公文档引擎
00:11DeedyMoneyPrinter:获星 20k+ 的 GitHub 仓库,专门生成互联网垃圾内容牟利(含 Twitter 机器人)
3月24日周二
19:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选帮助开发者为青少年构建更安全的 AI 体验
3月20日周五
19:48Artificial Analysis精选Mistral发布开源模型Small 4,支持混合推理与图像理解
3月18日周三
00:37Hugging Face:Blog(RSS)78精选Hugging Face开源现状:2026年春季
00:11AnthropicAnthropic 等向 Linux Foundation 捐赠 1250 万美元,强化支撑 AI 的开源安全基础
3月16日周一
00:00Mistral AI:News(网页)83Mistral AI 与 NVIDIA 合作加速开放前沿模型发展
3月11日周三
11:15公众号:MiniMax(稀宇科技)56来MaxClaw开源,人人参与OpenClaw生态共建
3月10日周二
11:54公众号:腾讯混元59混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
3月9日周一
02:00Andrej Karpathy精选自动研究下一站:异步协作的AI研究社区
3月7日周六
02:00Google Blog:AI(RSS)开源 AI 模型 SpeciesNet 如何助力野生动物保护
3月6日周五
22:03Nathan Lambert:Interconnects(RSS)Dean Ball 谈开放模型与政府管控
00:16Nathan Lambert:Interconnects(RSS)Olmo Hybrid 与未来 LLM 架构
3月5日周四
09:01公众号:阶跃星辰(Step)54创作一首新歌只需2秒!阶跃星辰开源 ACE-Step 1.5 收获开发社区好评
3月4日周三
15:26Steve Yegge:Medium(RSS)42欢迎来到荒野:千镇联盟
09:00公众号:阶跃星辰(Step)49阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源
00:30Nathan Lambert:Interconnects(RSS)最新开放成果(#19):Qwen 3.5、GLM 5、MiniMax 2.5--中国实验室的前沿最新推进
2月26日周四
08:00蚂蚁百灵:Developer Blog(网页)86精选Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月8日
22:43
Nathan Lambert@natolambert
最新开源模型采用趋势报告:中国模型持续领跑

本报告基于Interconnects与ATOM Project数据,手动筛选约1.5K个重要语言模型,通过下载量、衍生模型数量及OpenRouter推理份额等多维度指标,分析开源模型采用趋势。数据显示,以Qwen、Kimi为代表的中国模型全球采用率持续加速领先,其中Qwen 3.5、Nemontron 3、Kimi K2.5等近期模型在相对采用指标(RAM)中表现突出。研究同时指出,大型模型仍是Qwen相对竞争力较弱的领域。该工作旨在为开源生态系统提供更准确的公开数据与趋势洞察。

开源生态现象/趋势
10:41
公众号:智谱(GLM)
精选62
GLM-5.1开源:一个独立工作8小时的模型

智谱推出开源模型GLM-5.1,支持独立工作长达8小时。模型可直接部署使用,无需人工频繁干预,适用于长周期自动化任务场景。

智能体开源生态模型发布
关联讨论 2 条公众号:智谱(GLM)IT之家(RSS)
推荐理由:智谱把 GLM-5.1 开源,并且主打 8 小时独立工作,这个定位切中了 agent 场景下长任务执行的痛点,想做自动化流程的可以跑起来试试。
4月4日
11:00
SemiAnalysis@SemiAnalysis_
NVIDIA被指开源承诺反复,DGX Lepton核心仍未开放

NVIDIA因DGX Lepton开源承诺未兑现再遭质疑。该公司曾宣称将开源该软件,但目前仅发布GPU monitoring agent等边缘组件,核心平台仍封闭。此前NIMS也经历类似争议:面对社区抗议,NVIDIA最终仅开源部分功能。作者指出,这似乎是NVIDIA的惯用策略——以开源承诺回应舆论,实则仅开放非关键模块,核心代码继续保持专有。

开源生态行业动态
02:10
Nathan Lambert@natolambert
精选
开源模型成功的核心并非基准分数,而是即时且长期的工具支持与可微调性。Gemma 过去在这些方面表现挣扎,而 Qwen 则表现出色,这才是决定模型成败的关键因素。

Interconnects: Gemma 4 and what makes an open model succeed Hint: it's not benchmark scores. https://www.interconnects.ai/p/gemma-4-and...

Google大佬观点开源生态数据/训练

推荐理由:HF研究员指出开源模型成功关键在工具链与微调支持而非基准分数
00:57
Nathan Lambert:Interconnects(RSS)
精选
Gemma 4 与开放模型成功之道

Gemma 4 的发布揭示了开放模型成功的真正标准。文章指出,决定模型成败的关键并非基准测试分数(benchmark scores),而是其他因素。当前 AI 领域过度关注 leaderboard 排名,但高分数不等于实际应用价值与社区采用率。真正的成功取决于模型解决真实场景需求的能力、开发者友好度以及生态建设,而非单纯的技术指标领先。这一观点挑战了以 benchmark 为导向的行业评估范式。

Google大佬观点开源生态模型发布
关联讨论 1 条X:Francois Chollet (@fchollet)
推荐理由:开源模型成败不只看榜单分数,Hugging Face 大佬揭秘真实胜负手
00:37
François Chollet@fchollet
Keras 团队将于今天上午10点 PT 进行一场社区会议。还有25分钟开始。会议对所有人开放--欢迎加入了解最新功能和未来规划,并提出你的问题!
开源/仓库开源生态
4月3日
22:01
Demis Hassabis@demishassabis
精选
Gemma 4 在基准测试中性能超越体量 10 倍以上的大模型,图表 x 轴为对数坐标,凸显其极高的参数效率。
DeepMindGoogle开源生态模型发布

推荐理由:Google 开源小模型 Gemma 4 发布,性能超越 10 倍体量级大模型
13:08
Steve Yegge:Medium(RSS)
47
Gas Town与Beads同步发布1.0.0正式版

Gas Town(编程智能体框架)与Beads(智能体记忆系统)今日同步发布1.0.0正式版。Gas Town目前拥有13k星标,已进入稳定维护模式,让非技术人员也能构建软件。Beads则以轻量级问题工单为基础,将记录存储在Git中并支持SQL查询,为智能体提供跨会话的历史记录与上下文。

智能体产品更新开源生态
11:57
Artificial Analysis@ArtificialAnlys
印度发布首批从头预训练开源大模型Sarvam 105B与30B

Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B,采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12,支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型,但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源,上下文窗口128K/65K tokens,目前通过API免费提供服务。

开源生态推理模型发布
01:09
Artificial Analysis@ArtificialAnlys
精选
Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。

DeepMindGoogle多模态开源生态
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)
推荐理由:Google发布多模态开源模型Gemma 4,单卡H100可跑且科学推理能力突出
00:13
Sundar Pichai@sundarpichai
精选
Gemma 4 开源模型发布,提供 31B dense、26B MoE 及有效 2B/4B 四种尺寸,分别针对性能、低延迟和边缘设备优化。Google DeepMind 称其为同尺寸最佳开源模型,强调单位参数量智能密度极高。

Demis Hassabis: Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...

Google开源生态模型发布端侧

推荐理由:Google发布Gemma 4开源模型,4种尺寸覆盖从云端到端侧全场景
00:08
Demis Hassabis@demishassabis
精选
Gemma 4 开源模型发布,提供 4 种尺寸:31B dense 版追求极致性能,26B MoE 版实现低延迟,2B 与 4B 版适配边缘设备,均可针对特定任务微调。
DeepMindGoogle开源生态模型发布

推荐理由:Google 发布 Gemma 4 开源模型,覆盖 2B 至 31B 多尺寸,支持端侧与 MoE 架构
4月2日
08:25
Nathan Lambert@natolambert
Nemotron Super/Ultra、Arcee Trinity Large、Gemma 4 及 Reflection 首个模型都将在 2026 年发布,GPT OSS 2 和 Thinky 等也可能加入。美国开源模型此前一度挂零,如今终于迎来爆发期。
GoogleOpenAI开源生态现象/趋势
07:16
Tibo@thsottiaux
Codex 核心代码仓库 11 个月前就已公开却刚被发现。OpenAI 称决定开源是为促进早期生态发展并互相学习,差点忘了这茬。

Tibo: Whaaaa. Only realized now and apparently our repo was public since 11 months ago and noone told us?!

OpenAI开源/仓库开源生态编码
4月1日
15:13
Hugging Face:Blog(RSS)
精选70
Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章,介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案,专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新,包括多模态数据融合机制的优化,以及实时处理效率的显著提升。关键性能指标显示,其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face开源生态模型发布

推荐理由:Falcon 系列新成员,开源多模态模型阵营再添一员,开发者可关注选型
3月31日
16:23
Hugging Face:Blog(RSS)
精选83
以165美元成本训练25个物种的mRNA语言模型:构建从结构预测到密码子优化的AI流程

OpenMed团队构建了一个覆盖蛋白质结构预测、序列设计和密码子优化的端到端AI流程。在密码子优化环节,CodonRoBERTa-large-v2模型以4.10的困惑度和0.40的斯皮尔曼CAI相关性显著优于其他架构。研究将训练扩展至25个物种,仅用55个GPU小时训练了4个生产级模型,并建立了独特的物种条件化系统,实现了从蛋白质概念到合成就绪DNA序列的快速转化。完整代码与实验结果已开源。

Hugging Face开源生态数据/训练论文/研究

推荐理由:低成本开源生物AI管道,可加速蛋白质工程和药物开发。
15:06
Steve Yegge:Medium(RSS)
49
氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程
3月30日
21:02
Nathan Lambert:Interconnects(RSS)
最新开源成果第20期发布:新增组织与模型类型,涵盖 Nemotron Super、Sarvam、Cohere Transcribe 等

第20期开源成果更新引入多个新组织与全新模型类型,收录 NVIDIA Nemotron Super、Sarvam 及 Cohere Transcribe 等最新模型。此次扩展显著丰富了开源生态的模型种类与来源多样性,覆盖更多技术领域与应用场景,为开发者提供更广泛的模型选择。

开源/仓库开源生态
11:25
美团 LongCat:HuggingFace 新模型
精选
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
3月27日
08:00
Hugging Face:Blog(RSS)
43
解放你的OpenClaw:致力于通过开源与开放科学推动AI民主化

Anthropic公司发布新一代大模型Claude 3.5 Sonnet,在多项基准测试中超越前代Opus及GPT-4o等竞争对手,尤其在高级推理、知识掌握和编程能力上表现卓越。新模型处理速度提升至两倍且定价更低。同时推出的“Artifacts”功能可将生成的代码或文本在独立面板实时展示,标志着其向交互式工作空间演进。

Hugging Face其他开源生态
3月25日
21:18
美团 LongCat:HuggingFace 新模型
美团 LongCat-Next

美团开源项目 LongCat-Next 正式发布,宣称将通过开源与开放科学推进人工智能技术的普及与民主化。该项目目前仅公开使命宣言,强调降低AI技术门槛的愿景,尚未披露具体模型架构、训练数据或性能基准等技术指标,也未说明应用场景或发布时间表。

Hugging Face开源生态模型发布
20:00
公众号:月之暗面(Kimi)
47
Kimi 杨植麟「2026 中关村论坛」演讲全文(附视频)
大佬观点开源生态
09:06
公众号:MiniMax(稀宇科技)
55
MiniMax Office Skills:开源一套生产级办公文档引擎

MiniMax 开源了 Office Skills,一套生产级办公文档引擎。

开源/仓库开源生态
00:11
Deedy@deedydas
GitHub 仓库 MoneyPrinter 获星超 2 万,其唯一功能是通过自动生成互联网垃圾内容(包括 Twitter 机器人)来牟利。
GitHub开源生态现象/趋势
3月24日
19:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
帮助开发者为青少年构建更安全的 AI 体验

OpenAI 发布面向开发者的提示词青少年安全策略,配合 gpt-oss-safeguard 使用,帮助审核 AI 系统中的年龄特定风险。

OpenAI安全/对齐开源生态

推荐理由:OpenAI 发布青少年 AI 安全策略与开源保障工具
3月20日
19:48
Artificial Analysis@ArtificialAnlys
精选
Mistral发布开源模型Small 4,支持混合推理与图像理解

Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。

多模态开源生态推理模型发布

推荐理由:Mistral 开源 Small 4,支持混合推理与多模态,Agent 任务表现大幅提升
3月18日
00:37
Hugging Face:Blog(RSS)
精选78
Hugging Face开源现状:2026年春季

Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上,内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势,但未提供详细的量化指标或具体产品发布信息。

Hugging Face开源生态现象/趋势

推荐理由:Hugging Face 季度开源生态报告,可快速掌握 AI 开源社区最新动向与趋势
00:11
Anthropic@AnthropicAI
Anthropic 宣布向 Linux Foundation 捐款,联合 AWS、GitHub、Google、DeepMind、Microsoft、OpenAI 等科技巨头投入 1250 万美元,通过 AlphaOmega 和 OpenSSF 项目推进开源安全解决方案,保障支撑全球软件系统和 AI 运行的基础安全。

The Linux Foundation: The Linux Foundation Announces $12.5 Million in Grant Funding (via @AlphaOmegaOSS and @OpenSSF) @AnthropicAI , @AmazonWe...

Anthropic开源生态行业动态
3月16日
00:00
Mistral AI:News(网页)
83
Mistral AI 与 NVIDIA 合作加速开放前沿模型发展

Mistral AI 作为 NVIDIA Nemotron 联盟创始成员,与 NVIDIA 达成战略合作,共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具,并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型,将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。

多模态开源生态行业动态
3月11日
11:15
公众号:MiniMax(稀宇科技)
56
来MaxClaw开源,人人参与OpenClaw生态共建

MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程,用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口,通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。

产品更新具身智能开源生态
3月10日
11:54
公众号:腾讯混元
59
混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
多模态开源生态模型发布
3月9日
02:00
Andrej Karpathy@karpathy
精选
自动研究下一站:异步协作的AI研究社区

autoresearch的演进方向应是异步大规模协作,类似SETI@home模式,目标并非模拟单个PhD学生,而是构建多agents研究社区。当前Git/GitHub的主分支机制限制了分布式创新,未来应允许agents在任意分支并行探索不同方向,通过Discussion或PR分享发现而非合并代码。随着智能体算力与注意力瓶颈消失,现有代码协作抽象将面临根本性重构。

智能体GitHub大佬观点开源生态
关联讨论 1 条X:Andrej Karpathy (@karpathy)
推荐理由:顶级AI科学家提出Agent科研新范式,从模拟个人转向构建分布式智能协作网络
3月7日
02:00
Google Blog:AI(RSS)
开源 AI 模型 SpeciesNet 如何助力野生动物保护

SpeciesNet 是开源 AI 模型,旨在帮助全球各地的人们保护和保存野生动物。该模型为野生动物保护提供技术支持,助力生物多样性保护事业。

Google开源/仓库开源生态
3月6日
22:03
Nathan Lambert:Interconnects(RSS)
Dean Ball 谈开放模型与政府管控

正在审理的 Anthropic v. Department of War 案正为开放模型的未来确立微妙先例。Dean Ball 指出,该诉讼涉及 AI 开放模型与政府机构间的法律争议,其判决将深刻影响开源 AI 的监管框架。此案正在塑造行政权力与开放权重模型之间的边界,为政府如何管控开放模型提供关键司法参照,可能改变开源人工智能的发展轨迹。

Anthropic开源生态政策/监管
00:16
Nathan Lambert:Interconnects(RSS)
Olmo Hybrid 与未来 LLM 架构

Olmo 发布采用混合架构的最新模型,聚焦开源后训练工具的前沿技术探索。该模型代表了大语言模型架构的新进展,围绕后训练阶段的优化方法与工具创新展开讨论,为开源社区提供了模型训练与架构演进的最新实践参考。相关技术动向揭示了 LLM 开发流程中后训练环节的关键趋势。

大佬观点开源生态数据/训练
3月5日
09:01
公众号:阶跃星辰(Step)
54
创作一首新歌只需2秒!阶跃星辰开源 ACE-Step 1.5 收获开发社区好评
开源生态模型发布语音
3月4日
15:26
Steve Yegge:Medium(RSS)
42
欢迎来到荒野:千镇联盟

Wasteland是一个将众多Gas Town联合成协作信任网络的平台,旨在加速构建。其核心是共享的“悬赏板”,人们在此发布想法,其他人使用Gas Town协助构建,贡献者可获得信用与声誉。平台采用Git的fork/merge模型管理工作流程,并引入印章、排行榜等游戏化元素。它构建了一个公开、可移植的贡献记录与技能系统。该项目由志愿者团队打造,其Discord和GitHub社区活跃。

GitHub产品更新开源生态
09:00
公众号:阶跃星辰(Step)
49
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源

阶跃星辰将 Step 3.5 Flash 的预训练、中训练和训练框架全部开源,支持开发者进行更深度模型定制,以打造专属 AI 智能体。

开源/仓库开源生态数据/训练
00:30
Nathan Lambert:Interconnects(RSS)
最新开放成果(#19):Qwen 3.5、GLM 5、MiniMax 2.5--中国实验室的前沿最新推进

阿里巴巴 Qwen 3.5、智谱 AI GLM 5 与 MiniMax 2.5 近期集中发布,中国头部 AI 实验室通过开源策略持续推动技术边界。新一代模型在代码生成、多模态推理与复杂任务处理上实现显著性能跃升,参数规模与上下文窗口同步扩展,展现中国在全球开源 AI 生态中的前沿竞争力与快速迭代能力。

开源生态模型发布
2月26日
08:00
蚂蚁百灵:Developer Blog(网页)
精选86
Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率,Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐,并通过MLA极致压缩KV Cache。为确保改造后性能无损,团队设计了精细的平滑迁移训练策略,包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例,最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:为大模型长上下文优化提供可落地的工程实践参考。
‹ 上一页
1…313233343536
下一页 ›