SONIC是一个4200万参数的Transformer模型(规模仅半个GPT-1),通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练,以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人,在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。
SONIC是一个4200万参数的Transformer模型(规模仅半个GPT-1),通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练,以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人,在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。
GGML 和 llama.cpp 团队正式加入 Hugging Face,以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp,保持 100% 技术自主权和社区领导力,项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源,助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成,实现近乎“一键式”的模型部署,并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈,推动开源超级智能的普及。
开源模型与闭源巨头(如 GPT、Claude)之间的能力差距持续存在,形成永无止境的追赶态势。文章探讨了知识蒸馏技术对缩小差距的作用,分析了开源与闭源模型在创新时间尺度上的差异,以及开源模型如何通过专业化模型在特定领域寻找获胜路径。同时指出当前开源生态在基础研究和资源投入上的缺失环节,并评估了这种追赶模式的可持续性。
inclusionAI 发布了 Ling-2.5-1T 模型。该模型参数规模达到 1 万亿,是其 Ling 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的使命,旨在让先进 AI 技术更广泛可及。新版本预计在语言理解与生成能力上有所提升,继续为全球研究社区提供强大的基础模型支持。
GLM-5发布后在六个权威榜单中表现突出:AA Intelligence Index全球第四、开源第一;AA Omniscience幻觉率全球最低(34%);Code Arena与Text Arena均为开源第一;Design Arena全球第三。发布首日登顶Hugging Face全球趋势榜。
inclusionAI发布了ZwZ-4B开源模型。该模型参数量为40亿,基于Transformer架构,上下文窗口为32K。其训练数据包含2万亿Token,涵盖代码、数学及多语言文本。模型采用分组查询注意力机制,支持16位与32位浮点精度。团队旨在通过开源推动人工智能技术的普及与发展。
inclusionAI 发布了 ZwZ-7B 模型,这是一个拥有70亿参数的开源大语言模型。该模型基于先进的 Transformer 架构,在多项基准测试中性能显著提升,尤其在代码生成和数学推理任务上表现突出。其上下文窗口扩展至 128K 令牌,并采用了分组查询注意力等高效技术。模型权重已完全开源,旨在通过开放科学推动人工智能技术的民主化与普及。
inclusionAI 发布了 Ming-omni-tts,这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效,并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态,简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。
inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目,这是一个面向文本转语音(TTS)的通用分词器。该模型支持12Hz的高采样率,旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进,致力于让人工智能技术更加普及和易得。
inclusionAI 发布了 Ming-omni-tts-0.5B,这是一个参数规模为 0.5B(5亿)的文本转语音模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。发布标志着在语音合成领域,一个中等规模、可公开访问的模型正式加入开源生态。
inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B,参数量达168亿。该模型采用创新的A3B混合专家架构,在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念,旨在推动人工智能技术的民主化进程。
inclusionAI 发布了 Ring-2.5-1T,这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展,为更广泛的研究社区提供了强大的基础工具。
Kimi K2.5 是月之暗面迄今最智能且最全能的模型,在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens,超越 Gemini 3、Claude Sonnet 4.5,成为全球开发者调用量最大的模型。
inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级,延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。
生数科技与清华大学联合开源统一世界模型Motus,该模型在性能上全面超越Pi0.5,提升幅度达40%。
基于提供的GitHub仓库元数据,Protenix-v1是一个开源生物分子结构预测项目,其技术报告以PDF形式发布(PTX_V1_Technical_Report)。该仓库已获得1.8k星标和262个分支,显示社区关注度较高。但受限于提供的正文仅为文件列表界面,未包含技术报告实际章节,无法提取模型在基准测试中的具体准确率数值、参数规模、训练数据量或架构创新细节等关键技术指标。
Interconnects 第17期访谈中,Nvidia 副总裁 Bryan Catanzaro 系统回顾了 Nemotron 开源模型项目的技术演进与战略定位。访谈涵盖该系列模型从研发初期到当前版本的迭代历程,剖析了英伟达在开源 AI 领域的布局逻辑,并披露了 Nemotron 在合成数据生成与模型训练效率方面的最新进展及未来规划。
LMSys 推出了社区驱动的评估框架 Community Evals,旨在通过开源和开放科学推进人工智能民主化。该框架允许社区贡献和审查评估案例,以透明、可复现的方式测试模型。此举旨在改变依赖少数机构“黑箱”排行榜的现状,让更广泛的社区参与定义和衡量AI模型的能力与价值。
Hugging Face 在其官方博客发布文章,展望了全球开源人工智能生态系统的发展路径与未来趋势。文章以 DeepSeek 等代表性开源模型为例,探讨了开源社区如何推动技术民主化与创新加速。核心观点指向一个更加开放、协作的“AI+”未来生态,其中开源框架、模型和工具将深度融入各行各业,降低开发门槛并促进多样化应用场景的涌现。
GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。
本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型,LiquidAI 推出性能被低估的 10 亿参数方案,Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮,多款重要产品即将面世。
The famed Stanford Smallville is officially open-source! 25 AI agents inhabit a digital Westworld, unaware that they are...
作者基于对AI指数级发展的预测,于2025年末构建了Gas Town项目,以验证软件编排(orchestration)的早期形态。文章指出,在未来AI能编写几乎所有软件的“Software 3.0”时代,选择压力将遵循一条核心法则:节省认知资源的软件更可能生存。由于推理(Inference)消耗Token,而Token、能源与成本相互关联且受限,因此最小化认知支出(可量化为Token消耗)成为关键。作者主张,系统应优先使用能完成任务的最小模型,并通过编排将任务分配给合适的模型层,以节约能源与成本。
Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源,具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。
Arcee AI 发布开源大模型 Trinity Large,标志着其全面投入在美国本土构建开放模型的战略布局。该发布作为 Interconnects 第16期访谈的核心内容,彰显该公司对开源生态与数据主权的承诺。Trinity Large 的推出代表 Arcee AI 在本土 AI 基础设施建设上的关键进展,强调模型训练与开发的地理合规性及技术自主性。
Hugging Face发布博客文章,探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型(如DeepSeek)的可持续技术体系,分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出,中国开源社区正致力于打造独立且互操作的技术栈,以应对大规模模型训练与推理的独特挑战,并推动全球AI生态的多元化发展。
美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。
Last October, we introduced Representation Autoencoders (RAE), showing that training diffusion on frozen semantic repres...
美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型,延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛,以开源方式使先进技术更广泛地惠及开发者社区,推动 AI 技术的普及与可持续发展。
GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。
OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛,促进更广泛的参与和创新。这一举措将推动研究透明化,加速技术迭代,并鼓励全球协作共同构建 AI 的未来。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed(蚂蚁·安诊儿)。模型总参数 100B,仅 1/32 激活(6.1B)即可媲美约 40B 稠密模型性能,实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程:持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源,可在 HuggingFace 和 ModelScope 获取。
阿联酋技术创新研究院在Hugging Face发布了Falcon-H1-Arabic模型。该模型采用创新的混合架构,融合了自回归与自编码技术,专门针对阿拉伯语进行优化。其目标是通过提升对阿拉伯语复杂语法和丰富形态的理解与生成能力,显著推进阿拉伯语人工智能的发展。这一发布标志着阿拉伯语大语言模型在技术架构上取得了重要进展。
SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。
小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。
Gemma Scope 2 正式发布,面向整个 Gemma 3 模型家族推出开放可解释性工具,助力 AI 安全社区深入理解复杂语言模型行为。
GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。
蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。