Hacker News 热门（buzzing.cc 中文翻译）

精选77

Kimi K2.7-Code：具有更高模型 token 效率的开源编码模型

2026-06-12 21:08·20天前·nekofneko

精选理由

Kimi K2.7-Code 把推理 token 砍掉 30%，在长程编码任务上有实打实的提升，是编码智能体赛道的一个有力信号，做代码 Agent 的可以盯一下。

AI 摘要

Kimi K2.7-Code 是一个开源编码模型，相比同类模型拥有更高的模型 token 效率，能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

AI 翻译 · 中文

1. 模型介绍

Kimi K2.7 Code 是一个以编程为焦点的智能体模型，基于 Kimi K2.6 构建。在真实世界的长周期编程任务上有了显著改进，它增强了跨复杂软件工程工作流的端到端任务完成能力，同时提升了模型 token 效率，与 Kimi K2.6 相比，思考模型 token 使用量减少了约 30%。

2. 模型概要


架构	混合专家（MoE）
总参数量	1T
激活参数量	32B
层数（含稠密层）	61
稠密层数量	1
注意力隐藏层维度	7168
MoE 隐藏层维度（每专家）	2048
注意力头数	64
专家数量	384
每个 token 选择的专家数	8
共享专家数量	1
词表大小	160K
上下文长度	256K
注意力机制	MLA
激活函数	SwiGLU
视觉编码器	MoonViT
视觉编码器参数量	400M

3. 评估结果

基准测试	Kimi K2.6	Kimi K2.7 Code	GPT-5.5	Claude Opus 4.8
编程
Kimi Code Bench v2	50.9	62.0	69.0	67.4
Program Bench	48.3	53.6	69.1	63.8
MLS Bench Lite	26.7	35.1	35.5	42.8
智能体
Kimi Claw 24/7 Bench	42.9	46.9	52.8	50.4
MCP Atlas	69.4	76.0	79.4	81.3
MCP Mark Verified	72.8	81.1	92.9	76.4

Footnotes

General Testing Details
- 除非另有说明，Kimi K2.7 Code 和 K2.6 均通过 Kimi Code CLI 启用思考模式进行测试，参数设置为 temperature = 1.0、top-p = 0.95，上下文长度为 262,144 个 token；GPT-5.5 在 Codex 中以 xhigh 模式运行，Opus 4.8 在 Claude Code 中以 xhigh 模式运行。除这些差异外，所有基准测试均在相同条件下评估。
Coding Benchmarks
- Kimi Code Bench V2 是我们内部开发的基准测试，旨在评估编程智能体在真实任务上的表现。它包含跨 10 多种主流编程语言的多样化软件工程任务，以及完整的生产级技术栈，覆盖来自内部工程用例、生产事件和真实世界开源项目的任务，重点涉及后端服务、基础设施、性能工程、系统编程、安全、前端开发以及机器学习/数据工程。
- Program Bench 通过要求代码生成智能体仅根据编译后的二进制文件及其文档重新创建程序的行为来对其进行评估。该基准涵盖 200 个任务，从小型 CLI 工具到像 FFmpeg 和 SQLite 这样的大型系统。提交结果依据超过 248,000 个模糊测试生成的行为测试进行评判。在每个任务中，智能体获得一个可执行文件及其文档，但没有任何源代码、反编译工具或互联网访问权限。它必须自行选择实现语言，从头构建完整的程序，并通过一组行为测试套件，该套件会将其输出与原始二进制文件的输出进行比较。
- MLS-Bench 评估 AI 系统能否发明出可泛化且可扩展的机器学习方法。MLS-Bench-Lite 是 MLS-Bench 的官方 30 任务子集，涵盖大语言模型预训练和后训练、机器人学、世界模型、计算机视觉、强化学习、优化、机器学习系统、科学人工智能等领域。智能体在提交解决方案前有 5 小时的探索时间。Opus 4.8 在 Claude Code 中以最大努力设置进行评估。
Agentic Benchmarks
- Kimi Claw 24/7 Bench 是我们内部的基准测试，用于评估在持久、多日协同工作场景下的长期智能体性能。它涵盖 17 个专业场景，共 610 个评估点，涉及软件工程、机器学习研究、招聘、交易、市场营销等领域。所有任务均通过 OpenClaw 框架执行。最终得分是全部评估点上的平均通过率，并在 3 次运行中取平均值。
- MCP-Atlas 通过可扩展的 MCP 评估大语言模型在真实工具使用任务上的性能。我们遵循官方 MCP-Atlas 评估配置，设置 100 次工具调用预算，每步最多 32k 个 token。最终结果在 3 次运行中取平均值。
- MCPMark-Verified 是 MCPMark 的人工验证版本，该基准用于评估在五个真实服务器环境（Notion、GitHub、Filesystem、Postgres 和 Playwright）中的 MCP 工具使用情况。每个任务都已由我们的团队和基准官方重新检查，并将很快开源。我们遵循官方 MCPMark 评估配置，设置 100 步工具调用预算，每步最多 32k 个 token。最终结果在 3 次运行中取平均值。

4. 原生 INT4 量化

Kimi-K2.7-Code 采用与 Kimi-K2-Thinking 相同的原生 int4 量化方法。

5. 部署

您可以在 https://platform.moonshot.ai 上访问 Kimi-K2.7-Code 的 API，我们为您提供与 OpenAI/Anthropic 兼容的 API。目前，建议在以下推理引擎上运行 Kimi-K2.7-Code：

vLLM
SGLang
KTransformers

Kimi-K2.7-Code 与 Kimi-K2.5/Kimi-K2.6 架构相同，可直接复用部署方法。

transformers 版本要求为 >=4.57.1, <5.0.0。

部署示例请参见模型部署指南。

6. 模型使用

以下使用示例演示如何调用我们的官方 API。请注意，Kimi-K2.7-Code 强制要求 thinking 和 preserve_thinking 为 True。

对于使用 vLLM 或 SGLang 部署的第三方 API，请注意：

与视频内容聊天是一项实验性功能，目前仅在我们官方 API 中支持。

Thinking 模式下的推荐温度为 1.0。

推荐 top_p 为 0.95。

不支持即时模式。

聊天补全

这是一个简单的聊天补全脚本，演示如何在 Thinking 模式下调用 K2.7-Code API。

import openai
import base64
import requests
def simple_chat(client: openai.OpenAI, model_name: str):
    messages = [
        {'role': 'system', 'content': 'You are Kimi, an AI assistant created by Moonshot AI.'},
        {
            'role': 'user',
            'content': [
                {'type': 'text', 'text': 'which one is bigger, 9.11 or 9.9? think carefully.'}
            ],
        },
    ]
    response = client.chat.completions.create(
        model=model_name, messages=messages, stream=False, max_tokens=4096
    )
    print('====== Below is reasoning content in Thinking Mode ======')
    print(f'reasoning content: {response.choices[0].message.reasoning}')
    print('====== Below is response in Thinking Mode ======')
    print(f'response: {response.choices[0].message.content}')

带视觉内容的聊天补全

K2.7-Code 支持图像和视频输入。

以下示例演示如何使用图像输入调用 K2.7-Code API：

import openai
import base64
import requests

def chat_with_image(client: openai.OpenAI, model_name: str):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.7-Code/resolve/main/figures/kimi-logo.png'
    image_base64 = base64.b64encode(requests.get(url).content).decode()
    messages = [
        {
            'role': 'user',
            'content': [
                {'type': 'text', 'text': 'Describe this image in detail.'},
                {
                    'type': 'image_url',
                    'image_url': {'url': f'data:image/png;base64,{image_base64}'},
                },
            ],
        }
    ]

    response = client.chat.completions.create(
        model=model_name, messages=messages, stream=False, max_tokens=8192
    )
    print('====== Below is reasoning content in Thinking Mode ======')
    print(f'reasoning content: {response.choices[0].message.reasoning}')
    print('====== Below is response in Thinking Mode ======')
    print(f'response: {response.choices[0].message.content}')

以下示例演示如何使用视频输入调用 K2.7-Code API：

import openai
import base64
import requests

def chat_with_video(client: openai.OpenAI, model_name:str):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.7-Code/resolve/main/figures/demo_video.mp4'
    video_base64 = base64.b64encode(requests.get(url).content).decode()
    messages = [
        {
            "role": "user",
            "content": [
                {"type": "text","text": "Describe the video in detail."},
                {
                    "type": "video_url",
                    "video_url": {"url": f"data:video/mp4;base64,{video_base64}"},
                },
            ],
        }
    ]

    response = client.chat.completions.create(model=model_name, messages=messages)
    print('====== Below is reasoning content in Thinking Mode ======')
    print(f'reasoning content: {response.choices[0].message.reasoning}')
    print('====== Below is response in Thinking Mode ======')
    print(f'response: {response.choices[0].message.content}')

保留思考过程

Kimi K2.7 Code 强制启用 preserve_thinking 模式，该模式在多轮交互中保留完整推理内容，并提升编码智能体场景下的性能。

此功能默认启用且无法禁用。以下示例演示如何在 preserve_thinking 模式下调用 K2.7-Code API：

def chat_with_preserve_thinking(client: openai.OpenAI, model_name: str):
    messages = [
        {
            "role": "user",
            "content": "Tell me three random numbers."
        },
        {
            "role": "assistant",
            "reasoning_content": "I'll start by listing five numbers: 473, 921, 235, 215, 222, and I'll tell you the first three.",
            
            "content": "473, 921, 235"
        },
        {
            "role": "user",
            "content": "What are the other two numbers you have in mind?"
        }
    ]

    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream=False,
        max_tokens=4096,
    )
    
    print(f"response: {response.choices[0].message.reasoning}")
    return response.choices[0].message.content

交错思考与多步工具调用

K2.7-Code 与 K2 Thinking 采用相同的交错思考与多步工具调用设计。使用示例请参考 K2 Thinking 文档。

编码智能体框架

Kimi K2.7-Code 与 Kimi Code CLI（作为其智能体框架）配合使用效果最佳——请前往 https://www.kimi.com/code 尝试。

7. 许可证

代码仓库和模型权重均依据修改版 MIT 许可证发布。

8. 第三方声明

请参见 THIRD PARTY NOTICES

9. 联系我们

如有任何疑问，请通过 support@moonshot.ai 联系我们。

上月下载量: 317,963

SafeTensors

模型规模

1.1T 参数

张量类型

BF16

F32

I32

moonshotai/Kimi-K2.7-Code 的模型树

微调版本

4 models

合并版本

2 models

量化版本

15 models

使用 moonshotai/Kimi-K2.7-Code 的 Space 应用 (19 个)

包含 moonshotai/Kimi-K2.7-Code 的合集

月之暗面最强模型 · 4 个项目 · 8 天前更新 · 76

智能体Hugging Face推理模型发布

阅读原文导出 Markdown