2026-01-29

vLLM部署

🦞 GLM-4-9B vLLM 部署指南

📌 前提条件

项目	版本
CUDA	13.1 ✅
Python	3.10+ ✅
显存	≥6GB（INT4量化）

🚀 部署步骤

1️⃣ 创建虚拟环境

1 2	conda create -n glm4-deploy python=3.10 conda activate glm4-deploy

2️⃣ 安装 vLLM（支持GLM-4）

1	pip install vllm>=0.6.0

3️⃣ 下载模型

# 方法一：HuggingFace（推荐）
pip install modelscope
modelscope download --model ZhipuAI/GLM-4-9B-0414 --local_dir ./glm-4-9b-0414

# 或者使用 git lfs
git lfs install
git clone <https://huggingface.co/THUDM/GLM-4-9B-0414> ./glm-4-9b-0414

4️⃣ 启动推理服务

1	python -m vllm.entrypoints.openai.api_server --model /home/gary/ai-llm/glm-4-9b-0414 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1

5️⃣ 测试API

import openai

client = openai.OpenAI(base_url="<http://localhost:8000/v1>", api_key="EMPTY")

response = client.chat.completions.create(
    model="glm-4-9b-0414",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手"},
        {"role": "user", "content": "你好，请介绍一下自己"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

💡 优化建议

场景	参数
显存不足	添加 `--quantization awq` 或使用INT4量化模型
高并发	增加 `--max-model-len 32768`
批处理	添加 `--enforce-eager` 减少显存峰值

本文标题:vLLM部署

文章作者:

发布时间:2026-01-29, 09:09:00

最后更新:2026-02-16, 15:29:47

原始链接:http://cuiqingwei.github.io/2026/01/29/2026-01-29-vLLM%E9%83%A8%E7%BD%B2/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。