vLLM部署

🦞 GLM-4-9B vLLM 部署指南

📌 前提条件

项目 版本
CUDA 13.1 ✅
Python 3.10+ ✅
显存 ≥6GB(INT4量化)

🚀 部署步骤

1️⃣ 创建虚拟环境

1
2
conda create -n glm4-deploy python=3.10
conda activate glm4-deploy

2️⃣ 安装 vLLM(支持GLM-4)

1
pip install vllm>=0.6.0

3️⃣ 下载模型

1
2
3
4
5
6
7
# 方法一:HuggingFace(推荐)
pip install modelscope
modelscope download --model ZhipuAI/GLM-4-9B-0414 --local_dir ./glm-4-9b-0414

# 或者使用 git lfs
git lfs install
git clone <https://huggingface.co/THUDM/GLM-4-9B-0414> ./glm-4-9b-0414

4️⃣ 启动推理服务

1
python -m vllm.entrypoints.openai.api_server --model /home/gary/ai-llm/glm-4-9b-0414 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1

5️⃣ 测试API

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import openai

client = openai.OpenAI(base_url="<http://localhost:8000/v1>", api_key="EMPTY")

response = client.chat.completions.create(
model="glm-4-9b-0414",
messages=[
{"role": "system", "content": "你是一个有帮助的助手"},
{"role": "user", "content": "你好,请介绍一下自己"}
],
temperature=0.7
)

print(response.choices[0].message.content)

💡 优化建议

场景 参数
显存不足 添加 --quantization awq 或使用INT4量化模型
高并发 增加 --max-model-len 32768
批处理 添加 --enforce-eager 减少显存峰值
文章目录
  1. 1. 🦞 GLM-4-9B vLLM 部署指南
    1. 1.1. 📌 前提条件
    2. 1.2. 🚀 部署步骤
      1. 1.2.1. 1️⃣ 创建虚拟环境
      2. 1.2.2. 2️⃣ 安装 vLLM(支持GLM-4)
      3. 1.2.3. 3️⃣ 下载模型
      4. 1.2.4. 4️⃣ 启动推理服务
      5. 1.2.5. 5️⃣ 测试API
    3. 1.3. 💡 优化建议