🦞 GLM-4-9B vLLM 部署指南
📌 前提条件
| 项目 |
版本 |
| CUDA |
13.1 ✅ |
| Python |
3.10+ ✅ |
| 显存 |
≥6GB(INT4量化) |
🚀 部署步骤
1️⃣ 创建虚拟环境
1 2
| conda create -n glm4-deploy python=3.10 conda activate glm4-deploy
|
2️⃣ 安装 vLLM(支持GLM-4)
3️⃣ 下载模型
1 2 3 4 5 6 7
| pip install modelscope modelscope download --model ZhipuAI/GLM-4-9B-0414 --local_dir ./glm-4-9b-0414
git lfs install git clone <https://huggingface.co/THUDM/GLM-4-9B-0414> ./glm-4-9b-0414
|
4️⃣ 启动推理服务
1
| python -m vllm.entrypoints.openai.api_server --model /home/gary/ai-llm/glm-4-9b-0414 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1
|
5️⃣ 测试API
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| import openai
client = openai.OpenAI(base_url="<http://localhost:8000/v1>", api_key="EMPTY")
response = client.chat.completions.create( model="glm-4-9b-0414", messages=[ {"role": "system", "content": "你是一个有帮助的助手"}, {"role": "user", "content": "你好,请介绍一下自己"} ], temperature=0.7 )
print(response.choices[0].message.content)
|
💡 优化建议
| 场景 |
参数 |
| 显存不足 |
添加 --quantization awq 或使用INT4量化模型 |
| 高并发 |
增加 --max-model-len 32768 |
| 批处理 |
添加 --enforce-eager 减少显存峰值 |