vLLM Serve 命令参数说明¶
以下是一个典型的 vLLM serve 命令示例及其参数解释:
vllm serve /openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B \
--served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
--disable-log-requests \
--trust-remote-code \
--host 0.0.0.0 --port $PORT \
--gpu-memory-utilization 0.98 \
--max-model-len 8192 --enable-prefix-caching \
--tensor-parallel-size $GPU_COUNT \
--dtype=half
参数详解¶
-
模型路径
/openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B
- 指定要加载的模型文件所在位置
- 这是命令的第一个参数
-
--served-model-name DeepSeek-R1-Distill-Qwen-1.5B
- 设置服务中使用的模型名称
- 此名称会在 API 响应中显示
-
--disable-log-requests
- 禁用请求日志记录
- 可以减少日志输出,提高性能
-
--trust-remote-code
- 允许执行模型中的自定义代码
- 对于一些需要特殊处理的模型(如 Qwen)是必需的
-
--host 0.0.0.0 --port $PORT
- 设置服务监听的主机地址和端口
0.0.0.0
表示监听所有网络接口$PORT
是环境变量,表示具体使用的端口号
-
--gpu-memory-utilization 0.98
- 设置 GPU 显存利用率上限为 98%
- 控制模型可以使用的最大显存比例
-
--max-model-len 8192
- 设置模型处理的最大序列长度为 8192 个 token
- 影响模型能处理的输入文本长度
-
--enable-prefix-caching
- 启用前缀缓存功能
- 可以提高连续生成文本时的性能
-
--tensor-parallel-size $GPU_COUNT
- 设置张量并行的 GPU 数量
$GPU_COUNT
是环境变量,表示要使用的 GPU 数量- 用于多 GPU 并行推理
-
--dtype=half
- 设置模型权重的数据类型为 half (FP16)
- 相比 float32 可以减少显存使用,但可能略微影响精度
参数组合目的¶
这些参数的组合主要用于:
- 性能优化
- 显存使用优化
- 多 GPU 并行推理
-
缓存机制启用
-
服务配置
- 主机和端口设置
-
日志控制
-
模型参数
- 最大序列长度
- 数据类型选择