vLLM Serve 命令参数说明¶

以下是一个典型的 vLLM serve 命令示例及其参数解释：

vllm serve /openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --disable-log-requests \
    --trust-remote-code \
    --host 0.0.0.0 --port $PORT \
    --gpu-memory-utilization 0.98 \
    --max-model-len 8192 --enable-prefix-caching \
    --tensor-parallel-size $GPU_COUNT \
    --dtype=half

参数详解¶

模型路径 /openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B
- 指定要加载的模型文件所在位置
- 这是命令的第一个参数
--served-model-name DeepSeek-R1-Distill-Qwen-1.5B
- 设置服务中使用的模型名称
- 此名称会在 API 响应中显示
--disable-log-requests
- 禁用请求日志记录
- 可以减少日志输出，提高性能
--trust-remote-code
- 允许执行模型中的自定义代码
- 对于一些需要特殊处理的模型(如 Qwen)是必需的
--host 0.0.0.0 --port $PORT
- 设置服务监听的主机地址和端口
- 0.0.0.0 表示监听所有网络接口
- $PORT 是环境变量，表示具体使用的端口号
--gpu-memory-utilization 0.98
- 设置 GPU 显存利用率上限为 98%
- 控制模型可以使用的最大显存比例
--max-model-len 8192
- 设置模型处理的最大序列长度为 8192 个 token
- 影响模型能处理的输入文本长度
--enable-prefix-caching
- 启用前缀缓存功能
- 可以提高连续生成文本时的性能
--tensor-parallel-size $GPU_COUNT
- 设置张量并行的 GPU 数量
- $GPU_COUNT 是环境变量，表示要使用的 GPU 数量
- 用于多 GPU 并行推理
--dtype=half
- 设置模型权重的数据类型为 half (FP16)
- 相比 float32 可以减少显存使用，但可能略微影响精度

参数组合目的¶

这些参数的组合主要用于：

性能优化
显存使用优化
多 GPU 并行推理
缓存机制启用
服务配置
主机和端口设置
日志控制
模型参数
最大序列长度
数据类型选择