跳转至

vLLM Serve 命令参数说明

以下是一个典型的 vLLM serve 命令示例及其参数解释:

vllm serve /openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --disable-log-requests \
    --trust-remote-code \
    --host 0.0.0.0 --port $PORT \
    --gpu-memory-utilization 0.98 \
    --max-model-len 8192 --enable-prefix-caching \
    --tensor-parallel-size $GPU_COUNT \
    --dtype=half

参数详解

  1. 模型路径 /openbayes/input/input0/DeepSeek-R1-Distill-Qwen-1.5B

    • 指定要加载的模型文件所在位置
    • 这是命令的第一个参数
  2. --served-model-name DeepSeek-R1-Distill-Qwen-1.5B

    • 设置服务中使用的模型名称
    • 此名称会在 API 响应中显示
  3. --disable-log-requests

    • 禁用请求日志记录
    • 可以减少日志输出,提高性能
  4. --trust-remote-code

    • 允许执行模型中的自定义代码
    • 对于一些需要特殊处理的模型(如 Qwen)是必需的
  5. --host 0.0.0.0 --port $PORT

    • 设置服务监听的主机地址和端口
    • 0.0.0.0 表示监听所有网络接口
    • $PORT 是环境变量,表示具体使用的端口号
  6. --gpu-memory-utilization 0.98

    • 设置 GPU 显存利用率上限为 98%
    • 控制模型可以使用的最大显存比例
  7. --max-model-len 8192

    • 设置模型处理的最大序列长度为 8192 个 token
    • 影响模型能处理的输入文本长度
  8. --enable-prefix-caching

    • 启用前缀缓存功能
    • 可以提高连续生成文本时的性能
  9. --tensor-parallel-size $GPU_COUNT

    • 设置张量并行的 GPU 数量
    • $GPU_COUNT 是环境变量,表示要使用的 GPU 数量
    • 用于多 GPU 并行推理
  10. --dtype=half

    • 设置模型权重的数据类型为 half (FP16)
    • 相比 float32 可以减少显存使用,但可能略微影响精度

参数组合目的

这些参数的组合主要用于:

  • 性能优化
  • 显存使用优化
  • 多 GPU 并行推理
  • 缓存机制启用

  • 服务配置

  • 主机和端口设置
  • 日志控制

  • 模型参数

  • 最大序列长度
  • 数据类型选择
回到页面顶部