VLLM

VLLM 直通端点 - 以原生格式调用提供商特定的端点（无转换）。

特性	支持	注意
成本追踪	❌	不支持
日志记录	✅	适用于所有集成
终端用户追踪	❌	如果您需要此功能，请告知我们
流式传输	✅

只需将 https://my-vllm-server.com 替换为 LITELLM_PROXY_BASE_URL/vllm 🚀

示例用法

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \

支持所有 VLLM 端点（包括流式传输）。

快速入门

让我们调用 VLLM 的 /metrics 端点

将托管的 VLLM API BASE 添加到您的环境变量中

export HOSTED_VLLM_API_BASE="https://my-vllm-server.com"

启动 LiteLLM 代理

litellm

# RUNNING on http://0.0.0.0:4000

测试它！

让我们调用 VLLM 的 /metrics 端点

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \

示例

http://0.0.0.0:4000/vllm 之后的任何内容都将被视为提供商特定的路由，并相应处理。

主要变化

原始端点	替换为
`https://my-vllm-server.com`	`http://0.0.0.0:4000/vllm` (LITELLM_PROXY_BASE_URL="http://0.0.0.0:4000")
`bearer $VLLM_API_KEY`	`bearer anything` (如果代理上设置了虚拟密钥，请使用 `bearer LITELLM_VIRTUAL_KEY`)

示例 1: Metrics 端点

LiteLLM 代理调用

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \

直接调用 VLLM API

curl -L -X GET 'https://my-vllm-server.com/metrics' \
-H 'Content-Type: application/json' \

示例 2: Chat API

LiteLLM 代理调用

curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \
-d '{
    "messages": [
        {
            "role": "user",
            "content": "I am going to Paris, what should I see?"
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.8,
    "top_p": 0.1,
    "model": "qwen2.5-7b-instruct",
}'

直接调用 VLLM API

curl -L -X POST 'https://my-vllm-server.com/chat/completions' \
-H 'Content-Type: application/json' \
-d '{
    "messages": [
        {
            "role": "user",
            "content": "I am going to Paris, what should I see?"
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.8,
    "top_p": 0.1,
    "model": "qwen2.5-7b-instruct",
}'

高级 - 与虚拟密钥一起使用

先决条件

使用数据库设置代理

使用此功能可以避免将原始 Cohere API 密钥提供给开发者，同时仍然让他们可以使用 Cohere 端点。

用法

设置环境变量

export DATABASE_URL=""
export LITELLM_MASTER_KEY=""
export HOSTED_VLLM_API_BASE=""

litellm

# RUNNING on http://0.0.0.0:4000

生成虚拟密钥

curl -X POST 'http://0.0.0.0:4000/key/generate' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{}'

预期响应

{
    ...
    "key": "sk-1234ewknldferwedojwojw"
}

测试它！

curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234ewknldferwedojwojw' \
  --data '{
    "messages": [
        {
            "role": "user",
            "content": "I am going to Paris, what should I see?"
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.8,
    "top_p": 0.1,
    "model": "qwen2.5-7b-instruct",
}'

VLLM

示例用法​

快速入门​

示例​

示例 1: Metrics 端点​

LiteLLM 代理调用​

直接调用 VLLM API​

示例 2: Chat API​

LiteLLM 代理调用​

直接调用 VLLM API​

高级 - 与虚拟密钥一起使用​

用法​

示例用法

快速入门

示例

示例 1: Metrics 端点

LiteLLM 代理调用

直接调用 VLLM API

示例 2: Chat API

LiteLLM 代理调用

直接调用 VLLM API

高级 - 与虚拟密钥一起使用

用法