跳到主要内容

VLLM

VLLM 直通端点 - 以原生格式调用提供商特定的端点(无转换)。

特性支持注意
成本追踪不支持
日志记录适用于所有集成
终端用户追踪如果您需要此功能,请告知我们
流式传输

只需将 https://my-vllm-server.com 替换为 LITELLM_PROXY_BASE_URL/vllm 🚀

示例用法

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \

支持 所有 VLLM 端点(包括流式传输)。

快速入门

让我们调用 VLLM 的 /metrics 端点

  1. 将托管的 VLLM API BASE 添加到您的环境变量中
export HOSTED_VLLM_API_BASE="https://my-vllm-server.com"
  1. 启动 LiteLLM 代理
litellm

# RUNNING on http://0.0.0.0:4000
  1. 测试它!

让我们调用 VLLM 的 /metrics 端点

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \

示例

http://0.0.0.0:4000/vllm 之后的任何内容都将被视为提供商特定的路由,并相应处理。

主要变化

原始端点替换为
https://my-vllm-server.comhttp://0.0.0.0:4000/vllm (LITELLM_PROXY_BASE_URL="http://0.0.0.0:4000")
bearer $VLLM_API_KEYbearer anything (如果代理上设置了虚拟密钥,请使用 bearer LITELLM_VIRTUAL_KEY)

示例 1: Metrics 端点

LiteLLM 代理调用

curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \

直接调用 VLLM API

curl -L -X GET 'https://my-vllm-server.com/metrics' \
-H 'Content-Type: application/json' \

示例 2: Chat API

LiteLLM 代理调用

curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \
-d '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'

直接调用 VLLM API

curl -L -X POST 'https://my-vllm-server.com/chat/completions' \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'

高级 - 与虚拟密钥一起使用

先决条件

使用此功能可以避免将原始 Cohere API 密钥提供给开发者,同时仍然让他们可以使用 Cohere 端点。

用法

  1. 设置环境变量
export DATABASE_URL=""
export LITELLM_MASTER_KEY=""
export HOSTED_VLLM_API_BASE=""
litellm

# RUNNING on http://0.0.0.0:4000
  1. 生成虚拟密钥
curl -X POST 'http://0.0.0.0:4000/key/generate' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{}'

预期响应

{
...
"key": "sk-1234ewknldferwedojwojw"
}
  1. 测试它!
curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234ewknldferwedojwojw' \
--data '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'