VLLM
VLLM 直通端点 - 以原生格式调用提供商特定的端点(无转换)。
特性 | 支持 | 注意 |
---|---|---|
成本追踪 | ❌ | 不支持 |
日志记录 | ✅ | 适用于所有集成 |
终端用户追踪 | ❌ | 如果您需要此功能,请告知我们 |
流式传输 | ✅ |
只需将 https://my-vllm-server.com
替换为 LITELLM_PROXY_BASE_URL/vllm
🚀
示例用法
curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \
支持 所有 VLLM 端点(包括流式传输)。
快速入门
让我们调用 VLLM 的 /metrics
端点
- 将托管的 VLLM API BASE 添加到您的环境变量中
export HOSTED_VLLM_API_BASE="https://my-vllm-server.com"
- 启动 LiteLLM 代理
litellm
# RUNNING on http://0.0.0.0:4000
- 测试它!
让我们调用 VLLM 的 /metrics
端点
curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234' \
示例
http://0.0.0.0:4000/vllm
之后的任何内容都将被视为提供商特定的路由,并相应处理。
主要变化
原始端点 | 替换为 |
---|---|
https://my-vllm-server.com | http://0.0.0.0:4000/vllm (LITELLM_PROXY_BASE_URL="http://0.0.0.0:4000") |
bearer $VLLM_API_KEY | bearer anything (如果代理上设置了虚拟密钥,请使用 bearer LITELLM_VIRTUAL_KEY ) |
示例 1: Metrics 端点
LiteLLM 代理调用
curl -L -X GET 'http://0.0.0.0:4000/vllm/metrics' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \
直接调用 VLLM API
curl -L -X GET 'https://my-vllm-server.com/metrics' \
-H 'Content-Type: application/json' \
示例 2: Chat API
LiteLLM 代理调用
curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer $LITELLM_VIRTUAL_KEY' \
-d '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'
直接调用 VLLM API
curl -L -X POST 'https://my-vllm-server.com/chat/completions' \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'
高级 - 与虚拟密钥一起使用
先决条件
使用此功能可以避免将原始 Cohere API 密钥提供给开发者,同时仍然让他们可以使用 Cohere 端点。
用法
- 设置环境变量
export DATABASE_URL=""
export LITELLM_MASTER_KEY=""
export HOSTED_VLLM_API_BASE=""
litellm
# RUNNING on http://0.0.0.0:4000
- 生成虚拟密钥
curl -X POST 'http://0.0.0.0:4000/key/generate' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{}'
预期响应
{
...
"key": "sk-1234ewknldferwedojwojw"
}
- 测试它!
curl -L -X POST 'http://0.0.0.0:4000/vllm/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-1234ewknldferwedojwojw' \
--data '{
"messages": [
{
"role": "user",
"content": "I am going to Paris, what should I see?"
}
],
"max_tokens": 2048,
"temperature": 0.8,
"top_p": 0.1,
"model": "qwen2.5-7b-instruct",
}'