快速入门
快速入门 CLI、配置、Docker
LiteLLM Server (LLM 网关) 管理
- 统一接口:调用 100+ LLM Huggingface/Bedrock/TogetherAI/等 以 OpenAI
ChatCompletions
和Completions
格式 - 成本追踪:身份验证、支出追踪和预算 虚拟密钥
- 负载均衡:在 多个模型 + 同一模型的多个部署 之间 - LiteLLM 代理在负载测试期间可以处理 1.5k+ 请求/秒。
$ pip install 'litellm[proxy]'
快速入门 - LiteLLM 代理 CLI
运行以下命令启动 litellm 代理
$ litellm --model huggingface/bigcode/starcoder
#INFO: Proxy running on http://0.0.0.0:4000
信息
如果需要详细的调试日志,请运行 --detailed_debug
$ litellm --model huggingface/bigcode/starcoder --detailed_debug
测试
在新 shell 中运行,这将发出 openai.chat.completions
请求。确保您使用 openai v1.0.0+
litellm --test
现在,这会自动将任何针对 gpt-3.5-turbo 的请求路由到托管在 Huggingface 推理端点上的 bigcode starcoder。
支持的 LLM
所有 LiteLLM 支持的 LLM 都支持在代理上使用。查看所有 支持的 LLM
- AWS Bedrock
- Azure OpenAI
- OpenAI
- Ollama
- OpenAI 兼容端点
- Vertex AI [Gemini]
- Huggingface (TGI) 已部署
- Huggingface (TGI) 本地
- AWS Sagemaker
- Anthropic
- VLLM
- TogetherAI
- Replicate
- Petals
- Palm
- AI21
- Cohere
$ export AWS_ACCESS_KEY_ID=
$ export AWS_REGION_NAME=
$ export AWS_SECRET_ACCESS_KEY=
$ litellm --model bedrock/anthropic.claude-v2
$ export AZURE_API_KEY=my-api-key
$ export AZURE_API_BASE=my-api-base
$ litellm --model azure/my-deployment-name
$ export OPENAI_API_KEY=my-api-key
$ litellm --model gpt-3.5-turbo
$ litellm --model ollama/<ollama-model-name>
$ export OPENAI_API_KEY=my-api-key
$ litellm --model openai/<your model name> --api_base <your-api-base> # e.g. http://0.0.0.0:3000
$ export VERTEX_PROJECT="hardy-project"
$ export VERTEX_LOCATION="us-west"
$ litellm --model vertex_ai/gemini-pro
$ export HUGGINGFACE_API_KEY=my-api-key #[OPTIONAL]
$ litellm --model huggingface/<your model name> --api_base <your-api-base> # e.g. http://0.0.0.0:3000
$ litellm --model huggingface/<your model name> --api_base http://0.0.0.0:8001
export AWS_ACCESS_KEY_ID=
export AWS_REGION_NAME=
export AWS_SECRET_ACCESS_KEY=
$ litellm --model sagemaker/jumpstart-dft-meta-textgeneration-llama-2-7b
$ export ANTHROPIC_API_KEY=my-api-key
$ litellm --model claude-instant-1
假设您在本地运行 vllm
$ litellm --model vllm/facebook/opt-125m
$ export TOGETHERAI_API_KEY=my-api-key
$ litellm --model together_ai/lmsys/vicuna-13b-v1.5-16k
$ export REPLICATE_API_KEY=my-api-key
$ litellm \
--model replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3
$ litellm --model petals/meta-llama/Llama-2-70b-chat-hf
$ export PALM_API_KEY=my-palm-key
$ litellm --model palm/chat-bison
$ export AI21_API_KEY=my-api-key
$ litellm --model j2-light
$ export COHERE_API_KEY=my-api-key
$ litellm --model command-nightly
快速入门 - LiteLLM 代理 + Config.yaml
配置允许您创建模型列表并设置 api_base
, max_tokens
(所有 litellm 参数)。在此查看有关配置的更多详细信息 此处
为 LiteLLM 代理创建配置
示例配置
model_list:
- model_name: gpt-3.5-turbo # user-facing model alias
litellm_params: # all params accepted by litellm.completion() - https://docs.litellm.com.cn/docs/completion/input
model: azure/<your-deployment-name>
api_base: <your-azure-api-endpoint>
api_key: <your-azure-api-key>
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/gpt-turbo-small-ca
api_base: https://my-endpoint-canada-berri992.openai.azure.com/
api_key: <your-azure-api-key>
- model_name: vllm-model
litellm_params:
model: openai/<your-model-name>
api_base: <your-vllm-api-base> # e.g. http://0.0.0.0:3000/v1
api_key: <your-vllm-api-key|none>
使用配置运行代理
litellm --config your_config.yaml
使用 LiteLLM 代理 - Curl 请求、OpenAI 包、Langchain
信息
LiteLLM 兼容多种 SDK - 包括 OpenAI SDK、Anthropic SDK、Mistral SDK、LLamaIndex、Langchain (Js, Python)
- Curl 请求
- OpenAI v1.0.0+
- Langchain
- Langchain Embeddings
- LiteLLM SDK
- Anthropic Python SDK
curl --location 'http://0.0.0.0:4000/chat/completions' \
--header 'Content-Type: application/json' \
--data ' {
"model": "gpt-3.5-turbo",
"messages": [
{
"role": "user",
"content": "what llm are you"
}
]
}
'
import openai
client = openai.OpenAI(
api_key="anything",
base_url="http://0.0.0.0:4000"
)
# request sent to model set on litellm proxy, `litellm --model`
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
{
"role": "user",
"content": "this is a test request, write a short poem"
}
])
print(response)
from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import (
ChatPromptTemplate,
HumanMessagePromptTemplate,
SystemMessagePromptTemplate,
)
from langchain.schema import HumanMessage, SystemMessage
chat = ChatOpenAI(
openai_api_base="http://0.0.0.0:4000", # set openai_api_base to the LiteLLM Proxy
model = "gpt-3.5-turbo",
temperature=0.1
)
messages = [
SystemMessage(
content="You are a helpful assistant that im using to make a test request to."
),
HumanMessage(
content="test from litellm. tell me why it's amazing in 1 sentence"
),
]
response = chat(messages)
print(response)
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model="sagemaker-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")
text = "This is a test document."
query_result = embeddings.embed_query(text)
print(f"SAGEMAKER EMBEDDINGS")
print(query_result[:5])
embeddings = OpenAIEmbeddings(model="bedrock-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")
text = "This is a test document."
query_result = embeddings.embed_query(text)
print(f"BEDROCK EMBEDDINGS")
print(query_result[:5])
embeddings = OpenAIEmbeddings(model="bedrock-titan-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")
text = "This is a test document."
query_result = embeddings.embed_query(text)
print(f"TITAN EMBEDDINGS")
print(query_result[:5])
不推荐使用此方法。由于代理也使用 SDK,存在重复逻辑,这可能导致意外错误。
from litellm import completion
response = completion(
model="openai/gpt-3.5-turbo",
messages = [
{
"role": "user",
"content": "this is a test request, write a short poem"
}
],
api_key="anything",
base_url="http://0.0.0.0:4000"
)
print(response)
import os
from anthropic import Anthropic
client = Anthropic(
base_url="http://localhost:4000", # proxy endpoint
api_key="sk-s4xN1IiLTCytwtZFJaYQrA", # litellm proxy virtual key
)
message = client.messages.create(
max_tokens=1024,
messages=[
{
"role": "user",
"content": "Hello, Claude",
}
],
model="claude-3-opus-20240229",
)
print(message.content)
📖 代理端点 - Swagger 文档
- POST
/chat/completions
- 调用 100+ LLM 的聊天补全端点 - POST
/completions
- 补全端点 - POST
/embeddings
- 用于 Azure、OpenAI、Huggingface 端点的嵌入端点 - GET
/models
- 服务器上可用模型 - POST
/key/generate
- 生成访问代理的密钥
调试代理
正常运行期间发生的事件
litellm --model gpt-3.5-turbo --debug
详细信息
litellm --model gpt-3.5-turbo --detailed_debug
使用环境变量设置调试级别
正常运行期间发生的事件
export LITELLM_LOG=INFO
详细信息
export LITELLM_LOG=DEBUG
无日志
export LITELLM_LOG=None