快速入门

快速入门 CLI、配置、Docker

LiteLLM Server (LLM 网关) 管理

统一接口：调用 100+ LLM Huggingface/Bedrock/TogetherAI/等以 OpenAI ChatCompletions 和 Completions 格式
成本追踪：身份验证、支出追踪和预算虚拟密钥
负载均衡：在多个模型 + 同一模型的多个部署之间 - LiteLLM 代理在负载测试期间可以处理 1.5k+ 请求/秒。

$ pip install 'litellm[proxy]'

快速入门 - LiteLLM 代理 CLI

运行以下命令启动 litellm 代理

$ litellm --model huggingface/bigcode/starcoder

#INFO: Proxy running on http://0.0.0.0:4000

信息

如果需要详细的调试日志，请运行 --detailed_debug

$ litellm --model huggingface/bigcode/starcoder --detailed_debug

测试

在新 shell 中运行，这将发出 openai.chat.completions 请求。确保您使用 openai v1.0.0+

litellm --test

现在，这会自动将任何针对 gpt-3.5-turbo 的请求路由到托管在 Huggingface 推理端点上的 bigcode starcoder。

支持的 LLM

所有 LiteLLM 支持的 LLM 都支持在代理上使用。查看所有支持的 LLM

$ export AWS_ACCESS_KEY_ID=
$ export AWS_REGION_NAME=
$ export AWS_SECRET_ACCESS_KEY=

$ litellm --model bedrock/anthropic.claude-v2

$ export AZURE_API_KEY=my-api-key
$ export AZURE_API_BASE=my-api-base

$ litellm --model azure/my-deployment-name

$ export OPENAI_API_KEY=my-api-key

$ litellm --model gpt-3.5-turbo

$ litellm --model ollama/<ollama-model-name>

$ export OPENAI_API_KEY=my-api-key

$ litellm --model openai/<your model name> --api_base <your-api-base> # e.g. http://0.0.0.0:3000

$ export VERTEX_PROJECT="hardy-project"
$ export VERTEX_LOCATION="us-west"

$ litellm --model vertex_ai/gemini-pro

$ export HUGGINGFACE_API_KEY=my-api-key #[OPTIONAL]

$ litellm --model huggingface/<your model name> --api_base <your-api-base> # e.g. http://0.0.0.0:3000

$ litellm --model huggingface/<your model name> --api_base http://0.0.0.0:8001

export AWS_ACCESS_KEY_ID=
export AWS_REGION_NAME=
export AWS_SECRET_ACCESS_KEY=

$ litellm --model sagemaker/jumpstart-dft-meta-textgeneration-llama-2-7b

$ export ANTHROPIC_API_KEY=my-api-key

$ litellm --model claude-instant-1

假设您在本地运行 vllm

$ litellm --model vllm/facebook/opt-125m

$ export TOGETHERAI_API_KEY=my-api-key

$ litellm --model together_ai/lmsys/vicuna-13b-v1.5-16k

$ export REPLICATE_API_KEY=my-api-key

$ litellm \
  --model replicate/meta/llama-2-70b-chat:02e509c789964a7ea8736978a43525956ef40397be9033abf9fd2badfe68c9e3

$ litellm --model petals/meta-llama/Llama-2-70b-chat-hf

$ export PALM_API_KEY=my-palm-key

$ litellm --model palm/chat-bison

$ export AI21_API_KEY=my-api-key

$ litellm --model j2-light

$ export COHERE_API_KEY=my-api-key

$ litellm --model command-nightly

快速入门 - LiteLLM 代理 + Config.yaml

配置允许您创建模型列表并设置 api_base, max_tokens (所有 litellm 参数)。在此查看有关配置的更多详细信息此处

为 LiteLLM 代理创建配置

示例配置

model_list: 
  - model_name: gpt-3.5-turbo # user-facing model alias
    litellm_params: # all params accepted by litellm.completion() - https://docs.litellm.com.cn/docs/completion/input
      model: azure/<your-deployment-name>
      api_base: <your-azure-api-endpoint>
      api_key: <your-azure-api-key>
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/gpt-turbo-small-ca
      api_base: https://my-endpoint-canada-berri992.openai.azure.com/
      api_key: <your-azure-api-key>
  - model_name: vllm-model
    litellm_params:
      model: openai/<your-model-name>
      api_base: <your-vllm-api-base> # e.g. http://0.0.0.0:3000/v1
      api_key: <your-vllm-api-key|none>

使用配置运行代理

litellm --config your_config.yaml

使用 LiteLLM 代理 - Curl 请求、OpenAI 包、Langchain

信息

LiteLLM 兼容多种 SDK - 包括 OpenAI SDK、Anthropic SDK、Mistral SDK、LLamaIndex、Langchain (Js, Python)

更多示例在此

curl --location 'http://0.0.0.0:4000/chat/completions' \
--header 'Content-Type: application/json' \
--data ' {
      "model": "gpt-3.5-turbo",
      "messages": [
        {
          "role": "user",
          "content": "what llm are you"
        }
      ]
    }
'

import openai
client = openai.OpenAI(
    api_key="anything",
    base_url="http://0.0.0.0:4000"
)

# request sent to model set on litellm proxy, `litellm --model`
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
    {
        "role": "user",
        "content": "this is a test request, write a short poem"
    }
])

print(response)

from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)
from langchain.schema import HumanMessage, SystemMessage

chat = ChatOpenAI(
    openai_api_base="http://0.0.0.0:4000", # set openai_api_base to the LiteLLM Proxy
    model = "gpt-3.5-turbo",
    temperature=0.1
)

messages = [
    SystemMessage(
        content="You are a helpful assistant that im using to make a test request to."
    ),
    HumanMessage(
        content="test from litellm. tell me why it's amazing in 1 sentence"
    ),
]
response = chat(messages)

print(response)

from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="sagemaker-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")

text = "This is a test document."

query_result = embeddings.embed_query(text)

print(f"SAGEMAKER EMBEDDINGS")
print(query_result[:5])

embeddings = OpenAIEmbeddings(model="bedrock-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")

text = "This is a test document."

query_result = embeddings.embed_query(text)

print(f"BEDROCK EMBEDDINGS")
print(query_result[:5])

embeddings = OpenAIEmbeddings(model="bedrock-titan-embeddings", openai_api_base="http://0.0.0.0:4000", openai_api_key="temp-key")

text = "This is a test document."

query_result = embeddings.embed_query(text)

print(f"TITAN EMBEDDINGS")
print(query_result[:5])

不推荐使用此方法。由于代理也使用 SDK，存在重复逻辑，这可能导致意外错误。

from litellm import completion 

response = completion(
    model="openai/gpt-3.5-turbo", 
    messages = [
        {
            "role": "user",
            "content": "this is a test request, write a short poem"
        }
    ], 
    api_key="anything", 
    base_url="http://0.0.0.0:4000"
    )

print(response)

import os

from anthropic import Anthropic

client = Anthropic(
    base_url="https://:4000", # proxy endpoint
    api_key="sk-s4xN1IiLTCytwtZFJaYQrA", # litellm proxy virtual key
)

message = client.messages.create(
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Hello, Claude",
        }
    ],
    model="claude-3-opus-20240229",
)
print(message.content)

更多信息

📖 代理端点 - Swagger 文档

POST /chat/completions - 调用 100+ LLM 的聊天补全端点
POST /completions - 补全端点
POST /embeddings - 用于 Azure、OpenAI、Huggingface 端点的嵌入端点
GET /models - 服务器上可用模型
POST /key/generate - 生成访问代理的密钥

调试代理

正常运行期间发生的事件

litellm --model gpt-3.5-turbo --debug

详细信息

litellm --model gpt-3.5-turbo --detailed_debug

使用环境变量设置调试级别

正常运行期间发生的事件

export LITELLM_LOG=INFO

详细信息

export LITELLM_LOG=DEBUG

无日志

export LITELLM_LOG=None

快速入门

快速入门 - LiteLLM 代理 CLI​

测试​

支持的 LLM​

快速入门 - LiteLLM 代理 + Config.yaml​

为 LiteLLM 代理创建配置​

使用配置运行代理​

使用 LiteLLM 代理 - Curl 请求、OpenAI 包、Langchain​

📖 代理端点 - Swagger 文档​

调试代理​

使用环境变量设置调试级别​