LiteLLM - 入门

https://github.com/BerriAI/litellm

使用 OpenAI 输入/输出格式调用 100+ 个 LLM

将输入转换为提供商的 completion, embedding 和 image_generation 端点
一致的输出，文本响应始终可以在 ['choices'][0]['message']['content'] 获取
跨多个部署的重试/回退逻辑（例如 Azure/OpenAI） - 路由器
按项目跟踪花费 & 设置预算 LiteLLM 代理服务器

如何使用 LiteLLM

您可以通过以下方式使用 litellm

LiteLLM 代理服务器 - 服务器 (LLM 网关)，用于调用 100+ 个 LLM、负载均衡、跨项目成本跟踪
LiteLLM Python SDK - Python 客户端，用于调用 100+ 个 LLM、负载均衡、成本跟踪

何时使用 LiteLLM 代理服务器 (LLM 网关)

提示

如果您想要一个用于访问多个 LLM 的中心服务 (LLM 网关)，请使用 LiteLLM 代理服务器

通常由生成式 AI 赋能/机器学习平台团队使用

LiteLLM 代理为您提供了一个统一的接口，用于访问多个 LLM (100+ 个 LLM)
跟踪 LLM 使用情况并设置防护栏
按项目自定义日志记录、防护栏和缓存

何时使用 LiteLLM Python SDK

提示

如果您想在您的 Python 代码中使用 LiteLLM，请使用 LiteLLM Python SDK

通常由构建 LLM 项目的开发者使用

LiteLLM SDK 为您提供了一个统一的接口，用于访问多个 LLM (100+ 个 LLM)
跨多个部署的重试/回退逻辑（例如 Azure/OpenAI） - 路由器

LiteLLM Python SDK

基本用法

pip install litellm

from litellm import completion
import os

## set ENV variables
os.environ["OPENAI_API_KEY"] = "your-api-key"

response = completion(
  model="gpt-3.5-turbo",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

from litellm import completion
import os

## set ENV variables
os.environ["ANTHROPIC_API_KEY"] = "your-api-key"

response = completion(
  model="claude-2",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

from litellm import completion
import os

# auth: run 'gcloud auth application-default'
os.environ["VERTEX_PROJECT"] = "hardy-device-386718"
os.environ["VERTEX_LOCATION"] = "us-central1"

response = completion(
  model="chat-bison",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

from litellm import completion
import os

## set ENV variables
os.environ["NVIDIA_NIM_API_KEY"] = "nvidia_api_key"
os.environ["NVIDIA_NIM_API_BASE"] = "nvidia_nim_endpoint_url"

response = completion(
  model="nvidia_nim/<model_name>",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

from litellm import completion
import os

os.environ["HUGGINGFACE_API_KEY"] = "huggingface_api_key"

# e.g. Call 'WizardLM/WizardCoder-Python-34B-V1.0' hosted on HF Inference endpoints
response = completion(
  model="huggingface/WizardLM/WizardCoder-Python-34B-V1.0",
  messages=[{ "content": "Hello, how are you?","role": "user"}],
  api_base="https://my-endpoint.huggingface.cloud"
)

print(response)

from litellm import completion
import os

## set ENV variables
os.environ["AZURE_API_KEY"] = ""
os.environ["AZURE_API_BASE"] = ""
os.environ["AZURE_API_VERSION"] = ""

# azure call
response = completion(
  "azure/<your_deployment_name>",
  messages = [{ "content": "Hello, how are you?","role": "user"}]
)

from litellm import completion

response = completion(
            model="ollama/llama2",
            messages = [{ "content": "Hello, how are you?","role": "user"}],
            api_base="https://:11434"
)

from litellm import completion
import os

## set ENV variables
os.environ["OPENROUTER_API_KEY"] = "openrouter_api_key"

response = completion(
  model="openrouter/google/palm-2-chat-bison",
  messages = [{ "content": "Hello, how are you?","role": "user"}],
)

from litellm import completion
import os

## set ENV variables. Visit https://novita.ai/settings/key-management to get your API key
os.environ["NOVITA_API_KEY"] = "novita-api-key"

response = completion(
  model="novita/deepseek/deepseek-r1",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

流式传输

在 completion 参数中设置 stream=True。

from litellm import completion
import os

## set ENV variables
os.environ["OPENAI_API_KEY"] = "your-api-key"

response = completion(
  model="gpt-3.5-turbo",
  messages=[{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

from litellm import completion
import os

## set ENV variables
os.environ["ANTHROPIC_API_KEY"] = "your-api-key"

response = completion(
  model="claude-2",
  messages=[{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

from litellm import completion
import os

# auth: run 'gcloud auth application-default'
os.environ["VERTEX_PROJECT"] = "hardy-device-386718"
os.environ["VERTEX_LOCATION"] = "us-central1"

response = completion(
  model="chat-bison",
  messages=[{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

from litellm import completion
import os

## set ENV variables
os.environ["NVIDIA_NIM_API_KEY"] = "nvidia_api_key"
os.environ["NVIDIA_NIM_API_BASE"] = "nvidia_nim_endpoint_url"

response = completion(
  model="nvidia_nim/<model_name>",
  messages=[{ "content": "Hello, how are you?","role": "user"}]
  stream=True,
)

from litellm import completion
import os

os.environ["HUGGINGFACE_API_KEY"] = "huggingface_api_key"

# e.g. Call 'WizardLM/WizardCoder-Python-34B-V1.0' hosted on HF Inference endpoints
response = completion(
  model="huggingface/WizardLM/WizardCoder-Python-34B-V1.0",
  messages=[{ "content": "Hello, how are you?","role": "user"}],
  api_base="https://my-endpoint.huggingface.cloud",
  stream=True,
)

print(response)

from litellm import completion
import os

## set ENV variables
os.environ["AZURE_API_KEY"] = ""
os.environ["AZURE_API_BASE"] = ""
os.environ["AZURE_API_VERSION"] = ""

# azure call
response = completion(
  "azure/<your_deployment_name>",
  messages = [{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

from litellm import completion

response = completion(
            model="ollama/llama2",
            messages = [{ "content": "Hello, how are you?","role": "user"}],
            api_base="https://:11434",
            stream=True,
)

from litellm import completion
import os

## set ENV variables
os.environ["OPENROUTER_API_KEY"] = "openrouter_api_key"

response = completion(
  model="openrouter/google/palm-2-chat-bison",
  messages = [{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

from litellm import completion
import os

## set ENV variables. Visit https://novita.ai/settings/key-management to get your API key
os.environ["NOVITA_API_KEY"] = "novita_api_key"

response = completion(
  model="novita/deepseek/deepseek-r1",
  messages = [{ "content": "Hello, how are you?","role": "user"}],
  stream=True,
)

异常处理

LiteLLM 将所有支持的提供商的异常映射到 OpenAI 异常。我们所有的异常都继承自 OpenAI 的异常类型，因此您针对 OpenAI 的任何错误处理都可以直接与 LiteLLM 一起使用。

from openai.error import OpenAIError
from litellm import completion

os.environ["ANTHROPIC_API_KEY"] = "bad-key"
try:
    # some code
    completion(model="claude-instant-1", messages=[{"role": "user", "content": "Hey, how's it going?"}])
except OpenAIError as e:
    print(e)

日志记录可观察性 - 记录 LLM 输入/输出 (文档)

LiteLLM 提供了预定义的 Callback 函数，可将数据发送到 MLflow, Lunary, Langfuse, Helicone, Promptlayer, Traceloop, Slack

from litellm import completion

## set env variables for logging tools (API key set up is not required when using MLflow)
os.environ["LUNARY_PUBLIC_KEY"] = "your-lunary-public-key" # get your key at https://app.lunary.ai/settings
os.environ["HELICONE_API_KEY"] = "your-helicone-key"
os.environ["LANGFUSE_PUBLIC_KEY"] = ""
os.environ["LANGFUSE_SECRET_KEY"] = ""

os.environ["OPENAI_API_KEY"]

# set callbacks
litellm.success_callback = ["lunary", "mlflow", "langfuse", "helicone"] # log input/output to lunary, mlflow, langfuse, helicone

#openai call
response = completion(model="gpt-3.5-turbo", messages=[{"role": "user", "content": "Hi 👋 - i'm openai"}])

跟踪流式传输的成本、使用情况和延迟

为此使用 Callback 函数 - 更多关于自定义 Callback 的信息： https://docs.litellm.com.cn/docs/observability/custom_callback

import litellm

# track_cost_callback
def track_cost_callback(
    kwargs,                 # kwargs to completion
    completion_response,    # response from completion
    start_time, end_time    # start/end time
):
    try:
      response_cost = kwargs.get("response_cost", 0)
      print("streaming response_cost", response_cost)
    except:
        pass
# set callback
litellm.success_callback = [track_cost_callback] # set custom callback function

# litellm.completion() call
response = completion(
    model="gpt-3.5-turbo",
    messages=[
        {
            "role": "user",
            "content": "Hi 👋 - i'm openai"
        }
    ],
    stream=True
)

LiteLLM 代理服务器 (LLM 网关)

跟踪跨多个项目/人员的花费

ui_3

该代理提供了

📖 代理端点 - Swagger 文档

前往此处获取包含密钥 + 速率限制的完整教程 - 此处

代理快速入门 - CLI

pip install 'litellm[proxy]'

步骤 1: 启动 litellm 代理

pip 包
Docker 容器

$ litellm --model huggingface/bigcode/starcoder

#INFO: Proxy running on http://0.0.0.0:4000

步骤 1. 创建 config.yaml

litellm_config.yaml 示例

model_list:
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/<your-azure-model-deployment>
      api_base: os.environ/AZURE_API_BASE # runs os.getenv("AZURE_API_BASE")
      api_key: os.environ/AZURE_API_KEY # runs os.getenv("AZURE_API_KEY")
      api_version: "2023-07-01-preview"

步骤 2. 运行 Docker 镜像

docker run \
    -v $(pwd)/litellm_config.yaml:/app/config.yaml \
    -e AZURE_API_KEY=d6*********** \
    -e AZURE_API_BASE=https://openai-***********/ \
    -p 4000:4000 \
    ghcr.io/berriai/litellm:main-latest \
    --config /app/config.yaml --detailed_debug

步骤 2: 向代理发送 ChatCompletions 请求

import openai # openai v1.0.0+
client = openai.OpenAI(api_key="anything",base_url="http://0.0.0.0:4000") # set proxy to base_url
# request sent to model set on litellm proxy, `litellm --model`
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
    {
        "role": "user",
        "content": "this is a test request, write a short poem"
    }
])

print(response)

LiteLLM - 入门

使用 OpenAI 输入/输出格式调用 100+ 个 LLM​

如何使用 LiteLLM​

何时使用 LiteLLM 代理服务器 (LLM 网关)​

何时使用 LiteLLM Python SDK​

LiteLLM Python SDK​

基本用法​

流式传输​

异常处理​

日志记录可观察性 - 记录 LLM 输入/输出 (文档)​

跟踪流式传输的成本、使用情况和延迟​

LiteLLM 代理服务器 (LLM 网关)​

📖 代理端点 - Swagger 文档​

代理快速入门 - CLI​

步骤 1: 启动 litellm 代理​

步骤 1. 创建 config.yaml​

步骤 2. 运行 Docker 镜像​

步骤 2: 向代理发送 ChatCompletions 请求​

更多详情​