跳到主要内容

基准测试

LiteLLM 网关(代理服务器)针对模拟OpenAI端点进行的基准测试。

使用此配置进行测试

注意:我们目前正在迁移到 aiohttp,其吞吐量高出 10 倍。我们建议使用 aiohttp_openai/ 提供商进行负载测试。

model_list:
- model_name: "fake-openai-endpoint"
litellm_params:
model: aiohttp_openai/any
api_base: https://your-fake-openai-endpoint.com/chat/completions
api_key: "test"

1个 LiteLLM 代理实例

在这些测试中,直接调用模拟 OpenAI 端点的中位数延迟为 60ms。

指标Litellm 代理 (1个实例)
RPS475
中位数延迟 (ms)100
LiteLLM 代理增加的延迟开销40ms

主要发现

  • 单实例:475 RPS @ 100ms 延迟
  • 2个 LiteLLM 实例:950 RPS @ 100ms 延迟
  • 4个 LiteLLM 实例:1900 RPS @ 100ms 延迟

2个实例

增加1个实例将使 RPS 加倍,并保持 100ms-110ms 的中位数延迟。

指标Litellm 代理 (2个实例)
中位数延迟 (ms)100
RPS950

测试使用的机器规格

部署 LiteLLM 的每台机器具有以下规格

  • 2 CPU
  • 4GB RAM

日志回调

GCS Bucket 日志记录

使用 GCS Bucket 对比基本 Litellm 代理对延迟、RPS 没有影响

指标基本 Litellm 代理带 GCS Bucket 日志记录的 LiteLLM 代理
RPS1133.21137.3
中位数延迟 (ms)140138

LangSmith 日志记录

使用 LangSmith 对比基本 Litellm 代理对延迟、RPS 没有影响

指标基本 Litellm 代理带 LangSmith 的 LiteLLM 代理
RPS1133.21135
中位数延迟 (ms)140132

Locust 设置

  • 2500 用户
  • 100 用户爬升