基准测试

LiteLLM 网关（代理服务器）针对模拟OpenAI端点进行的基准测试。

使用此配置进行测试

注意：我们目前正在迁移到 aiohttp，其吞吐量高出 10 倍。我们建议使用 aiohttp_openai/ 提供商进行负载测试。

model_list:
  - model_name: "fake-openai-endpoint"
    litellm_params:
      model: aiohttp_openai/any
      api_base: https://your-fake-openai-endpoint.com/chat/completions
      api_key: "test"

1个 LiteLLM 代理实例

在这些测试中，直接调用模拟 OpenAI 端点的中位数延迟为 60ms。

指标	Litellm 代理 (1个实例)
RPS	475
中位数延迟 (ms)	100
LiteLLM 代理增加的延迟开销	40ms

主要发现

单实例：475 RPS @ 100ms 延迟
2个 LiteLLM 实例：950 RPS @ 100ms 延迟
4个 LiteLLM 实例：1900 RPS @ 100ms 延迟

2个实例

增加1个实例将使 RPS 加倍，并保持 100ms-110ms 的中位数延迟。

指标	Litellm 代理 (2个实例)
中位数延迟 (ms)	100
RPS	950

测试使用的机器规格

部署 LiteLLM 的每台机器具有以下规格

2 CPU
4GB RAM

日志回调

GCS Bucket 日志记录

使用 GCS Bucket 对比基本 Litellm 代理对延迟、RPS 没有影响

指标	基本 Litellm 代理	带 GCS Bucket 日志记录的 LiteLLM 代理
RPS	1133.2	1137.3
中位数延迟 (ms)	140	138

LangSmith 日志记录

使用 LangSmith 对比基本 Litellm 代理对延迟、RPS 没有影响

指标	基本 Litellm 代理	带 LangSmith 的 LiteLLM 代理
RPS	1133.2	1135
中位数延迟 (ms)	140	132

Locust 设置

2500 用户
100 用户爬升

基准测试

1个 LiteLLM 代理实例​

主要发现​

2个实例​

测试使用的机器规格​

日志回调​

GCS Bucket 日志记录​

LangSmith 日志记录​

Locust 设置​