基准测试
LiteLLM 网关(代理服务器)针对模拟OpenAI端点进行的基准测试。
使用此配置进行测试
注意:我们目前正在迁移到 aiohttp,其吞吐量高出 10 倍。我们建议使用 aiohttp_openai/
提供商进行负载测试。
model_list:
- model_name: "fake-openai-endpoint"
litellm_params:
model: aiohttp_openai/any
api_base: https://your-fake-openai-endpoint.com/chat/completions
api_key: "test"
1个 LiteLLM 代理实例
在这些测试中,直接调用模拟 OpenAI 端点的中位数延迟为 60ms。
指标 | Litellm 代理 (1个实例) |
---|---|
RPS | 475 |
中位数延迟 (ms) | 100 |
LiteLLM 代理增加的延迟开销 | 40ms |
主要发现
- 单实例:475 RPS @ 100ms 延迟
- 2个 LiteLLM 实例:950 RPS @ 100ms 延迟
- 4个 LiteLLM 实例:1900 RPS @ 100ms 延迟
2个实例
增加1个实例将使 RPS 加倍,并保持 100ms-110ms
的中位数延迟。
指标 | Litellm 代理 (2个实例) |
---|---|
中位数延迟 (ms) | 100 |
RPS | 950 |
测试使用的机器规格
部署 LiteLLM 的每台机器具有以下规格
- 2 CPU
- 4GB RAM
日志回调
GCS Bucket 日志记录
使用 GCS Bucket 对比基本 Litellm 代理对延迟、RPS 没有影响
指标 | 基本 Litellm 代理 | 带 GCS Bucket 日志记录的 LiteLLM 代理 |
---|---|---|
RPS | 1133.2 | 1137.3 |
中位数延迟 (ms) | 140 | 138 |
LangSmith 日志记录
使用 LangSmith 对比基本 Litellm 代理对延迟、RPS 没有影响
指标 | 基本 Litellm 代理 | 带 LangSmith 的 LiteLLM 代理 |
---|---|---|
RPS | 1133.2 | 1135 |
中位数延迟 (ms) | 140 | 132 |
Locust 设置
- 2500 用户
- 100 用户爬升