跳到主内容

响应头

当您向代理发起请求时,代理将返回以下响应头

速率限制头

OpenAI 兼容头:

头部类型描述
x-ratelimit-remaining-requests可选[int]在达到速率限制之前允许剩余的请求数
x-ratelimit-remaining-tokens可选[int]在达到速率限制之前允许剩余的令牌数
x-ratelimit-limit-requests可选[int]在达到速率限制之前允许的最大请求数
x-ratelimit-limit-tokens可选[int]在达到速率限制之前允许的最大令牌数
x-ratelimit-reset-requests可选[int]速率限制将重置的时间
x-ratelimit-reset-tokens可选[int]速率限制将重置的时间

速率限制头工作原理

如果键设置了速率限制

代理将返回该键剩余的速率限制

如果键未设置速率限制

代理返回后端提供商返回的剩余请求/令牌。(LiteLLM 会将后端提供商的响应头标准化为 OpenAI 格式)

如果后端提供商未返回这些头部,则值为 None

这些头部对于客户端了解当前的速率限制状态并相应调整其请求速率非常有用。

延迟头

头部类型描述
x-litellm-response-duration-ms浮点型API 响应的总持续时间(毫秒)
x-litellm-overhead-duration-ms浮点型LiteLLM 处理开销(毫秒)

重试、回退头

头部类型描述
x-litellm-attempted-retries整型已进行的重试次数
x-litellm-attempted-fallbacks整型已进行的回退次数
x-litellm-max-fallbacks整型允许的最大回退次数

成本追踪头

头部类型描述在直通端点上可用
x-litellm-response-cost浮点型API 调用的成本
x-litellm-key-spend浮点型该 API 键的总支出

LiteLLM 特定头

头部类型描述在直通端点上可用
x-litellm-call-id字符串API 调用的唯一标识符
x-litellm-model-id字符串使用的模型的唯一标识符
x-litellm-model-api-base字符串API 端点的基础 URL
x-litellm-version字符串正在使用的 LiteLLM 版本
x-litellm-model-group字符串模型组标识符

来自 LLM 提供商的响应头

LiteLLM 也返回来自 LLM 提供商的原始响应头。这些头部以 llm_provider- 为前缀,以区分它们与 LiteLLM 的头部。

示例响应头

llm_provider-openai-processing-ms: 256
llm_provider-openai-version: 2020-10-01
llm_provider-x-ratelimit-limit-requests: 30000
llm_provider-x-ratelimit-limit-tokens: 150000000