响应头
当您向代理发起请求时,代理将返回以下响应头
速率限制头
头部 | 类型 | 描述 |
---|---|---|
x-ratelimit-remaining-requests | 可选[int] | 在达到速率限制之前允许剩余的请求数 |
x-ratelimit-remaining-tokens | 可选[int] | 在达到速率限制之前允许剩余的令牌数 |
x-ratelimit-limit-requests | 可选[int] | 在达到速率限制之前允许的最大请求数 |
x-ratelimit-limit-tokens | 可选[int] | 在达到速率限制之前允许的最大令牌数 |
x-ratelimit-reset-requests | 可选[int] | 速率限制将重置的时间 |
x-ratelimit-reset-tokens | 可选[int] | 速率限制将重置的时间 |
速率限制头工作原理
如果键设置了速率限制
代理将返回该键剩余的速率限制。
如果键未设置速率限制
代理返回后端提供商返回的剩余请求/令牌。(LiteLLM 会将后端提供商的响应头标准化为 OpenAI 格式)
如果后端提供商未返回这些头部,则值为 None
。
这些头部对于客户端了解当前的速率限制状态并相应调整其请求速率非常有用。
延迟头
头部 | 类型 | 描述 |
---|---|---|
x-litellm-response-duration-ms | 浮点型 | API 响应的总持续时间(毫秒) |
x-litellm-overhead-duration-ms | 浮点型 | LiteLLM 处理开销(毫秒) |
重试、回退头
头部 | 类型 | 描述 |
---|---|---|
x-litellm-attempted-retries | 整型 | 已进行的重试次数 |
x-litellm-attempted-fallbacks | 整型 | 已进行的回退次数 |
x-litellm-max-fallbacks | 整型 | 允许的最大回退次数 |
成本追踪头
头部 | 类型 | 描述 | 在直通端点上可用 |
---|---|---|---|
x-litellm-response-cost | 浮点型 | API 调用的成本 | |
x-litellm-key-spend | 浮点型 | 该 API 键的总支出 | ✅ |
LiteLLM 特定头
头部 | 类型 | 描述 | 在直通端点上可用 |
---|---|---|---|
x-litellm-call-id | 字符串 | API 调用的唯一标识符 | ✅ |
x-litellm-model-id | 字符串 | 使用的模型的唯一标识符 | |
x-litellm-model-api-base | 字符串 | API 端点的基础 URL | ✅ |
x-litellm-version | 字符串 | 正在使用的 LiteLLM 版本 | |
x-litellm-model-group | 字符串 | 模型组标识符 |
来自 LLM 提供商的响应头
LiteLLM 也返回来自 LLM 提供商的原始响应头。这些头部以 llm_provider-
为前缀,以区分它们与 LiteLLM 的头部。
示例响应头
llm_provider-openai-processing-ms: 256
llm_provider-openai-version: 2020-10-01
llm_provider-x-ratelimit-limit-requests: 30000
llm_provider-x-ratelimit-limit-tokens: 150000000