跳到主要内容

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

主要亮点

LiteLLM v1.70.1-stable 现已上线。以下是此版本的主要亮点

  • Gemini Realtime API:您现在可以通过 OpenAI 的 /v1/realtime API 调用 Gemini 的实时 API
  • 支出日志保留期:支持删除超过一定期限的支出日志。
  • PII 屏蔽 2.0:轻松配置在 UI 上屏蔽或阻止特定 PII/PHI 实体。

Gemini Realtime API

此版本支持通过 OpenAI 的 /v1/realtime API 调用 Gemini 的实时模型(例如 gemini-2.0-flash-live)。这对于开发者来说非常有用,因为只需更改模型名称即可轻松地从 OpenAI 切换到 Gemini。

主要亮点

  • 支持文本 + 音频输入/输出
  • 支持以 OpenAI 格式设置会话配置(模态、指令、活动检测)
  • 支持实时会话的日志记录 + 使用情况跟踪

目前通过 Google AI Studio 支持此功能。我们计划在接下来一周发布 VertexAI 支持。

阅读更多

支出日志保留期

此版本支持删除超过一定期限的 LiteLLM 支出日志。由于我们现在支持在日志中存储原始请求/响应,删除旧日志可确保数据库在生产环境中保持高性能。

阅读更多

PII 屏蔽 2.0

此版本改进了我们的 Presidio PII 集成。作为 Proxy 管理员,您现在可以

  • 屏蔽或阻止特定实体(例如,阻止医疗执照,同时屏蔽其他实体如电子邮件)。
  • 监控生产环境中的防护栏。LiteLLM 日志现在将显示防护栏运行、检测到的实体以及每个实体的置信度分数。

阅读更多

新模型 / 更新模型

  • Gemini (VertexAI + Google AI Studio)
    • /chat/completion
      • 处理音频输入 - PR
      • 通过将常量中的 DEFAULT_MAX_RECURSE_DEPTH 从 10 增加到 100,修复了使用 Vertex AI 时深度嵌套响应模式的最大递归深度问题。 PR
      • 在流模式下捕获推理 token - PR
  • Google AI Studio
    • /realtime
      • 支持 Gemini Multimodal Live API
      • 音频输入/输出支持、可选参数映射、准确的使用量计算 - PR
  • VertexAI
    • /chat/completion
      • 修复 llama 流媒体错误 - 模型响应嵌套在返回的流媒体块中 - PR
  • Ollama
    • /chat/completion
      • 结构化响应修复 - PR
  • Bedrock
    • /chat/completion
      • 处理 assistant.content 为 None 时的 thinking_blocks - PR
      • 修复,仅允许工具 json schema 接受的字段 - PR
      • 添加 bedrock sonnet 提示词缓存成本信息
      • Mistral Pixtral 支持 - PR
      • 工具缓存支持 - PR
    • /messages
      • 允许使用动态 AWS 参数 - PR
  • Nvidia NIM
  • Novita AI
    • /chat/completion 路由添加了新提供商 - PR
  • Azure
  • Cohere
    • /embeddings
      • 迁移嵌入到使用 /v2/embed - 添加 output_dimensions 参数支持 - PR
  • Anthropic
  • VLLM
  • OpenAI
    • /chat/completion
      • 修复 - b64 文件数据输入处理 - 入门
      • 为所有 vision 模型添加 ‘supports_pdf_input’ - PR

LLM API 端点

支出跟踪改进

  • /chat/completion, /messages
    • Anthropic - web 搜索工具成本跟踪 - PR
    • Groq - 更新模型最大 token + 成本信息 - PR
  • /audio/transcription
    • Azure - 添加 gpt-4o-mini-tts 定价 - PR
    • Proxy - 修复按标签跟踪支出问题 - PR
  • /embeddings
    • Azure AI - 添加 cohere embed v4 定价 - PR

管理端点 / UI

日志记录 / 告警集成

  • StandardLoggingPayload
    • 在请求者元数据中记录所有 x- 开头的 headers - 入门
    • 防护栏跟踪现已在标准日志 payload 中显示 - 入门
  • 通用 API 记录器
    • 支持传递 application/json header
  • Arize Phoenix
    • 修复:为 Phoenix 集成进行 OTEL_EXPORTER_OTLP_TRACES_HEADERS 的 URL 编码 - PR
    • 添加防护栏跟踪到 OTEL, Arize phoenix - PR
  • PagerDuty
    • Pagerduty 现已成为免费功能 - PR
  • 告警
    • 虚拟密钥/用户/团队更新时发送 slack 告警现已免费 - PR

防护栏

  • 防护栏
    • 新的 /apply_guardrail 端点,用于直接测试防护栏 - PR
  • Lakera
    • 支持 /v2 端点 - PR
  • Presidio
    • 修复 presidio 防护栏集成中消息内容的处理问题 - PR
    • 允许指定 PII 实体配置 - PR
  • Aim Security
    • 支持 AIM 防护栏中的匿名化 - PR

性能 / 负载均衡 / 可靠性改进

通用代理改进

  • 身份验证
    • 处理自定义 header x-litellm-api-key 中的 Bearer $LITELLM_API_KEY PR
  • 新的企业版 pip 包 - litellm-enterprise - 修复使用 pip 包时找不到 enterprise 文件夹的问题
  • Proxy CLI
    • 添加 models import 命令 - PR
  • OpenWebUI
    • 配置 LiteLLM 从 Open Web UI 解析用户 Header
  • LiteLLM Proxy 和 LiteLLM SDK
    • 选项,强制/总是通过 LiteLLM SDK 调用时使用 litellm 代理

新贡献者

演示实例

这里有一个演示实例来测试更改

Git Diff

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.69.0-stable

主要亮点

LiteLLM v1.69.0-stable 带来了以下关键改进

  • 负载均衡 Batch API 模型:使用 LiteLLM Managed Files 轻松在多个 Azure Batch 部署之间进行负载均衡
  • 电子邮件邀请 2.0:向新加入 LiteLLM 的用户发送电子邮件邀请。
  • Nscale:符合欧洲法规的 LLM API。
  • Bedrock /v1/messages:使用 Anthropic 的 /v1/messages 调用 Bedrock Anthropic 模型。

Batch API 负载均衡

此版本为 Batches 带来了 LiteLLM Managed File 支持。这对于以下用户非常有用:

  • Proxy 管理员:您现在可以控制用户可以调用哪些 Batch 模型。
  • 开发者:在创建批处理 .jsonl 文件时,您不再需要知道 Azure 部署名称 - 只需指定您的 LiteLLM 密钥有权访问的模型。

随着时间的推移,我们预计 LiteLLM Managed Files 将成为大多数团队在 /chat/completions/batch/fine_tuning 端点上使用文件的方式。

在此处阅读更多

电子邮件邀请

此版本为我们的电子邮件邀请集成带来了以下改进

  • 用户邀请和密钥创建事件的新模板。
  • 使用 SMTP 电子邮件提供商的修复。
  • 原生支持 Resend API。
  • Proxy 管理员控制电子邮件事件的能力。

对于 LiteLLM Cloud 用户,如果您希望在您的实例上启用此功能,请联系我们。

在此处阅读更多

新模型 / 更新模型

  • Gemini (VertexAI + Google AI Studio)
    • 添加了 gemini-2.5-pro-preview-05-06 模型以及定价和上下文窗口信息 - PR
    • 为所有 Gemini 2.5 变体设置正确的上下文窗口长度 - PR
  • Perplexity:
    • 添加了新的 Perplexity 模型 - PR
    • 添加了 sonar-deep-research 模型定价 - PR
  • Azure OpenAI:
    • 修复了 azure_ad_token_provider 参数的传递问题 - PR
  • OpenAI:
    • 添加了在 'file' 参数中支持 pdf url 的功能 - PR
  • Sagemaker:
    • 修复 sagemaker_chat 提供商的内容长度问题 - PR
  • Azure AI Foundry:
    • 添加了以下模型的成本跟踪 PR
      • DeepSeek V3 0324
      • Llama 4 Scout
      • Llama 4 Maverick
  • Bedrock:
    • 添加了 Bedrock Llama 4 模型的成本跟踪 - PR
    • 修复了 Bedrock 中 Llama 4 模型的模板转换问题 - PR
    • 添加了使用 /v1/messages 格式支持 Bedrock Anthropic 模型的功能 - PR
    • 添加了使用 /v1/messages 格式支持 Bedrock Anthropic 模型的流媒体功能 - PR
  • OpenAI:添加了对 o3 模型的 reasoning_effort 支持 - PR
  • Databricks:
    • 修复了 Databricks 使用外部模型时 delta 可能为空的问题 - PR
  • Cerebras:修复了 Llama-3.1-70b 模型定价和上下文窗口问题 - PR
  • Ollama:
    • 修复了自定义价格成本跟踪并添加了 'max_completion_token' 支持 - PR
    • 修复了使用 JSON 响应格式时的 KeyError - PR
  • 🆕 Nscale
    • 添加了对聊天、图像生成端点的支持 - PR

LLM API 端点

  • Messages API:
    • 🆕 添加了使用 /v1/messages 格式支持 Bedrock Anthropic 模型的功能 - PR 并支持流媒体 - PR
  • Moderations API:
    • 修复了允许使用 LiteLLM UI 凭据调用 /moderations API 的 bug - PR
  • Realtime API:
    • 修复了 websocket 身份验证请求中 'headers' 范围设置问题和无限循环问题 - PR
  • Files API:
    • 统一文件 ID 输出支持 - PR
    • 支持将文件写入所有部署 - PR
    • 添加了目标模型名称验证 - PR
  • Batches API:
    • 完整的统一批处理 ID 支持 - 将 jsonl 中的模型替换为部署模型名称 - PR
    • 批处理的统一文件 ID (托管文件) Beta 支持 - PR

支出跟踪 / 预算改进

  • Bug 修复 - DB 支出跟踪中的 PostgreSQL 整数溢出错误 - PR

管理端点 / UI

  • 模型
    • 修复了在 UI 上编辑模型时模型信息被覆盖的问题 - PR
    • 修复了团队管理员模型更新和具有特定模型的组织创建问题 - PR
  • 日志:
    • Bug 修复 - 在日志页面上复制请求/响应 - PR
    • Bug 修复 - QA 日志页面上日志没有保持焦点 + 错误日志的文本溢出问题 - PR
    • 为 LiteLLM_SpendLogs 添加 session_id 索引以提高查询性能 - PR
  • 用户管理:
    • 为 Python 客户端库和 CLI 添加了用户管理功能 - PR
    • Bug 修复 - 修复了 Admin UI 上的 SCIM token 创建问题 - PR
    • Bug 修复 - 添加了在尝试删除不存在的验证 token 时返回 404 响应 - PR

日志记录 / 防护栏集成

  • 自定义记录器 API:v2 自定义回调 API (将 llm 日志发送到自定义 api) - PR, 入门
  • OpenTelemetry:
    • 修复了 OpenTelemetry 以遵循 genai 语义约定 + 支持 TTS 的 'instructions' 参数 - PR
  • Bedrock PII:
    • 添加支持使用 bedrock 防护栏进行 PII 屏蔽 - 入门, PR
  • 文档:
    • 添加了 StandardLoggingVectorStoreRequest 的文档 - PR

性能 / 可靠性改进

  • Python 兼容性:
    • 添加了对 Python 3.11- 的支持 (修复了 datetime UTC 处理) - PR
    • 修复了 Windows 上 litellm 导入期间的 UnicodeDecodeError: 'charmap' 错误 - PR
  • 缓存:
    • 修复了嵌入字符串缓存结果的问题 - PR
    • 修复了带有 response_format 的 Gemini 模型的缓存未命中问题 - PR

通用代理改进

  • Proxy CLI:
    • litellm-proxy CLI 添加了 --version 标志 - PR
    • 添加了专用的 litellm-proxy CLI - PR
  • 告警:
    • 修复了使用数据库时 Slack 告警不工作的问题 - PR
  • 电子邮件邀请:
    • 添加了 V2 电子邮件,修复了创建密钥时发送电子邮件的问题 + Resend API 支持 - PR
    • 添加了用户邀请邮件 - PR
    • 添加了管理电子邮件设置的端点 - PR
  • 通用:
    • 修复了发出重复 JSON 日志的 bug - PR

新贡献者

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

主要亮点

LiteLLM v1.68.0-stable 即将上线。以下是此版本的主要亮点

  • Bedrock 知识库:您现在可以通过 /chat/completion/responses API 使用所有 LiteLLM 模型查询您的 Bedrock 知识库。
  • 速率限制:此版本带来了跨多个实例的精确速率限制,在高流量下将溢出减少到最多 10 个额外请求。
  • Meta Llama API:添加了对 Meta Llama API 的支持 入门
  • LlamaFile:添加了对 LlamaFile 的支持 入门

Bedrock 知识库 (Vector Store)


此版本在 LiteLLM 中添加了对 Bedrock vector stores (知识库) 的支持。通过此更新,您可以

  • 在 OpenAI 的 /chat/completions 规范中使用所有 LiteLLM 支持的模型调用 Bedrock vector stores。
  • 通过 LiteLLM UI 或 API 查看所有可用的 vector stores。
  • 配置 vector stores 以便始终对特定模型处于活动状态。
  • 在 LiteLLM 日志中跟踪 vector store 的使用情况。

在下一个版本中,我们计划允许您为 vector stores 设置密钥、用户、团队、组织权限。

在此处阅读更多

速率限制


此版本带来了跨密钥/用户/团队的精确多实例速率限制。下面概述了主要的工程更改:

  • 更改:实例现在增加缓存值而不是设置它。为了避免在每次请求时调用 Redis,此功能每 0.01 秒同步一次。
  • 准确性:在测试中,在高流量(100 RPS,3 个实例)下,我们看到最大溢出量比预期多 10 个请求,而目前溢出量为 189 个请求。
  • 性能:我们的负载测试显示,在高流量下,这会将中位数响应时间减少 100 毫秒 

此功能目前处于特性标志后面,我们计划在下周将其设置为默认功能。要立即启用此功能,只需添加此环境变量

export LITELLM_RATE_LIMIT_ACCURACY=true

在此处阅读更多

新模型 / 更新模型

  • Gemini (VertexAI + Google AI Studio)
    • 处理更多 json 模式 - openapi 模式转换边缘情况 PR
    • 工具调用 - 在 gemini 工具调用响应上返回 ‘finish_reason=“tool_calls”’ PR
  • VertexAI
    • Meta/llama-4 模型支持 PR
    • Meta/llama3 - 处理内容中的工具调用结果 PR
    • Meta/* - 在工具调用响应上返回 ‘finish_reason=“tool_calls”’ PR
  • Bedrock
    • 图像生成 - 支持新的 ‘stable-image-core’ 模型 - PR
    • 知识库 - 支持使用 Bedrock 知识库调用 /chat/completions PR
    • Anthropic - 为 claude-3.7-bedrock 模型添加 ‘supports_pdf_input’ PR, 入门
  • OpenAI
    • 支持 OPENAI_BASE_URL 以及 OPENAI_API_BASE PR
    • 正确地重新抛出 504 超时错误 PR
    • 原生 Gpt-4o-mini-tts 支持 PR
  • 🆕 Meta Llama API 提供商 PR
  • 🆕 LlamaFile 提供商 PR

LLM API 端点

  • Response API
    • 处理多轮会话的修复 PR
  • 嵌入
    • 缓存修复 - PR
      • 处理 str -> list 缓存
      • 返回缓存命中的使用量 token
      • 合并部分缓存命中的使用量 token
  • 🆕 Vector Stores
    • 允许定义 Vector Store 配置 - PR
    • 使用 vector store 时创建的新 StandardLoggingPayload 字段 - PR
    • 在 LiteLLM 日志页面上显示 Vector Store / KB 请求 - PR
    • 允许在 OpenAI API 规范中使用带有工具的 vector store - PR
  • MCP
    • 确保非管理员虚拟密钥可以访问 /mcp 路由 - PR

      注意:目前,所有虚拟密钥都可以访问 MCP 端点。我们正在开发一项功能,以允许按密钥/团队/用户/组织限制 MCP 访问。请在此处关注更新 here

  • Moderations
    • /moderations API 添加日志记录回调支持 - PR

支出跟踪 / 预算改进

管理端点 / UI

  • 虚拟密钥
    • 修复按密钥别名过滤问题 - PR
    • 支持密钥的全局过滤 - PR
    • 分页 - 修复点击表格上的下一页/上一页按钮问题 - PR
  • 模型
    • Triton - 支持在 UI 上添加模型/提供商 - PR
    • VertexAI - 修复使用可重复使用凭据添加 Vertex 模型的问题 - PR
    • LLM 凭据 - 显示现有凭据以便轻松编辑 - PR
  • 团队
    • 允许将团队重新分配给其他组织 - PR
  • 组织
    • 修复表格上组织预算显示问题 - PR

日志记录 / 防护栏集成

性能 / 负载均衡 / 可靠性改进

通用代理改进

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.67.4-stable

主要亮点

  • 改进的用户管理:此版本支持跨用户、密钥、团队和模型进行搜索和过滤。
  • Responses API 负载均衡:跨提供商区域路由请求并确保会话连续性。
  • UI 会话日志:将对 LiteLLM 的多个请求分组到一个会话中。

改进的用户管理


此版本使在 LiteLLM 上管理用户和密钥变得更加容易。您现在可以跨用户、密钥、团队和模型进行搜索和过滤,并更轻松地控制用户设置。

新功能包括

  • 按电子邮件、ID、角色或团队搜索用户。
  • 在一个地方查看用户的所有模型、团队和密钥。
  • 直接在用户选项卡中更改用户角色和模型访问权限。

这些更改可帮助您在 LiteLLM 上花费更少的时间进行用户设置和管理。

Responses API 负载均衡


此版本引入了 Responses API 的负载均衡,允许您跨提供商区域路由请求并确保会话连续性。其工作方式如下:

  • 如果提供了 previous_response_id,LiteLLM 会将请求路由到生成先前响应的原始部署 - 确保会话连续性。
  • 如果未提供 previous_response_id,LiteLLM 会在可用部署之间进行请求负载均衡。

阅读更多

UI 会话日志


此版本允许您将对 LiteLLM 代理的请求分组到一个会话中。如果您在请求中指定 litellm_session_id,LiteLLM 会自动将同一会话中的所有日志分组。这使您可以轻松跟踪每个会话的使用情况和请求内容。

阅读更多

新模型 / 更新模型

  • OpenAI
    1. 添加了 gpt-image-1 成本跟踪 入门
    2. Bug 修复:添加了未指定质量时 gpt-image-1 的成本跟踪 PR
  • Azure
    1. 修复了 Azure 中传递给 whisper 的时间戳粒度问题 入门
    2. 添加了 azure/gpt-image-1 定价 入门, PR
    3. 添加了对 azure/computer-use-preview, azure/gpt-4o-audio-preview-2024-12-17, azure/gpt-4o-mini-audio-preview-2024-12-17 的成本跟踪 PR
  • Bedrock
    1. 添加了在模型="arn:.." (Bedrock application inference profile models) 时支持所有兼容的 Bedrock 参数 入门, PR
    2. 修复了错误的系统提示词转换问题 PR
  • VertexAI / Google AI Studio
    1. 允许将 budget_tokens=0 用于 gemini-2.5-flash 入门,PR
    2. 确保返回的 usage 包含 thinking token 的使用量 PR
    3. 添加了对 gemini-2.5-pro-preview-03-25 的成本跟踪 PR
  • Cohere
    1. 添加了对 cohere command-a-03-2025 的支持 入门, PR
  • SageMaker
    1. 添加了对 max_completion_tokens 参数的支持 入门, PR
  • Responses API
    1. 添加了对 GET 和 DELETE 操作的支持 - /v1/responses/{response_id} 入门
    2. 添加了对非 OpenAI 模型的会话管理支持 PR
    3. 添加了路由亲和性以在会话中保持模型一致性 入门, PR

支出跟踪改进

  • Bug 修复:修复了支出跟踪 bug,确保默认的 litellm 参数不会在内存中修改 PR
  • 弃用日期:添加了 Azure、VertexAI 模型的弃用日期 PR

管理端点 / UI

用户

  • 过滤和搜索:

    • 按 user_id, role, team, sso_id 过滤用户
    • 按电子邮件搜索用户

  • 用户信息面板:添加了新的用户信息窗格 PR

    • 查看与用户关联的团队、密钥、模型
    • 编辑用户角色、模型权限

团队

  • 过滤和搜索:

    • 按组织、团队 ID 过滤团队 PR
    • 按团队名称搜索团队 PR

密钥

  • 密钥管理:
    • 支持跨过滤和按密钥哈希过滤 PR
    • 修复了重置过滤器时密钥别名重置问题 PR
    • 修复了创建密钥时表格渲染问题 PR

UI 日志页面

  • 会话日志:添加了 UI 会话日志 入门

UI 身份验证与安全

  • 必需身份验证:所有仪表板页面现在都需要身份验证 PR
  • SSO 修复:修复了 SSO 用户登录令牌无效错误 PR
  • [BETA] 加密令牌:UI 迁移到使用加密令牌 PR
  • 令牌过期:支持通过重新路由到登录页刷新令牌(修复了过期令牌显示空白页的问题) PR

UI 通用修复

  • 修复 UI 闪烁:解决了仪表板中的 UI 闪烁问题 PR
  • 改进术语:密钥和工具页面加载和无数据状态更好 PR
  • Azure 模型支持:修复了编辑 Azure 公共模型名称和创建后更改模型名称的问题 PR
  • 团队模型选择器:团队模型选择的 Bug 修复 PR

日志记录 / 防护栏集成

  • Datadog:
    1. 修复了 Datadog LLM 可观察性日志记录问题 入门, PR
  • Prometheus / Grafana:
    1. 在 LiteLLM Grafana 模板中启用数据源选择 入门, PR
  • AgentOps:
    1. 添加了 AgentOps 集成 入门, PR
  • Arize:
    1. 添加了 Arize & Phoenix 集成所需的缺失属性 入门, PR

通用代理改进

  • 缓存:修复了缓存,使其在计算缓存键时考虑 thinkingreasoning_effort PR
  • 模型组:修复了用户在 model_info 中设置 model_group 的情况 PR
  • 直通端点:确保使用 method, URL, request/response body 记录 PassthroughStandardLoggingPayload PR
  • 修复 SQL 注入:修复了 spend_management_endpoints.py 中潜在的 SQL 注入漏洞 PR

Helm

  • 修复了迁移作业上的 serviceAccountName PR

完整变更日志

完整的更改列表可以在 GitHub 发布说明 中找到。

Krrish Dholakia
Ishaan Jaffer

主要亮点

  • SCIM 集成:使身份提供商(Okta、Azure AD、OneLogin 等)能够自动化用户和团队(组)的供应、更新和撤销供应
  • 基于团队和标签的使用量跟踪:您现在可以在 1M+ 支出日志中按团队和标签查看使用量和支出。
  • 统一 Responses API:支持通过 OpenAI 新的 Responses API 调用 Anthropic、Gemini、Groq 等。

让我们深入了解。

SCIM 集成

此版本为 LiteLLM 添加了 SCIM 支持。这允许您的 SSO 提供商(Okta、Azure AD 等)在 LiteLLM 上自动创建/删除用户、团队和成员身份。这意味着当您在 SSO 提供商上删除一个团队时,您的 SSO 提供商将自动删除 LiteLLM 上对应的团队。

阅读更多

基于团队和标签的使用量跟踪

此版本改进了 1M+ 支出日志中基于团队和标签的使用量跟踪,使在生产环境中监控 LLM API 支出变得容易。这涵盖了

  • 查看按团队 + 标签划分的每日支出
  • 查看按密钥划分的使用量 / 支出,在团队内
  • 查看按多个标签划分的支出
  • 允许内部用户查看他们所属团队的支出

阅读更多

统一 Responses API

此版本允许您通过 LiteLLM 上的 POST /v1/responses 端点调用 Azure OpenAI、Anthropic、AWS Bedrock 和 Google Vertex AI 模型。这意味着您现在可以将 OpenAI Codex 等流行工具与您自己的模型一起使用。

阅读更多

新模型 / 更新模型

  • OpenAI
    1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价 - 入门, PR
    2. o4 - 正确将 o4 映射到 openai o_series 模型
  • Azure AI
    1. Phi-4 输出 token 成本修复 - PR
    2. Responses API 支持 入门,PR
  • Anthropic
    1. 已编辑消息思考支持 - 入门,PR
  • Cohere
    1. /v2/chat 直通端点支持 w/ 成本跟踪 - 入门, PR
  • Azure
    1. 支持 azure tenant_id/client_id 环境变量 - 入门, PR
    2. 修复 2025+ API 版本中的 response_format 检查 - PR
    3. 添加 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价
  • VLLM
    1. 文件 - 支持 VLLM 视频 url 的 'file' 消息类型 - 入门, PR
    2. 直通 - 支持新的 /vllm/ 直通端点 入门, PR
  • Mistral
    1. 支持新的 /mistral 直通端点 入门, PR
  • AWS
    1. 新的映射 bedrock 区域 - PR
  • VertexAI / Google AI Studio
    1. Gemini - 响应格式 - 通过指定 propertyOrdering 保留 google gemini 和 vertex 的 schema 字段顺序 - 入门, PR
    2. Gemini-2.5-flash - 返回推理内容 Google AI Studio, Vertex AI
    3. Gemini-2.5-flash - 定价 + 模型信息 PR
    4. 直通 - 新的 /vertex_ai/discovery 路由 - 支持调用 AgentBuilder API 路由 入门, PR
  • Fireworks AI
    1. tool_calls 字段中返回工具调用响应 (fireworks 错误地将此作为 json 字符串在内容中返回) PR
  • Triton
    1. 移除 /generate 调用中固定移除 bad_words / stop words 的逻辑 - 入门, PR
  • 其他
    1. Responses API 支持所有 litellm 提供商 (与 Codex 配合使用) - 入门, PR
    2. 修复流媒体响应中组合多个工具调用问题 - 入门, PR

支出跟踪改进

  • 成本控制 - 在 prompt 中注入缓存控制点以降低成本 入门, PR
  • 支出标签 - header 中的支出标签 - 支持 x-litellm-tags 即使未启用基于标签的路由 入门, PR
  • Gemini-2.5-flash - 支持推理 token 的成本计算 PR

管理端点 / UI

  • 用户

    1. 在用户页面上显示 created_at 和 updated_at - PR
  • 虚拟密钥

    1. 按密钥别名过滤 - https://github.com/BerriAI/litellm/pull/10085
  • 使用量选项卡

    1. 基于团队的使用量

      • 用于聚合团队使用量日志记录的新 LiteLLM_DailyTeamSpend 表 - PR

      • 新的基于团队的使用量仪表板 + 新的 /team/daily/activity API - PR

      • 在 /team/daily/activity API 上返回团队别名 - PR

      • 允许内部用户查看其所属团队的支出 - PR

      • 允许按团队查看排名靠前的密钥 - PR

    2. 基于标签的使用量

      • 用于聚合标签使用量日志记录的新 LiteLLM_DailyTagSpend 表 - PR
      • 限制仅限代理管理员 - PR
      • 允许按标签查看排名靠前的密钥
      • /tag/list API 上返回请求中传递的标签(即动态标签) - PR
    3. 在每日用户、团队、标签表中跟踪 prompt 缓存指标 - PR

    4. 显示按密钥的使用量(在所有向上、团队和标签使用量仪表板上) - PR

    5. 替换旧的使用量选项卡为新的使用量选项卡

  • 模型

    1. 使列可调整大小/可隐藏 - PR
  • API Playground

    1. 允许内部用户调用 API playground - PR
  • SCIM

    1. 为团队和用户管理添加 LiteLLM SCIM 集成 - 入门, PR

日志记录 / 防护栏集成

  • GCS
    1. 修复使用环境变量 GCS_PROJECT_ID 的 gcs pub sub 日志记录问题 - 入门, PR
  • AIM
    1. 在 pre 和 post-hooks 调用中向 Aim 防护栏传递 litellm 调用 ID - 入门, PR
  • Azure blob storage
    1. 确保在高吞吐量场景下日志记录正常工作 - 入门, PR

通用代理改进

  • 支持通过环境变量设置 litellm.modify_params PR
  • 模型发现 - 调用代理的 /v1/models 端点时检查提供商的 /models 端点 - 入门, PR
  • /utils/token_counter - 修复数据库模型自定义 tokenizer 的检索问题 - 入门, PR
  • Prisma 迁移 - 处理数据库表中现有的列 - PR

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

v1.66.0-stable 现已上线,以下是此版本的主要亮点

主要亮点

  • Realtime API 成本跟踪:跟踪 Realtime API 调用的成本
  • Microsoft SSO 自动同步:从 Azure Entra ID 自动同步组和组成员到 LiteLLM
  • xAI grok-3:添加了对 xai/grok-3 模型的支持
  • 安全修复:修复了 CVE-2025-0330CVE-2024-6825 漏洞

让我们深入了解。

Realtime API 成本跟踪

此版本添加了 Realtime API 日志记录 + 成本跟踪。

  • 日志记录:LiteLLM 现在将 Realtime 调用的完整响应记录到所有日志集成(数据库、S3、Langfuse 等)
  • 成本跟踪:您现在可以为 Realtime 模型设置 'base_model' 和自定义定价。自定义定价
  • 预算:您的密钥/用户/团队预算现在也适用于 Realtime 模型。

在此开始

Microsoft SSO 自动同步

从 Azure Entra ID 自动同步组和成员到 LiteLLM

此版本添加了支持在 Microsoft Entra ID 上自动同步组和成员到 LiteLLM。这意味着 LiteLLM 代理管理员可以花费更少的时间管理团队和成员,LiteLLM 处理以下事项

  • 自动创建 Microsoft Entra ID 上存在的团队
  • 将 Microsoft Entra ID 上的团队成员与 LiteLLM 团队同步

在此开始使用

新模型 / 更新模型

  • xAI

    1. 添加了对 xai/grok-3-mini-beta 的 reasoning_effort 支持 入门
    2. 添加了对 xai/grok-3 模型的成本跟踪 PR
  • Hugging Face

    1. 添加了对推理提供商的支持 入门
  • Azure

    1. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
  • VertexAI

    1. 添加了 enterpriseWebSearch 工具支持 入门
    2. 只传递 Vertex AI 响应 schema 接受的密钥 PR
  • Google AI Studio

    1. 添加了对 gemini-2.5-pro 的成本跟踪 PR
    2. 修复了 'gemini/gemini-2.5-pro-preview-03-25' 的定价问题 PR
    3. 修复了传递 file_data 的处理问题 PR
  • Azure

    1. 更新了 Azure Phi-4 定价 PR
    2. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
  • Databricks

    1. 从参数中移除了 reasoning_effort PR
    2. 修复了 Databricks 的自定义端点检查 PR
  • 通用

    1. 添加了 litellm.supports_reasoning() 工具来跟踪 llm 是否支持推理 入门
    2. 函数调用 - 处理消息工具调用中的 pydantic 基模型,处理 tools = [],并支持 meta.llama3-3-70b-instruct-v1:0 的工具调用模拟流媒体 PR
    3. LiteLLM Proxy - 允许通过客户端 SDK 将 thinking 参数传递给 litellm 代理 PR
    4. 修复了正确翻译 litellm 的 'thinking' 参数的问题 PR

支出跟踪改进

  • OpenAI, Azure
    1. Realtime API 成本跟踪,在支出日志中包含 token 使用量指标 入门
  • Anthropic
    1. 修复了 Claude Haiku 缓存读取的每 token 定价 PR
    2. 添加了带有 base_model 的 Claude 响应成本跟踪 PR
    3. 修复了 Anthropic prompt 缓存成本计算并在数据库中修剪了记录的消息 PR
  • 通用
    1. 添加了 token 跟踪并在支出日志中记录使用量对象 PR
    2. 在部署级别处理自定义定价 PR

管理端点 / UI

  • 测试密钥选项卡

    1. 在测试密钥页面上添加了推理内容、ttft、使用量指标的渲染 PR

      查看输入、输出、推理 token、ttft 指标。

  • 标签 / 策略管理

    1. 添加了标签/策略管理。根据请求元数据创建路由规则。这允许您强制带有 tags="private" 的请求只发送到特定模型。 入门


      创建和管理标签。

  • 重新设计的登录屏幕

    1. 美化了登录屏幕 PR
  • Microsoft SSO 自动同步

    1. 添加了调试路由,允许管理员调试 SSO JWT 字段 PR
    2. 添加了使用 MSFT Graph API 将用户分配给团队的功能 PR
    3. 将 litellm 连接到 Azure Entra ID Enterprise Application PR
    4. 添加了管理员设置 default_team_params 的能力,用于 litellm SSO 创建默认团队时 PR
    5. 修复了 MSFT SSO 使用正确的用户邮箱字段问题 PR
    6. 添加了 UI 支持,以便在 litellm SSO 自动创建团队时设置默认团队设置 PR
  • UI 错误修复

    1. 防止团队、密钥、组织、模型的数值在滚动时改变 PR
    2. 立即在 UI 中反映密钥和团队更新 PR

日志记录/Guardrail 改进

  • Prometheus
    1. 在 Cron 作业计划上发出密钥和团队预算指标 开始使用

安全修复

Helm

  • 为 litellm-helm chart 添加了服务注解 PR
  • 为 helm 部署添加了 extraEnvVars PR

演示

在演示实例上试用此功能 今天

完整 Git Diff

查看自 v1.65.4-stable 以来的完整 git diff,在这里

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

v1.65.4-stable 已上线。以下是自 v1.65.0-stable 以来的改进。

主要亮点

  • 防止数据库死锁: 解决了在高流量下多个实例同时写入数据库时出现的问题。
  • 新的用量选项卡: 可以按模型查看花费并自定义日期范围

让我们深入了解。

防止数据库死锁

此版本修复了用户在高流量(10K+ RPS)下遇到的数据库死锁问题。这非常棒,因为它使得用户/密钥/团队花费跟踪在该规模下也能正常工作。

阅读更多关于新架构的信息 在这里

新的用量选项卡

新的用量选项卡现在提供了按模型跟踪每日花费的能力。当与查看成功请求和令牌用量的能力结合使用时,这使得更容易捕获任何花费跟踪或令牌计数错误。

要试用此功能,只需前往 Experimental > New Usage > Activity。

新模型 / 更新模型

  1. Databricks - claude-3-7-sonnet 成本跟踪 PR
  2. VertexAI - gemini-2.5-pro-exp-03-25 成本跟踪 PR
  3. VertexAI - gemini-2.0-flash 成本跟踪 PR
  4. Groq - 将 whisper ASR 模型添加到模型成本映射 PR
  5. IBM - 添加 watsonx/ibm/granite-3-8b-instruct 到模型成本映射 PR
  6. Google AI Studio - 将 gemini/gemini-2.5-pro-preview-03-25 添加到模型成本映射 PR

LLM 翻译

  1. Vertex AI - 支持 OpenAI JSON schema 翻译中的 anyOf 参数 开始使用
  2. Anthropic - response_format + thinking 参数支持(适用于 Anthropic API、Bedrock、Vertex) 开始使用
  3. Anthropic - 如果指定了 thinking 令牌但未指定最大令牌,则确保发送给 Anthropic 的最大令牌高于 thinking 令牌(适用于 Anthropic API、Bedrock、Vertex) PR
  4. Bedrock - 延迟优化推理支持 开始使用
  5. Sagemaker - 处理响应中的特殊令牌 + 多字节字符编码 开始使用
  6. MCP - 添加了对使用 SSE MCP 服务器的支持 开始使用
  7. Anthropic - 用于通过直通(passthrough)调用 Anthropic /v1/messages 的新 litellm.messages.create 接口 开始使用
  8. Anthropic - 支持消息参数中的“file”内容类型(适用于 Anthropic API、Bedrock、Vertex) 开始使用
  9. Anthropic - 将 OpenAI 的 'reasoning_effort' 映射到 Anthropic 的 'thinking' 参数(适用于 Anthropic API、Bedrock、Vertex) 开始使用
  10. Google AI Studio (Gemini) -[BETA] /v1/files 上传支持 开始使用
  11. Azure - 修复 o-series 工具调用问题 开始使用
  12. 统一文件 ID -[ALPHA]允许使用相同文件 ID 调用多个提供商 PR
    • 这是实验性功能,不建议用于生产环境。
    • 我们计划在下周实现生产就绪版本。
  13. Google AI Studio (Gemini) - 返回 logprobs PR
  14. Anthropic - 支持 Anthropic 工具调用的 prompt 缓存 开始使用
  15. OpenRouter - 在 OpenRouter 调用中解包额外的主体 PR
  16. VertexAI - 修复凭据缓存问题 PR
  17. XAI - 过滤掉 XAI 的 'name' 参数 PR
  18. Gemini - 图像生成输出支持 开始使用
  19. Databricks - 支持带有 thinking + response_format 的 claude-3-7-sonnet 开始使用

支出跟踪改进

  1. 可靠性修复 - 检查发送和接收的模型以便进行成本计算 PR
  2. Vertex AI - 多模态嵌入成本跟踪 开始使用, PR

管理端点 / UI

  1. 新的用量选项卡
    • 报告 'total_tokens' + 报告成功/失败调用
    • 移除滚动时的双滚动条
    • 确保“每日花费”图表按从早到晚的日期排序
    • 显示每天按模型计算的花费
    • 在用量选项卡上显示密钥别名
    • 允许非管理员查看他们的活动
    • 在新用量选项卡上添加日期选择器
  2. 虚拟密钥选项卡
    • 在用户注册时移除“默认密钥”
    • 修复显示用户可用于创建个人密钥的模型
  3. 测试密钥选项卡
    • 允许测试图像生成模型
  4. 模型选项卡
    • 修复批量添加模型问题
    • 支持直通(passthrough)端点的可重用凭据
    • 允许团队成员查看团队模型
  5. 团队选项卡
    • 修复更新团队元数据时的 JSON 序列化错误
  6. 请求日志选项卡
    • 在流式传输时添加所有提供商的 reasoning_content 令牌跟踪
  7. API
  8. SSO
    • 允许在 MSFT SSO 上将 SSO 用户分配给团队 PR

日志记录 / 防护栏集成

  1. 控制台日志 - 为未捕获的异常添加 JSON 格式化 PR
  2. Guardrails - 基于虚拟密钥策略的 AIM Guardrails 支持 开始使用
  3. 日志记录 - 修复完成开始时间跟踪问题 PR
  4. Prometheus
    • 允许在 Prometheus /metrics 端点上添加身份验证 PR
    • 在指标命名中区分 LLM 提供商异常与 LiteLLM 异常 PR
    • 为新的数据库事务架构发出操作指标 PR

性能 / 负载均衡 / 可靠性改进

  1. 防止死锁
    • 通过将花费更新存储在 Redis 中,然后提交到数据库来减少数据库死锁 PR
    • 确保更新 DailyUserSpendTransaction 时不会发生死锁 PR
    • 高流量修复 - 确保新的数据库 + Redis 架构准确跟踪花费 PR
    • 使用 Redis 代替 PG 作为 PodLock Manager(确保不会发生死锁) PR
    • v2 数据库死锁减少架构 – 为内存队列添加最大大小 + 背压机制 PR
  2. Prisma 迁移 开始使用
    • 将 litellm proxy 连接到 litellm 的 prisma 迁移文件
    • 处理来自新 litellm-proxy-extras SDK 的数据库 schema 更新
  3. Redis - 支持同步 sentinel 客户端的密码 PR
  4. 修复 max_parallel_requests = 0 时出现的“检测到循环引用”错误 PR
  5. 代码质量检查 - 禁止硬编码数字 PR

Helm

  1. 修复:chart 中 ttlSecondsAfterFinished 缩进错误 PR

通用代理改进

  1. 修复 - 仅在服务账号上应用 service_account_settings.enforced_params PR
  2. 修复 - 处理 /chat/completion 上的 metadata 为 null 的情况 PR
  3. 修复 - 将每日用户事务日志记录移至 'disable_spend_logs' 标志之外,因为它们不相关 PR

演示

在演示实例上试用此功能 今天

完整 Git Diff

查看自 v1.65.0-stable 以来的完整 git diff,在这里

Krrish Dholakia
Ishaan Jaffer

v1.65.0-stable 现已上线。以下是此版本的主要亮点

  • MCP 支持: 支持在 LiteLLM proxy 上添加和使用 MCP 服务器。
  • UI 在 100 万+ 日志后查看总用量: 现在,即使数据库中的日志超过 100 万条,您也可以查看用量分析。

模型上下文协议 (MCP)

此版本引入了在 LiteLLM 上集中添加 MCP 服务器的支持。这使您可以添加 MCP 服务器端点,开发人员可以通过 LiteLLM 列出和调用 MCP 工具。

阅读更多关于 MCP 的信息 在这里

通过 LiteLLM 暴露和使用 MCP 服务器

UI 在 100 万+ 日志后查看总用量

此版本带来了即使数据库日志超过 100 万条后仍能查看总用量分析的能力。我们实现了一种可扩展的架构,仅存储聚合用量数据,从而显著提高了查询效率并降低了数据库 CPU 使用率。

在 100 万+ 日志后查看总用量

  • 工作原理

    • 我们现在将用量数据聚合到专用的 DailyUserSpend 表中,即使日志超过 100 万条,也能显著降低查询负载和 CPU 使用率。
  • 每日花费明细 API

    • 使用单个端点检索详细的每日用量数据(按模型、提供商和 API 密钥)。示例请求

      每日花费明细 API
      curl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
      -H 'Authorization: Bearer sk-...'
      每日花费明细 API 响应
      {
      "results": [
      {
      "date": "2025-03-27",
      "metrics": {
      "spend": 0.0177072,
      "prompt_tokens": 111,
      "completion_tokens": 1711,
      "total_tokens": 1822,
      "api_requests": 11
      },
      "breakdown": {
      "models": {
      "gpt-4o-mini": {
      "spend": 1.095e-05,
      "prompt_tokens": 37,
      "completion_tokens": 9,
      "total_tokens": 46,
      "api_requests": 1
      },
      "providers": { "openai": { ... }, "azure_ai": { ... } },
      "api_keys": { "3126b6eaf1...": { ... } }
      }
      }
      ],
      "metadata": {
      "total_spend": 0.7274667,
      "total_prompt_tokens": 280990,
      "total_completion_tokens": 376674,
      "total_api_requests": 14
      }
      }

新模型 / 更新模型

  • 支持 Vertex AI gemini-2.0-flash-lite & Google AI Studio gemini-2.0-flash-lite PR
  • 支持 Vertex AI 微调 LLM PR
  • Nova Canvas 图像生成支持 PR
  • OpenAI gpt-4o-transcribe 支持 PR
  • 添加了新的 Vertex AI 文本嵌入模型 PR

LLM 翻译

  • OpenAI Web 搜索工具调用支持 PR
  • Vertex AI topLogprobs 支持 PR
  • 支持向 Vertex AI 多模态嵌入发送图像和视频 文档
  • 支持 Vertex AI + Gemini 在补全、嵌入、图像生成方面的 litellm.api_base PR
  • 使用 litellm Python SDK 调用 LiteLLM Proxy 时返回 response_cost 的错误修复 PR
  • 支持 Mistral API 的 max_completion_tokens PR
  • 重构了 Vertex AI 直通路由 - 修复了在添加路由模型时自动设置 default_vertex_region 导致的不稳定行为 PR

支出跟踪改进

  • 在花费日志中记录 'api_base' PR
  • 支持 Gemini 音频令牌成本跟踪 PR
  • 修复了 OpenAI 音频输入令牌成本跟踪问题 PR

UI

模型管理

  • 允许团队管理员在 UI 上添加/更新/删除模型 PR
  • 在模型中心添加了 render supports_web_search PR

请求日志

  • 在请求日志中显示 API base 和模型 ID PR
  • 允许在请求日志中查看 keyinfo PR

用量选项卡

  • 添加了每日用户花费聚合视图 - 允许 UI 用量选项卡处理 > 100 万行数据 PR
  • 将 UI 连接到“LiteLLM_DailyUserSpend”花费表 PR

日志集成

  • 修复了 GCS Pub Sub 日志集成的 StandardLoggingPayload 问题 PR
  • 在 StandardLoggingPayload 中跟踪 litellm_model_name 文档

性能 / 可靠性改进

  • LiteLLM Redis 语义缓存实现 PR
  • 在数据库发生故障时优雅地处理异常 PR
  • 当 allow_requests_on_db_unavailable: True 且数据库宕机时,允许 Pod 启动 + 通过 /health/readiness 检查 PR

一般改进

  • 支持在 litellm proxy 上暴露 MCP 工具 PR
  • 支持通过调用 /v1/model 端点发现 Gemini、Anthropic、xAI 模型 PR
  • 修复了 JWT 认证中非 proxy 管理员的路由检查问题 PR
  • 添加了基础 Prisma 数据库迁移 PR
  • 在 /model/info 上查看所有通配符模型 PR

安全

  • 在 UI 控制台中将 next 从 14.2.21 升级到 14.2.25 PR

完整 Git Diff

这是完整的 git diff

Krrish Dholakia
Ishaan Jaffer

v1.65.0 更新了 /model/new 端点,以防止非团队管理员创建团队模型。

这意味着只有 proxy 管理员或团队管理员才能创建团队模型。

其他变更

  • 允许团队管理员调用 /model/update 更新团队模型。
  • 允许团队管理员调用 /model/delete 删除团队模型。
  • /v2/model/info 引入新的 user_models_only 参数 - 只返回此用户添加的模型。

这些变更使团队管理员能够在 LiteLLM UI + API 上为其团队添加和管理模型。

Krrish Dholakia
Ishaan Jaffer

这是自 v1.63.11-stable 以来的变更。

此版本带来了

  • LLM 翻译改进(MCP 支持和 Bedrock 应用程序配置)
  • 基于用量的路由的性能改进
  • 通过 websockets 支持流式 guardrail
  • Azure OpenAI 客户端性能修复(来自上一个版本)

Docker 运行 LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1

演示实例

这里有一个演示实例来测试更改

新模型 / 更新模型

  • Azure gpt-4o - 修复定价至最新全球定价 - PR
  • O1-Pro - 添加定价 + 模型信息 - PR
  • Azure AI - 添加了 mistral 3.1 small 定价 - PR
  • Azure - 添加了 gpt-4.5-preview 定价 - PR

LLM 翻译

  1. 新的 LLM 功能
  • Bedrock:支持 Bedrock 应用程序推理配置 文档
    • 从 Bedrock 应用程序配置 ID 推断 AWS 区域 - (arn:aws:bedrock:us-east-1:...)
  • Ollama - 支持通过 /v1/completions 调用 开始使用
  • Bedrock - 支持 us.deepseek.r1-v1:0 模型名称 文档
  • OpenRouter - OPENROUTER_API_BASE 环境变量支持 文档
  • Azure - 添加音频模型参数支持 - 文档
  • OpenAI - PDF 文件支持 文档
  • OpenAI - o1-pro Responses API 流式支持 文档
  • [BETA]MCP - 将 MCP 工具与 LiteLLM SDK 一起使用 文档
  1. 错误修复
  • Voyage:嵌入跟踪上的 prompt token 修复 - PR
  • Sagemaker - 修复“声明的 Content-Length 数据过少”错误 - PR
  • OpenAI 兼容模型 - 修复在使用 custom_llm_provider 调用 OpenAI 兼容模型时出现的问题 - PR
  • VertexAI - 支持嵌入的“outputDimensionality” - PR
  • Anthropic - 在流式/非流式传输时返回一致的 JSON 响应格式 - PR

支出跟踪改进

  • litellm_proxy/ - 使用客户端 SDK 时,支持从 proxy 读取 litellm 响应成本头
  • 重置预算作业 - 修复密钥/团队/用户预算重置错误 PR
  • 流式传输 - 防止带有用量的最后一块数据被忽略(影响 Bedrock 流式传输 + 成本跟踪) PR

UI

  1. 用户页面
    • 功能:控制默认内部用户设置 PR
  2. 图标
    • 功能:将外部“artificialanalysis.ai”图标替换为本地 SVG PR
  3. 登录/退出
    • 修复:当 default_user_id 用户不存在于数据库中时的默认登录问题 PR

日志集成

  • 支持流式响应的调用后 guardrails 开始使用
  • Arize 开始使用
    • 修复无效的包导入 PR
    • 迁移到使用 standardloggingpayload 处理元数据,确保 spans 成功落地 PR
    • 修复日志记录仅记录 LLM 输入/输出 PR
    • 动态 API Key/Space 参数支持 开始使用
  • StandardLoggingPayload - 在 payload 中记录 litellm_model_name。可以知道发送给 API 提供商的模型是什么 开始使用
  • Prompt Management - 允许构建自定义 prompt 管理集成 开始使用

性能/可靠性改进

  • Redis 缓存 - 添加 5 秒默认超时,防止挂起的 Redis 连接影响 LLM 调用 PR
  • 允许禁用所有花费更新/写入数据库 - 通过标志禁用所有花费更新到数据库的补丁 PR
  • Azure OpenAI - 正确地重用 Azure OpenAI 客户端,修复了上一个 Stable 版本中的性能问题 PR
  • Azure OpenAI - 在 Azure/OpenAI 客户端上使用 litellm.ssl_verify PR
  • 基于用量的路由 - 通配符模型支持 开始使用
  • 基于用量的路由 - 支持批量将增量写入 Redis - 将延迟降低到与“simple-shuffle”相同 PR
  • Router - 在“没有健康的部署可用错误”时显示模型冷却的原因 PR
  • 缓存 - 为内存缓存中的项目添加最大值限制(1MB)- 防止通过 proxy 发送大型图片 URL 时出现 OOM 错误 PR

一般改进

  • 直通端点 - 支持在直通端点响应头中返回 api-base 文档
  • SSL - 支持从环境变量读取 SSL 安全级别 - 允许用户指定较低的安全设置 开始使用
  • 凭据 - 仅当 STORE_MODEL_IN_DB 为 True 时轮询 Credentials 表 PR
  • 图像 URL 处理 - 关于图像 URL 处理的新架构文档 文档
  • OpenAI - 升级到 pip install "openai==1.68.2" PR
  • Gunicorn - 安全修复 - 升级 gunicorn==23.0.0 PR

完整 Git Diff

这是完整的 git diff

Krrish Dholakia
Ishaan Jaffer

这是自 v1.63.2-stable 以来的变更。

此版本主要关注于

  • [Beta]Responses API 支持
  • Snowflake Cortex 支持,Amazon Nova 图像生成
  • UI - 凭据管理,在添加新模型时重用凭据
  • UI - 在添加模型前测试与 LLM 提供商的连接

已知问题

  • 🚨 Azure OpenAI 的已知问题 - 如果您使用 Azure OpenAI,不建议升级。此版本未通过我们的 Azure OpenAI 负载测试

Docker 运行 LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.11-stable

演示实例

这里有一个演示实例来测试更改

新模型 / 更新模型

  • 支持 Amazon Nova Canvas 的图像生成 入门
  • 添加 Jamba 新模型的定价 PR
  • 添加 Amazon 欧盟模型的定价 PR
  • 添加 Bedrock Deepseek R1 模型定价 PR
  • 更新 Gemini 定价:Gemma 3, Flash 2 thinking 更新, LearnLM PR
  • 将 Cohere Embedding 3 模型标记为多模态 PR
  • 添加 Azure Data Zone 定价 PR
    • LiteLLM 跟踪 azure/euazure/us 模型的成本

LLM 翻译

  1. 新的端点
  • [Beta]POST /responses API。 入门
  1. 新的 LLM 提供商
  1. 新的 LLM 功能
  • 支持 OpenRouter 流式传输的 reasoning_content 入门
  1. 错误修复
  • OpenAI:在不良请求错误时返回 codeparamtype 更多关于 litellm 异常的信息
  • Bedrock:修复 converse chunk 解析问题,使其仅在工具使用时返回空字典 PR
  • Bedrock:支持 extra_headers PR
  • Azure:修复函数调用 Bug 并更新默认 API 版本至 2025-02-01-preview PR
  • Azure:修复 AI 服务 URL PR
  • Vertex AI:处理响应中的 HTTP 201 状态码 PR
  • Perplexity:修复不正确的流式响应 PR
  • Triton:修复流式补全 Bug PR
  • Deepgram:处理音频文件进行转录时支持 bytes.IO PR
  • Ollama:修复“system”角色变得不可接受的问题 PR
  • 所有提供商(流式传输):修复流式响应中整个内容被剥离的 String data: 问题 PR

支出跟踪改进

  1. 支持 Bedrock converse 缓存令牌跟踪 入门
  2. Responses API 的成本跟踪 入门
  3. 修复 Azure Whisper 成本跟踪问题 入门

UI

在 UI 上重用凭据

现在您可以在 LiteLLM UI 上载入 LLM 提供商凭据。一旦添加了这些凭据,您可以在添加新模型时重用它们 入门

在添加模型前测试连接

在添加模型之前,您可以测试与 LLM 提供商的连接,以验证您是否正确设置了 API Base + API Key

一般 UI 改进

  1. 添加模型页面
    • 允许在 Admin UI 上添加 Cerebras、Sambanova、Perplexity、Fireworks、Openrouter、TogetherAI 模型、Text-Completion OpenAI
    • 允许添加欧盟 OpenAI 模型
    • 修复:立即显示对模型的编辑 + 删除
  2. 密钥页面
    • 修复:立即在 Admin UI 上显示新创建的密钥(无需刷新)
    • 修复:在向用户显示热门 API Key 时,允许点击进入热门密钥
    • 修复:允许按团队别名、密钥别名和组织过滤密钥
    • UI 改进:每页显示 100 个密钥,使用全高,增加密钥别名宽度
  3. 用户页面
    • 修复:在用户页面上显示正确的内部用户密钥数量
    • 修复:元数据在团队 UI 中未更新
  4. 日志页面
    • UI 改进:在 LiteLLM UI 上保持展开的日志处于焦点状态
    • UI 改进:日志页面的小幅改进
    • 修复:允许内部用户查询他们自己的日志
    • 允许关闭将错误日志存储在数据库中 入门
  5. 登录/退出
    • 修复:正确使用设置的 PROXY_LOGOUT_URL 入门

安全

  1. 支持旋转主密钥 入门
  2. 修复:内部用户查看器权限,不允许 internal_user_viewer 角色看到“测试密钥页面”或“创建密钥按钮” 更多关于基于角色的访问控制的信息
  3. 在所有用户 + 模型创建/更新/删除端点上发出审计日志 入门
  4. JWT
    • 支持多个 JWT OIDC 提供商 入门
    • 修复团队被分配所有 Proxy 模型访问权限时,使用 Groups 的 JWT 访问不起作用的问题
  5. 在 1 个 AWS Secret 中使用 K/V 对 入门

日志集成

  1. Prometheus:跟踪 Azure LLM API 延迟指标 入门
  2. Athina:将 tags、user_feedback 和 model_options 添加到可发送给 Athina 的 additional_keys 中 入门

性能/可靠性改进

  1. Redis + litellm router - 修复 litellm router 的 Redis 集群模式问题 PR

一般改进

  1. OpenWebUI 集成 - 显示 thinking 令牌
  • LiteLLM x OpenWebUI 入门指南。 入门
  • 在 OpenWebUI 上显示 thinking 令牌(Bedrock, Anthropic, Deepseek) 入门

完整 Git Diff

这是完整的 git diff

Krrish Dholakia
Ishaan Jaffer

这是自 v1.61.20-stable 以来的变更。

此版本主要关注于

  • LLM 翻译改进(更多 thinking 内容改进)
  • UI 改进(错误日志现在显示在 UI 上)
信息

此版本将于 2025/03/09 上线

演示实例

这里有一个演示实例来测试更改

新模型 / 更新模型

  1. 为特定的 Bedrock Claude 模型添加 supports_pdf_input PR
  2. 添加 Amazon 欧盟模型的定价 PR
  3. 修复 Azure O1 mini 定价问题 PR

LLM 翻译

  1. 支持 /openai/ 直通助手端点。 开始使用
  2. Bedrock Claude - 修复 invoke 路由上的工具调用转换问题。 开始使用
  3. Bedrock Claude - invoke 路由上对 Claude 的 response_format 支持。 开始使用
  4. Bedrock - 如果在 response_format 中设置了 description,则传递它。 开始使用
  5. Bedrock - 修复传递 response_format: {"type": "text"}. PR
  6. OpenAI - 处理将 image_url 作为字符串发送给 OpenAI。 开始使用
  7. Deepseek - 返回流式传输中缺失的 'reasoning_content'。 开始使用
  8. 缓存 - 支持 reasoning content 的缓存。 开始使用
  9. Bedrock - 处理助手消息中的 thinking 块。 开始使用
  10. Anthropic - 在流式传输中返回 signature开始使用
  • 注意:我们已从 signature_delta 迁移到 signature阅读更多
  1. 支持 format 参数指定图像类型。 开始使用
  2. Anthropic - /v1/messages 端点 - 支持 thinking 参数。 开始使用
  • 注意:这重构了[BETA]统一的 /v1/messages 端点,使其仅适用于 Anthropic API。
  1. Vertex AI - 调用 Vertex AI 时处理响应 schema 中的 $id。 开始使用

支出跟踪改进

  1. Batches API - 修复 cost 计算问题,使其在 retrieve_batch 上运行。 开始使用
  2. Batches API - 在花费日志/标准日志 payload 中记录 batch 模型。 开始使用

管理端点 / UI

  1. 虚拟密钥页面
    • 允许在创建密钥页面上搜索团队/组织过滤器
    • 在 Keys 表中添加 created_by 和 updated_by 字段
    • 在密钥表中显示“user_email”
    • 每页显示 100 个密钥,使用全高,增加密钥别名宽度
  2. 日志页面
    • 在 LiteLLM UI 上显示错误日志
    • 允许内部用户查看他们自己的日志
  3. 内部用户页面
    • 允许管理员控制内部用户的默认模型访问权限
  4. 修复使用 cookies 的会话处理问题

日志记录 / 防护栏集成

  1. 修复带有 custom metrics 的 prometheus 指标问题,该问题发生在包含 team_id 的密钥发起请求时。 PR

性能 / 负载均衡 / 可靠性改进

  1. Cooldowns - 支持使用客户端凭据调用的模型的冷却。 开始使用
  2. 基于标签的路由 - 确保所有端点(/embeddings, /image_generation 等)都支持基于标签的路由。 开始使用

通用代理改进

  1. 当请求中传入未知模型时抛出 BadRequestError
  2. 在 Azure OpenAI proxy 路由上强制执行模型访问限制
  3. 可靠性修复 - 处理文本中的表情符号 - 修复 orjson 错误
  4. 模型访问补丁 - 在运行认证检查时,不要覆盖 litellm.anthropic_models
  5. 启用在 docker 镜像中设置时区信息

完整 Git Diff

这是完整的 git diff

Krrish Dholakia
Ishaan Jaffer

v1.63.0 修复了 Anthropic 在流式传输中返回 'thinking' 响应时返回 signature 块的问题。 Github Issue

它还将响应结构从 signature_delta 移至 signature,使其与 Anthropic 相同。 Anthropic 文档

Diff

"message": {
...
"reasoning_content": "The capital of France is Paris.",
"thinking_blocks": [
{
"type": "thinking",
"thinking": "The capital of France is Paris.",
- "signature_delta": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 OLD FORMAT
+ "signature": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 KEY CHANGE
}
]
}

Krrish Dholakia
Ishaan Jaffer

这是自 v1.61.13-stable 以来的变更。

此版本主要关注于

  • LLM 翻译改进(claude-3-7-sonnet + 'thinking'/'reasoning_content' 支持)
  • UI 改进(添加模型流程、用户管理等)

演示实例

这里有一个演示实例来测试更改

新模型 / 更新模型

  1. Anthropic 3-7 sonnet 支持 + 成本跟踪(Anthropic API + Bedrock + Vertex AI + OpenRouter)
    1. Anthropic API 从这里开始
    2. Bedrock API 从这里开始
    3. Vertex AI API 请看这里
    4. OpenRouter 请看这里
  2. Gpt-4.5-preview 支持 + 成本跟踪 请看这里
  3. Azure AI - Phi-4 成本跟踪 请看这里
  4. Claude-3.5-sonnet - Anthropic API 上视觉支持已更新 请看这里
  5. Bedrock llama 视觉支持 请看这里
  6. Cerebras llama3.3-70b 定价 请看这里

LLM 翻译

  1. Infinity Rerank - 在 return_documents=True 时支持返回文档 从这里开始
  2. Amazon Deepseek - 参数提取到 ‘reasoning_content’ 中 从这里开始
  3. Amazon Titan Embeddings - 从请求 body 中过滤掉 ‘aws_’ 参数 从这里开始
  4. Anthropic ‘thinking’ + ‘reasoning_content’ 翻译支持(Anthropic API, Bedrock, Vertex AI) 从这里开始
  5. VLLM - 支持 ‘video_url’ 从这里开始
  6. 通过 litellm SDK 调用 proxy: 支持 embedding, image_generation, transcription, speech, rerank 的 litellm_proxy/ 从这里开始
  7. OpenAI 直通 - 允许在 /openai 直通路由上使用 Assistants GET, DELETE 从这里开始
  8. 消息翻译 - 修复当 role 缺失时 OpenAI assistant 消息的问题 - OpenAI 允许这种情况
  9. O1/O3 - 支持 o3-mini 和 o1 parallel_tool_calls 参数的 ‘drop_params’(目前不支持) 请看这里

支出跟踪改进

  1. 通过 Bedrock 进行 rerank 的成本跟踪 请看 PR
  2. Anthropic 直通 - 修复导致成本无法跟踪的竞态条件 请看 PR
  3. Anthropic 直通:确保准确的令牌计数 请看 PR

管理端点 / UI

  1. 模型页面 - 允许按“创建时间”排序模型
  2. 模型页面 - 编辑模型流程改进
  3. 模型页面 - 修复在 UI 上添加 Azure, Azure AI Studio 模型的问题
  4. 内部用户页面 - 允许在 UI 上批量添加内部用户
  5. 内部用户页面 - 允许按“创建时间”排序用户
  6. 虚拟密钥页面 - 在将用户分配给团队时,允许在下拉列表中搜索 UserID 请看 PR
  7. 虚拟密钥页面 - 在将密钥分配给用户时,允许创建用户 请看 PR
  8. 模型中心页面 - 修复文本溢出问题 请看 PR
  9. 管理设置页面 - 允许在 UI 上添加 MSFT SSO
  10. 后端 - 不允许在数据库中创建重复的内部用户

Helm

  1. 支持 migration job 的 ttlSecondsAfterFinished - 请看 PR
  2. 使用额外的可配置属性增强 migrations job - 请看 PR

日志记录 / 防护栏集成

  1. Arize Phoenix 支持
  2. “无日志” - 修复 embedding 调用中的“无日志”参数支持问题

性能 / 负载均衡 / 可靠性改进

  1. 单一部署冷却逻辑 - 如果设置了 allowed_fails 或 allowed_fail_policy,则使用它们 从这里开始

通用代理改进

  1. Hypercorn - 修复读取/解析请求 body 的问题
  2. Windows - 修复在 Windows 中运行 proxy 的问题
  3. DD-Trace - 修复 proxy 上的 dd-trace 启用问题

完整 Git Diff

查看完整的 git diff 在这里

Krrish Dholakia
Ishaan Jaffer
信息

获得 LiteLLM 企业版 7 天免费试用 在这里

无需联系

新模型 / 更新模型

  1. 新的 OpenAI /image/variations 端点 BETA 支持 文档
  2. OpenAI /image/variations BETA 端点上的 Topaz API 支持 文档
  3. Deepseek - 支持 r1 并带有 reasoning_content(Deepseek APIVertex AIBedrock
  4. Azure - 添加 azure o1 定价 请看这里
  5. Anthropic - 处理模型名称中的 -latest 标签以进行成本计算
  6. Gemini-2.0-flash-thinking - 添加模型定价(为 0.0) 请看这里
  7. Bedrock - 添加 stability sd3 模型定价 请看这里 (感谢 Marty Sullivan)
  8. Bedrock - 将 us.amazon.nova-lite-v1:0 添加到模型成本映射 请看这里
  9. TogetherAI - 添加新的 together_ai llama3.3 模型 请看这里

LLM 翻译

  1. LM Studio -> 修复异步 embedding 调用
  2. Gpt 4o 模型 - 修复 response_format 翻译问题
  3. Bedrock nova - 扩展支持的文档类型,包括 .md, .csv 等 从这里开始
  4. Bedrock - 关于 Bedrock 基于 IAM 角色访问的文档 - 从这里开始
  5. Bedrock - 使用 IAM 角色凭据时进行缓存
  6. Google AI Studio(gemini/)- 支持 gemini 的 'frequency_penalty' 和 'presence_penalty'
  7. Azure O1 - 修复模型名称检查问题
  8. WatsonX - WatsonX 的 ZenAPIKey 支持 文档
  9. Ollama Chat - 支持 json schema 响应格式 从这里开始
  10. Bedrock - 在流式传输期间发生错误时返回正确的 Bedrock 状态码和错误消息
  11. Anthropic - 支持 Anthropic 调用中的嵌套 json schema
  12. OpenAI - metadata 参数预览支持
    1. SDK - 通过 litellm.enable_preview_features = True 启用
    2. PROXY - 通过 litellm_settings::enable_preview_features: true 启用
  13. Replicate - 在 status=processing 时重试补全响应

支出跟踪改进

  1. Bedrock - QA 确保所有 Bedrock 区域模型具有与基础模型相同的 supported_ 属性
  2. Bedrock - 修复指定区域名称时 Bedrock converse 的成本跟踪问题
  3. 花费日志可靠性修复 - 当请求 body 中传入的 user 是 int 而不是 string 时
  4. 确保 ‘base_model’ 成本跟踪适用于所有端点
  5. 修复图像生成成本跟踪问题
  6. Anthropic - 修复 Anthropic 终端用户成本跟踪问题
  7. JWT / OIDC 认证 - 从 JWT 认证添加终端用户 ID 跟踪

管理端点 / UI

  1. 允许团队成员添加后成为管理员(ui + 端点)
  2. 用于在 UI 上更新团队成员的新编辑/删除按钮
  3. 如果是团队管理员 - 显示所有团队密钥
  4. 模型中心 - 澄清模型成本是每 100 万令牌
  5. 邀请链接 - 修复生成的无效 URL
  6. 新增 - 花费日志表查看器 - 允许 proxy 管理员在 UI 上查看花费日志
    1. 新花费日志 - 允许 proxy 管理员“选择加入”在花费日志表中记录请求/响应 - 有助于更容易检测滥用行为
    2. 在花费日志中显示来源国家
    3. 添加分页 + 按密钥名称/团队名称过滤
  7. /key/delete - 允许团队管理员删除团队密钥
  8. 内部用户“查看” - 修复选择团队时的花费计算问题
  9. 模型分析现在免费提供
  10. 用量页面 - 显示花费为 0 的日期,并将图表上的花费四舍五入到小数点后 2 位
  11. 公共团队 - 允许管理员在 UI 上暴露团队供新用户“加入” - 从这里开始
  12. 防护栏
    1. 设置/编辑虚拟密钥上的 guardrails
    2. 允许在团队上设置 guardrails
    3. 在团队创建 + 编辑页面上设置 guardrails
  13. 支持 /key/update 的临时预算增加 - 新增 temp_budget_increasetemp_budget_expiry 字段 - 从这里开始
  14. 支持将新密钥别名写入 AWS Secret Manager - 在密钥轮换时 从这里开始

Helm

  1. 为 migration job 添加 securityContext 和 pull policy 值 (感谢 https://github.com/Hexoplon)
  2. 允许在 values.yaml 中指定 envVars
  3. 新的 helm lint 测试

日志记录 / 防护栏集成

  1. 使用 prompt 管理时记录使用的 prompt。 从这里开始
  2. 支持带有团队别名前缀的 S3 日志记录 - 从这里开始
  3. Prometheus 从这里开始
    1. 修复 litellm_llm_api_time_to_first_token_metric 未填充 bedrock 模型的问题
    2. 定期发出剩余团队预算指标(即使没有调用发生)- 允许在 Grafana/等工具上获得更稳定的指标。
    3. 添加密钥和团队级别的预算指标
    4. 发出 litellm_overhead_latency_metric
    5. 发出 litellm_team_budget_reset_at_metriclitellm_api_key_budget_remaining_hours_metric
  4. Datadog - 支持将花费标签记录到 Datadog。 从这里开始
  5. Langfuse - 修复记录请求标签问题,从标准日志 payload 读取
  6. GCS - 日志记录时不截断 payload
  7. 新的 GCS Pub/Sub 日志支持 从这里开始
  8. 添加 AIM Guardrails 支持 从这里开始

安全

  1. 新的企业版 SLA,用于修补安全漏洞。 请看这里
  2. Hashicorp - 支持使用 vault namespace 进行 TLS 认证。 从这里开始
  3. Azure - DefaultAzureCredential 支持

健康检查

  1. 从通配符路由列表中清理只用于定价的模型名称 - 防止错误的健康检查
  2. 允许为通配符路由指定健康检查模型 - https://docs.litellm.com.cn/docs/proxy/health#wildcard-routes
  3. 新增 health_check_timeout 参数,默认上限为 1 分钟,防止有问题的模型健康检查挂起并导致 pod 重启。 从这里开始
  4. Datadog - 添加 Datadog 服务健康检查 + 暴露新的 /health/services 端点。 从这里开始

性能/可靠性改进

  1. RPS 提高 3 倍 - 改用 orjson 读取请求 body
  2. LLM 路由加速 - 使用缓存的模型组信息获取
  3. SDK 加速 - 使用缓存的模型信息帮助器 - 减少获取模型信息的 CPU 工作
  4. Proxy 加速 - 每个请求只读取请求 body 一次
  5. 代码库中添加了无限循环检测脚本
  6. Bedrock - 纯异步图像转换请求
  7. Cooldowns - 在高流量下如果某个部署模型组 100% 调用失败则进行冷却 - 防止 o1 中断影响其他调用
  8. 响应头 - 返回
    1. x-litellm-timeout
    2. x-litellm-attempted-retries
    3. x-litellm-overhead-duration-ms
    4. x-litellm-response-duration-ms
  9. 确保不会向 proxy 添加重复的回调
  10. Requirements.txt - 升级 certifi 版本

通用代理改进

  1. JWT / OIDC 认证 - 新增 enforce_rbac 参数,允许 proxy 管理员阻止任何未映射但已认证的 JWT token 调用 proxy。 从这里开始
  2. 修复定制 swagger 的自定义 openapi schema 生成问题
  3. 请求头 - 支持从请求头读取 x-litellm-timeout 参数。在使用 Vercel 的 AI SDK + LiteLLM Proxy 时,可以控制模型超时。 从这里开始
  4. JWT / OIDC 认证 - 基于角色的新模型认证权限。 请看这里

完整 Git Diff

这是 v1.57.8-stable 和 v1.59.8-stable 之间的 diff。

使用此文件查看代码库中的变更。

Git Diff

Krrish Dholakia
Ishaan Jaffer
信息

获得 LiteLLM 企业版 7 天免费试用 在这里

无需联系

UI 改进

[选择加入]Admin UI - 查看消息/响应

您现在可以在 Admin UI 上查看消息和响应日志。

如何启用 - 在您的 proxy_config.yaml 中添加 store_prompts_in_spend_logs: true

启用此标志后,您的 messagesresponses 将存储在 LiteLLM_Spend_Logs 表中。

general_settings:
store_prompts_in_spend_logs: true

数据库 schema 变更

messagesresponses 添加到 LiteLLM_Spend_Logs 表中。

默认情况下不记录此内容。如果您希望记录 messagesresponses,则需要通过此设置选择加入

general_settings:
store_prompts_in_spend_logs: true

Krrish Dholakia
Ishaan Jaffer

警报, prometheus, 密钥管理, 管理端点, ui, prompt 管理, 微调, batch

新增/更新模型

  1. Mistral large 定价 - https://github.com/BerriAI/litellm/pull/7452
  2. Cohere command-r7b-12-2024 定价 - https://github.com/BerriAI/litellm/pull/7553/files
  3. Voyage - 新模型、定价和上下文窗口信息 - https://github.com/BerriAI/litellm/pull/7472
  4. Anthropic - 将 Bedrock claude-3-5-haiku 的 max_output_tokens 提升到 8192

通用代理改进

  1. 对实时模型的健康检查支持
  2. 支持通过虚拟密钥调用 Azure 实时路由
  3. 支持 /utils/token_counter 上的自定义 tokenizer - 在检查自托管模型的令牌计数时很有用
  4. 请求优先级 - 也支持 /v1/completion 端点

LLM 翻译改进

  1. 支持 Deepgram STT。由此开始
  2. OpenAI Moderations - 支持 omni-moderation-latest由此开始
  3. Azure O1 - 伪流式支持。这确保如果传递了 stream=true,响应将以流式传输。由此开始
  4. Anthropic - 非空白字符停止序列处理 - PR
  5. Azure OpenAI - 支持基于 Entra ID 用户名 + 密码的身份验证。由此开始
  6. LM Studio - 支持嵌入路由。由此开始
  7. WatsonX - 支持 ZenAPIKeyAuth。由此开始

Prompt 管理改进

  1. Langfuse 集成
  2. HumanLoop 集成
  3. 支持使用负载均衡模型
  4. 支持从 prompt 管理器加载可选参数

由此开始

Finetuning + Batch API 改进

  1. 改进了 Vertex AI finetuning 的统一端点支持 - PR
  2. 添加了检索 vertex api 批处理作业的支持 - PR

新增警报集成

PagerDuty 警报集成。

处理两种类型的警报

  • LLM API 故障率高。配置 Y 秒内 X 次失败触发警报。
  • LLM 请求挂起数量多。配置 Y 秒内 X 次挂起触发警报。

由此开始

Prometheus 改进

新增支持根据自定义指标跟踪延迟/花费/令牌。由此开始

新增 Hashicorp Secret Manager 支持

支持读取凭据 + 写入 LLM API 密钥。由此开始

管理端点 / UI 改进

  1. 在 Proxy UI 上创建和查看组织 + 分配组织管理员
  2. 支持按 key_alias 删除密钥
  3. 允许在 UI 上将团队分配给组织
  4. 禁用在“测试密钥”面板中使用 UI 会话令牌
  5. 在“测试密钥”面板中显示使用的模型
  6. 在“测试密钥”面板中支持 Markdown 输出

Helm 改进

  1. 阻止对数据库迁移 cron 作业进行 istio 注入
  2. 允许在作业中使用 migrationJob.enabled 变量

日志记录改进

  1. braintrust 日志记录:遵守 project_id,添加更多指标 - https://github.com/BerriAI/litellm/pull/7613
  2. Athina - 支持基础 URL - ATHINA_BASE_URL
  3. Lunary - 允许向 LLM 调用传递自定义父运行 ID

Git Diff

这是 v1.56.3-stable 和 v1.57.8-stable 之间的差异。

使用此文件查看代码库中的变更。

Git Diff

Krrish Dholakia
Ishaan Jaffer

langfuse, 管理端点, UI, prometheus, 密钥管理

Langfuse Prompt 管理

Langfuse Prompt 管理目前标记为 BETA。这使我们能够根据收到的反馈快速迭代,并向用户更清晰地说明其状态。我们预计该功能将于下个月(2025 年 2 月)变得稳定。

变更

  • 在 LLM API 请求中包含客户端消息。(之前只发送 prompt 模板,而忽略客户端消息)。
  • 在日志请求中记录 prompt 模板(例如,到 s3/langfuse)。
  • 在日志请求中记录“prompt_id”和“prompt_variables”(例如,到 s3/langfuse)。

由此开始

团队/组织管理 + UI 改进

现在在 UI 上管理团队和组织更加容易。

变更

  • 支持在 UI 上编辑用户在团队中的角色。
  • 支持通过 api 更新团队成员角色为 admin - /team/member_update
  • 向团队管理员显示其团队的所有密钥。
  • 添加具有预算的组织
  • 在 UI 上将团队分配给组织
  • 自动将 SSO 用户分配给团队

由此开始

Hashicorp Vault 支持

我们现在支持将 LiteLLM Virtual API 密钥写入 Hashicorp Vault。

由此开始

自定义 Prometheus 指标

定义自定义 prometheus 指标,并跟踪针对它们的用量/延迟/请求数

这允许更细粒度的跟踪 - 例如,基于请求元数据中传递的 prompt 模板

由此开始

Krrish Dholakia
Ishaan Jaffer

docker image, security, vulnerability

0 个严重/高危漏洞

有什么变化?

  • LiteLLMBase 镜像现在使用 cgr.dev/chainguard/python:latest-dev

为何更改?

确保 LiteLLM Docker 镜像上没有严重/高危漏洞

迁移指南

  • 如果您使用以 litellm 作为基础镜像并包含 apt-get 的自定义 dockerfile

请使用 apk 替代 apt-get,基础 litellm 镜像将不再安装 apt-get

只有在 Dockerfile 中使用了 apt-get 才会受到影响

# Use the provided base image
FROM ghcr.io/berriai/litellm:main-latest

# Set the working directory
WORKDIR /app

# Install dependencies - CHANGE THIS to `apk`
RUN apt-get update && apt-get install -y dumb-init

更改前

RUN apt-get update && apt-get install -y dumb-init

更改后

RUN apk update && apk add --no-cache dumb-init

Krrish Dholakia
Ishaan Jaffer

deepgram, fireworks ai, vision, admin ui, dependency upgrades

新模型

Deepgram 语音转文本

新增支持 Deepgram 模型的语音转文本。由此开始

from litellm import transcription
import os

# set api keys
os.environ["DEEPGRAM_API_KEY"] = ""
audio_file = open("/path/to/audio.mp3", "rb")

response = transcription(model="deepgram/nova-2", file=audio_file)

print(f"response: {response}")

Fireworks AI - 支持所有模型的视觉

LiteLLM 支持对 Fireworks AI 模型进行文档内嵌。这对于非视觉模型但仍需要解析文档/图像等非常有用。如果模型不是视觉模型,LiteLLM 会在 image_url 的 url 中添加 #transform=inline 查看代码

Proxy Admin UI

  • Test Key 标签页显示响应中使用的 model
  • Test Key 标签页渲染 .md, .py 格式内容(任何代码/markdown 格式)

依赖升级

Bug 修复

Krrish Dholakia
Ishaan Jaffer

guardrails, logging, virtual key management, new models

信息

获得 LiteLLM 企业版 7 天免费试用 在这里

无需联系

新功能

✨ 日志记录 Guardrail 跟踪

跟踪 guardrail 故障率以及 guardrail 是否失控并导致请求失败。由此开始

跟踪 Guardrail 成功

跟踪 Guardrail 失败

/guardrails/list

/guardrails/list 允许客户端查看可用的 guardrails + 支持的 guardrail 参数

curl -X GET 'http://0.0.0.0:4000/guardrails/list'

预期响应

{
"guardrails": [
{
"guardrail_name": "aporia-post-guard",
"guardrail_info": {
"params": [
{
"name": "toxicity_score",
"type": "float",
"description": "Score between 0-1 indicating content toxicity level"
},
{
"name": "pii_detection",
"type": "boolean"
}
]
}
}
]
}

✨ 使用 Mock LLM 的 Guardrails

发送 mock_response 以测试 guardrails,而无需进行 LLM 调用。更多关于 mock_response 的信息此处

curl -i https://:4000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer sk-npnwjPQciVRok5yNZgKmFQ" \
-d '{
"model": "gpt-3.5-turbo",
"messages": [
{"role": "user", "content": "hi my email is ishaan@berri.ai"}
],
"mock_response": "This is a mock response",
"guardrails": ["aporia-pre-guard", "aporia-post-guard"]
}'

将密钥分配给用户

您现在可以通过 Proxy UI 将密钥分配给用户

新模型

  • openrouter/openai/o1
  • vertex_ai/mistral-large@2411

修复

Krrish Dholakia
Ishaan Jaffer

key management, budgets/rate limits, logging, guardrails

信息

获得 LiteLLM 企业版 7 天免费试用 在这里

无需联系

✨ 预算 / 速率限制层级

定义具有速率限制的层级。将其分配给密钥。

使用此功能控制大量密钥的访问和预算。

由此开始

curl -L -X POST 'http://0.0.0.0:4000/budget/new' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{
"budget_id": "high-usage-tier",
"model_max_budget": {
"gpt-4o": {"rpm_limit": 1000000}
}
}'

OTEL Bug 修复

LiteLLM 曾双重记录 litellm_request span。现已修复。

相关 PR

Finetuning 端点日志记录

所有日志记录提供商(例如 Datadog)现已支持 finetuning 请求的日志。

每个请求记录的内容

  • file_id
  • finetuning_job_id
  • 任何密钥/团队元数据

由此开始

Guardrails 的动态参数

您现在可以在每个请求中为您的 guardrails 设置自定义参数(如成功阈值)。

更多详细信息请参阅 guardrails 规范

Krrish Dholakia
Ishaan Jaffer

batches, guardrails, team management, custom auth


信息

在此获取免费的 7 天 LiteLLM Enterprise 试用。无需致电。由此开始

无需致电

✨ Batches API (/batches) 的成本跟踪和日志记录

跟踪批量创建作业的成本和使用情况。由此开始

/guardrails/list 端点

向用户显示可用的 guardrails。由此开始

✨ 允许团队添加模型

这使得团队管理员可以通过 litellm proxy 调用他们自己的 finetuned 模型。由此开始

✨ 自定义身份验证的通用检查

在自定义身份验证中调用内部 common_checks 函数现在被强制作为企业功能。这使得管理员可以在其自定义身份验证实现中使用 litellm 的默认预算/身份验证检查。由此开始

✨ 分配团队管理员

团队管理员功能已从 Beta 版毕业,并升级到我们的企业层级。这使得代理管理员可以允许其他人管理其团队的密钥/模型(对于生产环境中的项目非常有用)。由此开始

Krrish Dholakia
Ishaan Jaffer

新的 LiteLLM 稳定版 刚刚发布。以下是 v1.52.2-stable 以来的 5 个更新。

langfuse, fallbacks, new models, azure_storage

Langfuse Prompt 管理

这使得在 Langfuse 上运行实验或将特定模型 gpt-4o 更改为 gpt-4o-mini 变得容易,而无需修改您的应用程序中的代码。由此开始

客户端控制回退 prompt

Claude prompt 与 OpenAI 不同

在执行回退时传入特定于模型的 prompt。由此开始

新提供商 / 模型

✨ Azure Data Lake Storage 支持

将 LLM 用量(花费、令牌)数据发送到 Azure Data Lake。这使得在其他服务(例如 Databricks)上使用用量数据变得容易。由此开始

Docker 运行 LiteLLM

docker run \
-e STORE_MODEL_IN_DB=True \
-p 4000:4000 \
ghcr.io/berriai/litellm:litellm_stable_release_branch-v1.55.8-stable

获取每日更新

LiteLLM 每天发布新版本。在 LinkedIn 上关注我们以获取每日更新。