跳到主要内容

v1.65.4-stable

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

v1.65.4-stable 已上线。以下是自 v1.65.0-stable 以来的改进:

主要亮点

  • 防止数据库死锁:修复了在高流量下多个实例同时写入数据库时出现的问题。
  • 新的使用情况选项卡:可以按模型查看支出并自定义日期范围

深入了解。

防止数据库死锁

此版本修复了用户在高流量(10K+ 请求每秒)下遇到的数据库死锁问题。这非常有益,因为它使得用户/密钥/团队的支出跟踪在这种规模下也能工作。

在此处阅读有关新架构的更多信息:此处

新的使用情况选项卡

新的“使用情况”选项卡现在可以按模型跟踪每日支出。结合查看成功请求和令牌使用情况的功能,这使得更容易发现任何支出跟踪或令牌计数错误。

要试用此功能,请转到 Experimental > New Usage > Activity。

新模型 / 更新模型

  1. Databricks - claude-3-7-sonnet 成本跟踪 PR
  2. VertexAI - gemini-2.5-pro-exp-03-25 成本跟踪 PR
  3. VertexAI - gemini-2.0-flash 成本跟踪 PR
  4. Groq - 将 whisper ASR 模型添加到模型成本图 PR
  5. IBM - 将 watsonx/ibm/granite-3-8b-instruct 添加到模型成本图 PR
  6. Google AI Studio - 将 gemini/gemini-2.5-pro-preview-03-25 添加到模型成本图 PR

LLM 翻译

  1. Vertex AI - 支持用于 OpenAI json schema 翻译的 anyOf 参数 开始使用
  2. Anthropic - 支持 response_format + thinking 参数(适用于 Anthropic API, Bedrock, Vertex) 开始使用
  3. Anthropic - 如果指定了 thinking 令牌但未指定 max 令牌 - 确保发送给 Anthropic 的 max 令牌高于 thinking 令牌(适用于 Anthropic API, Bedrock, Vertex) PR
  4. Bedrock - 支持延迟优化推理 开始使用
  5. Sagemaker - 处理响应中的特殊令牌 + 多字节字符代码 开始使用
  6. MCP - 添加使用 SSE MCP 服务器的支持 开始使用
  7. Anthropic - 用于通过 passthrough 调用 Anthropic /v1/messages 的新 litellm.messages.create 接口 开始使用
  8. Anthropic - 在消息参数中支持“file”内容类型(适用于 Anthropic API, Bedrock, Vertex) 开始使用
  9. Anthropic - 将 openai 的 'reasoning_effort' 映射到 anthropic 的 'thinking' 参数(适用于 Anthropic API, Bedrock, Vertex) 开始使用
  10. Google AI Studio (Gemini) -[测试版] 支持上传 /v1/files 开始使用
  11. Azure - 修复 o-series 工具调用 开始使用
  12. 统一的文件 ID -[内部测试版]允许使用相同文件 ID 调用多个提供商 PR
    • 这是实验性功能,不建议在生产环境中使用。
    • 我们计划在下周推出生产就绪的实现。
  13. Google AI Studio (Gemini) - 返回 logprobs PR
  14. Anthropic - 支持 Anthropic 工具调用的提示缓存 开始使用
  15. OpenRouter - 解包 OpenRouter 调用中的额外 body PR
  16. VertexAI - 修复凭据缓存问题 PR
  17. XAI - 过滤掉 XAI 的 'name' 参数 PR
  18. Gemini - 支持图像生成输出 开始使用
  19. Databricks - 支持带有 thinking + response_format 的 claude-3-7-sonnet 开始使用

支出跟踪改进

  1. 可靠性修复 - 检查发送和接收的模型以进行成本计算 PR
  2. Vertex AI - 多模态嵌入成本跟踪 开始使用, PR

管理端点 / UI

  1. 新的使用情况选项卡
    • 报告 'total_tokens' + 报告成功/失败调用
    • 移除滚动时的双层滚动条
    • 确保“每日支出”图表按日期从早到晚排序
    • 显示每日按模型的支出
    • 在使用情况选项卡上显示密钥别名
    • 允许非管理员查看他们的活动
    • 在新的使用情况选项卡中添加日期选择器
  2. 虚拟密钥选项卡
    • 用户注册时移除“默认密钥”
    • 修复显示用户可用于创建个人密钥的模型
  3. 测试密钥选项卡
    • 允许测试图像生成模型
  4. 模型选项卡
    • 修复批量添加模型的问题
    • 支持 passthrough 端点可重用凭据
    • 允许团队成员查看团队模型
  5. 团队选项卡
    • 修复更新团队元数据时的 JSON 序列化错误
  6. 请求日志选项卡
    • 在流式传输时,为所有提供商添加 reasoning_content 令牌跟踪
  7. API
  8. SSO
    • 允许在 MSFT SSO 上将 SSO 用户分配给团队 PR

日志记录 / 安全护栏集成

  1. 控制台日志 - 为未捕获的异常添加 JSON 格式 PR
  2. 安全护栏 - 支持基于虚拟密钥策略的 AIM 安全护栏 开始使用
  3. 日志记录 - 修复完成开始时间跟踪 PR
  4. Prometheus
    • 允许在 Prometheus /metrics 端点上添加身份验证 PR
    • 在指标命名中区分 LLM 提供商异常与 LiteLLM 异常 PR
    • 为新的数据库事务架构发出操作指标 PR

性能 / 负载均衡 / 可靠性改进

  1. 防止死锁
    • 通过将支出更新存储在 Redis 中然后提交到数据库来减少数据库死锁 PR
    • 确保更新 DailyUserSpendTransaction 时不会发生死锁 PR
    • 高流量修复 - 确保新的数据库 + Redis 架构准确跟踪支出 PR
    • 使用 Redis 作为 PodLock 管理器而不是 PG(确保不会发生死锁) PR
    • v2 数据库死锁减少架构 – 为内存队列添加最大大小 + 背压机制 PR
  2. Prisma 迁移 开始使用
    • 将 litellm proxy 连接到 litellm 的 prisma 迁移文件
    • 处理来自新的 litellm-proxy-extras SDK 的数据库 schema 更新
  3. Redis - 支持同步 sentinel 客户端的密码 PR
  4. 修复 max_parallel_requests = 0 时出现的“检测到循环引用”错误 PR
  5. 代码质量保证 - 禁止硬编码数字 PR

Helm

  1. 修复:chart 中 ttlSecondsAfterFinished 缩进错误 PR

代理通用改进

  1. 修复 - 仅在服务账户上应用 service_account_settings.enforced_params PR
  2. 修复 - 处理 /chat/completion 上的 metadata 为 null PR
  3. 修复 - 将每日用户事务日志记录移到 'disable_spend_logs' 标志之外,因为它们不相关 PR

演示

今天在演示实例上尝试此功能 今天

完整的 Git Diff

在此处查看自 v1.65.0-stable 以来的完整 git diff:此处