v1.65.4-stable

2025年4月5日

Krrish Dholakia

LiteLLM 首席执行官

Ishaan Jaffer

LiteLLM 首席技术官

部署此版本

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

pip install litellm

pip install litellm==1.65.4.post1

v1.65.4-stable 已上线。以下是自 v1.65.0-stable 以来的改进：

主要亮点

防止数据库死锁：修复了在高流量下多个实例同时写入数据库时出现的问题。
新的使用情况选项卡：可以按模型查看支出并自定义日期范围

深入了解。

防止数据库死锁

此版本修复了用户在高流量（10K+ 请求每秒）下遇到的数据库死锁问题。这非常有益，因为它使得用户/密钥/团队的支出跟踪在这种规模下也能工作。

在此处阅读有关新架构的更多信息：此处

新的使用情况选项卡

新的“使用情况”选项卡现在可以按模型跟踪每日支出。结合查看成功请求和令牌使用情况的功能，这使得更容易发现任何支出跟踪或令牌计数错误。

要试用此功能，请转到 Experimental > New Usage > Activity。

新模型 / 更新模型

Databricks - claude-3-7-sonnet 成本跟踪 PR
VertexAI - gemini-2.5-pro-exp-03-25 成本跟踪 PR
VertexAI - gemini-2.0-flash 成本跟踪 PR
Groq - 将 whisper ASR 模型添加到模型成本图 PR
IBM - 将 watsonx/ibm/granite-3-8b-instruct 添加到模型成本图 PR
Google AI Studio - 将 gemini/gemini-2.5-pro-preview-03-25 添加到模型成本图 PR

LLM 翻译

Vertex AI - 支持用于 OpenAI json schema 翻译的 anyOf 参数开始使用
Anthropic - 支持 response_format + thinking 参数（适用于 Anthropic API, Bedrock, Vertex）开始使用
Anthropic - 如果指定了 thinking 令牌但未指定 max 令牌 - 确保发送给 Anthropic 的 max 令牌高于 thinking 令牌（适用于 Anthropic API, Bedrock, Vertex） PR
Bedrock - 支持延迟优化推理开始使用
Sagemaker - 处理响应中的特殊令牌 + 多字节字符代码开始使用
MCP - 添加使用 SSE MCP 服务器的支持开始使用
Anthropic - 用于通过 passthrough 调用 Anthropic /v1/messages 的新 litellm.messages.create 接口开始使用
Anthropic - 在消息参数中支持“file”内容类型（适用于 Anthropic API, Bedrock, Vertex）开始使用
Anthropic - 将 openai 的 'reasoning_effort' 映射到 anthropic 的 'thinking' 参数（适用于 Anthropic API, Bedrock, Vertex）开始使用
Google AI Studio (Gemini) -[测试版] 支持上传 /v1/files 开始使用
Azure - 修复 o-series 工具调用开始使用
统一的文件 ID -[内部测试版]允许使用相同文件 ID 调用多个提供商 PR
- 这是实验性功能，不建议在生产环境中使用。
- 我们计划在下周推出生产就绪的实现。
Google AI Studio (Gemini) - 返回 logprobs PR
Anthropic - 支持 Anthropic 工具调用的提示缓存开始使用
OpenRouter - 解包 OpenRouter 调用中的额外 body PR
VertexAI - 修复凭据缓存问题 PR
XAI - 过滤掉 XAI 的 'name' 参数 PR
Gemini - 支持图像生成输出开始使用
Databricks - 支持带有 thinking + response_format 的 claude-3-7-sonnet 开始使用

支出跟踪改进

可靠性修复 - 检查发送和接收的模型以进行成本计算 PR
Vertex AI - 多模态嵌入成本跟踪开始使用, PR

管理端点 / UI

新的使用情况选项卡
- 报告 'total_tokens' + 报告成功/失败调用
- 移除滚动时的双层滚动条
- 确保“每日支出”图表按日期从早到晚排序
- 显示每日按模型的支出
- 在使用情况选项卡上显示密钥别名
- 允许非管理员查看他们的活动
- 在新的使用情况选项卡中添加日期选择器
虚拟密钥选项卡
- 用户注册时移除“默认密钥”
- 修复显示用户可用于创建个人密钥的模型
测试密钥选项卡
- 允许测试图像生成模型
模型选项卡
- 修复批量添加模型的问题
- 支持 passthrough 端点可重用凭据
- 允许团队成员查看团队模型
团队选项卡
- 修复更新团队元数据时的 JSON 序列化错误
请求日志选项卡
- 在流式传输时，为所有提供商添加 reasoning_content 令牌跟踪
API
- 在 /user/daily/activity 上返回密钥别名开始使用
SSO
- 允许在 MSFT SSO 上将 SSO 用户分配给团队 PR

日志记录 / 安全护栏集成

控制台日志 - 为未捕获的异常添加 JSON 格式 PR
安全护栏 - 支持基于虚拟密钥策略的 AIM 安全护栏开始使用
日志记录 - 修复完成开始时间跟踪 PR
Prometheus
- 允许在 Prometheus /metrics 端点上添加身份验证 PR
- 在指标命名中区分 LLM 提供商异常与 LiteLLM 异常 PR
- 为新的数据库事务架构发出操作指标 PR

性能 / 负载均衡 / 可靠性改进

防止死锁
- 通过将支出更新存储在 Redis 中然后提交到数据库来减少数据库死锁 PR
- 确保更新 DailyUserSpendTransaction 时不会发生死锁 PR
- 高流量修复 - 确保新的数据库 + Redis 架构准确跟踪支出 PR
- 使用 Redis 作为 PodLock 管理器而不是 PG（确保不会发生死锁） PR
- v2 数据库死锁减少架构 – 为内存队列添加最大大小 + 背压机制 PR
Prisma 迁移开始使用
- 将 litellm proxy 连接到 litellm 的 prisma 迁移文件
- 处理来自新的 litellm-proxy-extras SDK 的数据库 schema 更新
Redis - 支持同步 sentinel 客户端的密码 PR
修复 max_parallel_requests = 0 时出现的“检测到循环引用”错误 PR
代码质量保证 - 禁止硬编码数字 PR

Helm

修复：chart 中 ttlSecondsAfterFinished 缩进错误 PR

代理通用改进

修复 - 仅在服务账户上应用 service_account_settings.enforced_params PR
修复 - 处理 /chat/completion 上的 metadata 为 null PR
修复 - 将每日用户事务日志记录移到 'disable_spend_logs' 标志之外，因为它们不相关 PR

演示

今天在演示实例上尝试此功能今天

完整的 Git Diff

在此处查看自 v1.65.0-stable 以来的完整 git diff：此处

部署此版本​

主要亮点​

防止数据库死锁​

新的使用情况选项卡​

新模型 / 更新模型​

LLM 翻译​

支出跟踪改进​

管理端点 / UI​

日志记录 / 安全护栏集成​

性能 / 负载均衡 / 可靠性改进​

Helm​

代理通用改进​

演示​

完整的 Git Diff​