v1.68.0-stable

2025年5月3日

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

部署此版本

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

pip install litellm

pip install litellm==1.68.0.post1

主要亮点

LiteLLM v1.68.0-stable 即将上线。以下是本次版本的主要亮点

Bedrock 知识库：您现在可以通过 /chat/completion 或 /responses API 使用所有 LiteLLM 模型查询您的 Bedrock 知识库。
速率限制：此版本在多个实例之间提供了精确的速率限制，在高流量下，将溢出请求最多减少到 10 个额外请求。
Meta Llama API：增加了对 Meta Llama API 的支持开始使用
LlamaFile：增加了对 LlamaFile 的支持开始使用

Bedrock 知识库（向量存储）

此版本在 LiteLLM 中添加了对 Bedrock 向量存储（知识库）的支持。通过此更新，您可以

在 OpenAI /chat/completions 规范中使用 Bedrock 向量存储，支持所有 LiteLLM 支持的模型。
通过 LiteLLM UI 或 API 查看所有可用的向量存储。
配置向量存储以使其始终对特定模型处于活动状态。
在 LiteLLM 日志中跟踪向量存储使用情况。

对于下一个版本，我们计划允许您为向量存储设置 key、用户、团队、组织权限。

在此阅读更多信息

速率限制

此版本带来了跨 key/用户/团队的精确多实例速率限制。以下概述了关键工程变更

变更：实例现在是递增缓存值而不是设置它。为了避免在每个请求时调用 Redis，此操作每 0.01 秒同步一次。
准确性：在测试中，我们看到在高流量下（100 RPS，3 个实例），最大溢出请求从预期的 10 个，降至当前的 189 个溢出请求
性能：我们的负载测试显示，在高流量下，这将使中位数响应时间减少 100 毫秒

这目前处于功能标志后面，我们计划下周将其作为默认设置。要立即启用此功能，只需添加此环境变量

export LITELLM_RATE_LIMIT_ACCURACY=true

在此阅读更多信息

新模型/更新模型

Gemini (VertexAI + Google AI Studio)
- 处理更多 json schema - openapi schema 转换的边缘情况 PR
- 工具调用 - 在 gemini 工具调用响应中返回 'finish_reason=“tool_calls”' PR
VertexAI
- Meta/llama-4 模型支持 PR
- Meta/llama3 - 处理内容中的工具调用结果 PR
- Meta/* - 在工具调用响应中返回 'finish_reason=“tool_calls”' PR
Bedrock
- 图像生成 - 支持新的 'stable-image-core' 模型 - PR
- 知识库 - 支持将 Bedrock 知识库与 /chat/completions 一起使用 PR
- Anthropic - 为 claude-3.7-bedrock 模型添加 'supports_pdf_input' PR, 开始使用
OpenAI
- 除了 OPENAI_API_BASE 外，还支持 OPENAI_BASE_URL PR
- 正确地重新抛出 504 超时错误 PR
- 原生 Gpt-4o-mini-tts 支持 PR
🆕 Meta Llama API 提供者 PR
🆕 LlamaFile 提供者 PR

LLM API 端点

响应 API
- 处理多轮会话的修复 PR
嵌入
- 缓存修复 - PR
  - 处理 str -> 列表缓存
  - 缓存命中时返回使用令牌
  - 部分缓存命中时合并使用令牌
🆕 向量存储
- 允许定义向量存储配置 - PR
- 使用向量存储时发出的请求的新 StandardLoggingPayload 字段 - PR
- 在 LiteLLM 日志页面显示向量存储/知识库请求 - PR
- 允许在带有工具的 OpenAI API 规范中使用向量存储 - PR
MCP
- 确保非管理员虚拟密钥可以访问 /mcp 路由 - PR
  注意：目前，所有虚拟密钥都可以访问 MCP 端点。我们正在开发一项功能，以允许按密钥/团队/用户/组织限制 MCP 访问。请在此处关注更新。
审核
- 为 /moderations API 添加日志回调支持 - PR

支出跟踪/预算改进

OpenAI
- computer-use-preview 成本跟踪/定价 PR
- gpt-4o-mini-tts 输入成本跟踪 - PR
Fireworks AI - 定价更新 - 新的 0-4b 模型定价层级 + llama4 模型定价
预算
- 预算重置现在发生在日/周/月开始时 - PR
- 当密钥超出阈值时触发软预算警报 - PR
令牌计数
- 重写 token_counter() 函数以防止令牌计数不足 - PR

管理端点/UI

虚拟密钥
- 修复按密钥别名过滤的问题 - PR
- 支持对密钥进行全局过滤 - PR
- 分页 - 修复点击表格上的下一页/上一页按钮的问题 - PR
模型
- Triton - 支持在 UI 上添加模型/提供者 - PR
- VertexAI - 修复使用可重用凭据添加 vertex 模型的问题 - PR
- LLM 凭据 - 显示现有凭据以便轻松编辑 - PR
团队
- 允许将团队重新分配给其他组织 - PR
组织
- 修复在表格上显示组织预算的问题 - PR

日志记录/安全防护集成

Langsmith
- 遵守 langsmith_batch_size 参数 - PR

性能/负载均衡/可靠性改进

Redis
- 确保所有 redis 队列定期刷新，这解决了使用请求标签时 redis 队列大小无限增长的问题 - PR
速率限制
- 跨 key/团队/用户/客户的多实例速率限制支持 - PR, PR, PR
Azure OpenAI OIDC
- 允许使用 litellm 定义的参数进行OIDC 认证 - PR

通用代理改进

安全性
- 允许阻止网络爬虫 - PR
认证
- 默认支持x-litellm-api-key 请求头参数，这解决了之前版本中 x-litellm-api-key 未在 vertex ai 直通请求中使用的问题 - PR
- 允许达到最大预算的密钥调用非 llm api 端点 - PR
🆕 用于 LiteLLM Proxy 管理端点的Python 客户端库
- 初步 PR - PR
- 支持执行 HTTP 请求 - PR
依赖项
- Windows 不再需要 uvloop - PR

部署此版本​

主要亮点​

Bedrock 知识库（向量存储）​

速率限制​

新模型/更新模型​

LLM API 端点​

支出跟踪/预算改进​

管理端点/UI​

日志记录/安全防护集成​

性能/负载均衡/可靠性改进​

通用代理改进​