跳到主要内容

v1.68.0-stable

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

主要亮点

LiteLLM v1.68.0-stable 即将上线。以下是本次版本的主要亮点

  • Bedrock 知识库:您现在可以通过 /chat/completion/responses API 使用所有 LiteLLM 模型查询您的 Bedrock 知识库。
  • 速率限制:此版本在多个实例之间提供了精确的速率限制,在高流量下,将溢出请求最多减少到 10 个额外请求。
  • Meta Llama API:增加了对 Meta Llama API 的支持 开始使用
  • LlamaFile:增加了对 LlamaFile 的支持 开始使用

Bedrock 知识库(向量存储)


此版本在 LiteLLM 中添加了对 Bedrock 向量存储(知识库)的支持。通过此更新,您可以

  • 在 OpenAI /chat/completions 规范中使用 Bedrock 向量存储,支持所有 LiteLLM 支持的模型。
  • 通过 LiteLLM UI 或 API 查看所有可用的向量存储。
  • 配置向量存储以使其始终对特定模型处于活动状态。
  • 在 LiteLLM 日志中跟踪向量存储使用情况。

对于下一个版本,我们计划允许您为向量存储设置 key、用户、团队、组织权限。

在此阅读更多信息

速率限制


此版本带来了跨 key/用户/团队的精确多实例速率限制。以下概述了关键工程变更

  • 变更:实例现在是递增缓存值而不是设置它。为了避免在每个请求时调用 Redis,此操作每 0.01 秒同步一次。
  • 准确性:在测试中,我们看到在高流量下(100 RPS,3 个实例),最大溢出请求从预期的 10 个,降至当前的 189 个溢出请求
  • 性能:我们的负载测试显示,在高流量下,这将使中位数响应时间减少 100 毫秒 

这目前处于功能标志后面,我们计划下周将其作为默认设置。要立即启用此功能,只需添加此环境变量

export LITELLM_RATE_LIMIT_ACCURACY=true

在此阅读更多信息

新模型/更新模型

  • Gemini (VertexAI + Google AI Studio)
    • 处理更多 json schema - openapi schema 转换的边缘情况 PR
    • 工具调用 - 在 gemini 工具调用响应中返回 'finish_reason=“tool_calls”' PR
  • VertexAI
    • Meta/llama-4 模型支持 PR
    • Meta/llama3 - 处理内容中的工具调用结果 PR
    • Meta/* - 在工具调用响应中返回 'finish_reason=“tool_calls”' PR
  • Bedrock
  • OpenAI
    • 除了 OPENAI_API_BASE 外,还支持 OPENAI_BASE_URL PR
    • 正确地重新抛出 504 超时错误 PR
    • 原生 Gpt-4o-mini-tts 支持 PR
  • 🆕 Meta Llama API 提供者 PR
  • 🆕 LlamaFile 提供者 PR

LLM API 端点

  • 响应 API
    • 处理多轮会话的修复 PR
  • 嵌入
    • 缓存修复 - PR
      • 处理 str -> 列表缓存
      • 缓存命中时返回使用令牌
      • 部分缓存命中时合并使用令牌
  • 🆕 向量存储
    • 允许定义向量存储配置 - PR
    • 使用向量存储时发出的请求的新 StandardLoggingPayload 字段 - PR
    • 在 LiteLLM 日志页面显示向量存储/知识库请求 - PR
    • 允许在带有工具的 OpenAI API 规范中使用向量存储 - PR
  • MCP
    • 确保非管理员虚拟密钥可以访问 /mcp 路由 - PR

      注意:目前,所有虚拟密钥都可以访问 MCP 端点。我们正在开发一项功能,以允许按密钥/团队/用户/组织限制 MCP 访问。请在此处关注更新。

  • 审核
    • /moderations API 添加日志回调支持 - PR

支出跟踪/预算改进

管理端点/UI

  • 虚拟密钥
    • 修复按密钥别名过滤的问题 - PR
    • 支持对密钥进行全局过滤 - PR
    • 分页 - 修复点击表格上的下一页/上一页按钮的问题 - PR
  • 模型
    • Triton - 支持在 UI 上添加模型/提供者 - PR
    • VertexAI - 修复使用可重用凭据添加 vertex 模型的问题 - PR
    • LLM 凭据 - 显示现有凭据以便轻松编辑 - PR
  • 团队
    • 允许将团队重新分配给其他组织 - PR
  • 组织
    • 修复在表格上显示组织预算的问题 - PR

日志记录/安全防护集成

性能/负载均衡/可靠性改进

通用代理改进