跳到主要内容

v1.70.1-stable - Gemini 实时 API 支持

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

主要亮点

LiteLLM v1.70.1-stable 现已发布。以下是本次发布的主要亮点

  • Gemini 实时 API:您现在可以通过 OpenAI 的 /v1/realtime API 调用 Gemini 的 Live API
  • 消费日志保留期:启用删除早于特定时长的消费日志。
  • PII 屏蔽 2.0:在 UI 上轻松配置屏蔽或阻止特定 PII/PHI 实体

Gemini 实时 API

本次发布支持通过 OpenAI 的  /v1/realtime  API 调用 Gemini 的实时模型(例如 gemini-2.0-flash-live)。这对于开发者来说非常棒,因为只需更改模型名称即可轻松从 OpenAI 切换到 Gemini。

主要亮点

  • 支持文本 + 音频输入/输出
  • 支持以 OpenAI 格式设置会话配置(模态、指令、活动检测)
  • 支持实时会话的日志记录 + 使用跟踪

目前通过 Google AI Studio 支持。我们计划在未来一周内发布 VertexAI 支持。

阅读更多

消费日志保留期

本次发布支持删除早于特定时长的 LiteLLM 消费日志。由于现在我们支持在日志中存储原始请求/响应,删除旧日志可确保数据库在生产环境中保持高性能。

阅读更多

PII 屏蔽 2.0

本次发布改进了我们的 Presidio PII 集成。作为代理管理员,您现在可以

  • 屏蔽或阻止特定实体(例如,屏蔽医疗执照,同时屏蔽电子邮件等其他实体)。
  • 在生产环境中监控防护栏。LiteLLM 日志现在将显示防护栏运行情况、检测到的实体及其对每个实体的置信度评分。

阅读更多

新模型 / 更新的模型

  • Gemini (VertexAI + Google AI Studio)
    • /chat/completion
      • 处理音频输入 - PR
      • 修复了在使用 Vertex AI 的深度嵌套响应模式时出现的递归深度超出限制问题,通过将 constants 中的 DEFAULT_MAX_RECURSE_DEPTH 从 10 增加到 100。 PR
      • 在流模式下捕获推理 token - PR
  • Google AI Studio
    • /realtime
      • 支持 Gemini 多模态 Live API
      • 支持音频输入/输出、可选参数映射、准确使用量计算 - PR
  • VertexAI
    • /chat/completion
      • 修复 llama 流错误 - 模型响应嵌套在返回的流块中 - PR
  • Ollama
    • /chat/completion
      • 修复结构化响应 - PR
  • Bedrock
    • /chat/completion
      • 处理 assistant.content 为 None 时的 thinking_blocks - PR
      • 修复为只允许工具 JSON 模式中接受的字段 - PR
      • 添加 bedrock sonnet 提示缓存成本信息
      • 支持 Mistral Pixtral - PR
      • 支持工具缓存 - PR
    • /messages
      • 允许使用动态 AWS 参数 - PR
  • Nvidia NIM
  • Novita AI
    • /chat/completion 路由添加了新提供商 - PR
  • Azure
  • Cohere
    • /embeddings
      • 将 embedding 迁移至使用 /v2/embed - 添加了 output_dimensions 参数支持 - PR
  • Anthropic
  • VLLM
    • /embeddings
      • 支持将整数列表作为 embedding 输入
  • OpenAI

LLM API 端点

  • 响应 API
    • 修复删除 API 支持 - PR
  • Rerank API
    • /v2/rerank 现在注册为 ‘llm_api_route’ - 允许非管理员调用 - PR

消费跟踪改进

  • /chat/completion, /messages
    • Anthropic - Web 搜索工具成本跟踪 - PR
    • Groq - 更新模型最大 token + 成本信息 - PR
  • /audio/transcription
    • Azure - 添加 gpt-4o-mini-tts 定价 - PR
    • 代理 - 修复按标签跟踪消费问题 - PR
  • /embeddings
    • Azure AI - 添加 cohere embed v4 定价 - PR

管理端点 / UI

日志记录 / 警报集成

防护栏

  • 防护栏
    • 新增 /apply_guardrail 端点,用于直接测试防护栏 - PR
  • Lakera
    • 支持 /v2 端点 - PR
  • Presidio
    • 修复 Presidio 防护栏集成中消息内容的处理问题 - PR
    • 允许指定 PII 实体配置 - PR
  • Aim Security
    • 在 AIM 防护栏中支持匿名化 - PR

性能 / 负载均衡 / 可靠性改进

通用代理改进

  • 认证
    • 在 x-litellm-api-key 自定义头部中处理 Bearer $LITELLM_API_KEY PR
  • 新的企业版 pip 包 - litellm-enterprise - 修复了使用 pip 包时找不到 enterprise 文件夹的问题
  • 代理 CLI
    • 添加 models import 命令 - PR
  • OpenWebUI
    • 配置 LiteLLM 解析来自 Open Web UI 的用户头部
  • LiteLLM 代理与 LiteLLM SDK
    • 通过 LiteLLM SDK 调用时强制/始终使用 LiteLLM 代理的选项

新贡献者

演示实例

这里有一个用于测试更改的演示实例

Git Diff