跳到主要内容

2篇标记为“cost_tracking”的帖子

查看所有标签

Krrish Dholakia
Ishaan Jaffer

主要亮点

  • SCIM 集成:使身份提供商(Okta、Azure AD、OneLogin 等)能够自动化用户和团队(组)的配置、更新和取消配置。
  • 基于团队和标签的使用情况跟踪:您现在可以在100万+消费日志中按团队和标签查看使用情况和花费。
  • 统一响应 API:支持通过 OpenAI 新的 Responses API 调用 Anthropic、Gemini、Groq 等模型。

让我们深入了解。

SCIM 集成

本次发布为 LiteLLM 添加了 SCIM 支持。这使您的 SSO 提供商(Okta、Azure AD 等)可以在 LiteLLM 上自动创建/删除用户、团队和成员资格。这意味着当您在 SSO 提供商中移除一个团队时,您的 SSO 提供商将自动删除 LiteLLM 上对应的团队。

阅读更多

基于团队和标签的使用情况跟踪

本次发布改进了在100万+消费日志中的基于团队和标签的使用情况跟踪,使您可以轻松监控生产环境中的 LLM API 花费。这包括:

  • 查看按团队 + 标签划分的每日花费
  • 查看团队内部按 key 划分的使用情况/花费
  • 查看按多个标签划分的花费
  • 允许内部用户查看他们所属团队的花费

阅读更多

统一响应 API

本次发布允许您通过 LiteLLM 上的 POST /v1/responses 端点调用 Azure OpenAI、Anthropic、AWS Bedrock 和 Google Vertex AI 模型。这意味着您现在可以将 OpenAI Codex 等流行工具与您自己的模型一起使用。

阅读更多

新模型 / 更新的模型

  • OpenAI
    1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价 - 开始使用, PR
    2. o4 - 正确将 o4 映射到 openai o_series 模型
  • Azure AI
    1. Phi-4 输出每 token 成本修正 - PR
    2. Responses API 支持 开始使用,PR
  • Anthropic
    1. 编辑消息思考中支持 - 开始使用,PR
  • Cohere
    1. /v2/chat 透传端点支持及成本跟踪 - 开始使用, PR
  • Azure
    1. 支持 Azure tenant_id/client_id 环境变量 - 开始使用, PR
    2. 修正 2025+ API 版本 response_format 检查 - PR
    3. 添加 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价
  • VLLM
    1. 文件 - 支持 VLLM 视频 URL 的 'file' 消息类型 - 开始使用, PR
    2. 透传 - 新增 /vllm/ 透传端点支持 开始使用, PR
  • Mistral
    1. 新增 /mistral 透传端点支持 开始使用, PR
  • AWS
    1. 新增映射 Bedrock 区域 - PR
  • VertexAI / Google AI Studio
    1. Gemini - 响应格式 - 通过指定 propertyOrdering 为 Google Gemini 和 Vertex 保留 schema 字段顺序 - 开始使用, PR
    2. Gemini-2.5-flash - 返回推理内容 Google AI Studio, Vertex AI
    3. Gemini-2.5-flash - 定价 + 模型信息 PR
    4. 透传 - 新增 /vertex_ai/discovery 路由 - 使 AgentBuilder API 路由可调用 开始使用, PR
  • Fireworks AI
    1. tool_calls 字段中返回工具调用响应(Fireworks 错误地将其作为内容中的 JSON 字符串返回) PR
  • Triton
    1. /generate 调用中移除固定的 bad_words / stop words 移除 - 开始使用, PR
  • 其他
    1. Responses API 支持所有 litellm 提供商(与 Codex 配合使用) - 开始使用, PR
    2. 修正流式响应中合并多个工具调用的问题 - 开始使用, PR

花费跟踪改进

  • 成本控制 - 在 prompt 中注入缓存控制点以降低成本 开始使用, PR
  • 花费标签 - header 中的花费标签 - 支持 x-litellm-tags 即使未启用基于标签的路由 开始使用, PR
  • Gemini-2.5-flash - 支持推理 token 的成本计算 PR

管理端点 / UI

  • 用户

    1. 在用户页面显示 created_at 和 updated_at - PR
  • 虚拟密钥

    1. 按密钥别名过滤 - https://github.com/BerriAI/litellm/pull/10085
  • 使用情况标签页

    1. 基于团队的使用情况

      • 新增 LiteLLM_DailyTeamSpend 表用于聚合团队使用情况日志记录 - PR

      • 新增基于团队的使用情况仪表板 + 新的 /team/daily/activity API - PR

      • 在 /team/daily/activity API 上返回团队别名 - PR

      • 允许内部用户查看其所属团队的花费 - PR

      • 允许按团队查看热门密钥 - PR

    2. 基于标签的使用情况

      • 新增 LiteLLM_DailyTagSpend 表用于聚合基于标签的使用情况日志记录 - PR
      • 仅限代理管理员 - PR
      • 允许按标签查看热门密钥
      • /tag/list API 上返回请求中传递的标签(即动态标签) - PR
    3. 在每日用户、团队、标签表中跟踪 prompt 缓存指标 - PR

    4. 按密钥显示使用情况(在所有整体、团队和标签使用情况仪表板上) - PR

    5. 将旧的使用情况标签页替换为新的使用情况标签页

  • 模型

    1. 使列可调整大小/可隐藏 - PR
  • API 演练场

    1. 允许内部用户调用 API 演练场 - PR
  • SCIM

    1. 添加用于团队和用户管理的 LiteLLM SCIM 集成 - 开始使用, PR

日志记录 / Guardrail 集成

  • GCS
    1. 修正使用环境变量 GCS_PROJECT_ID 进行 GCS pub sub 日志记录的问题 - 开始使用, PR
  • AIM
    1. 在 pre 和 post-hooks 调用中将 litellm 调用 ID 传递给 Aim guardrails - 开始使用, PR
  • Azure Blob 存储
    1. 确保日志记录在高吞吐量场景下工作 - 开始使用, PR

通用代理改进

  • 支持通过环境变量设置 litellm.modify_params PR
  • 模型发现 - 调用代理的 /v1/models 端点时检查提供商的 /models 端点 - 开始使用, PR
  • /utils/token_counter - 修正检索数据库模型的自定义分词器问题 - 开始使用, PR
  • Prisma 迁移 - 处理数据库表中已存在的列 - PR

Krrish Dholakia
Ishaan Jaffer

部署此版本

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

v1.66.0-stable 现已上线,以下是本次发布的主要亮点

主要亮点

  • Realtime API 成本跟踪:跟踪 Realtime API 调用的成本
  • Microsoft SSO 自动同步:将组和组成员从 Azure Entra ID 自动同步到 LiteLLM
  • xAI grok-3:添加了对 xai/grok-3 模型支持
  • 安全修正:修正了 CVE-2025-0330CVE-2024-6825 漏洞

让我们深入了解。

Realtime API 成本跟踪

本次发布添加了 Realtime API 日志记录 + 成本跟踪。

  • 日志记录:LiteLLM 现在将 Realtime 调用的完整响应记录到所有日志记录集成(DB、S3、Langfuse 等)。
  • 成本跟踪:您现在可以为 Realtime 模型设置 'base_model' 和自定义定价。自定义定价
  • 预算:您的密钥/用户/团队预算现在也适用于 Realtime 模型。

这里开始

Microsoft SSO 自动同步

将 Azure Entra ID 中的组和成员自动同步到 LiteLLM

本次发布增加了对将 Microsoft Entra ID 中的组和成员与 LiteLLM 自动同步的支持。这意味着 LiteLLM 代理管理员可以花更少的时间管理团队和成员,LiteLLM 处理以下事项:

  • 自动创建存在于 Microsoft Entra ID 中的团队
  • 将 Microsoft Entra ID 中的团队成员与 LiteLLM 团队同步

这里开始使用此功能

新模型 / 更新的模型

  • xAI

    1. 添加了对 xai/grok-3-mini-beta 的 reasoning_effort 支持 开始使用
    2. 添加了对 xai/grok-3 模型成本跟踪 PR
  • Hugging Face

    1. 添加了推理提供商支持 开始使用
  • Azure

    1. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
  • VertexAI

    1. 添加了 enterpriseWebSearch 工具支持 开始使用
    2. 更改为仅传递 Vertex AI 响应 schema 接受的密钥 PR
  • Google AI Studio

    1. 添加了对 gemini-2.5-pro 成本跟踪 PR
    2. 修正了 'gemini/gemini-2.5-pro-preview-03-25' 的定价 PR
    3. 修正了处理传入 file_data 的问题 PR
  • Azure

    1. 更新了 Azure Phi-4 定价 PR
    2. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
  • Databricks

    1. 从参数中移除了 reasoning_effort PR
    2. 修正了 Databricks 的自定义端点检查问题 PR
  • 通用

    1. 添加了 litellm.supports_reasoning() 工具函数以跟踪 LLM 是否支持 reasoning 开始使用
    2. 函数调用 - 在消息工具调用中处理 pydantic 基础模型,处理 tools = [],并支持 meta.llama3-3-70b-instruct-v1:0 的工具调用伪流式传输 PR
    3. LiteLLM 代理 - 允许通过客户端 SDK 将 thinking 参数传递给 litellm 代理 PR
    4. 修正了为 litellm 正确翻译 'thinking' 参数的问题 PR

花费跟踪改进

  • OpenAI, Azure
    1. Realtime API 成本跟踪及消费日志中的 token 使用量指标 开始使用
  • Anthropic
    1. 修正了 Claude Haiku 缓存读取每 token 定价问题 PR
    2. 添加了对带 base_model 的 Claude 响应的成本跟踪 PR
    3. 修正了 Anthropic prompt 缓存成本计算,并截断了数据库中记录的消息 PR
  • 通用
    1. 添加了 token 跟踪并在消费日志中记录使用量对象 PR
    2. 处理部署级别的自定义定价 PR

管理端点 / UI

  • 测试密钥标签页

    1. 在测试密钥页面添加了推理内容、ttft、使用量指标的渲染 PR

      查看输入、输出、推理 token、ttft 指标。

  • 标签 / 策略管理

    1. 添加了标签/策略管理。根据请求元数据创建路由规则。这允许您强制要求带有 tags="private" 的请求只发送到特定模型。 开始使用


      创建和管理标签。

  • 重新设计的登录界面

    1. 优化了登录界面 PR
  • Microsoft SSO 自动同步

    1. 添加了调试路由,允许管理员调试 SSO JWT 字段 PR
    2. 添加了使用 MSFT Graph API 将用户分配到团队的功能 PR
    3. 将 litellm 连接到 Azure Entra ID 企业应用程序 PR
    4. 添加了管理员设置 default_team_params 的功能,用于 litellm SSO 创建默认团队时使用 PR
    5. 修正了 MSFT SSO 使用正确的字段获取用户电子邮件的问题 PR
    6. 添加了 UI 支持,用于设置 litellm SSO 自动创建团队时的默认团队设置 PR
  • UI 错误修正

    1. 防止团队、密钥、组织、模型数值在滚动时改变 PR
    2. 在 UI 中即时反映密钥和团队更新 PR

日志记录 / Guardrail 改进

  • Prometheus
    1. 根据 cron 计划发送密钥和团队预算指标 开始使用

安全修正

Helm

  • 为 litellm-helm chart 添加了服务注解 PR
  • 为 helm 部署添加了 extraEnvVars PR

演示

立即在演示实例上尝试此功能

完整 Git Diff

查看自 v1.65.4-stable 以来的完整 Git Diff,这里