2篇标记为“cost_tracking”的帖子

查看所有标签

v1.67.0-stable - SCIM 集成

2025年4月19日

Krrish Dholakia

LiteLLM 首席执行官

Ishaan Jaffer

LiteLLM 首席技术官

主要亮点

SCIM 集成：使身份提供商（Okta、Azure AD、OneLogin 等）能够自动化用户和团队（组）的配置、更新和取消配置。
基于团队和标签的使用情况跟踪：您现在可以在100万+消费日志中按团队和标签查看使用情况和花费。
统一响应 API：支持通过 OpenAI 新的 Responses API 调用 Anthropic、Gemini、Groq 等模型。

让我们深入了解。

SCIM 集成

本次发布为 LiteLLM 添加了 SCIM 支持。这使您的 SSO 提供商（Okta、Azure AD 等）可以在 LiteLLM 上自动创建/删除用户、团队和成员资格。这意味着当您在 SSO 提供商中移除一个团队时，您的 SSO 提供商将自动删除 LiteLLM 上对应的团队。

基于团队和标签的使用情况跟踪

本次发布改进了在100万+消费日志中的基于团队和标签的使用情况跟踪，使您可以轻松监控生产环境中的 LLM API 花费。这包括：

查看按团队 + 标签划分的每日花费
查看团队内部按 key 划分的使用情况/花费
查看按多个标签划分的花费
允许内部用户查看他们所属团队的花费

统一响应 API

本次发布允许您通过 LiteLLM 上的 POST /v1/responses 端点调用 Azure OpenAI、Anthropic、AWS Bedrock 和 Google Vertex AI 模型。这意味着您现在可以将 OpenAI Codex 等流行工具与您自己的模型一起使用。

新模型 / 更新的模型

OpenAI
1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价 - 开始使用, PR
2. o4 - 正确将 o4 映射到 openai o_series 模型
Azure AI
1. Phi-4 输出每 token 成本修正 - PR
2. Responses API 支持开始使用,PR
Anthropic
1. 编辑消息思考中支持 - 开始使用,PR
Cohere
1. /v2/chat 透传端点支持及成本跟踪 - 开始使用, PR
Azure
1. 支持 Azure tenant_id/client_id 环境变量 - 开始使用, PR
2. 修正 2025+ API 版本 response_format 检查 - PR
3. 添加 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini 定价
VLLM
1. 文件 - 支持 VLLM 视频 URL 的 'file' 消息类型 - 开始使用, PR
2. 透传 - 新增 /vllm/ 透传端点支持开始使用, PR
Mistral
1. 新增 /mistral 透传端点支持开始使用, PR
AWS
1. 新增映射 Bedrock 区域 - PR
VertexAI / Google AI Studio
1. Gemini - 响应格式 - 通过指定 propertyOrdering 为 Google Gemini 和 Vertex 保留 schema 字段顺序 - 开始使用, PR
2. Gemini-2.5-flash - 返回推理内容 Google AI Studio, Vertex AI
3. Gemini-2.5-flash - 定价 + 模型信息 PR
4. 透传 - 新增 /vertex_ai/discovery 路由 - 使 AgentBuilder API 路由可调用开始使用, PR
Fireworks AI
1. 在 tool_calls 字段中返回工具调用响应（Fireworks 错误地将其作为内容中的 JSON 字符串返回） PR
Triton
1. 从 /generate 调用中移除固定的 bad_words / stop words 移除 - 开始使用, PR
其他
1. Responses API 支持所有 litellm 提供商（与 Codex 配合使用） - 开始使用, PR
2. 修正流式响应中合并多个工具调用的问题 - 开始使用, PR

花费跟踪改进

成本控制 - 在 prompt 中注入缓存控制点以降低成本开始使用, PR
花费标签 - header 中的花费标签 - 支持 x-litellm-tags 即使未启用基于标签的路由开始使用, PR
Gemini-2.5-flash - 支持推理 token 的成本计算 PR

管理端点 / UI

用户
1. 在用户页面显示 created_at 和 updated_at - PR
虚拟密钥
1. 按密钥别名过滤 - https://github.com/BerriAI/litellm/pull/10085
使用情况标签页
1. 基于团队的使用情况
  - 新增 LiteLLM_DailyTeamSpend 表用于聚合团队使用情况日志记录 - PR
  - 新增基于团队的使用情况仪表板 + 新的 /team/daily/activity API - PR
  - 在 /team/daily/activity API 上返回团队别名 - PR
  - 允许内部用户查看其所属团队的花费 - PR
  - 允许按团队查看热门密钥 - PR
2. 基于标签的使用情况
  - 新增 LiteLLM_DailyTagSpend 表用于聚合基于标签的使用情况日志记录 - PR
  - 仅限代理管理员 - PR
  - 允许按标签查看热门密钥
  - 在 /tag/list API 上返回请求中传递的标签（即动态标签） - PR
3. 在每日用户、团队、标签表中跟踪 prompt 缓存指标 - PR
4. 按密钥显示使用情况（在所有整体、团队和标签使用情况仪表板上） - PR
5. 将旧的使用情况标签页替换为新的使用情况标签页
模型
1. 使列可调整大小/可隐藏 - PR
API 演练场
1. 允许内部用户调用 API 演练场 - PR
SCIM
1. 添加用于团队和用户管理的 LiteLLM SCIM 集成 - 开始使用, PR

日志记录 / Guardrail 集成

GCS
1. 修正使用环境变量 GCS_PROJECT_ID 进行 GCS pub sub 日志记录的问题 - 开始使用, PR
AIM
1. 在 pre 和 post-hooks 调用中将 litellm 调用 ID 传递给 Aim guardrails - 开始使用, PR
Azure Blob 存储
1. 确保日志记录在高吞吐量场景下工作 - 开始使用, PR

通用代理改进

支持通过环境变量设置 litellm.modify_params PR
模型发现 - 调用代理的 /v1/models 端点时检查提供商的 /models 端点 - 开始使用, PR
/utils/token_counter - 修正检索数据库模型的自定义分词器问题 - 开始使用, PR
Prisma 迁移 - 处理数据库表中已存在的列 - PR

v1.66.0-stable - Realtime API 成本跟踪

2025年4月12日

Krrish Dholakia

LiteLLM 首席执行官

Ishaan Jaffer

LiteLLM 首席技术官

部署此版本

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

pip install litellm

pip install litellm==1.66.0.post1

v1.66.0-stable 现已上线，以下是本次发布的主要亮点

主要亮点

Realtime API 成本跟踪：跟踪 Realtime API 调用的成本
Microsoft SSO 自动同步：将组和组成员从 Azure Entra ID 自动同步到 LiteLLM
xAI grok-3：添加了对 xai/grok-3 模型支持
安全修正：修正了 CVE-2025-0330 和 CVE-2024-6825 漏洞

让我们深入了解。

Realtime API 成本跟踪

本次发布添加了 Realtime API 日志记录 + 成本跟踪。

日志记录：LiteLLM 现在将 Realtime 调用的完整响应记录到所有日志记录集成（DB、S3、Langfuse 等）。
成本跟踪：您现在可以为 Realtime 模型设置 'base_model' 和自定义定价。自定义定价
预算：您的密钥/用户/团队预算现在也适用于 Realtime 模型。

从这里开始

Microsoft SSO 自动同步

将 Azure Entra ID 中的组和成员自动同步到 LiteLLM

本次发布增加了对将 Microsoft Entra ID 中的组和成员与 LiteLLM 自动同步的支持。这意味着 LiteLLM 代理管理员可以花更少的时间管理团队和成员，LiteLLM 处理以下事项：

自动创建存在于 Microsoft Entra ID 中的团队
将 Microsoft Entra ID 中的团队成员与 LiteLLM 团队同步

从这里开始使用此功能

新模型 / 更新的模型

xAI
1. 添加了对 xai/grok-3-mini-beta 的 reasoning_effort 支持开始使用
2. 添加了对 xai/grok-3 模型成本跟踪 PR
Hugging Face
1. 添加了推理提供商支持开始使用
Azure
1. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
VertexAI
1. 添加了 enterpriseWebSearch 工具支持开始使用
2. 更改为仅传递 Vertex AI 响应 schema 接受的密钥 PR
Google AI Studio
1. 添加了对 gemini-2.5-pro 成本跟踪 PR
2. 修正了 'gemini/gemini-2.5-pro-preview-03-25' 的定价 PR
3. 修正了处理传入 file_data 的问题 PR
Azure
1. 更新了 Azure Phi-4 定价 PR
2. 添加了 azure/gpt-4o-realtime-audio 成本跟踪 PR
Databricks
1. 从参数中移除了 reasoning_effort PR
2. 修正了 Databricks 的自定义端点检查问题 PR
通用
1. 添加了 litellm.supports_reasoning() 工具函数以跟踪 LLM 是否支持 reasoning 开始使用
2. 函数调用 - 在消息工具调用中处理 pydantic 基础模型，处理 tools = []，并支持 meta.llama3-3-70b-instruct-v1:0 的工具调用伪流式传输 PR
3. LiteLLM 代理 - 允许通过客户端 SDK 将 thinking 参数传递给 litellm 代理 PR
4. 修正了为 litellm 正确翻译 'thinking' 参数的问题 PR

花费跟踪改进

OpenAI, Azure
1. Realtime API 成本跟踪及消费日志中的 token 使用量指标开始使用
Anthropic
1. 修正了 Claude Haiku 缓存读取每 token 定价问题 PR
2. 添加了对带 base_model 的 Claude 响应的成本跟踪 PR
3. 修正了 Anthropic prompt 缓存成本计算，并截断了数据库中记录的消息 PR
通用
1. 添加了 token 跟踪并在消费日志中记录使用量对象 PR
2. 处理部署级别的自定义定价 PR

管理端点 / UI

测试密钥标签页
1. 在测试密钥页面添加了推理内容、ttft、使用量指标的渲染 PR
  查看输入、输出、推理 token、ttft 指标。
标签 / 策略管理
1. 添加了标签/策略管理。根据请求元数据创建路由规则。这允许您强制要求带有 tags="private" 的请求只发送到特定模型。开始使用
  
  创建和管理标签。
重新设计的登录界面
1. 优化了登录界面 PR
Microsoft SSO 自动同步
1. 添加了调试路由，允许管理员调试 SSO JWT 字段 PR
2. 添加了使用 MSFT Graph API 将用户分配到团队的功能 PR
3. 将 litellm 连接到 Azure Entra ID 企业应用程序 PR
4. 添加了管理员设置 default_team_params 的功能，用于 litellm SSO 创建默认团队时使用 PR
5. 修正了 MSFT SSO 使用正确的字段获取用户电子邮件的问题 PR
6. 添加了 UI 支持，用于设置 litellm SSO 自动创建团队时的默认团队设置 PR
UI 错误修正
1. 防止团队、密钥、组织、模型数值在滚动时改变 PR
2. 在 UI 中即时反映密钥和团队更新 PR

日志记录 / Guardrail 改进

Prometheus
1. 根据 cron 计划发送密钥和团队预算指标开始使用

安全修正

修正 CVE-2025-0330 - 团队异常处理中 Langfuse API 密钥泄露 PR
修正 CVE-2024-6825 - post call rules 中的远程代码执行漏洞 PR

Helm

为 litellm-helm chart 添加了服务注解 PR
为 helm 部署添加了 extraEnvVars PR

演示

立即在演示实例上尝试此功能

完整 Git Diff

查看自 v1.65.4-stable 以来的完整 Git Diff，这里

主要亮点​

SCIM 集成​

基于团队和标签的使用情况跟踪​

统一响应 API​

新模型 / 更新的模型​

花费跟踪改进​

管理端点 / UI​

日志记录 / Guardrail 集成​

通用代理改进​

部署此版本​

主要亮点​

Realtime API 成本跟踪​

Microsoft SSO 自动同步​

新模型 / 更新的模型​

花费跟踪改进​

管理端点 / UI​

日志记录 / Guardrail 改进​

安全修正​

Helm​

演示​

完整 Git Diff​

主要亮点

SCIM 集成

基于团队和标签的使用情况跟踪

统一响应 API

新模型 / 更新的模型

花费跟踪改进

管理端点 / UI

日志记录 / Guardrail 集成

通用代理改进

部署此版本

主要亮点

Realtime API 成本跟踪

Microsoft SSO 自动同步

新模型 / 更新的模型

花费跟踪改进

管理端点 / UI

日志记录 / Guardrail 改进

安全修正

Helm

演示

完整 Git Diff