信息
在这里获取 LiteLLM 企业版 7 天免费试用。
无需通话
新模型 / 更新模型
- 新增 OpenAI
/image/variations
端点 BETA 支持 文档 - 在 OpenAI
/image/variations
BETA 端点上支持 Topaz API 文档 - Deepseek - 支持 r1 和 reasoning_content (Deepseek API, Vertex AI, Bedrock)
- Azure - 添加 azure o1 定价 在此查看
- Anthropic - 处理模型中的
-latest
标签进行成本计算 - Gemini-2.0-flash-thinking - 添加模型定价(0.0) 在此查看
- Bedrock - 添加 stability sd3 模型定价 在此查看 (感谢 Marty Sullivan)
- Bedrock - 将 us.amazon.nova-lite-v1:0 添加到模型成本图 在此查看
- TogetherAI - 添加新的 together_ai llama3.3 模型 在此查看
LLM 翻译
- LM Studio -> 修复异步 embedding 调用
- Gpt 4o 模型 - 修复 response_format 翻译
- Bedrock nova - 扩展支持的文档类型,包含 .md, .csv 等。 从这里开始
- Bedrock - 关于 Bedrock 的基于 IAM 角色访问的文档 - 从这里开始
- Bedrock - 使用时缓存 IAM 角色凭证
- Google AI Studio (
gemini/
) - 支持 gemini 的 'frequency_penalty' 和 'presence_penalty' - Azure O1 - 修复模型名称检查
- WatsonX - 支持 WatsonX 的 ZenAPIKey 文档
- Ollama Chat - 支持 json schema 响应格式 从这里开始
- Bedrock - 如果在 streaming 期间发生错误,返回正确的 bedrock 状态码和错误消息
- Anthropic - 在 anthropic 调用中支持嵌套 json schema
- OpenAI - 支持
metadata
参数预览- SDK - 通过
litellm.enable_preview_features = True
启用 - PROXY - 通过
litellm_settings::enable_preview_features: true
启用
- SDK - 通过
- Replicate - 在 status=processing 时重试 completion 响应
支出跟踪改进
- Bedrock - QA 断言所有 bedrock 区域模型具有与基础模型相同的
supported_
- Bedrock - 修复指定区域名称的 bedrock converse 成本跟踪
- 支出日志可靠性修复 - 当请求体中传入的
user
是 int 而非 string 时 - 确保“base_model”成本跟踪在所有端点上都有效
- 图像生成成本跟踪的修复
- Anthropic - 修复 anthropic 终端用户成本跟踪
- JWT / OIDC 认证 - 添加来自 jwt 认证的终端用户 ID 跟踪
管理端点 / UI
- 允许团队成员在添加后成为管理员(UI + 端点)
- UI 上更新团队成员的新编辑/删除按钮
- 如果是团队管理员 - 显示所有团队密钥
- 模型中心 - 澄清模型成本是每 100 万 token
- 邀请链接 - 修复生成的无效 URL
- 新功能 - 支出日志表查看器 - 允许代理管理员在 UI 上查看支出日志
- 新支出日志 - 允许代理管理员“选择加入”在支出日志表中记录请求/响应 - 便于更轻松地检测滥用行为
- 在支出日志中显示来源国家/地区
- 添加分页 + 按密钥名称/团队名称过滤
/key/delete
- 允许团队管理员删除团队密钥- 内部用户“视图” - 修复选择团队时的支出计算
- 模型分析现在可在免费版中使用
- 使用情况页面 - 显示支出为 0 的日期,并在图表上将支出四舍五入到 2 位有效数字
- 公共团队 - 允许管理员在 UI 上公开团队供新用户“加入” - 从这里开始
- 护栏
- 在虚拟密钥上设置/编辑护栏
- 允许在团队上设置护栏
- 在团队创建 + 编辑页面上设置护栏
- 支持在
/key/update
上临时增加预算 - 新增temp_budget_increase
和temp_budget_expiry
字段 - 从这里开始 - 支持将新密钥别名写入 AWS Secret Manager - 在密钥轮换时 从这里开始
Helm
- 将 securityContext 和 pull policy 值添加到迁移任务(感谢 https://github.com/Hexoplon)
- 允许在 values.yaml 中指定 envVars
- 新增 helm lint 测试
日志记录 / 护栏集成
- 使用 prompt management 时记录所使用的 prompt。 从这里开始
- 支持带有团队别名前缀的 s3 日志记录 - 从这里开始
- Prometheus 从这里开始
- 修复 bedrock 模型中 litellm_llm_api_time_to_first_token_metric 未填充的问题
- 定期发出剩余团队预算指标(即使未进行调用) - 允许在 Grafana 等平台上获得更稳定的指标
- 添加密钥和团队级别的预算指标
- 发出
litellm_overhead_latency_metric
- 发出
litellm_team_budget_reset_at_metric
和litellm_api_key_budget_remaining_hours_metric
- Datadog - 支持将支出标签记录到 Datadog。 从这里开始
- Langfuse - 修复日志记录请求标签,从标准日志 payload 读取
- GCS - 记录时不对 payload 进行截断
- 新增 GCS Pub/Sub 日志记录支持 从这里开始
- 添加 AIM 护栏支持 从这里开始
安全
- 新增针对安全漏洞修补的企业 SLA。 在此查看
- Hashicorp - 支持使用 vault namespace 进行 TLS 认证。 从这里开始
- Azure - 支持 DefaultAzureCredential
健康检查
- 清理通配符路由列表中的仅定价模型名称 - 防止出现错误的健康检查
- 允许为通配符路由指定健康检查模型 - https://docs.litellm.com.cn/docs/proxy/health#wildcard-routes
- 新增“health_check_timeout”参数,默认上限为 1 分钟,以防止不良模型的健康检查挂起并导致 pod 重启。 从这里开始
- Datadog - 添加 Datadog 服务健康检查 + 暴露新的
/health/services
端点。 从这里开始
性能 / 可靠性改进
- RPS 提高 3 倍 - 改用 orjson 读取请求体
- LLM 路由加速 - 使用缓存的模型组信息获取
- SDK 加速 - 使用缓存的模型信息辅助函数 - 减少获取模型信息的 CPU 工作量
- Proxy 加速 - 每请求只读取请求体一次
- 代码库中添加了无限循环检测脚本
- Bedrock - 纯异步图像转换请求
- 冷却期 - 如果在高流量下 100% 调用失败,则采用单一部署模型组 - 防止 o1 中断影响其他调用
- 响应头 - 返回
x-litellm-timeout
x-litellm-attempted-retries
x-litellm-overhead-duration-ms
x-litellm-response-duration-ms
- 确保不会将重复的回调添加到代理
- Requirements.txt - 升级 certifi 版本
一般代理改进
- JWT / OIDC 认证 - 新增
enforce_rbac
参数,允许代理管理员阻止任何未映射但已认证的 jwt token 调用代理。 从这里开始 - 修复定制 swagger 的自定义 openapi schema 生成问题
- 请求头 - 支持从请求头读取
x-litellm-timeout
参数。在使用 Vercel 的 AI SDK + LiteLLM Proxy 时,可以控制模型超时。 从这里开始 - JWT / OIDC 认证 - 新增基于
role
的模型认证权限。 在此查看
完整的 Git Diff
这是 v1.57.8-stable 和 v1.59.8-stable 之间的 diff。
使用此内容查看代码库中的更改。