跳到主要内容

一篇标记为“提示管理”的帖子

查看所有标签

v1.57.8-stable

2025年1月11日

Krrish Dholakia

LiteLLM 首席执行官

LiteLLM 首席技术官

告警, prometheus, 密钥管理, 管理端点, ui, 提示管理, 微调, 批处理

新增/更新的模型

Mistral large 定价 - https://github.com/BerriAI/litellm/pull/7452
Cohere command-r7b-12-2024 定价 - https://github.com/BerriAI/litellm/pull/7553/files
Voyage - 新模型、价格和上下文窗口信息 - https://github.com/BerriAI/litellm/pull/7472
Anthropic - 将 Bedrock claude-3-5-haiku 的 max_output_tokens 提高到 8192

通用代理改进

支持实时模型的健康检查
支持通过虚拟密钥调用 Azure 实时路由
在 /utils/token_counter 上支持自定义分词器 - 在检查自托管模型的 token 计数时很有用
请求优先级 - 在 /v1/completion 端点上也支持

LLM 翻译改进

支持 Deepgram STT。从这里开始
OpenAI 审核 - 支持 omni-moderation-latest。从这里开始
Azure O1 - 伪流式支持。这确保如果传递了 stream=true，响应会以流式传输。从这里开始
Anthropic - 非空白字符停止序列处理 - PR
Azure OpenAI - 支持基于 Entra ID 用户名+密码的认证。从这里开始
LM Studio - 支持 embedding 路由。从这里开始
WatsonX - 支持 ZenAPIKeyAuth。从这里开始

提示管理改进

Langfuse 集成
HumanLoop 集成
支持使用负载均衡的模型
支持从提示管理器加载可选参数

从这里开始

微调 + 批处理 API 改进

改进了对 Vertex AI 微调的统一端点支持 - PR
添加了对检索 vertex api 批处理作业的支持 - PR

新增告警集成

PagerDuty 告警集成。

处理两种类型的告警

高 LLM API 失败率。配置 X 秒内失败 Y 次以触发告警。
挂起 LLM 请求数量过多。配置 X 秒内挂起 Y 次以触发告警。

从这里开始

Prometheus 改进

增加了支持基于自定义指标跟踪延迟/花费/token。从这里开始

新增 Hashicorp 密钥管理器支持

支持读取凭据 + 写入 LLM API 密钥。从这里开始

管理端点/UI 改进

在代理 UI 上创建和查看组织 + 分配组织管理员
支持按 key_alias 删除密钥
允许在 UI 上将团队分配给组织
禁止在“测试密钥”面板中使用 UI 会话令牌
在“测试密钥”面板中显示使用的模型
支持在“测试密钥”面板中输出 Markdown

Helm 改进

阻止 istio 注入数据库迁移 cron 作业
允许在作业中使用 migrationJob.enabled 变量

日志改进

braintrust 日志：尊重 project_id，添加更多指标 - https://github.com/BerriAI/litellm/pull/7613
Athina - 支持 base url - ATHINA_BASE_URL
Lunary - 允许将自定义父运行 ID 传递给 LLM 调用

Git Diff

这是 v1.56.3-stable 和 v1.57.8-stable 之间的差异。

使用此查看代码库中的更改。