跳到主要内容

一篇标记为“提示管理”的帖子

查看所有标签

Krrish Dholakia
Ishaan Jaffer

告警, prometheus, 密钥管理, 管理端点, ui, 提示管理, 微调, 批处理

新增/更新的模型

  1. Mistral large 定价 - https://github.com/BerriAI/litellm/pull/7452
  2. Cohere command-r7b-12-2024 定价 - https://github.com/BerriAI/litellm/pull/7553/files
  3. Voyage - 新模型、价格和上下文窗口信息 - https://github.com/BerriAI/litellm/pull/7472
  4. Anthropic - 将 Bedrock claude-3-5-haiku 的 max_output_tokens 提高到 8192

通用代理改进

  1. 支持实时模型的健康检查
  2. 支持通过虚拟密钥调用 Azure 实时路由
  3. /utils/token_counter 上支持自定义分词器 - 在检查自托管模型的 token 计数时很有用
  4. 请求优先级 - 在 /v1/completion 端点上也支持

LLM 翻译改进

  1. 支持 Deepgram STT。从这里开始
  2. OpenAI 审核 - 支持 omni-moderation-latest从这里开始
  3. Azure O1 - 伪流式支持。这确保如果传递了 stream=true,响应会以流式传输。从这里开始
  4. Anthropic - 非空白字符停止序列处理 - PR
  5. Azure OpenAI - 支持基于 Entra ID 用户名+密码的认证。从这里开始
  6. LM Studio - 支持 embedding 路由。从这里开始
  7. WatsonX - 支持 ZenAPIKeyAuth。从这里开始

提示管理改进

  1. Langfuse 集成
  2. HumanLoop 集成
  3. 支持使用负载均衡的模型
  4. 支持从提示管理器加载可选参数

从这里开始

微调 + 批处理 API 改进

  1. 改进了对 Vertex AI 微调的统一端点支持 - PR
  2. 添加了对检索 vertex api 批处理作业的支持 - PR

新增 告警集成

PagerDuty 告警集成。

处理两种类型的告警

  • 高 LLM API 失败率。配置 X 秒内失败 Y 次以触发告警。
  • 挂起 LLM 请求数量过多。配置 X 秒内挂起 Y 次以触发告警。

从这里开始

Prometheus 改进

增加了支持基于自定义指标跟踪延迟/花费/token。从这里开始

新增 Hashicorp 密钥管理器支持

支持读取凭据 + 写入 LLM API 密钥。从这里开始

管理端点/UI 改进

  1. 在代理 UI 上创建和查看组织 + 分配组织管理员
  2. 支持按 key_alias 删除密钥
  3. 允许在 UI 上将团队分配给组织
  4. 禁止在“测试密钥”面板中使用 UI 会话令牌
  5. 在“测试密钥”面板中显示使用的模型
  6. 支持在“测试密钥”面板中输出 Markdown

Helm 改进

  1. 阻止 istio 注入数据库迁移 cron 作业
  2. 允许在作业中使用 migrationJob.enabled 变量

日志改进

  1. braintrust 日志:尊重 project_id,添加更多指标 - https://github.com/BerriAI/litellm/pull/7613
  2. Athina - 支持 base url - ATHINA_BASE_URL
  3. Lunary - 允许将自定义父运行 ID 传递给 LLM 调用

Git Diff

这是 v1.56.3-stable 和 v1.57.8-stable 之间的差异。

使用此查看代码库中的更改。

Git Diff