跳到主要内容

裁剪输入消息

使用 litellm.trim_messages() 确保消息不超过模型的 token 限制或指定的 max_tokens

用法

from litellm import completion
from litellm.utils import trim_messages

response = completion(
model=model,
messages=trim_messages(messages, model) # trim_messages ensures tokens(messages) < max_tokens(model)
)

用法 - 设置 max_tokens

from litellm import completion
from litellm.utils import trim_messages

response = completion(
model=model,
messages=trim_messages(messages, model, max_tokens=10), # trim_messages ensures tokens(messages) < max_tokens
)

参数

该函数使用以下参数

  • messages:[必填]这应该是一个输入消息列表

  • model:[可选]这是正在使用的 LiteLLM 模型。此参数是可选的,因为您可以选择指定 max_tokens 参数。

  • max_tokens:[可选]这是一个整数,手动设置消息的上限

  • trim_ratio:[可选]这表示裁剪后目标 token 使用比例。其默认值为 0.75,这意味着消息将被裁剪以利用约 75%