跳转到主要内容
ARouter 将这些参数原样转发给上游提供商。部分参数是提供商特定的(例如非 OpenAI 模型的 top_k)。请参阅各提供商的文档以确认支持哪些参数。 模型选择和路由行为在模型路由提供商路由中单独说明。

Temperature

  • 键名:temperature
  • 可选,浮点数,0.0 到 2.0
  • 默认值:1.0
影响模型响应的多样性。较低的值会产生更可预测、更典型的响应,而较高的值则会鼓励更多样化、更不常见的响应。值为 0 时,模型对给定输入始终给出相同的响应。

Top P

  • 键名:top_p
  • 可选,浮点数,0.0 到 1.0
  • 默认值:1.0
将模型的选择限制在概率总和达到 P 的前几个 Token 中。较低的值使模型响应更可预测,而默认设置允许完整范围的 Token 选择。可以理解为动态的 Top-K。

Top K

  • 键名:top_k
  • 可选,整数,0 或以上
  • 默认值:0
限制模型在每一步选择的 Token 数量,使其从较小的集合中选择。值为 1 时,模型始终选择最可能的下一个 Token,产生可预测的结果。默认情况下此设置被禁用,使模型考虑所有选择。
top_k 不适用于 OpenAI 模型。

频率惩罚

  • 键名:frequency_penalty
  • 可选,浮点数,-2.0 到 2.0
  • 默认值:0.0
根据 Token 在输入中出现的频率控制其重复使用。它会减少那些在输入中出现更频繁的 Token 的使用,与其出现频率成比例。Token 惩罚随出现次数线性增加。负值会鼓励 Token 重用。

存在惩罚

  • 键名:presence_penalty
  • 可选,浮点数,-2.0 到 2.0
  • 默认值:0.0
调整模型重复输入中已出现的特定 Token 的频率。较高的值使此类重复不太可能发生,而负值则相反。Token 惩罚不随出现次数增加。负值会鼓励 Token 重用。

重复惩罚

  • 键名:repetition_penalty
  • 可选,浮点数,0.0 到 2.0
  • 默认值:1.0
有助于减少输入中 Token 的重复。较高的值使模型不太可能重复 Token,但值过高可能使输出不连贯。Token 惩罚基于原始 Token 的概率进行缩放。

Min P

  • 键名:min_p
  • 可选,浮点数,0.0 到 1.0
  • 默认值:0.0
表示一个 Token 被考虑的最小概率,相对于最可能 Token 的概率。如果 min_p 设置为 0.1,则只考虑概率至少是最佳选项的 1/10 的 Token。

Top A

  • 键名:top_a
  • 可选,浮点数,0.0 到 1.0
  • 默认值:0.0
仅考虑基于最可能 Token 的概率而具有”足够高”概率的前几个 Token。可以理解为动态的 Top-P。较低的 Top-A 值会根据最高概率 Token 聚焦选择,但范围更窄。

Seed

  • 键名:seed
  • 可选,整数
如果指定,推理将进行确定性采样,使得具有相同 seed 和参数的重复请求应返回相同结果。并非所有模型都保证确定性。

Max Tokens

  • 键名:max_tokens
  • 可选,整数,1 或以上
设置模型在响应中可以生成的 Token 数量上限。最大值为上下文长度减去提示长度。

Logit Bias

  • 键名:logit_bias
  • 可选,映射
接受一个 JSON 对象,将 Token ID 映射到 -100 到 100 之间的偏差值。从数学上讲,偏差在采样前被添加到模型生成的 logit 上。-1 到 1 之间的值会降低或提高被选中的可能性;-100 或 100 之类的值会导致相关 Token 被禁止或被独占选择。

Logprobs

  • 键名:logprobs
  • 可选,布尔值
是否返回输出 Token 的对数概率。如果为 true,则返回每个输出 Token 的对数概率。

Top Logprobs

  • 键名:top_logprobs
  • 可选,整数
一个 0 到 20 之间的整数,指定在每个 Token 位置返回的最可能 Token 数量,每个都带有相关对数概率。使用此参数时,logprobs 必须设置为 true

Response Format

  • 键名:response_format
  • 可选,对象
强制模型生成特定的输出格式。设置为 { "type": "json_object" } 可启用 JSON 模式,保证模型生成的消息是有效的 JSON。 要进行严格的模式验证,请使用 { "type": "json_schema", "json_schema": { ... } } 使用 { "type": "json_object" } 时,您仍应在提示中指示模型以 JSON 格式响应。 详细用法和示例请参阅结构化输出

Stop

  • 键名:stop
  • 可选,字符串或数组
如果模型遇到 stop 数组中指定的任何 Token,则立即停止生成。

Tools

  • 键名:tools
  • 可选,数组
工具调用参数,遵循 OpenAI 的工具调用请求格式。对于具有非 OpenAI 接口的提供商,ARouter 会相应转换工具。 详细用法和示例请参阅工具调用

Tool Choice

  • 键名:tool_choice
  • 可选,字符串或对象
控制模型调用哪个(如果有)工具:
  • "none":模型不会调用任何工具,而是生成消息
  • "auto":模型可以在生成消息或调用一个或多个工具之间进行选择
  • "required":模型必须调用一个或多个工具
  • {"type": "function", "function": {"name": "my_function"}}:强制模型调用特定工具

并行工具调用

  • 键名:parallel_tool_calls
  • 可选,布尔值
  • 默认值:true
是否在工具使用时启用并行函数调用。如果为 true,模型可以同时调用多个函数。如果为 false,函数将按顺序调用。仅在提供 tools 时适用。

Prediction

  • 键名:prediction
  • 可选,对象
通过向模型提供预测输出来降低延迟。当您预先知道大部分响应内容时非常有用。
{
  "prediction": {
    "type": "content",
    "content": "The predicted content here..."
  }
}
被接受的预测 Token 会反映在响应用量的 completion_tokens_details.accepted_prediction_tokens 中。