ARouter はこれらのパラメータをアップストリームプロバイダーにそのまま転送します。一部のパラメータはプロバイダー固有です(非 OpenAI モデルの top_k など)。サポートされているパラメータを確認するには、各プロバイダーのドキュメントを参照してください。
モデル選択とルーティング動作はモデルルーティングとプロバイダールーティングで別途説明されています。
Temperature
- キー:
temperature
- オプション、浮動小数点数、0.0 〜 2.0
- デフォルト:1.0
モデルのレスポンスの多様性に影響します。値が低いほど予測可能で典型的なレスポンスになり、値が高いほど多様で珍しいレスポンスが生成されます。0 の場合、モデルは同じ入力に対して常に同じレスポンスを返します。
Top P
- キー:
top_p
- オプション、浮動小数点数、0.0 〜 1.0
- デフォルト:1.0
モデルの選択肢を、確率の合計が P になるまでのトップトークンに制限します。値が低いほどモデルのレスポンスが予測可能になり、デフォルト設定ではトークン選択の全範囲が許可されます。動的な Top-K と考えてください。
Top K
- キー:
top_k
- オプション、整数、0 以上
- デフォルト:0
各ステップでモデルのトークン選択肢を制限し、より小さなセットから選ばせます。1 の場合、モデルは常に最も可能性の高い次のトークンを選択し、予測可能な結果になります。デフォルトではこの設定は無効になっており、モデルはすべての選択肢を考慮します。
top_k は OpenAI モデルでは使用できません。
頻度ペナルティ
- キー:
frequency_penalty
- オプション、浮動小数点数、-2.0 〜 2.0
- デフォルト:0.0
入力でのトークンの出現頻度に基づいてその繰り返しを制御します。入力に多く現れるトークンほど、出現頻度に比例して使用が少なくなります。トークンペナルティは出現回数に比例してスケールします。負の値はトークンの再利用を促進します。
存在ペナルティ
- キー:
presence_penalty
- オプション、浮動小数点数、-2.0 〜 2.0
- デフォルト:0.0
入力で既に使用された特定のトークンがモデルによって繰り返される頻度を調整します。値が高いほどそのような繰り返しが起こりにくくなり、負の値はその逆です。トークンペナルティは出現回数に比例してスケールしません。負の値はトークンの再利用を促進します。
繰り返しペナルティ
- キー:
repetition_penalty
- オプション、浮動小数点数、0.0 〜 2.0
- デフォルト:1.0
入力からのトークンの繰り返しを減らすのに役立ちます。値が高いほどモデルがトークンを繰り返す可能性が低くなりますが、高すぎると出力の一貫性が失われる可能性があります。トークンペナルティは元のトークンの確率に基づいてスケールします。
Min P
- キー:
min_p
- オプション、浮動小数点数、0.0 〜 1.0
- デフォルト:0.0
最も可能性の高いトークンの確率に対する相対的な、トークンが考慮される最小確率を表します。min_p が 0.1 に設定されている場合、最良の選択肢の少なくとも 1/10 の確率があるトークンのみが考慮されます。
Top A
- キー:
top_a
- オプション、浮動小数点数、0.0 〜 1.0
- デフォルト:0.0
最も可能性の高いトークンの確率に基づいて「十分に高い」確率を持つトップトークンのみを考慮します。動的な Top-P と考えてください。Top-A の値が低いほど、最高確率トークンに基づいて選択が絞り込まれますが、範囲は狭くなります。
Seed
指定した場合、推論は決定論的にサンプリングされ、同じ seed とパラメータによる繰り返しリクエストは同じ結果を返すはずです。すべてのモデルで決定性は保証されません。
Max Tokens
- キー:
max_tokens
- オプション、整数、1 以上
モデルがレスポンスで生成できるトークン数の上限を設定します。最大値はコンテキスト長からプロンプト長を引いた値です。
Logit Bias
トークン ID を -100 〜 100 の関連バイアス値にマッピングする JSON オブジェクトを受け入れます。数学的には、バイアスはサンプリング前にモデルが生成した logit に加算されます。-1 〜 1 の値は選択の可能性を下げたり上げたりします。-100 や 100 のような値は、関連するトークンの禁止または排他的選択をもたらします。
Logprobs
出力トークンの対数確率を返すかどうかを指定します。true の場合、返された各出力トークンの対数確率が返されます。
Top Logprobs
各トークン位置で返す最も可能性の高いトークン数を 0 〜 20 の整数で指定します。各トークンには関連する対数確率が含まれます。このパラメータを使用する場合、logprobs を true に設定する必要があります。
- キー:
response_format
- オプション、オブジェクト
モデルに特定の出力形式を強制します。{ "type": "json_object" } に設定すると JSON モードが有効になり、モデルが生成するメッセージが有効な JSON であることが保証されます。
厳格なスキーマ検証には、{ "type": "json_schema", "json_schema": { ... } } を使用してください。
{ "type": "json_object" } を使用する場合も、プロンプトでモデルに JSON で応答するよう指示してください。
詳細な使用方法と例については構造化出力を参照してください。
Stop
モデルが stop 配列で指定されたトークンに遭遇した場合、即座に生成を停止します。
ツール呼び出しパラメータ。OpenAI のツール呼び出しリクエスト形式に従います。非 OpenAI インターフェースを持つプロバイダーの場合、ARouter がツールを適切に変換します。
詳細な使用方法と例についてはツール呼び出しを参照してください。
- キー:
tool_choice
- オプション、文字列またはオブジェクト
モデルがどのツールを呼び出すか(存在する場合)を制御します:
"none":モデルはツールを呼び出さず、代わりにメッセージを生成します
"auto":モデルはメッセージの生成と1つ以上のツールの呼び出しを選択できます
"required":モデルは1つ以上のツールを呼び出す必要があります
{"type": "function", "function": {"name": "my_function"}}:モデルにその特定のツールを強制的に呼び出させます
並列ツール呼び出し
- キー:
parallel_tool_calls
- オプション、ブール値
- デフォルト:true
ツール使用時に並列関数呼び出しを有効にするかどうかを指定します。true の場合、モデルは複数の関数を同時に呼び出せます。false の場合、関数は順番に呼び出されます。tools が提供された場合にのみ適用されます。
Prediction
- キー:
prediction
- オプション、オブジェクト
予測出力をモデルに提供することでレイテンシを削減します。レスポンスの内容の大部分が事前にわかっている場合に便利です。
{
"prediction": {
"type": "content",
"content": "The predicted content here..."
}
}
受け入れられた予測トークンは、レスポンス使用量の completion_tokens_details.accepted_prediction_tokens に反映されます。