ARouter는 이 파라미터들을 업스트림 프로바이더에 그대로 전달합니다. 일부 파라미터는 프로바이더 특정적입니다(비 OpenAI 모델의 top_k 등). 지원되는 파라미터를 확인하려면 각 프로바이더의 문서를 참조하세요.
모델 선택 및 라우팅 동작은 모델 라우팅 및 프로바이더 라우팅에서 별도로 설명합니다.
Temperature
- 키:
temperature
- 선택적, 부동 소수점, 0.0 ~ 2.0
- 기본값: 1.0
모델 응답의 다양성에 영향을 줍니다. 값이 낮을수록 더 예측 가능하고 전형적인 응답이 나오고, 값이 높을수록 더 다양하고 드문 응답이 나옵니다. 0일 때 모델은 동일한 입력에 대해 항상 같은 응답을 반환합니다.
Top P
- 키:
top_p
- 선택적, 부동 소수점, 0.0 ~ 1.0
- 기본값: 1.0
모델의 선택을 확률이 P에 합산되는 상위 토큰의 비율로 제한합니다. 값이 낮을수록 모델 응답이 더 예측 가능해지고, 기본 설정은 토큰 선택의 전체 범위를 허용합니다. 동적인 Top-K로 생각하세요.
Top K
- 키:
top_k
- 선택적, 정수, 0 이상
- 기본값: 0
각 단계에서 모델의 토큰 선택을 제한하여 더 작은 세트에서 선택하게 합니다. 1이면 모델은 항상 가장 가능성 높은 다음 토큰을 선택하여 예측 가능한 결과를 만듭니다. 기본적으로 이 설정은 비활성화되어 모델이 모든 선택을 고려합니다.
top_k는 OpenAI 모델에서는 사용할 수 없습니다.
빈도 페널티
- 키:
frequency_penalty
- 선택적, 부동 소수점, -2.0 ~ 2.0
- 기본값: 0.0
입력에서 나타나는 빈도에 따라 토큰의 반복을 제어합니다. 입력에 더 자주 나타나는 토큰을 빈도에 비례하여 덜 사용하려고 합니다. 토큰 페널티는 출현 횟수에 따라 스케일됩니다. 음수 값은 토큰 재사용을 장려합니다.
존재 페널티
- 키:
presence_penalty
- 선택적, 부동 소수점, -2.0 ~ 2.0
- 기본값: 0.0
입력에서 이미 사용된 특정 토큰이 모델에 의해 반복되는 빈도를 조정합니다. 값이 높을수록 그러한 반복이 덜 일어나고, 음수 값은 반대입니다. 토큰 페널티는 출현 횟수에 따라 스케일되지 않습니다. 음수 값은 토큰 재사용을 장려합니다.
반복 페널티
- 키:
repetition_penalty
- 선택적, 부동 소수점, 0.0 ~ 2.0
- 기본값: 1.0
입력에서 토큰의 반복을 줄이는 데 도움이 됩니다. 값이 높을수록 모델이 토큰을 반복할 가능성이 낮아지지만, 너무 높으면 출력의 일관성이 떨어질 수 있습니다. 토큰 페널티는 원래 토큰의 확률에 따라 스케일됩니다.
Min P
- 키:
min_p
- 선택적, 부동 소수점, 0.0 ~ 1.0
- 기본값: 0.0
가장 가능성 높은 토큰의 확률에 상대적으로 토큰이 고려될 최소 확률을 나타냅니다. min_p가 0.1로 설정되면 최선의 옵션의 1/10 이상의 확률을 가진 토큰만 고려됩니다.
Top A
- 키:
top_a
- 선택적, 부동 소수점, 0.0 ~ 1.0
- 기본값: 0.0
가장 가능성 높은 토큰의 확률에 기반하여 “충분히 높은” 확률을 가진 상위 토큰만 고려합니다. 동적인 Top-P로 생각하세요. Top-A 값이 낮을수록 최고 확률 토큰을 기반으로 선택이 집중되지만 범위가 좁아집니다.
Seed
지정된 경우 추론이 결정론적으로 샘플링되어 동일한 seed 및 파라미터로 반복된 요청이 동일한 결과를 반환해야 합니다. 모든 모델에서 결정론은 보장되지 않습니다.
Max Tokens
- 키:
max_tokens
- 선택적, 정수, 1 이상
모델이 응답에서 생성할 수 있는 토큰 수의 상한을 설정합니다. 최대값은 컨텍스트 길이에서 프롬프트 길이를 뺀 값입니다.
Logit Bias
토큰 ID를 -100 ~ 100의 관련 바이어스 값에 매핑하는 JSON 객체를 허용합니다. 수학적으로 바이어스는 샘플링 전에 모델이 생성한 logit에 추가됩니다. -1 ~ 1 사이의 값은 선택 가능성을 낮추거나 높이고, -100 또는 100 같은 값은 관련 토큰의 금지 또는 독점 선택을 초래합니다.
Logprobs
출력 토큰의 로그 확률을 반환할지 여부입니다. true이면 반환된 각 출력 토큰의 로그 확률이 반환됩니다.
Top Logprobs
각 토큰 위치에서 반환할 가장 가능성 높은 토큰 수를 0 ~ 20의 정수로 지정합니다. 각각 관련 로그 확률이 포함됩니다. 이 파라미터를 사용할 때 logprobs를 true로 설정해야 합니다.
- 키:
response_format
- 선택적, 객체
모델이 특정 출력 형식을 생성하도록 강제합니다. { "type": "json_object" }로 설정하면 JSON 모드가 활성화되어 모델이 생성하는 메시지가 유효한 JSON임을 보장합니다.
엄격한 스키마 검증을 위해서는 { "type": "json_schema", "json_schema": { ... } }를 사용하세요.
{ "type": "json_object" }를 사용할 때도 프롬프트에서 모델에게 JSON으로 응답하도록 지시해야 합니다.
자세한 사용법과 예시는 구조화된 출력을 참조하세요.
Stop
모델이 stop 배열에 지정된 토큰을 만나면 즉시 생성을 중지합니다.
도구 호출 파라미터로, OpenAI의 도구 호출 요청 형태를 따릅니다. 비 OpenAI 인터페이스를 가진 프로바이더의 경우 ARouter가 도구를 적절히 변환합니다.
자세한 사용법과 예시는 도구 호출을 참조하세요.
- 키:
tool_choice
- 선택적, 문자열 또는 객체
모델이 어떤 도구를 호출할지(있는 경우) 제어합니다:
"none": 모델이 도구를 호출하지 않고 메시지를 생성합니다
"auto": 모델이 메시지 생성 또는 하나 이상의 도구 호출 중에서 선택할 수 있습니다
"required": 모델이 하나 이상의 도구를 호출해야 합니다
{"type": "function", "function": {"name": "my_function"}}: 모델이 특정 도구를 호출하도록 강제합니다
병렬 도구 호출
- 키:
parallel_tool_calls
- 선택적, 불리언
- 기본값: true
도구 사용 중 병렬 함수 호출을 활성화할지 여부입니다. true이면 모델이 여러 함수를 동시에 호출할 수 있습니다. false이면 함수가 순차적으로 호출됩니다. tools가 제공된 경우에만 적용됩니다.
Prediction
예측된 출력을 모델에 제공하여 지연 시간을 줄입니다. 응답 내용의 대부분을 미리 알고 있을 때 유용합니다.
{
"prediction": {
"type": "content",
"content": "The predicted content here..."
}
}
허용된 예측 토큰은 응답 사용량의 completion_tokens_details.accepted_prediction_tokens에 반영됩니다.