작동 방식
ARouter는 모든 제공업체의 응답 시간, 오류율, 가용성을 실시간으로 추적합니다. 이 데이터는 지능적인 라우팅 결정을 주도하고 활동 피드에서 신뢰성 정보를 제공합니다. 제공업체에서 성능 저하나 중단이 발생하면 ARouter는 자동으로 라우팅 가중치를 조정하여 해당 제공업체의 우선순위를 낮춥니다 — 사용자 측에서 변경이 필요 없습니다.ARouter가 모니터링하는 항목
각 제공업체와 모델에 대해 ARouter는 지속적으로 추적합니다:- 성공률: 오류 없이 완료된 요청의 비율
- 첫 번째 토큰까지의 시간 (TTFT): 요청 제출부터 첫 번째 스트리밍 토큰까지의 지연 시간
- 총 응답 시간: 비스트리밍 응답의 엔드투엔드 지연 시간
- 오류 유형: 일시적 오류(5xx, 속도 제한)와 영구적 오류(잘못된 모델, 잘못된 요청) 구분
중단 시 자동 라우팅
ARouter가 제공업체 성능 저하를 감지하면:- 제공업체의 라우팅 가중치가 일시적으로 감소하거나 0이 됩니다
- 후속 요청은 동일한 모델 패밀리를 제공하는 다른 건강한 제공업체로 라우팅됩니다
- 제공업체는 주기적으로 재평가되고 상태 지표가 회복되면 재도입됩니다
높은 가용성을 위한 커스터마이징
순서가 지정된 후보 모델 목록 사용
중요한 워크로드의 경우 순서가 지정된 모델 목록을 지정하세요. ARouter는 성공할 때까지 순서대로 각 모델을 시도합니다:자동 라우팅 사용
model: "auto"를 설정하여 ARouter가 현재 제공업체 상태, 비용, 능력을 기반으로 최적의 사용 가능한 모델을 동적으로 선택하도록 합니다:
비용 안정 라우팅에 :floor 사용
:floor 접미사는 모델을 제공하는 최저 비용 제공업체로 라우팅하며, 이는 기본 제공업체와 다른 경우가 많아 자연적인 다양성을 제공합니다: