지연 시간과 성능

ARouter는 성능을 최우선으로 설계되었습니다. 게이트웨이는 요청에 최소한의 오버헤드만 추가하도록 철저히 최적화되어 있습니다.

최소 오버헤드

ARouter는 다음을 통해 지연 시간을 최소화합니다:

엣지 컴퓨팅: 게이트웨이 노드가 애플리케이션에 최대한 가깝게 전 세계에 배포됩니다
효율적인 캐싱: 사용자 자격 증명과 API Key 데이터가 엣지에 캐시되어 모든 요청마다 데이터베이스를 조회하는 것을 방지합니다
최적화된 라우팅: 제공업체 선택과 키 풀 조회가 한 자리 밀리초 내에 완료되도록 설계되었습니다

일반적인 요청의 게이트웨이 오버헤드는 50ms를 훨씬 밑돕니다.

성능 고려 사항

캐시 워밍업

엣지 캐시가 차가울 때 (일반적으로 배포 후 또는 새 리전에서 처음 1-2분 동안) 캐시가 워밍업되면서 곧 정상화되는 약간 높은 지연 시간이 발생할 수 있습니다.

크레딧 잔액 확인

정확한 청구를 유지하고 초과를 방지하기 위해 다음 상황에서 ARouter는 추가적인 데이터베이스 확인을 수행합니다:

사용자의 크레딧 잔액이 한 자리 달러 수준일 때
API Key가 구성된 크레딧 한도에 접근할 때

이러한 조건에서 캐시가 더 적극적으로 무효화되어 더 많은 크레딧이 추가될 때까지 지연 시간이 증가합니다. 이를 피하려면:

건강한 크레딧 잔액 유지 (권장 최소: $10-20)
자동 충전 또는 정기적인 청구 알림 설정

멀티 모델 라우팅 지연 시간

순서가 지정된 후보 모델 목록을 사용할 때 첫 번째 후보가 사용 불가능하면 ARouter가 다음 모델로 라우팅합니다. 첫 번째 시도 실패로 해당 요청에 지연 시간이 추가됩니다. ARouter는 제공업체 상태를 지속적으로 추적하고 알려진 불가용 제공업체를 우회하여 이러한 상황이 발생하는 빈도를 최소화합니다.

모범 사례

1. 스트리밍 사용

사용자 대면 애플리케이션의 경우 스트리밍 응답을 사용하여 체감 지연 시간을 줄이세요. 첫 번째 토큰이 전체 응답보다 더 일찍 도착하므로 총 생성 시간이 같아도 애플리케이션이 더 빠르게 느껴집니다. 스트리밍을 참조하세요.

2. 프롬프트 캐싱 사용

반복적인 접두사(시스템 프롬프트, 퓨샷 예제, 대형 문서)가 있는 요청의 경우 프롬프트 캐싱을 활성화하세요. 캐시된 토큰은 훨씬 낮은 지연 시간과 비용으로 제공됩니다. 프롬프트 캐싱을 참조하세요.

3. 적절한 모델 선택

작은 모델이 더 빠릅니다. 사용 사례에서 최고의 능력이 필요하지 않다면 작은 모델(예: google/gemini-2.5-flash, anthropic/claude-haiku-4-5)이 가장 큰 변형과 비교하여 지연 시간을 2-5배 줄일 수 있습니다.

4. `:nitro` 제공업체 변형 사용

지연 시간이 중요한 워크로드의 경우 모델 ID에 :nitro를 추가하여 높은 처리량의 제공업체 엔드포인트를 선호합니다:

{ "model": "anthropic/claude-sonnet-4-6:nitro" }

:nitro는 최대 처리량과 최저 첫 번째 토큰 시간에 최적화된 제공업체 구성으로 라우팅합니다. 자세한 내용은 제공업체 라우팅을 참조하세요.

5. 건강한 크레딧 잔액 유지

크레딧 잔액을 합리적인 임계값 이상(≥$10)으로 유지하면 청구 확인 중 공격적인 캐시 무효화를 방지하고 측정 가능한 지연 시간 추가를 막을 수 있습니다.

성능 측정

x-response-time 응답 헤더(존재하는 경우)를 사용하거나 클라이언트에서 왕복 시간을 측정하여 벤치마크합니다. ARouter는 또한 활동 피드에서 요청별 지연 시간 데이터를 제공합니다.

​최소 오버헤드

​성능 고려 사항

​캐시 워밍업

​크레딧 잔액 확인

​멀티 모델 라우팅 지연 시간

​모범 사례

​1. 스트리밍 사용

​2. 프롬프트 캐싱 사용

​3. 적절한 모델 선택

​4. :nitro 제공업체 변형 사용

​5. 건강한 크레딧 잔액 유지

​성능 측정