응답의 사용량
usage 객체는 모든 비스트리밍 응답(및 스트리밍 응답의 마지막 청크)에서 반환됩니다:
Token 필드
| 필드 | 설명 |
|---|---|
prompt_tokens | 입력 Token 합계 (캐시된 Token 포함) |
completion_tokens | 출력 Token 합계 (추론 Token 포함) |
total_tokens | 프롬프트 + 완성 Token 합계 |
prompt_tokens_details.cached_tokens | 제공업체의 프롬프트 캐시에서 제공된 Token |
completion_tokens_details.reasoning_tokens | 내부 추론에 사용된 Token (사고 모델) |
completion_tokens_details.accepted_prediction_tokens | 투기적 디코딩에서 수락된 Token |
completion_tokens_details.rejected_prediction_tokens | 투기적 디코딩에서 거부된 Token |
비용 추적
ARouter는 업스트림 제공업체가 보고한 실제 Token 수를 기반으로 청구합니다. 가격은 비용 그대로 전달됩니다 — 추론 마크업 없음. 정확한 비용을 계산하려면:스트리밍 사용량
스트리밍 모드에서 마지막 SSE 청크에는 빈choices와 함께 전체 사용량 객체가 포함됩니다:
stream_options: { include_usage: true }를 전달하여 스트리밍 사용량을 활성화합니다.
대시보드 보고
모든 사용량 데이터는 활동 페이지에서 다음 필터링 기능과 함께 확인할 수 있습니다:- 시간대 (1시간 → 1년)
- 그룹화 (모델, API Key, 생성자)