캐시 사용량 확인
캐시 사용량은 모든 응답의usage 객체에 반영됩니다:
| 필드 | 설명 |
|---|---|
prompt_tokens_details.cached_tokens | 캐시에서 읽은 토큰(캐시 히트——더 저렴) |
prompt_tokens_details.cache_write_tokens | 이번 요청에서 캐시에 쓴 토큰(일회성 쓰기 비용) |
OpenAI 자동 캐싱
OpenAI는 프롬프트 접두사를 자동으로 캐시합니다. 특별한 요청 구성이 필요하지 않습니다. 작동 방식:- 캐싱은 OpenAI의 서버 측에서 프롬프트가 충분히 길 때 자동으로 트리거됩니다
- 최소 프롬프트 길이: 1,024 토큰
- 캐시 항목은 약 1시간 비활성 후 만료됩니다
- 캐시된 토큰은 할인 요금으로 청구됩니다(일반적으로 50% 할인)
Anthropic Claude 프롬프트 캐싱
Anthropic은 두 가지 캐싱 모드를 지원합니다:- 자동 캐싱(기본값): Claude가 시스템 프롬프트를 자동으로 캐시합니다. 최소 1,024 토큰.
- 명시적 캐싱(
cache_control):"cache_control": {"type": "ephemeral"}로 특정 콘텐츠 블록을 표시하여 캐시할 내용을 정확히 제어합니다.
캐시 TTL
| 캐시 유형 | TTL |
|---|---|
| 자동 | 5분 |
명시적(ephemeral) | 1시간(Claude 3.5+)또는 5분(Claude 3) |
지원되는 모델
| 모델 | 최소 토큰(텍스트) | 최소 토큰(이미지) |
|---|---|---|
anthropic/claude-sonnet-4.6 | 1,024 | 1,024 |
anthropic/claude-opus-4.5 | 1,024 | 1,024 |
anthropic/claude-haiku-3.5 | 2,048 | 2,048 |
anthropic/claude-3-5-sonnet | 1,024 | 1,024 |
명시적 캐싱 예제
cache_control을 사용하여 콘텐츠 블록 수준에서 캐싱을 제어합니다:
extra_body를 통해 전달합니다:
- Python (OpenAI)
- Node.js (OpenAI)
- Anthropic SDK
DeepSeek 자동 캐싱
DeepSeek은 OpenAI와 유사하게 프롬프트 접두사를 자동으로 캐시합니다. 구성이 필요하지 않습니다.xAI(Grok)자동 캐싱
Grok 모델은 요청 간에 동일한 접두사를 재사용할 때 프롬프트 접두사를 자동으로 캐시합니다. 특별한 구성이 필요하지 않습니다.Groq 자동 캐싱
Groq의 추론 인프라는 지원되는 모델에 대해 프롬프트 접두사를 자동으로 캐시합니다. 캐시 히트는 지연 시간을 줄이고 응답 usage 객체에 반영됩니다.Google Gemini 프롬프트 캐싱
Gemini는 암시적(자동)및 명시적 캐싱을 모두 지원합니다.암시적 캐싱
Gemini 2.5 Flash와 Pro는 추가 비용 없이 대규모 컨텍스트를 자동으로 캐시합니다. 캐시 히트는 응답 usage에서 확인할 수 있습니다.네이티브 Gemini API를 통한 명시적 캐싱
세밀한 제어를 위해 네이티브 GeminicachedContents API를 사용합니다. 캐시 객체를 만들고 후속 요청에서 참조합니다:
name 필드(예: cachedContents/abc123)가 포함됩니다:
제공업체 스티키 라우팅
캐시 히트율을 극대화하려면 반복 요청이 동일한 제공업체 인스턴스에 도달해야 합니다. ARouter는 이를 필요로 하는 제공업체에 대해 스티키 라우팅을 지원합니다. 요청에 Anthropiccache_control 블록이 포함되면 ARouter는 동일한 접두사를 가진 후속 요청을 자동으로 동일한 제공업체 엔드포인트로 라우팅하여 캐시 유효성을 유지합니다.
스티키 라우팅 작동 방식
cache_control블록이 있는 첫 번째 요청이 제공업체에서 처리되고 캐시됩니다- ARouter는 요청을 처리한 제공업체 인스턴스를 기록합니다
- 동일한 캐시 접두사를 가진 후속 요청이 동일한 인스턴스로 라우팅됩니다
- 캐시 히트는 비용을 낮추고(읽기는 쓰기보다 저렴)지연 시간을 줄입니다
캐시 히트 확인
usage 객체를 확인하여 요청 간 캐시 히트를 확인합니다:
제공업체 캐시 지원 요약
| 제공업체 | 캐시 유형 | 최소 토큰 | TTL | 구성 |
|---|---|---|---|---|
| OpenAI | 자동 | 1,024 | 약 1시간 | 필요 없음 |
| Anthropic | 자동 + 명시적 | 1,024 | 5분(자동), 1시간(명시적) | cache_control 블록 |
| DeepSeek | 자동 | 1,024 | 제공업체 정의 | 필요 없음 |
| Google Gemini | 자동 + 명시적 | 32,768 | 기본 1시간 | cachedContents API |
| xAI(Grok) | 자동 | 제공업체 정의 | 제공업체 정의 | 필요 없음 |
| Groq | 자동 | 제공업체 정의 | 제공업체 정의 | 필요 없음 |