ARouter는 멀티모달 입력과 출력을 지원합니다. 텍스트 메시지와 함께 이미지, PDF, 오디오를 전송하고 이미지나 음성 오디오를 출력으로 받을 수 있습니다.
지원 모달리티
| 모달리티 | 방향 | 비고 |
|---|
| 텍스트 | 입력 + 출력 | 모든 모델 |
| 이미지(URL / base64) | 입력 | 비전 모델 — JPEG, PNG, GIF, WebP |
| PDF(base64) | 입력 | Anthropic Claude, Google Gemini |
| 오디오(base64) | 입력 | 멀티모달 오디오 모델 |
| 이미지 생성 | 출력 | DALL-E 3, Flux, Stable Diffusion |
| 오디오 출력(TTS / 음성) | 출력 | TTS 모델, 오디오 채팅 모델 |
# 이미지 입력을 지원하는 모델
GET /v1/models?supported_parameters=vision
# 이미지를 출력하는 모델
GET /v1/models?output_modalities=image
# 오디오를 출력하는 모델
GET /v1/models?output_modalities=audio
이미지
이미지 URL 사용
{
"model": "openai/gpt-5.4",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
]
}]
}
이미지 상세 수준
| 값 | 설명 |
|---|
auto(기본값) | 제공업체가 이미지 크기에 따라 결정 |
low | 더 빠르고 저렴 — 85 토큰, 512×512로 크기 조정 |
high | 전체 해상도 — 이미지 타일 분할, 더 많은 토큰 사용 |
모델 호환성
| 모델 | 이미지 URL | 이미지 Base64 | PDF | 오디오 입력 |
|---|
openai/gpt-5.4 | ✓ | ✓ | — | — |
anthropic/claude-sonnet-4.6 | ✓ | ✓ | ✓ | — |
google/gemini-2.5-flash | ✓ | ✓ | ✓ | ✓ |
google/gemini-2.5-pro | ✓ | ✓ | ✓ | ✓ |
다른 모달리티
- 오디오 — 음성 텍스트 변환, 텍스트 음성 변환 및 오디오 채팅 모델
- 이미지 생성 — 텍스트 프롬프트에서 이미지 생성
이미지 토큰은 프롬프트 토큰 한도에 포함됩니다. detail: "high"를 사용한 대형 고해상도 이미지는 텍스트보다 훨씬 더 많은 토큰을 소비할 수 있습니다.