ARouter는 멀티모달 입력과 출력을 지원합니다. 텍스트 메시지와 함께 이미지, PDF, 오디오를 전송하고 이미지나 음성 오디오를 출력으로 받을 수 있습니다.Documentation Index
Fetch the complete documentation index at: https://docs.arouter.ai/llms.txt
Use this file to discover all available pages before exploring further.
지원 모달리티
| 모달리티 | 방향 | 비고 |
|---|---|---|
| 텍스트 | 입력 + 출력 | 모든 모델 |
| 이미지(URL / base64) | 입력 | 비전 모델 — JPEG, PNG, GIF, WebP |
| PDF(base64) | 입력 | Anthropic Claude, Google Gemini |
| 오디오(base64) | 입력 | 멀티모달 오디오 모델 |
| 이미지 생성 | 출력 | DALL-E 3, Flux, Stable Diffusion |
| 오디오 출력(TTS / 음성) | 출력 | TTS 모델, 오디오 채팅 모델 |
이미지
이미지 URL 사용
이미지 상세 수준
| 값 | 설명 |
|---|---|
auto(기본값) | 제공업체가 이미지 크기에 따라 결정 |
low | 더 빠르고 저렴 — 85 토큰, 512×512로 크기 조정 |
high | 전체 해상도 — 이미지 타일 분할, 더 많은 토큰 사용 |
모델 호환성
| 모델 | 이미지 URL | 이미지 Base64 | 오디오 입력 | |
|---|---|---|---|---|
openai/gpt-5.4 | ✓ | ✓ | — | — |
anthropic/claude-sonnet-4.6 | ✓ | ✓ | ✓ | — |
google/gemini-2.5-flash | ✓ | ✓ | ✓ | ✓ |
google/gemini-2.5-pro | ✓ | ✓ | ✓ | ✓ |
다른 모달리티
이미지 토큰은 프롬프트 토큰 한도에 포함됩니다.
detail: "high"를 사용한 대형 고해상도 이미지는 텍스트보다 훨씬 더 많은 토큰을 소비할 수 있습니다.