멀티모달 - ARouter

지원 모달리티

모달리티	방향	비고
텍스트	입력 + 출력	모든 모델
이미지（URL / base64）	입력	비전 모델 — JPEG, PNG, GIF, WebP
PDF（base64）	입력	Anthropic Claude, Google Gemini
오디오（base64）	입력	멀티모달 오디오 모델
이미지 생성	출력	DALL-E 3, Flux, Stable Diffusion
오디오 출력（TTS / 음성）	출력	TTS 모델, 오디오 채팅 모델

# 이미지 입력을 지원하는 모델
GET /v1/models?supported_parameters=vision
# 이미지를 출력하는 모델
GET /v1/models?output_modalities=image
# 오디오를 출력하는 모델
GET /v1/models?output_modalities=audio

이미지

이미지 URL 사용

{
  "model": "openai/gpt-5.4",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "What's in this image?"},
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
    ]
  }]
}

이미지 상세 수준

값	설명
`auto`（기본값）	제공업체가 이미지 크기에 따라 결정
`low`	더 빠르고 저렴 — 85 토큰, 512×512로 크기 조정
`high`	전체 해상도 — 이미지 타일 분할, 더 많은 토큰 사용

모델	이미지 URL	이미지 Base64	PDF	오디오 입력
`openai/gpt-5.4`	✓	✓	—	—
`anthropic/claude-sonnet-4.6`	✓	✓	✓	—
`google/gemini-2.5-flash`	✓	✓	✓	✓
`google/gemini-2.5-pro`	✓	✓	✓	✓

모델

이미지 URL

이미지 Base64

PDF

오디오 입력

openai/gpt-5.4

✓

—

anthropic/claude-sonnet-4.6

✓

—

google/gemini-2.5-flash

✓

google/gemini-2.5-pro

✓

다른 모달리티

오디오 — 음성 텍스트 변환, 텍스트 음성 변환 및 오디오 채팅 모델

이미지 생성 — 텍스트 프롬프트에서 이미지 생성

이미지 토큰은 프롬프트 토큰 한도에 포함됩니다. detail: "high"를 사용한 대형 고해상도 이미지는 텍스트보다 훨씬 더 많은 토큰을 소비할 수 있습니다.

​지원 모달리티

​이미지

​이미지 URL 사용

​이미지 상세 수준

​모델 호환성

​다른 모달리티

지원 모달리티

이미지

이미지 URL 사용

이미지 상세 수준

모델 호환성

다른 모달리티