메인 콘텐츠로 건너뛰기
ARouter는 멀티모달 입력과 출력을 지원합니다. 텍스트 메시지와 함께 이미지, PDF, 오디오를 전송하고 이미지나 음성 오디오를 출력으로 받을 수 있습니다.

지원 모달리티

모달리티방향비고
텍스트입력 + 출력모든 모델
이미지(URL / base64)입력비전 모델 — JPEG, PNG, GIF, WebP
PDF(base64)입력Anthropic Claude, Google Gemini
오디오(base64)입력멀티모달 오디오 모델
이미지 생성출력DALL-E 3, Flux, Stable Diffusion
오디오 출력(TTS / 음성)출력TTS 모델, 오디오 채팅 모델
# 이미지 입력을 지원하는 모델
GET /v1/models?supported_parameters=vision
# 이미지를 출력하는 모델
GET /v1/models?output_modalities=image
# 오디오를 출력하는 모델
GET /v1/models?output_modalities=audio

이미지

이미지 URL 사용

{
  "model": "openai/gpt-5.4",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "What's in this image?"},
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
    ]
  }]
}

이미지 상세 수준

설명
auto(기본값)제공업체가 이미지 크기에 따라 결정
low더 빠르고 저렴 — 85 토큰, 512×512로 크기 조정
high전체 해상도 — 이미지 타일 분할, 더 많은 토큰 사용

모델 호환성

모델이미지 URL이미지 Base64PDF오디오 입력
openai/gpt-5.4
anthropic/claude-sonnet-4.6
google/gemini-2.5-flash
google/gemini-2.5-pro

다른 모달리티

  • 오디오 — 음성 텍스트 변환, 텍스트 음성 변환 및 오디오 채팅 모델
  • 이미지 생성 — 텍스트 프롬프트에서 이미지 생성
이미지 토큰은 프롬프트 토큰 한도에 포함됩니다. detail: "high"를 사용한 대형 고해상도 이미지는 텍스트보다 훨씬 더 많은 토큰을 소비할 수 있습니다.