メインコンテンツへスキップ
ARouter はマルチモーダルの入力と出力をサポートしています。テキストメッセージと一緒に画像、PDF、音声を送信し、画像や音声を出力として受け取ることができます。

対応モダリティ

モダリティ方向備考
テキスト入力 + 出力すべてのモデル
画像(URL / base64)入力ビジョンモデル — JPEG、PNG、GIF、WebP
PDF(base64)入力Anthropic Claude、Google Gemini
音声(base64)入力マルチモーダル音声モデル
画像生成出力DALL-E 3、Flux、Stable Diffusion
音声出力(TTS / 音声)出力TTSモデル、音声チャットモデル
# 画像入力に対応するモデル
GET /v1/models?supported_parameters=vision
# 画像を出力するモデル
GET /v1/models?output_modalities=image
# 音声を出力するモデル
GET /v1/models?output_modalities=audio

画像

画像 URL を使用する

{
  "model": "openai/gpt-5.4",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "What's in this image?"},
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
    ]
  }]
}

画像の詳細レベル

説明
auto(デフォルト)プロバイダーが画像サイズに基づいて決定
lowより高速、低コスト — 85 トークン、512×512 にリサイズ
highフル解像度 — 画像をタイル分割、より多くのトークンを消費

モデルの互換性

モデル画像 URL画像 Base64PDF音声入力
openai/gpt-5.4
anthropic/claude-sonnet-4.6
google/gemini-2.5-flash
google/gemini-2.5-pro

その他のモダリティ

  • 音声 — 音声テキスト変換、テキスト音声変換、音声チャットモデル
  • 画像生成 — テキストプロンプトから画像を生成
画像トークンはプロンプトトークン制限にカウントされます。detail: "high" を使用した大きな高解像度画像は、テキストよりも大幅に多くのトークンを消費することがあります。