マルチモーダル

対応モダリティ

モダリティ	方向	備考
テキスト	入力 + 出力	すべてのモデル
画像（URL / base64）	入力	ビジョンモデル — JPEG、PNG、GIF、WebP
PDF（base64）	入力	Anthropic Claude、Google Gemini
音声（base64）	入力	マルチモーダル音声モデル
画像生成	出力	DALL-E 3、Flux、Stable Diffusion
音声出力（TTS / 音声）	出力	TTSモデル、音声チャットモデル

# 画像入力に対応するモデル
GET /v1/models?supported_parameters=vision
# 画像を出力するモデル
GET /v1/models?output_modalities=image
# 音声を出力するモデル
GET /v1/models?output_modalities=audio

画像

画像 URL を使用する

{
  "model": "openai/gpt-5.4",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "What's in this image?"},
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
    ]
  }]
}

画像の詳細レベル

値	説明
`auto`（デフォルト）	プロバイダーが画像サイズに基づいて決定
`low`	より高速、低コスト — 85 トークン、512×512 にリサイズ
`high`	フル解像度 — 画像をタイル分割、より多くのトークンを消費

モデル	画像 URL	画像 Base64	PDF	音声入力
`openai/gpt-5.4`	✓	✓	—	—
`anthropic/claude-sonnet-4.6`	✓	✓	✓	—
`google/gemini-2.5-flash`	✓	✓	✓	✓
`google/gemini-2.5-pro`	✓	✓	✓	✓

モデル

画像 URL

画像 Base64

PDF

音声入力

openai/gpt-5.4

✓

—

anthropic/claude-sonnet-4.6

✓

—

google/gemini-2.5-flash

✓

google/gemini-2.5-pro

✓

その他のモダリティ

音声 — 音声テキスト変換、テキスト音声変換、音声チャットモデル

画像生成 — テキストプロンプトから画像を生成

画像トークンはプロンプトトークン制限にカウントされます。detail: "high" を使用した大きな高解像度画像は、テキストよりも大幅に多くのトークンを消費することがあります。

​対応モダリティ

​画像

​画像 URL を使用する

​画像の詳細レベル

​モデルの互換性

​その他のモダリティ

対応モダリティ

画像

画像 URL を使用する

画像の詳細レベル

モデルの互換性

その他のモダリティ