ARouter はマルチモーダルの入力と出力をサポートしています。テキストメッセージと一緒に画像、PDF、音声を送信し、画像や音声を出力として受け取ることができます。
対応モダリティ
| モダリティ | 方向 | 備考 |
|---|
| テキスト | 入力 + 出力 | すべてのモデル |
| 画像(URL / base64) | 入力 | ビジョンモデル — JPEG、PNG、GIF、WebP |
| PDF(base64) | 入力 | Anthropic Claude、Google Gemini |
| 音声(base64) | 入力 | マルチモーダル音声モデル |
| 画像生成 | 出力 | DALL-E 3、Flux、Stable Diffusion |
| 音声出力(TTS / 音声) | 出力 | TTSモデル、音声チャットモデル |
# 画像入力に対応するモデル
GET /v1/models?supported_parameters=vision
# 画像を出力するモデル
GET /v1/models?output_modalities=image
# 音声を出力するモデル
GET /v1/models?output_modalities=audio
画像 URL を使用する
{
"model": "openai/gpt-5.4",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
]
}]
}
画像の詳細レベル
| 値 | 説明 |
|---|
auto(デフォルト) | プロバイダーが画像サイズに基づいて決定 |
low | より高速、低コスト — 85 トークン、512×512 にリサイズ |
high | フル解像度 — 画像をタイル分割、より多くのトークンを消費 |
モデルの互換性
| モデル | 画像 URL | 画像 Base64 | PDF | 音声入力 |
|---|
openai/gpt-5.4 | ✓ | ✓ | — | — |
anthropic/claude-sonnet-4.6 | ✓ | ✓ | ✓ | — |
google/gemini-2.5-flash | ✓ | ✓ | ✓ | ✓ |
google/gemini-2.5-pro | ✓ | ✓ | ✓ | ✓ |
その他のモダリティ
- 音声 — 音声テキスト変換、テキスト音声変換、音声チャットモデル
- 画像生成 — テキストプロンプトから画像を生成
画像トークンはプロンプトトークン制限にカウントされます。detail: "high" を使用した大きな高解像度画像は、テキストよりも大幅に多くのトークンを消費することがあります。