跳轉到主要內容
ARouter 支援多模態輸入和輸出——您可以在文字訊息旁邊傳送圖像、PDF 和音訊,並以圖像或語音音訊作為輸出接收。

支援的模態

模態方向備註
文字輸入 + 輸出所有模型
圖像(URL / base64)輸入視覺模型 — JPEG、PNG、GIF、WebP
PDF(base64)輸入Anthropic Claude、Google Gemini
音訊(base64)輸入多模態音訊模型
圖像生成輸出DALL-E 3、Flux、Stable Diffusion
音訊輸出(TTS / 語音)輸出TTS 模型、音訊對話模型
# 支援圖像輸入的模型
GET /v1/models?supported_parameters=vision
# 輸出圖像的模型
GET /v1/models?output_modalities=image
# 輸出音訊的模型
GET /v1/models?output_modalities=audio

圖像

使用圖像 URL

{
  "model": "openai/gpt-5.4",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "What's in this image?"},
      {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
    ]
  }]
}

圖像細節級別

描述
auto(預設)提供商根據圖像大小決定
low更快、更便宜 — 85 個 token,調整為 512×512
high全解析度 — 對圖像進行分塊,消耗更多 token

模型相容性

模型圖像 URL圖像 Base64PDF音訊輸入
openai/gpt-5.4
anthropic/claude-sonnet-4.6
google/gemini-2.5-flash
google/gemini-2.5-pro

其他模態

  • 音訊 — 語音轉文字、文字轉語音和音訊對話模型
  • 圖像生成 — 從文字提示生成圖像
圖像 token 計入提示詞 token 限制。使用 detail: "high" 的大型高解析度圖像可能比文字消耗多得多的 token。