サポートされているモデル
| モデル | 推論サポート |
|---|---|
openai/o4-mini | 常時推論オン |
openai/o3 | 常時推論オン |
anthropic/claude-sonnet-4-6 | オプションの拡張思考 |
anthropic/claude-opus-4-6 | オプションの拡張思考 |
deepseek/deepseek-r1 | 常時推論オン |
google/gemini-2.5-pro | オプションの思考モード |
google/gemini-2.5-flash | オプションの思考モード |
使用量における推論トークンの表示
推論トークンはcompletion_tokens_details の一部として usage オブジェクトで報告されます:
推論トークンの請求
推論トークンはそのモデルの補完トークンレートで請求されます。請求目的ではcompletion_tokens に含まれます — 内訳は情報提供のみです。
ARouter は上流プロバイダーの推論トークン数を変更せずにそのまま渡します。
推論動作の制御
OpenAI o シリーズ(o4-mini、o3)
o シリーズモデルでは推論は常にオンです。モデルの推論量を制御するにはreasoning_effort を使用します:
"low"、"medium"、"high"。努力値が高いほど = 推論トークンが多い = 品質とコストが高い。
Anthropic 拡張思考
リクエストにthinking を渡して拡張思考を有効にします:
budget_tokens は思考に使用できるトークン数を制限します。思考内容はレスポンス内の別個のブロックとして返されます。
DeepSeek R1
DeepSeek R1 では推論は常にオンです。このモデルは通常のcontent の隣に reasoning_content フィールドを返します:
Google Gemini 思考
thinking パラメーターを通じて Gemini 2.5 モデルの思考を有効にします:
アクティビティエクスポートと推論トークン
アクティビティエクスポート には推論トークンの内訳が含まれており、総コストへの貢献を正確に追跡できます。エクスポートサマリーでは、推論トークンは補完トークンに含まれています。ベストプラクティス
- 最高の推論品質が必要でない限り、o シリーズモデルでは
"low"または"medium"の努力値から始めてください。これによりコストとレイテンシが大幅に削減されます。 - Anthropic と Gemini の思考モデルには
budget_tokensの上限を設定してください。複雑なクエリで予期せず大きな請求が発生するのを避けるためです。 - アクティビティフィードで推論トークンの比率を監視してください。推論トークンと出力トークンの高い比率は複雑なタスクでは正常ですが、モデルが単純なクエリに過度に考えている可能性を示す場合があります。
- コストを節約するために推論を無効にしないでください。真に多段階の推論を必要とするタスクでは — 出力品質が大幅に低下します。