支援的模型
| 模型 | 推理支援 |
|---|---|
openai/o4-mini | 始終開啟推理 |
openai/o3 | 始終開啟推理 |
anthropic/claude-sonnet-4-6 | 可選延伸思考 |
anthropic/claude-opus-4-6 | 可選延伸思考 |
deepseek/deepseek-r1 | 始終開啟推理 |
google/gemini-2.5-pro | 可選思考模式 |
google/gemini-2.5-flash | 可選思考模式 |
推理 Token 在使用量中的體現
推理 Token 作為completion_tokens_details 的一部分,在 usage 物件中回報:
推理 Token 的計費
推理 Token 按該模型的補全 Token 費率計費。它們被納入completion_tokens 進行計費——詳細分類僅供參考。
ARouter 不對上游服務商的推理 Token 計數進行任何修改,直接透傳。
控制推理行為
OpenAI o 系列(o4-mini、o3)
o 系列模型的推理始終開啟。使用reasoning_effort 控制模型推理的程度:
"low"、"medium"、"high"。力度越高 = 推理 Token 越多 = 品質和成本越高。
Anthropic 延伸思考
透過在請求中傳遞thinking 來啟用延伸思考:
budget_tokens 限制了可用於思考的最大 Token 數。思考內容作為回應中的獨立區塊回傳。
DeepSeek R1
DeepSeek R1 的推理始終開啟。該模型在常規content 旁邊回傳一個 reasoning_content 欄位:
Google Gemini 思考
透過thinking 參數為 Gemini 2.5 模型啟用思考:
活動匯出與推理 Token
活動匯出包含推理 Token 的詳細資料,便於準確追蹤其對總成本的貢獻。在匯出摘要中,推理 Token 包含在補全 Token 中。最佳實踐
- 從
"low"或"medium"力度開始 使用 o 系列模型,除非您需要最高推理品質。這可以顯著降低成本和延遲。 - 為 Anthropic 和 Gemini 思考模型設定
budget_tokens上限,以避免在複雜查詢上產生意外的大額帳單。 - 在活動記錄中監控推理 Token 佔比。推理 Token 與輸出 Token 的高比例對複雜任務是正常的,但可能表示模型在簡單查詢上過度思考。
- 不要為了節省成本而停用推理,對於真正需要多步推理的任務——輸出品質會顯著下降。