支持的模型
| 模型 | 推理支持 |
|---|---|
openai/o4-mini | 始终开启推理 |
openai/o3 | 始终开启推理 |
anthropic/claude-sonnet-4-6 | 可选扩展思考 |
anthropic/claude-opus-4-6 | 可选扩展思考 |
deepseek/deepseek-r1 | 始终开启推理 |
google/gemini-2.5-pro | 可选思考模式 |
google/gemini-2.5-flash | 可选思考模式 |
推理 Token 在使用量中的体现
推理 Token 作为completion_tokens_details 的一部分,在 usage 对象中报告:
推理 Token 的计费
推理 Token 按该模型的补全 Token 费率计费。它们被纳入completion_tokens 进行计费——详细分类仅供参考。
ARouter 不对上游服务商的推理 Token 计数进行任何修改,直接透传。
控制推理行为
OpenAI o 系列(o4-mini、o3)
o 系列模型的推理始终开启。使用reasoning_effort 控制模型推理的程度:
"low"、"medium"、"high"。力度越高 = 推理 Token 越多 = 质量和成本越高。
Anthropic 扩展思考
通过在请求中传递thinking 来启用扩展思考:
budget_tokens 限制了可用于思考的最大 Token 数。思考内容作为响应中的独立块返回。
DeepSeek R1
DeepSeek R1 的推理始终开启。该模型在常规content 旁边返回一个 reasoning_content 字段:
Google Gemini 思考
通过thinking 参数为 Gemini 2.5 模型启用思考:
活动导出与推理 Token
活动导出包含推理 Token 的详细数据,便于准确追踪其对总成本的贡献。在导出摘要中,推理 Token 包含在补全 Token 中。最佳实践
- 从
"low"或"medium"力度开始 使用 o 系列模型,除非您需要最高推理质量。这可以显著降低成本和延迟。 - 为 Anthropic 和 Gemini 思考模型设置
budget_tokens上限,以避免在复杂查询上产生意外的大额账单。 - 在活动记录中监控推理 Token 占比。推理 Token 与输出 Token 的高比例对复杂任务是正常的,但可能表明模型在简单查询上过度思考。
- 不要为了节省成本而禁用推理,对于真正需要多步推理的任务——输出质量会显著下降。