工作原理
ARouter 实时跟踪所有服务商的响应时间、错误率和可用性。这些数据驱动智能路由决策,并在您的活动记录中提供可靠性信息。 当某个服务商出现性能下降或中断时,ARouter 会自动调整路由权重以降低该服务商的优先级——无需您进行任何更改。ARouter 的监控内容
ARouter 对每个服务商和模型持续跟踪:- 成功率:无错误完成的请求百分比
- 首 Token 时间(TTFT):从提交请求到第一个流式 Token 的延迟
- 总响应时间:非流式响应的端到端延迟
- 错误类型:区分瞬时错误(5xx、速率限制)和永久错误(无效模型、错误请求)
中断时的自动路由
当 ARouter 检测到某个服务商性能下降时:- 该服务商的路由权重暂时降低或清零
- 后续请求被路由到提供相同模型系列的其他健康服务商
- 该服务商会定期被重新评估,健康指标恢复后重新纳入路由
自定义以提高可用性
使用有序候选模型列表
对于关键工作负载,指定一个有序的模型列表。ARouter 按序尝试每个模型直到成功:使用自动路由
将model 设为 "auto",让 ARouter 根据当前服务商健康状况、成本和能力动态选择最佳可用模型:
使用 :floor 进行成本稳定路由
:floor 后缀路由到提供某模型的最低成本服务商,通常与默认服务商不同——提供天然的多样性: