最小开销
ARouter 通过以下方式降低延迟:- 边缘计算:网关节点在全球部署,尽可能靠近您的应用程序
- 高效缓存:用户凭证和 API Key 数据在边缘缓存,避免每次请求时都查询数据库
- 优化路由:服务商选择和密钥池查找被设计为在个位数毫秒内完成
性能注意事项
缓存预热
当边缘缓存处于冷状态时(通常在新部署或新地区后的前 1-2 分钟),您可能会遇到略高的延迟,随着缓存预热会迅速恢复正常。积分余额检查
为了维护准确的计费并防止超支,在以下情况下 ARouter 会执行额外的数据库检查:- 用户的积分余额仅剩个位数美元
- API Key 接近其配置的积分限额
- 保持健康的积分余额(推荐最低:10-20 美元)
- 设置自动充值或定期计费提醒
多模型路由延迟
使用有序候选模型列表时,如果第一个候选模型不可用,ARouter 会路由到下一个模型。失败的首次尝试会为该请求增加延迟。ARouter 持续跟踪服务商健康状况,并绕过已知不可用的服务商,以最大限度地减少此类情况发生的频率。最佳实践
1. 使用流式响应
对于面向用户的应用程序,使用流式响应以降低感知延迟。首个 Token 比完整响应更早到达,即使总生成时间相同,也能让应用程序感觉更快。 参阅流式响应。2. 使用提示词缓存
对于包含重复前缀(系统提示词、少样本示例、大型文档)的请求,启用提示词缓存。缓存 Token 以显著更低的延迟和更低的成本提供服务。 参阅提示词缓存。3. 选择合适的模型
更小的模型更快。如果您的使用场景不需要最高能力,较小的模型(例如google/gemini-2.5-flash、anthropic/claude-haiku-4-5)与最大变体相比,可将延迟降低 2-5 倍。
4. 使用 :nitro 服务商变体
对于延迟敏感的工作负载,在模型 ID 后附加 :nitro 以优先选择高吞吐量服务商端点:
:nitro 路由到针对最大吞吐量和最低首 Token 时间优化的服务商配置。详情参阅服务商路由。
5. 保持健康的积分余额
将积分余额保持在合理门槛以上(≥10 美元)可防止计费检查期间的积极缓存失效,这可能增加可测量的延迟。性能测量
使用响应头中的x-response-time(如果存在)或在客户端测量往返时间进行基准测试。ARouter 还在您的活动记录中展示每个请求的延迟数据。