构建高可用Claude Relay Service的架构设计与实践

1次阅读

没有评论

共计 2404 个字符，预计需要花费 7 分钟才能阅读完成。

在直接集成 Claude API 时，我们常遇到几个典型问题：

突发流量导致 API 限频 ：当业务高峰来临时，固定配额迅速耗尽，导致大量合法请求被拒绝
长文本处理超时中断 ：处理 10k+token 的文档时，经常因网络波动造成 TCP 连接超时，需要整个请求重试
多租户资源竞争 ：不同优先级的业务共享同一 API Key，重要客服请求可能被营销批量任务阻塞

某次大促期间，我们的直接调用方式导致 30% 的请求因 429 状态码失败，P99 延迟飙升至 8.7 秒。这促使我们设计 Claude Relay Service（中继服务）来解决这些问题。

整体架构分为三层：

接入层 ：
基于 gin 实现 RESTful 接口
JWT 身份验证和请求指纹去重
调度层 ：
动态权重路由算法（Dynamic Weight Routing）
优先级队列（Priority Queue）实现
滑动窗口速率限制器（Sliding Window Rate Limiter）
执行层 ：
连接池化管理 gRPC 长连接
异步响应处理流水线
熔断器（Circuit Breaker）模式实现

组件交互流程：请求→接入层鉴权→调度层队列→执行层转发→异步回写结果。关键路径全部实现上下文超时控制。

type Endpoint struct {
    URL        string
    Weight     int  // 初始权重
    ActiveConn int  // 当前连接数
    ErrorRate  float64 // 错误率
}

func (s *Scheduler) selectEndpoint() *Endpoint {
    totalWeight := 0
    for _, ep := range s.endpoints {
        // 动态调整权重：基础权重 - 当前负载 - 错误惩罚
        adjusted := ep.Weight - ep.ActiveConn*2 - int(ep.ErrorRate*100)
        if adjusted > 0 {totalWeight += adjusted}
    }

    randVal := rand.Intn(totalWeight)
    current := 0
    for _, ep := range s.endpoints {
        // 相同调整逻辑
        adjusted := ep.Weight - ep.ActiveConn*2 - int(ep.ErrorRate*100)
        if adjusted <= 0 {continue}
        current += adjusted
        if randVal < current {return ep}
    }
    return nil
}

使用 container/heap 实现多级优先级队列：

type PriorityQueue []*Request

func (pq PriorityQueue) Len() int { return len(pq) }

func (pq PriorityQueue) Less(i, j int) bool {
    // 先比较优先级，再比较入队时间
    if pq[i].Priority != pq[j].Priority {return pq[i].Priority > pq[j].Priority
    }
    return pq[i].EnqueueTime.Before(pq[j].EnqueueTime)
}

// 必须实现 Swap 和 Push/Pop 方法...

// 使用示例：queue := make(PriorityQueue, 0)
heap.Init(&queue)
heap.Push(&queue, &Request{Priority: 3})
req := heap.Pop(&queue).(*Request)

压测环境：8 核 16G 云主机，Claude API 配额 500 RPM

指标	直接调用	RelayService	提升幅度
最大 QPS	82	217	164%
P99 延迟 (ms)	4200	890	78%↓
错误率	18%	0.3%	98%↓
长文本成功率	62%	99.6%	60%↑

Prometheus 关键指标：

# HELP relay_requests_total Total API requests
# TYPE relay_requests_total counter
relay_requests_total{status="success"} 2381
relay_requests_total{status="failed"} 12

# HELP relay_request_duration_seconds Request latency
# TYPE relay_request_duration_seconds histogram
relay_request_duration_seconds_bucket{le="0.5"} 1243

按用户 ID 范围分 10% 流量到新版本
监控错误率和延迟变化
逐步放大流量至 100%
出现异常时立即回滚

API Key 采用 AWS KMS 信封加密：

func EncryptAPIKey(key string) (string, error) {kmsClient := kms.New(session.Must(session.NewSession()))
    input := &kms.EncryptInput{KeyId:     aws.String(aliasARN),
        Plaintext: []byte(key),
    }
    result, err := kmsClient.Encrypt(input)
    return base64.StdEncoding.EncodeToString(result.CiphertextBlob), err
}