从零构建高可用Skill商店：新手入门指南与架构设计实战

1次阅读

没有评论

共计 2818 个字符，预计需要花费 8 分钟才能阅读完成。

Skill 商店作为开发者能力集成的核心平台，当用户量激增时通常会暴露三个典型问题：

接口超时：热门 Skill 的并发查询导致数据库连接池耗尽，响应时间从 200ms 恶化到 5s 以上
数据不一致：用户购买记录与 Skill 库存扣减出现不一致，特别是在秒杀场景下
服务雪崩：单个 Skill 的异常会通过调用链扩散到支付和通知服务

我们曾遇到一个典型案例：某企业活动期间 QPS 从 50 暴涨到 3000，导致 MySQL CPU 飙升至 95%，最终触发了级联故障。

Nacos
优势：内置健康检查、支持 DNS 和 RPC 两种服务发现模式、配置管理一体化
劣势：集群部署需要至少 3 个节点，对网络稳定性要求较高
典型应用场景：需要动态调整权重进行灰度发布的 Skill 路由
Zookeeper
优势：强一致性保证，适合金融级场景
劣势：写性能瓶颈（每秒约 1 万次写入），运维复杂度高

我们最终选择 Nacos 2.2.3 版本，因其与 Spring Cloud Alibaba 的天然集成优势。

// 典型 Seata 使用示例
@GlobalTransactional(timeoutMills = 300000, name = "purchase-skill")
public void purchase(Long skillId, Long userId) {skillService.deductStock(skillId);  // 扣减库存
    orderService.createOrder(skillId, userId); // 创建订单
    if(paymentService.pay(userId, skillId) < 0){throw new RuntimeException("支付失败"); // 触发全局回滚
    }
}

Seata 优势：
AT 模式对代码零侵入
支持 Saga 模式处理长事务
与 Nacos 配置中心无缝集成
本地事务表缺点：
需要手动处理幂等性问题
补偿逻辑实现复杂

# application-gateway.yml
spring:
  cloud:
    gateway:
      routes:
        - id: skill-service
          uri: lb://skill-service
          predicates:
            - Path=/api/skill/**
          filters:
            - name: RequestRateLimiter
              args:
                redis-rate-limiter.replenishRate: 100
                redis-rate-limiter.burstCapacity: 200

关键点说明：

通过 lb:// 协议实现负载均衡
使用 Redis 实现令牌桶限流
配合 @RefreshScope 实现配置热更新

// Sentinel 配置示例
@GetMapping("/skills/{id}")
@SentinelResource(value = "getSkillDetail", 
                  blockHandler = "handleBlock",
                  fallback = "handleFallback")
public SkillDetail getDetail(@PathVariable Long id) {// ... 业务逻辑}

// 降级处理方法
public SkillDetail handleBlock(Long id, BlockException ex) {return SkillDetail.error("系统繁忙，请稍后重试");
}

配套的 Dashboard 规则：

阈值类型：QPS
单机阈值：500
降级策略：慢调用比例（RT>500ms 且比例 >50%）

场景	线程数	QPS	平均 RT	错误率
无缓存	500	1200	420ms	12%
添加 Redis 缓存	500	6800	35ms	0%
开启限流	1000	3500	85ms	0.3%

public Skill getSkillById(Long id) {
    // 布隆过滤器前置校验
    if(!bloomFilter.mightContain(id)) {return null;}

    String key = "skill:" + id;
    // 缓存空对象策略
    return redisTemplate.opsForValue()
        .computeIfAbsent(key, k -> {Skill skill = skillMapper.selectById(id);
            return Optional.ofNullable(skill).orElse(EMPTY_SKILL);
        }, 5, TimeUnit.MINUTES);
}

当出现网络分区时，采用以下策略：

设置nacos.core.protocol.raft.data.self-election-timeout=5000ms
配置至少 3 个节点的集群
启用spring.cloud.nacos.discovery.fail-fast=true

命名规范建议：

格式：${spring.application.name}-tx-group
示例：skill-service-tx-group
必须与 seata.tx-service-group 配置严格一致

通过 Nacos 元数据标记版本：

@Bean
public NacosDiscoveryProperties nacosProperties() {NacosDiscoveryProperties props = new NacosDiscoveryProperties();
    props.getMetadata().put("version", "v2.1");
    return props;
}

网关层根据 Header 路由：

spring:
  cloud:
    gateway:
      routes:
        - id: canary-route
          predicates:
            - Header=X-Canary, v2.1
          filters:
            - SetPath=/v2/{segment}

关于如何实现 Skill 能力的热加载，我们可以从以下几个方向思考：