构建高可用skill商店的架构设计与性能优化实战

1次阅读

共计 2251 个字符，预计需要花费 6 分钟才能阅读完成。

Skill 商店作为数字化能力交易平台，在高并发场景下常面临以下典型问题：

数据库瓶颈 ：商品详情页的频繁查询导致 MySQL 实例 CPU 持续超过 80%，高峰期出现慢查询堆积
服务雪崩 ：用户行为日志同步写入数据库时，突发流量引发线程池耗尽，级联导致核心交易接口不可用
缓存穿透 ：恶意请求不存在的 SKU_ID，导致缓存失效后直接穿透到数据库
数据一致性 ：库存扣减与订单创建跨服务调用时，网络抖动导致分布式事务失败

维度	单体架构	微服务架构
开发效率	高（模块间直接调用）	低（需定义接口契约）
部署粒度	整体发布	按服务独立部署
扩展能力	垂直扩展（Scale-up）	水平扩展（Scale-out）
故障隔离	单点故障影响全局	故障域隔离
技术栈	必须统一	可按服务差异化

最终选择 Spring Cloud 微服务架构，核心考虑点：

技能商品与用户服务存在明显领域边界
需要独立扩展商品搜索和推荐模块
灰度发布是业务刚需

采用 Redis 五层缓存体系：

本地缓存 ：Caffeine 存储商品基础信息（TTL 5 分钟）
分布式缓存 ：Redis Cluster 存储商品详情（TTL 30 分钟）
多级回源 ：缓存未命中时通过 Redisson 分布式锁控制单线程回源
空值缓存 ：对不存在的 SKU 设置短 TTL（60 秒）防止穿透
热点探测 ：通过 RedisMonitor 识别热 Key 自动拆分

// 缓存击穿防护示例
public SkillItem getItemWithCache(String sku) {
    // 1. 查询本地缓存
    SkillItem item = caffeineCache.getIfPresent(sku);
    if (item != null) return item;

    // 2. 查询分布式缓存
    item = redisTemplate.opsForValue().get(sku);
    if (item == null) {
        // 3. 获取分布式锁
        RLock lock = redissonClient.getLock("LOCK_" + sku);
        try {if (lock.tryLock(3, 10, TimeUnit.SECONDS)) {
                // 4. 二次检查缓存
                item = redisTemplate.opsForValue().get(sku);
                if (item == null) {
                    // 5. 回源数据库
                    item = dbRepository.findById(sku)
                        .orElseGet(() -> {
                            // 6. 空值缓存
                            redisTemplate.opsForValue()
                                .set(sku, EMPTY_ITEM, 60, TimeUnit.SECONDS);
                            return null;
                        });

                    if (item != null) {
                        // 7. 写入缓存
                        redisTemplate.opsForValue()
                            .set(sku, item, 30, TimeUnit.MINUTES);
                        caffeineCache.put(sku, item);
                    }
                }
            }
        } finally {lock.unlock();
        }
    }
    return item;
}

使用 Kafka 实现关键业务解耦：

最终一致性 ：订单创建后发送领域事件，库存服务通过 Consumer 异步处理
流量削峰 ：用户行为日志先写入 Kafka，再由 Flink 消费后批量入库
事务消息 ：通过本地事务表 + 定时任务确保消息必达

# 库存扣减消费者示例
@kafka_listener(topics='order_created')
def handle_order_event(message):
    try:
        event = json.loads(message.value)
        # 幂等处理
        if redis.setnx(f"deduct_{event['order_id']}", 1):
            redis.expire(f"deduct_{event['order_id']}", 3600)
            inventory_service.deduct(sku=event['sku'], 
                qty=event['qty']
            )
    except Exception as e:
        # 进入死信队列
        dlq_producer.send('inventory_dlq', message)

基于 K8s 的 HPA 实现自动伸缩：