小红书Skill开发实战：如何构建高可用的技能扩展系统

13次阅读

没有评论

共计 1446 个字符，预计需要花费 4 分钟才能阅读完成。

小红书 Skill 系统作为平台能力扩展的重要组成部分，面临着来自用户和业务方的双重压力。主要挑战集中在以下几个方面：

高并发请求处理 ：在促销活动或热点内容爆发时，Skill 系统的 QPS 可能瞬间增长 10 倍以上
技能模块的动态扩展 ：业务方需要快速上线新技能，同时保证不影响已有功能的稳定性
服务依赖复杂 ：很多技能需要调用多个内部服务，如何管理这些依赖关系成为难题

在架构选型上，我们对比了两种主流方案：

单体架构
优点：开发简单，初期部署成本低
缺点：扩展性差，一个模块出问题可能导致整个系统崩溃
微服务架构
优点：模块解耦，可独立扩展和部署
缺点：需要额外的服务治理和监控设施

考虑到小红书 Skill 系统的特性，我们最终选择了基于 Spring Cloud 的微服务架构。以下是关键决策因素：

技能模块天然适合作为独立服务
可以针对热点技能单独扩容
技术栈与公司现有基础设施兼容

我们采用契约优先的开发模式，每个技能都必须实现标准接口：

public interface Skill {String getName();
    SkillResponse execute(SkillRequest request);
    default boolean isAvailable() { return true;}
}

这种设计带来了以下优势：

新技能开发只需关注业务逻辑
可以动态检测技能健康状态
方便进行 A / B 测试和灰度发布

我们使用 Kafka 作为事件总线，实现技能调度的解耦。架构图如下：

graph LR
    A[客户端请求] --> B[API 网关]
    B --> C[技能调度服务]
    C --> D[Kafka]
    D --> E[技能 Worker1]
    D --> F[技能 Worker2]

关键实现代码片段：

@KafkaListener(topics = "skill_requests")
public void handleSkillRequest(SkillMessage message) {Skill skill = skillFactory.getSkill(message.getSkillName());
    if (skill != null && skill.isAvailable()) {SkillResponse response = skill.execute(message.getRequest());
        // 异步回写结果
        resultService.saveResponse(message.getRequestId(), response);
    }
}

在实践中我们总结出以下有效的优化手段：