小红书 Skill 开发实战：如何构建高可用的技能扩展框架

19次阅读

共计 1612 个字符，预计需要花费 5 分钟才能阅读完成。

在小红书 Skill 系统的开发过程中，我们遇到了几个关键问题：

扩展性差 ：传统的单体架构难以支持快速增长的技能数量，每次新增技能都需要重新部署整个系统
性能瓶颈 ：同步调用链路过长，导致响应时间随着技能复杂度增加而显著上升
维护困难 ：不同技能间的代码耦合度高，修改一个技能可能影响其他功能的正常运行

接口层 ：提供统一的 RESTful API 和 GraphQL 端点，负责请求路由和协议转换
逻辑层 ：采用模块化设计，每个技能作为独立单元运行在各自的容器中
数据层 ：通过 CQRS 模式分离读写操作，使用 Redis 缓存高频访问数据

使用 Kafka 作为消息中间件，关键设计点：
按技能类型划分 Topic，确保业务隔离
配置合理的分区数（建议 CPU 核数×3）
采用压缩传输（snappy）减少网络开销

// 技能加载器核心代码
public class SkillLoader {
    private final HotSwapClassLoader classLoader;

    public void loadSkill(File jarFile) throws Exception {URL url = jarFile.toURI().toURL();
        classLoader.addURL(url);

        // 使用 SPI 机制发现技能实现
        ServiceLoader<Skill> loader = ServiceLoader.load(Skill.class, classLoader);
        for (Skill skill : loader) {SkillRegistry.register(skill);
        }
    }
}

@KafkaListener(topics = ["#{'${kafka.topic.prefix}'.'skill-event'}"])
fun handleEvent(record: ConsumerRecord<String, SkillEvent>) {val skill = SkillRegistry.getSkill(record.key())
    val context = EventContext.fromRecord(record)

    // 异步执行避免阻塞消费者线程
    CompletableFuture.runAsync {skill.execute(context)
    }.exceptionally { ex ->
        logger.error("Skill execution failed", ex)
        null
    }
}

两级缓存设计 ：
本地缓存（Caffeine）：存储技能元数据，TTL 5 分钟
分布式缓存（Redis）：存储技能执行结果，TTL 根据业务需求设置

// 基于 Guava 的 RateLimiter 实现
public class SkillRateLimiter {private final Map<String, RateLimiter> limiters = new ConcurrentHashMap<>();

    public boolean acquire(String skillId) {
        RateLimiter limiter = limiters.computeIfAbsent(
            skillId, 
            id -> RateLimiter.create(getQpsLimit(skillId))
        );
        return limiter.tryAcquire();}
}