分布式定时任务skill架构设计与性能优化实战

16次阅读

共计 1366 个字符，预计需要花费 4 分钟才能阅读完成。

在分布式系统中，定时任务面临着诸多挑战。跨时区部署时，不同节点的本地时间不一致可能导致任务重复执行或遗漏。节点宕机时，如何保证任务不被丢失并能及时转移到其他节点也是一个难题。任务堆积时，系统负载不均衡可能导致部分节点过载。此外，数据一致性、脑裂问题等都是需要解决的核心痛点。

数据一致性 ：多个节点同时执行同一个任务可能导致数据不一致
脑裂问题 ：网络分区时，可能出现多个节点都认为自己是主节点的情况
任务堆积 ：高峰期任务量激增时，如何保证系统稳定运行

常见的定时任务解决方案有 Quartz、XXL-JOB 和自研方案。我们对比了它们的优劣：

Quartz：成熟稳定，但集群模式下依赖数据库，性能有瓶颈
XXL-JOB：功能丰富，但二次开发成本较高
自研方案 ：灵活性高，可以针对特定场景优化

我们最终选择了基于 Redis ZSET 与 Zookeeper Watcher 的混合方案：

Redis ZSET 用于任务调度和时间轮询
Zookeeper Watcher 用于节点状态监控和主节点选举
两者协同工作，既保证了高性能又确保了高可用

我们采用一致性哈希算法进行任务分片，确保任务均匀分布且节点变更时迁移成本最小。以下是 Java 实现的核心代码：

/**
 * 一致性哈希分片算法
 * @param taskId 任务 ID
 * @param nodeCount 节点数量
 * @return 分配到的节点索引
 */
public int shard(String taskId, int nodeCount) {int hash = MurmurHash.hash32(taskId);
    return Math.abs(hash) % nodeCount;
}

我们设计了完善的心跳检测机制：

每个节点定期向 Zookeeper 写入心跳信息
Watcher 监控节点状态变化
主节点故障时，其他节点通过选举产生新主节点
新主节点接管故障节点的任务

为了保证任务执行的幂等性，我们使用 Redis Lua 脚本实现了原子化的幂等控制：

-- KEYS[1] 任务 ID
-- ARGV[1] 过期时间 (秒)
local exists = redis.call('exists', KEYS[1])
if exists == 1 then
    return 0
else
    redis.call('setex', KEYS[1], ARGV[1], '1')
    return 1
end

我们在生产环境进行了压测，结果如下：