高效去重实践：基于技能脚本(skill脚本去重)的分布式解决方案

7次阅读

共计 1745 个字符，预计需要花费 5 分钟才能阅读完成。

在分布式系统中，技能脚本的重复执行可能引发严重问题。以下是两个典型案例：

计费系统重复扣费：用户触发技能脚本后，由于网络重试机制导致脚本重复执行，造成多次扣费。某电商平台曾因此产生日均 200+ 的客诉
任务调度雪崩：定时触发的技能脚本因去重失效，在 1 分钟内重复提交 3000+ 相同任务，压垮下游服务

方案	问题
数据库唯一索引	1. 高并发下性能瓶颈（约 500QPS）2. 分库分表时全局唯一性难保证
本地内存缓存	1. 集群环境下无法共享状态 2. 重启后数据丢失
分布式锁	1. 获取锁成为性能瓶颈 2. 锁超时时间难以设定

布隆过滤器 (Bloom Filter) 通过 $k$ 个哈希函数和 $m$ 位的比特数组实现：

添加元素时：用 $k$ 个哈希函数计算得到 $k$ 个位置，将对应比特置 1
检查元素时：若所有 $k$ 个位置都为 1，则可能已存在（存在误判）

误判率公式：
$$\varepsilon \approx (1-e^{-kn/m})^k$$

-- KEYS[1]: 布隆过滤器 key
-- ARGV[1]: 元素值
-- ARGV[2]: 哈希函数数量 k

local exists = true
for i=1, ARGV[2] do
    if redis.call('GETBIT', KEYS[1], tonumber(ARGV[1]) + i) == 0 then
        exists = false
        break
    end
end

if not exists then
    for i=1, ARGV[2] do
        redis.call('SETBIT', KEYS[1], tonumber(ARGV[1]) + i, 1)
    end
end

return exists and 1 or 0

使用 CRC16 算法计算 key 的 slot
通过 Redis Cluster 的 16384 个 slot 实现数据分片
客户端缓存 slot-node 映射关系

import mmh3
from rediscluster import RedisCluster

class SkillDeduplicator:
    def __init__(self, redis_nodes, m=2**32, k=7):
        self.rc = RedisCluster(startup_nodes=redis_nodes)
        self.m = m  # 比特数组大小
        self.k = k  # 哈希函数数量

def is_duplicated(self, skill_id):
    script = """-- 上述 Lua 脚本内容"""
    hash_val = mmh3.hash(skill_id)
    return bool(self.rc.eval(script, 1, "bloom:skills", hash_val, self.k)
    )

数据量	QPS	内存占用
100 万	12k	4.8MB
1000 万	9k	48MB
1 亿	6k	480MB

误判率随哈希函数变化：

k	误判率
3	1.2%
5	0.3%
7	0.1%

哈希种子安全：
使用系统级安全随机数生成种子
定期轮换种子时需要数据迁移

冷启动预热：

def warm_up(self, existing_skills):
    pipe = self.rc.pipeline()
    for skill in existing_skills:
        h = mmh3.hash(skill)
        for i in range(self.k):
            pipe.setbit("bloom:skills", (h + i) % self.m, 1)
    pipe.execute()