基于协同过滤的skill推荐系统实战：从算法原理到工程优化

7次阅读

共计 1534 个字符，预计需要花费 4 分钟才能阅读完成。

推荐系统在技能匹配场景面临两个核心挑战：

数据稀疏性 ：用户通常只会标注少量技能标签（比如前端开发人员可能只标记 JavaScript 而不会标记所有相关框架）。这种稀疏性会导致相似度计算失真。
隐式反馈特性 ：大部分用户行为（如浏览学习资料、完成微课）只能间接反映兴趣偏好，不像电商场景有明确的评分数据。

维度	用户协同过滤 (UCF)	物品协同过滤 (ICF)	矩阵分解 (MF)
计算复杂度	O(M²)	O(N²)	O(kMN)
可解释性	高（” 相似用户也学 ”）	高（” 相似技能组合 ”）	低
冷启动表现	新用户差	新物品差	中等
适合场景	用户兴趣稳定	物品关联性强	数据稀疏

注：M= 用户数，N= 物品数，k= 隐向量维度

import numpy as np
from sklearn.preprocessing import normalize

def cosine_sim(user_skills: np.ndarray) -> np.ndarray:
    """ 计算用户间的余弦相似度（L2 归一化版）Args:
        user_skills: 用户 - 技能矩阵，shape=(n_users, n_skills)

    Returns:
        用户相似度矩阵，shape=(n_users, n_users)
    """
    # 归一化处理避免长尾影响
    normed = normalize(user_skills, norm='l2', axis=1)  
    return normed @ normed.T

from scipy.sparse import csr_matrix

# 原始数据：用户 ID, 技能 ID, 隐式反馈强度（如学习时长）raw_data = [(0, 3, 1.5), (1, 5, 2.0), ...]  

# 转换为 CSR 格式
rows = [x[0] for x in raw_data]
cols = [x[1] for x in raw_data]
values = [x[2] for x in raw_data]
sparse_mat = csr_matrix((values, (rows, cols)))

安装 Faiss 库：pip install faiss-cpu

构建索引并查询：

import faiss

# 将相似度矩阵转换为 Faiss 格式
index = faiss.IndexFlatIP(n_skills)  # 内积空间
index.add(user_skills.astype('float32'))

# 查找 TopK 相似用户
D, I = index.search(target_user.reshape(1,-1), k=5)

定时全量更新 ：夜间用 MapReduce 批量计算
实时增量 ：对新行为用以下公式在线更新：
$$sim(u,v){new} = \alpha \cdot sim(u,v)} + (1-\alpha) \cdot \frac{\vec{u{new} \cdot \vec{v}}{||\vec{u}$$}|| \cdot ||\vec{v}||