Claude Skill推荐系统实战：如何构建高精度AI技能匹配引擎

1次阅读

没有评论

共计 2009 个字符，预计需要花费 6 分钟才能阅读完成。

在开发 Claude 应用时，我发现现有的技能匹配方案存在几个明显问题：

关键词匹配的局限性：当用户输入 ” 帮我写诗 ” 时，系统可能无法关联到 ” 古诗词创作 ” 这样的技能标签，因为字面匹配度低
冷启动问题：新上线的技能由于缺乏使用数据，很难被准确推荐
语义鸿沟：” 图片转文字 ” 和 ”OCR 识别 ” 实际上是相同技能，但传统方法会视为不同内容

这些痛点导致我们平台的技能使用率长期低于 30%，大量优质技能处于 ” 隐身 ” 状态。

我测试了三种主流文本表示方法在技能匹配场景的表现：

TF-IDF
优点：实现简单，计算速度快
缺点：无法处理同义词问题，准确率仅 58%
Word2Vec
优点：能捕捉词语关联性
缺点：短语级表示效果差，准确率 65%
Sentence-BERT
优点：句子级语义编码，在测试集上达到 89% 准确率
最终选择：all-MiniLM-L6-v2 模型，体积小且性能优异

from sentence_transformers import SentenceTransformer
import pandas as pd

# 加载预训练模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 读取技能数据
skills_df = pd.read_csv('claude_skills.csv')
descriptions = skills_df['description'].tolist()

# 生成向量
skill_vectors = model.encode(descriptions, 
                           batch_size=128,
                           show_progress_bar=True)

import faiss
import numpy as np

# 归一化向量便于余弦相似度计算
faiss.normalize_L2(skill_vectors)

# 创建 IVF 索引
dimension = skill_vectors.shape[1]
quantizer = faiss.IndexFlatIP(dimension)
index = faiss.IndexIVFFlat(quantizer, dimension, 100)

# 训练索引
assert not index.is_trained
index.train(skill_vectors)
index.add(skill_vectors)

from flask import Flask, request
import json

app = Flask(__name__)

@app.route('/recommend', methods=['POST'])
def recommend():
    try:
        query = request.json['query']
        query_vec = model.encode([query])
        faiss.normalize_L2(query_vec)

        D, I = index.search(query_vec, k=5)  # 返回 Top5
        results = [skills_df.iloc[i].to_dict() for i in I[0]]

        return json.dumps({"results": results, "scores": D[0].tolist()})
    except Exception as e:
        app.logger.error(f"Recommend error: {str(e)}")
        return json.dumps({"error": str(e)}), 500

当处理 10 万 + 技能库时：