知识检索系统实战：如何构建高性能的语义搜索服务

17次阅读

共计 1812 个字符，预计需要花费 5 分钟才能阅读完成。

在医疗问答场景中，患者询问 ” 最近头痛伴随视力模糊可能是什么原因 ” 时，传统关键词检索可能仅匹配 ” 头痛 ” 和 ” 视力模糊 ” 单独出现的文档，而忽略 ” 偏头痛先兆 ” 或 ” 颅内压增高 ” 等潜在关联病症。某三甲医院历史数据显示，纯关键词检索的误诊率达 34%，而引入语义检索后降至 12%。

bert-base-chinese：完整版模型，准确率高但推理速度慢（RTX3090 单句 128token 约 45ms）
distilbert-zh：蒸馏版模型，参数量减少 40%，速度提升 2.3 倍，精度保留 97%
paraphrase-multilingual-MiniLM：多语言小模型，支持中英文混合检索

# 模型加载示例
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("distilbert-base-multilingual-cased")
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-multilingual-cased")

IVFPQ 参数配置 ：
nlist=1000（聚类中心数）
m=64（PQ 子空间数）
nbits=8（每子向量比特数）
批量构建流程 ：

import faiss
# 假设 embeddings 是 numpy 数组 shape=(num_samples, 768)
quantizer = faiss.IndexFlatIP(768)
index = faiss.IndexIVFPQ(quantizer, 768, 1000, 64, 8)
index.train(embeddings)  # 训练聚类器
index.add(embeddings)    # 添加向量
faiss.write_index(index, "medical_index.faiss")

gunicorn 配置建议：

workers = CPU 核心数 * 2 + 1
timeout = 300（处理长文本时需增加）
worker_class = “gevent”（IO 密集型场景）

def encode_text(text):
    inputs = tokenizer(text, padding=True, truncation=True, 
                      max_length=128, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state[:,0,:].numpy()  # [CLS] 向量

from flask import Flask, request
app = Flask(__name__)

@app.route('/search', methods=['POST'])
def search():
    query = request.json['query']
    embedding = encode_text(query)
    D, I = index.search(embedding, k=5)  # 返回 top5
    return {'results': [doc_ids[i] for i in I[0]]}