RAG技能入门指南：从零构建你的第一个检索增强生成系统

2次阅读

共计 3063 个字符，预计需要花费 8 分钟才能阅读完成。

RAG（Retrieval-Augmented Generation）是近年来自然语言处理领域的一项重要技术，它通过结合检索（Retrieval）和生成（Generation）两个模块，显著提升了语言模型在知识密集型任务上的表现。传统语言模型虽然能生成流畅的文本，但其知识完全来源于训练数据，无法动态获取最新信息。RAG 则通过实时检索外部知识库来增强生成过程，让模型既能保持强大的语言生成能力，又能基于最新、最相关的信息进行回答。

这项技术在问答系统、客服机器人、研究报告生成等场景中特别有价值。比如当用户询问 ”2023 年诺贝尔物理学奖得主是谁 ” 时，传统的语言模型可能给出错误或过时的答案（如果其训练数据截止于 2022 年），而 RAG 系统可以先检索最新权威资料，再基于这些信息生成准确回答。

一个典型的 RAG 系统包含三个核心组件：

检索器（Retriever）：负责从知识库中查找与输入问题最相关的文档片段。一般采用稠密向量检索（如 FAISS）或稀疏向量检索（如 BM25）技术。
生成器（Generator）：通常是一个预训练的语言模型（如 GPT 系列），它接收检索到的文档和原始问题，生成最终的回答。
知识库 ：存储大量结构或非结构化文档的数据库，作为系统的外部知识来源。

系统工作流程如下：

用户输入一个问题
检索器从知识库中找到最相关的若干文档片段
这些文档片段和原始问题一起被送入生成器
生成器综合这些信息产生最终回答

下面我们用一个简化版的 Python 实现来演示 RAG 的核心逻辑。这个示例使用 HuggingFace 的 transformers 库和 FAISS 向量数据库。

# 导入必要库
from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoModelForCausalLM
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer

# 1. 初始化组件
# 检索模型（将文本编码为向量）retriever_model = SentenceTransformer('all-MiniLM-L6-v2')
# 生成模型（这里用一个小型 GPT2 做演示）generator_tokenizer = AutoTokenizer.from_pretrained("gpt2")
generator_model = AutoModelForCausalLM.from_pretrained("gpt2")

# 2. 准备知识库（示例）documents = [
    "RAG combines retrieval and generation for better NLP tasks.",
    "The 2023 Physics Nobel prize went to Pierre Agostini, Ferenc Krausz and Anne L'Huillier.","Python is a popular programming language for machine learning."
]
# 将文档编码为向量
doc_embeddings = retriever_model.encode(documents)
# 构建 FAISS 索引
index = faiss.IndexFlatL2(doc_embeddings.shape[1])
index.add(doc_embeddings)

# 3. 检索函数
def retrieve(query, top_k=2):
    query_embedding = retriever_model.encode([query])
    distances, indices = index.search(query_embedding, top_k)
    return [documents[i] for i in indices[0]]

# 4. 生成函数
def generate_answer(query, retrieved_docs):
    context = "\n".join(retrieved_docs)
    prompt = f"Question: {query}\nContext: {context}\nAnswer:"
    inputs = generator_tokenizer(prompt, return_tensors="pt")
    outputs = generator_model.generate(**inputs, max_length=200)
    return generator_tokenizer.decode(outputs[0], skip_special_tokens=True)

# 5. 完整 RAG 流程
def rag_pipeline(query):
    retrieved_docs = retrieve(query)
    answer = generate_answer(query, retrieved_docs)
    return answer

# 示例使用
print(rag_pipeline("Who won the 2023 Physics Nobel prize?"))

在实际部署 RAG 系统时，有几个关键因素会影响性能：