基于Ollama部署ChatGPT构建个人知识库：从模型微调到RAG实战

1次阅读

没有评论

共计 1584 个字符，预计需要花费 4 分钟才能阅读完成。

在企业知识库的构建中，我们常常面临几个核心问题：

检索效率低：传统关键词匹配无法理解语义，导致相关文档漏检
数据隐私风险：使用公有云 API 可能导致敏感商业数据泄露
成本不可控：商业 API 按调用次数计费，长期使用成本高昂

这些痛点促使我们寻找本地化部署的解决方案，而 Ollama+ChatGPT+RAG 的技术组合恰好能针对性解决这些问题。

text-generation-webui：
优点：功能全面，支持多种模型
缺点：资源占用高，部署复杂
Ollama：
优点：
- 内存优化出色（支持 –gpu-layer 参数调优）
- 模型格式兼容性好（GGUF/GGML）
- 一键部署简单
缺点：高级功能需要自行扩展

选择 Ollama 的核心考量是其出色的资源利用率和部署便捷性，特别适合个人开发者或中小团队。

# 下载量化模型
ollama pull chatgpt:7b-q4_0

# 启动服务（GPU 加速）ollama serve --gpu-layers 32

关键参数说明：
– --gpu-layers：根据显存调整（24GB 显卡建议 30-40 层）
– 量化版本选择：
– q4_0：高压缩，适合消费级显卡
– q8_0：低精度损失，推荐专业卡

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings import HuggingFaceEmbedding

# 初始化嵌入模型
embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-zh-v1.5",
    device="cuda"
)

# 文档加载与分块（优化 chunk_size）documents = SimpleDirectoryReader("./data/").load_data()
# 中文建议 300-500 字符
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=embed_model,
    chunk_size=400  
)

# 持久化存储
index.storage_context.persist(persist_dir="./storage")

from llama_index.llms import Ollama

llm = Ollama(model="chatgpt", temperature=0.3)

# 带上下文的 prompt 模板
query_engine = index.as_query_engine(
    llm=llm,
    similarity_top_k=3,
    response_mode="compact"
)

# 执行查询
response = query_engine.query("请用中文总结文档中关于机器学习的关键点")
print(response)

Prompt 工程技巧：
– 明确指定输出语言
– 要求引用原文段落
– 限制回答长度