从零搭建自己的ChatGPT：基于开源LLM的完整实践指南

16次阅读

共计 2160 个字符，预计需要花费 6 分钟才能阅读完成。

当前企业级对话系统需求激增，但商用 API 存在数据隐私和定制化限制。开源 LLM 模型（如 LLaMA-2）的成熟使得私有化部署成为可能，结合现代推理框架可在消费级 GPU 上实现生产级响应。本方案通过模块化设计平衡开发效率与系统性能。

HuggingFace Transformers：
优势：API 设计友好，支持 Pipeline 快速验证
劣势：原生实现未优化 KV Cache，单请求延迟约 250ms（RTX 3090）
vLLM：
采用 PagedAttention 技术，显存利用率提升 3 倍
实测并发能力：16GB 显存支持 8 路并行请求
典型场景下吞吐量比原生 Transformers 高 4 - 6 倍

from fastapi import FastAPI, Depends, HTTPException
from pydantic import BaseModel
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

app = FastAPI()

# 模型加载（示例使用 LLaMA-2-7B）model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-chat-hf",
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")

class ChatRequest(BaseModel):
    prompt: str
    max_length: int = 512

@app.post("/chat")
async def generate_text(request: ChatRequest):
    try:
        inputs = tokenizer(request.prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_length=request.max_length,
            temperature=0.7
        )
        return {"response": tokenizer.decode(outputs[0])}
    except torch.cuda.OutOfMemoryError:
        raise HTTPException(status_code=500, detail="GPU OOM")

import streamlit as st
import requests

st.title("LLM Chat Demo")

with st.form("chat_form"):
    prompt = st.text_area("输入消息")
    submitted = st.form_submit_button("发送")

if submitted:
    response = requests.post(
        "http://localhost:8000/chat",
        json={"prompt": prompt}
    )
    st.write_stream(lambda: [chunk for chunk in response.json()["response"]])

FROM nvidia/cuda:12.1-base

# 量化版本模型节省显存
RUN pip install transformers accelerate bitsandbytes

WORKDIR /app
COPY . .

# 启动时自动加载 4bit 量化模型
CMD ["python", "app.py", "--quantize", "4bit"]

GPU 型号	显存容量	推荐并发数
RTX 3060	12GB	2- 3 路
RTX 3090	24GB	6- 8 路
A100 40G	40GB	15+ 路

import redis
from datetime import timedelta

r = redis.Redis(
    host="localhost",
    port=6379,
    decode_responses=True
)

def cache_dialog(user_id: str, dialog: list):
    r.setex(f"dialog:{user_id}",
        timedelta(minutes=30),
        json.dumps(dialog)
    )

中文分词优化
LLaMA 原生 tokenizer 对中文效率较低
推荐替换为 chatglm 或bloom的分词器
显存 OOM 预防
监控工具：nvidia-smi --query-gpu=memory.used --format=csv
典型诱因：
- 未启用flash_attention
- 未设置 max_batch_size 限制
- 未使用gradient_checkpointing