本地化ChatGPT实战指南：从零搭建到生产环境部署

13次阅读

共计 3533 个字符，预计需要花费 9 分钟才能阅读完成。

直接调用云端 ChatGPT API 存在几个显著问题：

延迟问题：网络请求增加了响应时间，尤其在跨国访问时更为明显
隐私风险：敏感数据需要上传到第三方服务器，不符合金融、医疗等行业合规要求
成本控制：按 token 计费的模式在长期高频使用场景下成本不可控

本地化部署在以下场景尤为必要：

金融行业：客户数据涉及交易记录等敏感信息
医疗健康：患者病历等隐私数据需要严格保护
企业内部知识库：核心商业机密不宜外传

模型名称	参数量级	最低显存要求	推荐使用场景
Llama 2-7B	7B	12GB	通用对话、代码生成
Llama 2-13B	13B	24GB	复杂逻辑推理
Vicuna-7B	7B	10GB	中文优化对话
ChatGLM2-6B	6B	8GB	中英双语场景

测试环境：NVIDIA T4 GPU 16GB 显存

量化方式	显存占用	推理速度(tokens/s)	精度损失
FP16	13.2GB	42	无
INT8	6.8GB	78	<1%
INT4	3.9GB	115	~3%

安装 NVIDIA 驱动和 CUDA 工具包

# 安装驱动
sudo apt-get install -y nvidia-driver-535

# 验证安装
nvidia-smi

构建 Docker 镜像

FROM nvidia/cuda:12.2-base

# 安装 Python 环境
RUN apt-get update && apt-get install -y python3-pip
RUN pip install torch==2.1.0 transformers==4.33.0 vllm==0.2.0

# 拷贝模型权重
COPY ./models /app/models

# 暴露 API 端口
EXPOSE 8000

启动容器

docker build -t local-llm .
docker run --gpus all -p 8000:8000 local-llm

from fastapi import FastAPI, Depends, HTTPException
from fastapi.security import OAuth2PasswordBearer

app = FastAPI()
oauth2_scheme = OAuth2PasswordBearer(tokenUrl="token")

# NOTE: 实际生产环境应替换为数据库校验
def verify_token(token: str = Depends(oauth2_scheme)):
    if token != "secret_key":
        raise HTTPException(status_code=403, detail="Invalid token")
    return token

@app.post("/chat")
async def chat_completion(
    prompt: str,
    token: str = Depends(verify_token)
):
    # 实际调用 LLM 推理的代码
    return {"response": "generated_text"}

from vllm import LLM, SamplingParams

# 配置批处理参数
llm = LLM(
    model="/path/to/model",
    tensor_parallel_size=1,
    max_num_batched_tokens=4096,
    max_num_seqs=32
)

sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=512
)

# 批量推理示例
outputs = llm.generate(["Hello", "How are you"], sampling_params)

测试场景：并发请求 50QPS，平均输入长度 128 tokens

显卡型号	FP16 QPS	INT8 QPS	功耗(W)
A10G	86	142	150
T4	32	58	70

模型加密：使用 AES-256 加密模型权重文件

from cryptography.fernet import Fernet

key = Fernet.generate_key()
cipher_suite = Fernet(key)

# 加密模型
with open('model.bin', 'rb') as f:
    encrypted = cipher_suite.encrypt(f.read())

API 限流：使用 FastAPI 中间件实现

from fastapi import Request
from slowapi import Limiter
from slowapi.util import get_remote_address

limiter = Limiter(key_func=get_remote_address)
app.state.limiter = limiter

@app.post("/chat")
@limiter.limit("5/minute")
async def chat(request: Request, prompt: str):
    return {"response": "generated_text"}

梯度检查点：减少训练时的显存占用

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "model_name",
    use_cache=False,  # 禁用 KV Cache
    gradient_checkpointing=True
)

分层加载：仅加载当前需要的模型层

from accelerate import init_empty_weights, load_checkpoint_and_dispatch

with init_empty_weights():
    model = AutoModelForCausalLM.from_config(config)

model = load_checkpoint_and_dispatch(
    model, "checkpoint.pt",
    device_map="auto"
)

8-bit 量化：使用 bitsandbytes 库

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    "model_name",
    quantization_config=quantization_config
)

设置合理的 max_seq_length 避免内存溢出

使用循环缓存避免长对话中的上下文丢失

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("model_name")
model = AutoModelForCausalLM.from_pretrained(
    "model_name",
    max_position_embeddings=4096,
    use_cache=True
)

# 手动管理 past_key_values
outputs = model(input_ids, past_key_values=past_key_values)
past_key_values = outputs.past_key_values

from transformers import Trainer, TrainingArguments

# 准备数据集
train_dataset = ...

# 配置训练参数
training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=4,
    num_train_epochs=3,
    save_steps=500,
    fp16=True,
)

# 创建 Trainer 实例
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

# 开始训练
trainer.train()

期待读者分享以下优化方案：