本地化部署ChatGPT：从模型选型到生产环境避坑指南

14次阅读

共计 2518 个字符，预计需要花费 7 分钟才能阅读完成。

企业选择本地化部署 ChatGPT 主要出于以下考虑：

数据隐私 ：医疗、金融等行业对数据出境有严格限制，本地化部署能确保敏感数据不出内网
网络延迟 ：跨国 API 调用通常有 200-500ms 延迟，本地部署可将响应时间控制在 50ms 内
定制化需求 ：需要微调模型以适应行业术语（如医疗 ICD 编码、金融财报分析）

典型应用场景示例：

三甲医院的电子病历生成系统
证券公司的自动研报摘要服务
制造业的设备故障诊断知识库

模型名称	参数量	最小显存需求	中文支持度	商业授权
LLaMA-2-7B	70 亿	12GB	★★☆☆☆	商业可用
Alpaca-7B	70 亿	10GB	★★★☆☆	研究用途
Vicuna-13B	130 亿	24GB	★★★★☆	非商用

选型建议：

中文场景优先考虑 Vicuna
硬件有限时选择 Alpaca+LoRA 微调
需商用备案选择 LLaMA-2

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# FP16 量化加载
model = AutoModelForCausalLM.from_pretrained(
    "decapoda-research/llama-7b-hf",
    torch_dtype=torch.float16,  # 启用半精度
    device_map="auto"          # 自动分配多 GPU
)
tokenizer = AutoTokenizer.from_pretrained(
    "decapoda-research/llama-7b-hf",
    use_fast=False  # 必须关闭 fast tokenizer
)

from fastapi import FastAPI, Depends, HTTPException
from fastapi.security import HTTPBearer

app = FastAPI()
security = HTTPBearer()

# 限流配置
@app.middleware("http")
async def rate_limit(request: Request, call_next):
    if request.client.host in blacklist:
        raise HTTPException(status_code=429)
    return await call_next(request)

# 带认证的推理端点
@app.post("/v1/chat")
async def chat_completion(
    payload: dict,
    credentials: HTTPAuthorizationCredentials = Depends(security)
):
    verify_jwt(credentials.credentials)  # JWT 验证
    input_ids = tokenizer.encode(payload["prompt"])
    output = model.generate(input_ids, max_new_tokens=200)
    return {"response": tokenizer.decode(output[0])}

FROM nvidia/cuda:11.8.0-base

# 必须指定与驱动匹配的 CUDA 版本
ENV PATH="/usr/local/cuda/bin:$PATH"
ENV LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"

# 安装特定版本的 PyTorch
RUN pip install torch==2.0.1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

# 实时监控 GPU 使用
watch -n 1 nvidia-smi --query-gpu=memory.used --format=csv

测试数据示例（RTX 3090 24GB）：

batch_size	显存占用	推理延迟
1	12.3GB	1.2s
4	18.7GB	2.8s
8	OOM	–

from vllm import LLM, SamplingParams

# 启用 PagedAttention
llm = LLM(
    model="vicuna-13b-v1.5",
    tensor_parallel_size=2,  # 双卡并行
    gpu_memory_utilization=0.9  # 显存利用率
)

LLaMA- 2 需注册 Meta 企业邮箱申请授权
Alpaca 禁止用于商业产品
Vicuna 需遵守非商用 CC-NC 协议

在 K8s 中设置合理 limits：

resources:
  limits:
    nvidia.com/gpu: 1
    memory: 16Gi

启用梯度检查点：
```
model.gradient_checkpointing_enable()
```

# 添加中文特殊 token
tokenizer.add_special_tokens({"additional_special_tokens": ["[ZH]", "[/ZH]"]
})

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

# 构建本地知识库
embeddings = HuggingFaceEmbeddings(model_name="shibing624/text2vec-base-chinese")
db = FAISS.from_documents(docs, embeddings)