ChatGPT与BERT技术解析：从原理到应用场景对比

9次阅读

共计 1738 个字符，预计需要花费 5 分钟才能阅读完成。

自然语言处理 (NLP) 领域长期存在两大核心需求：文本理解与文本生成。理解式任务如情感分析、问答系统需要模型深入捕捉上下文语义关系，典型场景包括客服工单分类、法律文书解析等；生成式任务如对话系统、文章续写则要求模型具备连贯的文本生产能力，应用于智能写作助手、代码自动补全等场景。这种需求分化促使 Transformer 架构衍生出两类代表性模型：以 BERT 为代表的双向编码器和以 ChatGPT 为代表的自回归解码器。

BERT：采用 Transformer 编码器堆叠，通过双向注意力机制同时捕捉前后文信息。其多层表示结构特别适合提取文本特征，但无法直接生成文本
ChatGPT：基于 Transformer 解码器，使用带掩码的自注意力机制实现自回归生成。每个 token 的预测仅依赖左侧上下文，适合序列生成任务

BERT：通过掩码语言建模 (MLM) 和下一句预测 (NSP) 任务进行预训练。MLM 随机遮盖 15% 的输入 token 并要求模型还原，这种完形填空式训练使其擅长语义理解
ChatGPT：采用标准语言建模目标，通过最大化序列似然概率进行训练。其生成过程通过 Top- k 采样等策略控制输出多样性

显存占用：BERT-base 约需 1.2GB 显存（batch_size=32），ChatGPT- 2 约需 3GB（生成 512 tokens）
延迟表现：BERT 前向传播时间与输入长度线性相关，ChatGPT 生成时间随输出长度指数增长

from transformers import AutoModelForCausalLM, AutoModelForMaskedLM
import torch

# 模型加载规范写法（带类型标注）def load_models(device: torch.device):
    # 生成式模型（以 GPT- 2 为例）gen_model = AutoModelForCausalLM.from_pretrained("gpt2")
    # 理解式模型（以 BERT 为例）clf_model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")
    return gen_model.to(device), clf_model.to(device)

# 注意力可视化示例
def plot_attention(model, tokenizer, text: str):
    inputs = tokenizer(text, return_tensors="pt")
    outputs = model(**inputs, output_attentions=True)
    # 绘制第 0 层第 0 头的注意力热力图
    attn = outputs.attentions[0][0, 0].detach().numpy()
    # 可视化代码省略...

# GPU 显存优化技巧
# 1. 使用梯度检查点
torch.utils.checkpoint.checkpoint(model, input)
# 2. 混合精度训练
scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast():
    loss = model(input).loss
scaler.scale(loss).backward()