为什么ChatGPT响应很慢：深入解析大语言模型推理延迟的根源与优化策略

10次阅读

共计 2219 个字符，预计需要花费 6 分钟才能阅读完成。

最近在使用 ChatGPT API 时，发现有时响应速度不尽如人意。作为一个开发者，我决定深入了解一下背后的技术原因，并探索一些优化策略。下面就是我整理的学习笔记，希望对大家有所帮助。

ChatGPT 这类大语言模型基于 Transformer 架构，其生成文本的方式是自回归的（autoregressive），这意味着每个 token 的生成都依赖于之前生成的所有 token。这个过程是串行执行的，无法并行化。

graph LR
    A[输入 prompt] --> B[生成第一个 token]
    B --> C[生成第二个 token]
    C --> D[...]
    D --> E[生成最后一个 token]

这种串行特性直接导致了延迟随输出长度线性增长。更具体地说，每次生成一个 token 时，模型都需要计算所有先前 token 的注意力权重。对于一个 n 个 token 的序列，注意力计算的时间复杂度是 O(n²)，这进一步加剧了延迟问题。

数学上可以表示为：

$$\text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$

其中 Q、K、V 分别是查询、键和值矩阵，d_k 是键的维度。

经过研究，我发现响应延迟主要来自以下三个方面：

现代 GPU 虽然针对矩阵乘法进行了高度优化，但在处理大语言模型时仍然面临挑战：

模型参数需要从显存加载到计算单元
FP16 计算虽然比 FP32 快，但仍有优化空间
无法充分利用 Tensor Core 的算力

为了加速自回归生成，模型会缓存先前 token 的键值对（KV 缓存）。对于 175B 参数的模型：

每个 token 需要约 2MB 的 KV 缓存
生成 100 个 token 就需要 200MB 显存
显存带宽成为瓶颈（A100 约 2TB/s）

lineChart
    title KV 缓存内存占用增长曲线
    x-axis 生成的 token 数量
    y-axis 显存占用 (MB)
    0: 0
    50: 100
    100: 200
    150: 300
    200: 400

对于 API 调用来说，网络延迟也不容忽视：

普通请求需要等待完整响应
流式传输可以边生成边接收
但 HTTP 协议本身有开销

使用 Python 的 asyncio 可以实现高效的流式请求：

import aiohttp
import asyncio
from typing import AsyncIterator

async def stream_chat_completion(
    prompt: str,
    api_key: str,
    max_retries: int = 3
) -> AsyncIterator[str]:
    url = "https://api.openai.com/v1/chat/completions"
    headers = {"Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    data = {
        "model": "gpt-4",
        "messages": [{"role": "user", "content": prompt}],
        "stream": True
    }

    retry_delay = 1
    for attempt in range(max_retries):
        try:
            async with aiohttp.ClientSession() as session:
                async with session.post(url, json=data, headers=headers) as resp:
                    if resp.status != 200:
                        raise Exception(f"API error: {resp.status}")

                    async for chunk in resp.content:
                        yield chunk.decode()
                    return
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            await asyncio.sleep(retry_delay)
            retry_delay *= 2

通过调整 API 参数可以显著影响响应速度：