如何用ChatGPT提升开发者效率：从API调用到生产环境最佳实践

10次阅读

共计 2424 个字符，预计需要花费 7 分钟才能阅读完成。

直接调用 ChatGPT API 时，开发者常遇到三类典型问题：

响应延迟高：同步阻塞式调用导致线程长时间等待，尤其当处理长文本时，响应时间可能超过 10 秒
token 成本不可控：未做长度校验的 prompt 可能导致单次调用消耗大量 token（特别是 gpt- 4 模型）
上下文管理混乱：多轮对话中历史消息的拼接缺乏标准化方案，容易引发角色混淆或信息丢失

Completion API：
适合单轮指令式交互（如代码补全）
需要手动维护 stop_sequences 参数
对 prompt 结构要求更灵活
Chat API：
原生支持多轮对话上下文
内置 system/user/assistant 角色标识
推荐用于客服机器人等场景

# 非流式响应（完整接收后处理）response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[...],
    stream=False  # 默认值
)

# 流式响应（逐 chunk 处理）stream = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[...],
    stream=True
)
for chunk in stream:
    print(chunk['choices'][0]['delta'].get('content', ''))

流式模式可降低首字节时间(TTFB)，但需要额外处理以下情况：
– 中间结果拼接时的格式校验
– 网络中断后的恢复逻辑
– 前端渲染性能优化

import asyncio
from openai import AsyncOpenAI
from tenacity import retry, stop_after_attempt, wait_exponential

client = AsyncOpenAI()

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def batch_request(messages_list):
    tasks = [
        client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=msg,
            max_tokens=500
        )
        for msg in messages_list
    ]
    return await asyncio.gather(*tasks, return_exceptions=True)

def manage_context(history: list, new_input: str, max_tokens=4000):
    """
    基于 token 计数器的上下文滑动窗口
    :param history: 历史消息列表 [{'role':'user', 'content':'...'}, ...]
    :param new_input: 新用户输入
    :param max_tokens: 模型最大上下文长度
    :return: 修剪后的新上下文
    """
    from tiktoken import encoding_for_model

    encoder = encoding_for_model("gpt-4")
    new_entry = [{"role": "user", "content": new_input}]

    # 计算总 token 数
    def count_tokens(msg):
        return len(encoder.encode(msg['content'])) + 3  # 每个消息有 3 个额外 token

    total = sum(count_tokens(m) for m in history + new_entry)

    # 从最旧的消息开始移除，直到满足长度限制
    while total > max_tokens * 0.9:  # 保留 10% 余量
        if not history:
            break
        removed = history.pop(0)
        total -= count_tokens(removed)

    return history + new_entry

使用令牌桶算法控制请求速率
当收到 429 状态码时自动触发熔断
监控仪表盘需包含：
每分钟请求数
平均响应延迟
token 消耗速率

import re
from some_llm_library import detect_sensitive_info  # 示例语义检测库

def sanitize_input(text):
    # 第一层：正则匹配
    patterns = [r'\b\d{16}\b',  # 信用卡号
        r'\b\d{3}-\d{2}-\d{4}\b'  # SSN
    ]
    for pat in patterns:
        text = re.sub(pat, '[REDACTED]', text)

    # 第二层：语义检测
    if detect_sensitive_info(text):
        raise ValueError("潜在敏感内容被拦截")

    return text