ChatGPT API 实战指南：从集成到生产环境的最佳实践

11次阅读

共计 2407 个字符，预计需要花费 7 分钟才能阅读完成。

作为一名长期在生产环境使用 ChatGPT API 的开发者，我踩过几乎所有你能想到的坑。今天这篇笔记，我会从实际痛点出发，分享如何高效集成 ChatGPT API，特别是那些官方文档里不会告诉你的实战经验。

API 调用限制：免费账号每分钟只有 3 次调用机会，即便是付费账号也有 TPM（每分钟 tokens 数）限制。高峰期突然被限流的感觉就像正跑着步被人绊了一脚。
长对话上下文丢失：当对话轮次超过模型的最大 token 限制（如 gpt-3.5-turbo 的 4096 tokens），要么被截断，要么需要支付更高费用使用 gpt-4-32k 版本。
响应延迟不稳定：简单的查询可能 200ms 返回，复杂的生成任务有时要等 5 秒以上，用户界面上的 loading 动画转得让人心慌。

方式	延迟	适用场景	代码复杂度
同步调用	高	简单问答	★☆☆☆☆
异步调用	中	后台批量处理	★★☆☆☆
流式响应	低	实时逐字输出（如打字效果）	★★★☆☆

import openai
from tenacity import retry, stop_after_attempt, wait_exponential

# 建议将 API key 放在环境变量中
openai.api_key = os.getenv("OPENAI_API_KEY")

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def chat_completion(messages, model="gpt-3.5-turbo"):
    try:
        response = await openai.ChatCompletion.acreate(
            model=model,
            messages=messages,
            temperature=0.7,  # 控制创造性，0- 2 之间
            max_tokens=500,    # 防止意外消耗大量 token
            request_timeout=30 # 重要！避免永久挂起
        )
        return response.choices[0].message.content
    except openai.error.RateLimitError:
        # 这里可以接入报警系统
        print("触发速率限制，建议升级套餐或添加重试")
        raise
    except openai.error.APIConnectionError:
        print("网络问题，自动重试中...")
        raise
    except Exception as e:
        print(f"不可预知错误: {str(e)}")
        return "服务暂时不可用"

角色设定：用 system message 明确 AI 角色

messages = [{"role": "system", "content": "你是一个资深 Python 工程师，用代码示例回答问题"},
    {"role": "user", "content": "如何用 asyncio 实现并发请求？"}
]

任务分解：复杂问题拆分成多个 API 调用
先让 AI 列出解决方案大纲
再针对每部分深入询问

格式约束：要求 AI 返回结构化数据

请用 JSON 格式回答，包含字段：summary, code_sample, warning

Token 计数 ：使用tiktoken 库精确计算

import tiktoken

def num_tokens_from_messages(messages, model="gpt-3.5-turbo"):
    encoding = tiktoken.encoding_for_model(model)
    return sum(len(encoding.encode(msg["content"])) for msg in messages)

会话切割：当 token 接近限制时（如 3500/4096）：
删除最旧的 user-assistant 对话对
插入总结消息：” 之前我们讨论了 XX，现在继续 …”

请求批处理：相同参数的请求合并发送

# 批量生成产品描述
responses = await openai.ChatCompletion.acreate(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": "写一段关于 {product} 的描述"}],
    temperature=0.5,
    n=5  # 一次获取 5 个变体
)

缓存策略：对确定性问题缓存响应
使用 Redis 存储常见问答
设置 TTL 为 1 小时（避免信息过时）
超时与重试：
首次超时：2 秒
第二次重试：5 秒
第三次重试：10 秒

监控 TPM 使用量：x-ratelimit-remaining-tokens响应头
动态调整请求速率：令牌桶算法实现

response = openai.Moderation.create(
    input=user_input,
    model="text-moderation-latest"
)
if response.results[0].flagged:
    return "您的问题包含不合适内容"