ChatGPT接入指南：从API调用到实战避坑

12次阅读

共计 2625 个字符，预计需要花费 7 分钟才能阅读完成。

ChatGPT 的 API 接入为开发者提供了强大的自然语言处理能力，适用于客服机器人、内容生成、代码辅助等多种场景。通过 API，企业可以快速集成 AI 对话功能，提升用户体验和运营效率。商业价值体现在降低人力成本、提高响应速度以及创造新的服务模式上。

REST：基于 HTTP 协议，简单易用，适合大多数开发者。支持 JSON 格式数据交换，兼容性广。
gRPC：基于 HTTP/ 2 协议，性能更高，适合对延迟敏感的应用。但实现复杂度较高，需要额外的依赖库。

对于大多数场景，REST 是更优选择，除非对性能有极端要求。

import openai
import time

openai.api_key = "your-api-key"  # ⚠️ 替换为你的 API 密钥

def chat_with_retry(prompt, max_retries=3):
    retries = 0
    while retries < max_retries:
        try:
            response = openai.ChatCompletion.create(
                model="gpt-3.5-turbo",
                messages=[{"role": "user", "content": prompt}]
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"Error: {e}, retrying...")
            retries += 1
            time.sleep(2 ** retries)  # 指数退避
    return "Failed after retries"

流式响应可以显著提升用户体验，减少等待时间。使用 stream=True 参数开启流式传输：

response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": prompt}],
    stream=True
)

for chunk in response:
    print(chunk.choices[0].delta.get("content", ""), end="")

维护对话上下文是构建连贯对话的关键。可以通过保留历史消息实现：

conversation_history = []

def chat_with_context(user_input):
    conversation_history.append({"role": "user", "content": user_input})
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=conversation_history
    )
    assistant_reply = response.choices[0].message.content
    conversation_history.append({"role": "assistant", "content": assistant_reply})
    return assistant_reply

批量处理多个请求可以减少 API 调用次数，提高效率：

batch_prompts = ["prompt1", "prompt2", "prompt3"]
batch_responses = []

for prompt in batch_prompts:
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt}]
    )
    batch_responses.append(response.choices[0].message.content)

对频繁请求的相同内容进行缓存，可以显著降低 API 调用次数：

from functools import lru_cache

@lru_cache(maxsize=100)
def cached_chat(prompt):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt}]
    )
    return response.choices[0].message.content

合理设置超时参数可以避免长时间等待：

import requests

openai.request_timeout = 10  # ⚠️ 设置 10 秒超时

在发送请求前，过滤掉敏感信息，如个人身份信息(PII)：

import re

def filter_pii(text):
    # 过滤邮箱
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
    # 过滤手机号
    text = re.sub(r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b', '[PHONE]', text)
    return text

当遇到突发流量时，可以降级服务质量或限制请求频率：

from ratelimit import limits, sleep_and_retry

@sleep_and_retry
@limits(calls=100, period=60)  # ⚠️ 每分钟最多 100 次调用
def rate_limited_chat(prompt):
    return chat_with_retry(prompt)

精确计算 Token 数量有助于控制成本：

import tiktoken

def count_tokens(text, model="gpt-3.5-turbo"):
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

随着多模态交互的普及，如何设计一个既能处理文本，又能处理图像、语音等多模态输入的扩展架构？这需要考虑到不同模态数据的处理流程、统一接口设计以及性能优化等多个方面。

正文完