电脑使用ChatGPT全攻略：从API接入到生产环境部署

15次阅读

没有评论

共计 4045 个字符，预计需要花费 11 分钟才能阅读完成。

在个人电脑上集成 ChatGPT 时，开发者常遇到几个典型问题：

高延迟问题 ：网页版 ChatGPT 的响应速度受网络环境影响大，尤其在非北美地区
API 调用复杂度 ：直接使用官方 API 需要处理认证、参数组装和响应解析等环节
token 限制 ：gpt-3.5-turbo 模型有 4096 tokens 的上下文限制（注：1 token≈0.75 个英文单词）

网页版 vs API 调用对比 ：

网页版优势：
零代码即可使用
自带对话历史管理
API 优势：
支持自动化集成（每小时可发送数百请求）
精确控制 token 消耗（成本可预测）
能获取结构化响应（JSON 格式）

安装必要依赖：

pip install openai python-dotenv

.env 文件配置（⚠️永远不要提交到 Git）：

OPENAI_API_KEY=sk- 你的密钥

带重试机制的异步调用代码：

import openai
import asyncio
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def chat_completion(prompt: str) -> str:
    try:
        resp = await openai.ChatCompletion.acreate(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.7,
            stream=True  # 启用流式响应
        )

        full_content = ""
        async for chunk in resp:
            if content := chunk.choices[0].delta.get("content"):
                full_content += content
                print(content, end="")  # 实时输出

        return full_content
    except openai.error.APIError as e:
        print(f"API Error: {e}")
        raise

# 使用示例
asyncio.run(chat_completion("用 Python 写个快速排序"))

安装依赖：

npm install openai dotenv

核心代码：

import OpenAI from 'openai';
import {config} from 'dotenv';

config();
const openai = new OpenAI({apiKey: process.env.OPENAI_API_KEY});

async function chatWithRetry(prompt) {
  const maxRetries = 3;
  let retryCount = 0;

  while (retryCount < maxRetries) {
    try {
      const stream = await openai.chat.completions.create({
        model: "gpt-3.5-turbo",
        messages: [{role: "user", content: prompt}],
        stream: true,
      });

      let fullResponse = '';
      for await (const chunk of stream) {const content = chunk.choices[0]?.delta?.content || '';
        process.stdout.write(content);
        fullResponse += content;
      }

      return fullResponse;
    } catch (error) {if (error.status === 429) {const waitTime = Math.pow(2, retryCount) * 1000;
        await new Promise(res => setTimeout(res, waitTime));
        retryCount++;
      } else {throw error;}
    }
  }
  throw new Error(`Max retries (${maxRetries}) exceeded`);
}

实现多轮对话记忆的两种方案：

简易内存方案 ：

dialog_history = []

def chat_with_memory(prompt):
    dialog_history.append({"role": "user", "content": prompt})

    # 自动修剪超出 token 限制的历史
    while num_tokens_from_messages(dialog_history) > 3000:
        dialog_history.pop(1)  # 保留系统指令，删除最早的用户对话

    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=dialog_history
    )

    dialog_history.append({"role": "assistant", "content": response.choices[0].message.content})
    return response

Redis 持久化方案 ：

import redis

r = redis.Redis(
    host='localhost',
    port=6379,
    decode_responses=True
)

def save_conversation(user_id, messages):
    r.setex(f"chat:{user_id}", 3600, json.dumps(messages))  # 1 小时过期

实现指数退避算法：

from time import sleep

def call_with_backoff(**kwargs):
    max_retries = 5
    base_delay = 1

    for attempt in range(max_retries):
        try:
            return openai.ChatCompletion.create(**kwargs)
        except openai.error.RateLimitError:
            delay = base_delay * (2 ** attempt)
            sleep(delay)
    raise Exception("Max retries exceeded")

组合正则表达式与关键词库：

import re

banned_patterns = [r"\b( 信用卡 | 密码 | 密钥)\b",
    r"\d{4}-\d{4}-\d{4}-\d{4}"  # 匹配简易信用卡格式
]

def sanitize_input(text):
    for pattern in banned_patterns:
        if re.search(pattern, text, re.IGNORECASE):
            raise ValueError("包含敏感信息")
    return text

解析 usage 字段记录消耗：

import csv

def log_usage(prompt, response):
    with open('usage_log.csv', 'a') as f:
        writer = csv.writer(f)
        writer.writerow([datetime.now().isoformat(),
            response.usage.prompt_tokens,
            response.usage.completion_tokens,
            response.usage.total_tokens,
            prompt[:50] + "..."  # 截取前 50 字符
        ])

代理配置方法（需自备可靠代理）：

import os

os.environ["HTTP_PROXY"] = "http://127.0.0.1:10809"
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:10809"

推荐使用 Cloudflare Workers 中转 API 请求

本地运行 LLAMA2 的可行性分析：

优点：
完全离线运行
无 API 调用限制
挑战：
需要至少 16GB 显存（RTX 3090 级别）
推理速度较慢（约 5 -10 tokens/ 秒）

基本使用示例：

pip install transformers torch

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf")

inputs = tokenizer("你好，请介绍你自己", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))