基于GPT-4和ChatGPT PDF的大模型应用开发极简入门：从零搭建到生产部署

9次阅读

没有评论

共计 2570 个字符，预计需要花费 7 分钟才能阅读完成。

在大模型应用开发中，尤其是涉及 PDF 文档处理的场景，开发者往往会遇到以下几个核心痛点：

API 调用复杂度高：不同的大模型 API 接口设计各异，参数繁多，初次接触时容易混淆。
长文本处理困难：GPT 模型有 token 限制，如何高效地分割长文本（如 PDF 文档）并维护上下文连贯性是一大挑战。
PDF 解析效率低下：传统的 PDF 解析工具要么功能有限，要么处理速度慢，难以满足生产环境的需求。
成本和延迟问题：频繁的 API 调用不仅增加成本，还可能因网络延迟影响用户体验。

目前主流的大模型 API 包括 GPT-4、ChatGPT、Claude 和 LLaMA 等。以下是它们的简要对比：

GPT-4：
优点：强大的文本理解和生成能力，支持长上下文（最多 128k tokens）。
缺点：API 成本较高，响应时间相对较长。
ChatGPT：
优点：响应速度快，适合实时交互场景。
缺点：上下文长度有限（通常 4k tokens）。
Claude：
优点：对长文本处理友好，成本较低。
缺点：生成质量略逊于 GPT-4。
LLaMA：
优点：开源，可本地部署。
缺点：需要较强的硬件支持，部署复杂。

综合来看，GPT-4和 ChatGPT 在生成质量和 API 成熟度上具有明显优势，尤其是在处理复杂 PDF 文档时，GPT- 4 的长上下文支持尤为重要。

推荐使用 pdfplumber 库，它比 PyPDF2 更强大，能更好地保留文本格式和表格数据。

import pdfplumber

def extract_text_from_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        text = ''
        for page in pdf.pages:
            text += page.extract_text() + '\n'
    return text

由于 GPT 模型有 token 限制，我们需要合理分割文本并维护上下文。以下是一个简单的实现：

def split_text(text, max_tokens=4000):
    words = text.split()
    chunks = []
    current_chunk = []
    current_length = 0

    for word in words:
        word_length = len(word) + 1  # 加 1 是为了空格
        if current_length + word_length > max_tokens:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
            current_length = 0
        current_chunk.append(word)
        current_length += word_length

    if current_chunk:
        chunks.append(' '.join(current_chunk))

    return chunks

通过异步请求和缓存机制减少延迟和成本：

import openai
import asyncio
from functools import lru_cache

openai.api_key = 'your-api-key'

@lru_cache(maxsize=100)
async def query_gpt(prompt, model="gpt-4", max_tokens=500):
    try:
        response = await openai.ChatCompletion.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens
        )
        return response.choices[0].message.content
    except Exception as e:
        print(f"API Error: {e}")
        return None

使用 tenacity 库实现重试和限流：

from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def safe_query_gpt(prompt):
    return await query_gpt(prompt)

在发送请求前过滤敏感信息：

def filter_sensitive_info(text):
    sensitive_keywords = ['password', 'credit card', 'ssn']
    for keyword in sensitive_keywords:
        if keyword in text.lower():
            raise ValueError("Sensitive information detected")
    return text

实现一个健壮的错误处理流程：

try:
    filtered_text = filter_sensitive_info(user_input)
    response = await safe_query_gpt(filtered_text)
except ValueError as e:
    print(f"Security alert: {e}")
except Exception as e:
    print(f"Unexpected error: {e}")