如何高效将ChatGPT聊天记录导出为PDF：技术实现与避坑指南

14次阅读

没有评论

共计 1862 个字符，预计需要花费 5 分钟才能阅读完成。

在日常开发中，我们经常需要将 ChatGPT 的聊天记录导出为 PDF 文件，用于存档、分享或进一步分析。手动导出虽然可行，但存在以下几个主要问题：

数据格式混乱 ：直接复制粘贴到文档中会导致格式丢失，尤其是代码块、列表等结构化内容。
效率低下 ：对于大量聊天记录，手动处理耗时耗力。
样式不统一 ：不同聊天记录的样式可能不一致，影响阅读体验。

目前主流的实现方案有两种：Python 和 Node.js。以下是它们的优缺点对比：

优点：

丰富的库支持（如 BeautifulSoup、ReportLab）。
适合处理结构化数据（如 HTML 解析）。
代码简洁，易于维护。

缺点：

对于复杂样式的渲染能力较弱。
生成 PDF 的性能可能不如 Node.js 方案。

优点：

强大的页面渲染能力（如 Puppeteer）。
适合处理动态生成的页面内容。
性能较高，适合处理大量数据。

缺点：

需要额外的浏览器环境支持。
代码复杂度较高。

以下是使用 BeautifulSoup 解析 HTML 聊天记录，并用 ReportLab 生成 PDF 的完整代码：

from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

def html_to_pdf(html_file, output_pdf):
    # 读取 HTML 文件
    with open(html_file, 'r', encoding='utf-8') as f:
        html_content = f.read()

    # 解析 HTML
    soup = BeautifulSoup(html_content, 'html.parser')

    # 创建 PDF
    c = canvas.Canvas(output_pdf, pagesize=letter)
    y = 750  # 初始 Y 坐标

    # 遍历聊天记录并写入 PDF
    for message in soup.find_all('div', class_='message'):
        c.drawString(100, y, message.get_text())
        y -= 20  # 调整 Y 坐标
        if y < 50:  # 换页
            c.showPage()
            y = 750

    c.save()

# 示例调用
html_to_pdf('chat.html', 'output.pdf')

以下是使用 Puppeteer 渲染页面并导出 PDF 的完整代码：

const puppeteer = require('puppeteer');

async function html_to_pdf(htmlFile, outputPdf) {
    // 启动浏览器
    const browser = await puppeteer.launch();
    const page = await browser.newPage();

    // 加载 HTML 文件
    await page.goto(`file://${htmlFile}`, {waitUntil: 'networkidle0'});

    // 生成 PDF
    await page.pdf({
        path: outputPdf,
        format: 'A4',
        printBackground: true
    });

    // 关闭浏览器
    await browser.close();}

// 示例调用
html_to_pdf('chat.html', 'output.pdf');

处理大量聊天记录时，可能会遇到内存管理和性能瓶颈。以下是一些优化建议：