Zotero 7 深度整合 ChatGPT：自动化文献管理与智能摘要生成实战

12次阅读

共计 2779 个字符，预计需要花费 7 分钟才能阅读完成。

作为一名经常需要阅读大量文献的科研工作者，我深刻体会到传统文献管理工具的局限性。手动整理 PDF、编写摘要、标注关键内容不仅耗时耗力，还容易遗漏重要信息。特别是在写综述或准备开题报告时，经常需要反复翻阅几十篇文献，效率极低。

在评估了多种 AI 服务后，我最终选择了 ChatGPT API，主要基于以下几个考虑：

理解能力：ChatGPT 在自然语言处理方面表现出色，能够准确理解学术文献内容
API 稳定性：OpenAI 提供了稳定可靠的 API 服务，响应速度快
成本效益：相比其他商业 API，ChatGPT 的性价比更高
定制灵活性：可以通过 prompt engineering 实现多种文献处理功能

Zotero 提供了丰富的 JavaScript API 接口，我们可以通过这些接口获取文献库中的所有条目：

// 获取所有文献条目
var items = Zotero.Items.getAll();

// 提取文献元数据
var metadata = items.map(item => ({title: item.getField('title'),
  authors: item.getCreators().map(c => c.lastName + ',' + c.firstName),
  abstract: item.getField('abstractNote'),
  tags: item.getTags().map(t => t.tag)
}));

以下是 Python 中调用 ChatGPT API 的基本封装：

import openai
from typing import List, Dict

class ChatGPTIntegration:
    def __init__(self, api_key: str):
        openai.api_key = api_key

    def generate_summary(self, text: str, max_tokens: int = 150) -> str:
        """生成文献摘要"""
        try:
            response = openai.ChatCompletion.create(
                model="gpt-3.5-turbo",
                messages=[{"role": "system", "content": "你是一位专业的科研助手，能够准确总结学术文献的核心内容。"},
                    {"role": "user", "content": f"请用不超过 {max_tokens} 个 token 总结以下文献:\n{text}"}
                ],
                temperature=0.3
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"生成摘要出错: {str(e)}")
            return ""

我们可以利用 ChatGPT 对文献进行自动分类，以下是一个实现示例：

def classify_paper(self, title: str, abstract: str) -> List[str]:
    """自动分类文献"""
    prompt = f""" 根据以下文献信息，给出 3 个最相关的学科分类标签:
    标题: {title}
    摘要: {abstract}

    只需返回逗号分隔的标签，如: 机器学习, 人工智能, 深度学习 """

    response = self._call_chatgpt(prompt)
    return [tag.strip() for tag in response.split(',')]

针对不同长度的文献，我们可以动态调整摘要生成策略：

def generate_adaptive_summary(self, text: str) -> str:
    """根据文本长度自动调整摘要策略"""
    word_count = len(text.split())

    if word_count < 500:
        return self._generate_concise_summary(text)
    elif 500 <= word_count < 2000:
        return self._generate_standard_summary(text)
    else:
        return self._generate_detailed_summary(text)

为了避免触发 OpenAI 的速率限制，建议实现请求队列和延迟机制：

from time import sleep
import random

class RateLimitedRequester:
    def __init__(self, max_requests_per_minute: int = 50):
        self.max_requests = max_requests_per_minute
        self.request_count = 0

    def make_request(self, callable_func, *args, **kwargs):
        if self.request_count >= self.max_requests:
            sleep(60 + random.uniform(0, 5))
            self.request_count = 0

        result = callable_func(*args, **kwargs)
        self.request_count += 1
        return result

永远不要将 API 密钥硬编码在代码中或上传到版本控制系统。推荐使用环境变量或专业密钥管理服务：

import os
from dotenv import load_dotenv

load_dotenv()  # 从.env 文件加载环境变量

api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
    raise ValueError("请在.env 文件中设置 OPENAI_API_KEY 环境变量")