Zotero与ChatGPT密钥集成：自动化文献管理的技术实现与避坑指南

9次阅读

共计 1745 个字符，预计需要花费 5 分钟才能阅读完成。

作为一名经常需要阅读大量文献的科研狗，我深知传统文献管理的痛苦：下载 PDF、手动整理分类、写摘要总结 … 这些重复劳动不仅耗时，还容易出错。直到发现 Zotero 和 ChatGPT API 的组合，才真正解放了我的生产力。下面分享这套方案的完整实现过程。

Zotero 作为开源文献管理工具，提供了完善的 RESTful API；ChatGPT 的 API 则可以处理自然语言任务。我们的核心思路是：
– 通过 Zotero API 获取文献元数据
– 提取关键文本发送给 ChatGPT 处理
– 将结果写回 Zotero 的 notes 字段

环境变量法（适合个人开发）

import os
ZOTERO_API_KEY = os.getenv('ZOTERO_KEY')
OPENAI_KEY = os.getenv('OPENAI_KEY')

密钥管理服务（适合团队场景）
推荐 AWS Secrets Manager 或 Azure Key Vault，支持自动轮换和访问审计。

from pyzotero import zotero
import openai

# 初始化客户端
zot = zotero.Zotero('你的用户 ID', 'user', ZOTERO_API_KEY)
openai.api_key = OPENAI_KEY

# 获取最近添加的 5 篇文献
top_items = zot.top(limit=5)

async def generate_summary(text):
    response = await openai.ChatCompletion.acreate(
        model="gpt-3.5-turbo",
        messages=[{"role": "system", "content": "你是一位学术助手，用中文生成简洁的文献摘要"},
            {"role": "user", "content": text[:3000]}  # 限制 token 数量
        ]
    )
    return response.choices[0].message.content

import asyncio
from tqdm import tqdm

async def process_items(items):
    semaphore = asyncio.Semaphore(5)  # 限制并发数

    async def process(item):
        async with semaphore:
            summary = await generate_summary(item['data']['abstractNote'])
            zot.add_note(summary, item['key'])

    await asyncio.gather(*[process(item) for item in items])

# 使用示例
items = zot.everything(zot.top())
asyncio.run(process_items(items))

优先处理摘要字段（abstractNote）而非全文
采用 text[:3000] 硬截断保证不超限
对长文献实现分块处理

使用异步 IO 提升吞吐量
设置 rate_limit=3/ 分钟避免被限流
添加 retry 机制处理临时错误

def sanitize_text(text):
    # 移除个人身份信息
    for pattern in [r'\b\d{4}-\d{4}-\d{4}\b', r'\b\w+@\w+\.\w+\b']:
        text = re.sub(pattern, '[REDACTED]', text)
    return text