基于ChatGPT的Zero-shot信息抽取实战：无需训练数据的解决方案

13次阅读

共计 1801 个字符，预计需要花费 5 分钟才能阅读完成。

传统信息抽取技术如命名实体识别 (NER) 和关系抽取，通常需要大量标注数据进行监督学习。这种模式存在几个明显问题：

标注成本高：专业领域的数据标注需要领域专家参与，耗时费力
泛化能力弱：训练好的模型很难迁移到新领域或新任务
迭代周期长：遇到新增实体类型或关系类型时，需要重新标注和训练

方法	数据需求	开发成本	灵活性	典型准确率
Fine-tuning	大量标注数据	高	低	85%-95%
Few-shot	少量示例	中	中	70%-85%
Zero-shot	无需标注数据	低	高	60%-80%

# 实体抽取 Prompt 示例
def build_entity_prompt(text, entity_types):
    return f""" 从以下文本中提取指定类型的实体。实体类型：{','.join(entity_types)}
文本：{text}

请以 JSON 格式返回结果，包含 "entities" 列表，每个实体包含 "text"、"type" 和 "offset" 字段。"""

# 关系抽取 Prompt 示例
def build_relation_prompt(text, relation_types):
    return f""" 识别文本中的关系对。关系类型：{','.join([f'{r[0]}→{r[1]}' for r in relation_types])}
文本：{text}

返回 JSON 格式，包含 "relations" 列表，每个关系包含 "head"、"tail" 和 "type" 字段。"""

import openai
from typing import List, Dict, Optional
import json

class ZeroShotExtractor:
    def __init__(self, api_key: str, model: str = "gpt-3.5-turbo"):
        openai.api_key = api_key
        self.model = model

    def extract_entities(
        self, 
        text: str, 
        entity_types: List[str],
        temperature: float = 0.3
    ) -> Optional[Dict]:
        """零样本实体抽取"""
        try:
            prompt = build_entity_prompt(text, entity_types)
            response = openai.ChatCompletion.create(
                model=self.model,
                messages=[{"role": "user", "content": prompt}],
                temperature=temperature,
            )
            return json.loads(response.choices[0].message.content)
        except Exception as e:
            print(f"Entity extraction failed: {e}")
            return None

    # 关系抽取方法类似，此处省略...