Prompting ChatGPT in MNER: 增强多模态命名实体识别的实战解决方案

2次阅读

没有评论

共计 1552 个字符，预计需要花费 4 分钟才能阅读完成。

传统多模态命名实体识别 (MNER) 方法在开放域场景下存在明显局限性。基于规则或纯统计的方法难以应对以下问题：

模态鸿沟问题：文本和视觉特征存在于不同语义空间，简单的特征拼接会导致信息损失
噪声敏感问题：社交媒体等开放域数据常包含低质量图像和不规范文本
上下文缺失问题：传统方法难以捕捉跨模态的深层语义关联

相比传统 fine-tuning 方法，prompt engineering 具有以下优势：

无需大规模标注数据
更好地利用预训练知识
支持零样本和小样本学习

我们提出的三阶段 prompt 架构：

多模态上下文编码模板
同时嵌入图像描述和原始文本
使用特殊标记 [IMG] 标识视觉特征位置
动态实体类型提示词
根据领域自适应调整实体类型列表
示例：”Identify LOCATION entities in both text and image”
自解释式输出规范化
强制模型输出结构化 JSON
包含实体文本、类型和置信度

import clip
from transformers import BertTokenizer

def extract_features(text, image):
    # CLIP 处理图像
    image_input = clip.process_image(image)
    image_features = clip_model.encode_image(image_input)

    # BERT 处理文本
    text_input = bert_tokenizer(text, return_tensors='pt')
    text_features = bert_model(**text_input).last_hidden_state

    return image_features, text_features

class CrossModalAttention(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.query = nn.Linear(dim, dim)
        self.key = nn.Linear(dim, dim)
        self.value = nn.Linear(dim, dim)

    def forward(self, text_feat, image_feat):
        # 维度对齐 (batch_size, seq_len, dim)
        q = self.query(text_feat)
        k = self.key(image_feat)
        v = self.value(image_feat)

        # 计算注意力权重
        attn_weights = torch.matmul(q, k.transpose(-2, -1))
        attn_weights = F.softmax(attn_weights, dim=-1)

        return torch.matmul(attn_weights, v)

在 Twitter-2017 数据集上的测试结果：