从零实现PRD自动生成测试用例：基于自然语言处理的Skill开发指南

11次阅读

共计 1835 个字符，预计需要花费 5 分钟才能阅读完成。

传统测试用例编写往往面临三个核心问题：

人力成本高：手工编写测试用例需要反复阅读 PRD 文档，平均每个功能点消耗 30-45 分钟
覆盖率不足：根据 2023 年 QA 社区调研，手工用例平均遗漏 15% 的边界条件
维护困难：需求变更时，测试用例更新滞后导致回归测试失效

方案	开发成本	准确率	可维护性	适用场景
正则表达式	低	40-60%	差	固定格式的简单需求
NLP 模型	高	85-95%	中	复杂自然语言描述
规则引擎	中	70-85%	好	结构化业务规则

推荐选择NLP+ 规则混合方案：用 spaCy 处理非结构化文本，再用业务规则提炼测试要素

import spacy
nlp = spacy.load('en_core_web_sm')

def extract_entities(text):
    doc = nlp(text)
    return {'actions': [ent.text for ent in doc.ents if ent.label_ == 'ACTION'],
        'conditions': [ent.text for ent in doc.ents if ent.label_ == 'COND']
    }

需要自定义实体类型：
– ACTION: 用户操作行为（如 ” 点击提交按钮 ”）
– COND: 前置条件（如 ” 当用户未登录时 ”）

TEST_SCENARIO "用户登录"
GIVEN "访问首页"
WHEN "输入正确密码"
THEN "显示欢迎消息"

dsl_mapping = {
    'GIVEN': 'setup_function',
    'WHEN': 'action',
    'THEN': 'assert'
}

def generate_test_case(dsl):
    test_lines = []
    for line in dsl.split('\n'):
        keyword, *rest = line.split()
        if keyword in dsl_mapping:
            test_lines.append(f"{dsl_mapping[keyword]}('{''.join(rest)}')")
    return '\n'.join(test_lines)

import re

def preprocess_prd(text):
    # 移除换行和多余空格
    text = re.sub(r'\s+', ' ', text)
    # 提取需求段落
    return [p for p in text.split('.') if len(p) > 10]

class TestCaseGenerator:
    def __init__(self):
        self.templates = {'login': "def test_{scenario}(self):\n    {steps}",
            'search': "def test_{scenario}(self):\n    {steps}"
        }

    def generate(self, scenario_type, steps):
        return self.templates[scenario_type].format(scenario=scenario_type.lower(),
            steps='\n'.join(steps)
        )

内存管理：
处理大文档时使用 spaCy 的 nlp.pipe 批量处理
及时清理不需要的 Doc 对象
耗时优化：
预处理阶段过滤无关段落
缓存常用实体识别结果

def handle_ambiguity(text):
    ambiguity_terms = ['应该', '可能', '大概']
    if any(term in text for term in ambiguity_terms):
        return f"# TODO: 需要人工确认 - {text}"
    return text