基于吴恩达《ChatGPT Prompt Engineering for Developers》的实战指南：如何设计高效对话提示词

13次阅读

没有评论

共计 2782 个字符，预计需要花费 7 分钟才能阅读完成。

开发对话系统时，90% 的糟糕体验都源于提示词设计不当。以下是三个高频翻车现场：

指令模糊：比如让 AI「写篇文章」，却不指定长度、风格和关键点，结果可能得到一篇散文或是学术论文
上下文丢失：多轮对话中，AI 突然忘记用户刚才说「不要放香菜」的饮食禁忌
结果不可控：同样的提示词，有时输出过于简略，有时又长篇大论

这些问题本质上都是未遵循「确定性设计」原则——就像给人类布置任务时，模糊的指令必然导致偏差的执行。

吴恩达课程中重点对比的三种方法，其实对应着不同的开发阶段：

零样本提示(Zero-shot)
适用场景：快速验证基础功能
示例："将这段文字翻译成法语:"
优点：开发成本最低
缺点：复杂任务准确率可能低于 50%
少样本提示(Few-shot)
适用场景：需要特定格式输出的场景
示例：给出 3 个「问题 - 标准答案」对后再提问
优点：能引导 AI 模仿示范格式
缺点：占用 token 且可能过拟合示例
思维链提示(Chain-of-Thought)
适用场景：需要逻辑推理的复杂任务
示例："请逐步思考：首先... 其次... 因此..."
优点：提升数学题等任务的准确率 30%+
缺点：显著增加响应时间

实际项目中，我建议先用 Zero-shot 验证可行性，再用 Few-shot 优化关键路径，最后对核心功能尝试 Chain-of-Thought。

这个模板是我根据课程内容提炼的工业级解决方案：

# 结构化提示词生成函数
def build_prompt(role, task, constraints, examples=None):
    """
    参数说明：role: AI 角色定位(如『资深营养师』)
    task: 具体任务说明(需包含动词)
    constraints: 限制条件列表(如长度 / 格式 / 禁忌)
    examples: 少样本示例(可选)
    """base = f""" 你是一位{role}，请完成以下任务：\n{task}\n 要求：\n"""constraints_str ='\n'.join(f'- {c}' for c in constraints)

    if examples:
        return base + constraints_str + "\n 参考案例：\n" + examples
    return base + constraints_str

实际调用示例：

# 健康咨询场景提示词
nutrition_prompt = build_prompt(
    role="资深营养师",
    task="根据用户提供的体检报告，给出饮食调整建议",
    constraints=[
        "建议分早餐 / 午餐 / 晚餐三部分",
        "避免使用专业术语",
        "若发现异常指标需特别标注"
    ],
    examples="""用户数据：血压偏高 \n 输出范例：\n 早餐：建议用燕麦粥替代油条..."""
)

上下文保持是对话系统的灵魂，这里展示用 OpenAI API 实现的核心逻辑：

import openai

class DialogueManager:
    def __init__(self):
        self.context = []

    def chat(self, user_input, max_turns=5):
        """
        参数调优关键：- max_turns: 控制上下文长度，超过后移除最早对话
        - temperature: 0.7 适合创意场景，0.2 适合确定性任务
        """self.context.append({"role":"user","content": user_input})

        # 自动修剪过长的对话历史
        if len(self.context) > max_turns * 2:
            self.context = self.context[-max_turns*2:]

        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "system", "content": "你是一个专业的医疗顾问"}
            ] + self.context,
            temperature=0.5,
            max_tokens=1000
        )

        ai_reply = response.choices[0].message.content
        self.context.append({"role": "assistant", "content": ai_reply})
        return ai_reply

关键参数说明：

temperature：0- 1 之间的浮点数，值越大输出越随机
max_tokens：控制响应长度，中文通常按字符数 *1.3 估算
n：生成多个候选响应时使用(会显著增加成本)

建议建立这个三维评估体系：

相关性(0- 5 分)
是否始终围绕用户意图
评估方法：人工标注 + 余弦相似度计算
连贯性(0- 5 分)
上下文是否自然衔接
评估方法：检测指代消解(如「它」指代是否正确)
任务完成度(0- 5 分)
是否满足提示词中所有约束条件
评估方法：自动化规则检查(如是否包含所有必需部分)

自动化评估代码框架：

def evaluate_response(prompt, response):
    """
    简化版评估函数
    实际项目建议结合 BERT 等模型实现
    """
    score = 0

    # 检查约束条件
    if "早餐建议" in prompt and "早餐：" in response:
        score += 1

    # 简单连贯性检查
    if "?" in prompt and not response.endswith("."):
        score += 1

    return min(5, score * 2)  # 转换为 5 分制