如何编写AI Skill：从设计原则到工程实践的全流程指南

11次阅读

共计 3374 个字符，预计需要花费 9 分钟才能阅读完成。

开发一个真正好用的 AI Skill 并不容易。很多开发者都会遇到以下这些让人头疼的问题：

意图识别准确率低 ：用户说 ” 我想订明天去上海的机票 ” 和 ” 帮我看看后天飞北京的航班 ”，系统却识别成不同的意图
对话状态混乱 ：多轮对话中经常丢失上下文，比如用户刚说完目的地，下一句问 ” 天气怎么样 ” 时系统就懵了
技能难以扩展 ：每加一个新功能都要大改代码，最后变成一坨难以维护的意大利面条代码

这些问题不解决，做出来的 AI Skill 用起来就会感觉很 ” 人工智障 ”。下面我就从架构设计开始，一步步教你如何打造专业的 AI Skill。

这是最简单粗暴的方式，用 if-else 处理所有可能情况：

if "天气" in user_input:
    if "上海" in user_input:
        return get_shanghai_weather()
    elif "北京" in user_input:
        return get_beijing_weather()

优点：开发快，适合简单场景
缺点：难以维护，扩展性差，无法处理复杂的自然语言

完全依赖端到端的深度学习模型：

# 使用 BERT 等预训练模型
intent = model.predict(user_input)

优点：看起来很高级
缺点：需要大量标注数据，难以控制对话流程，存在 ” 黑箱 ” 问题

结合规则引擎和机器学习的最佳实践：

graph LR
    A[用户输入] --> B(NLU 自然语言理解)
    B --> C[意图识别]
    B --> D[实体抽取]
    C --> E[对话管理器]
    D --> E
    E --> F[业务逻辑]
    F --> G[响应生成]

核心组件 ：
– NLU（Natural Language Understanding）：理解用户输入
– DM（Dialog Manager）：管理对话状态和流程
– 业务逻辑：执行具体操作
– 响应生成：组织回复内容

安装 Rasa：

pip install rasa

定义 NLU 训练数据（nlu.yml）：

nlu:
- intent: check_weather
  examples: |
    - 今天天气怎么样
    - 上海明天会下雨吗
    - 北京最近气温如何

训练模型：

from rasa.nlu.model import Trainer

trainer = Trainer(rasa.nlu.config.load("config.yml"))
trainer.train(nlu_data)

from enum import Enum, auto
from typing import Dict, Any
import time

class DialogState(Enum):
    START = auto()
    COLLECTING_INFO = auto()
    CONFIRMING = auto()
    COMPLETED = auto()

class DialogManager:
    def __init__(self):
        self.state = DialogState.START
        self.context: Dict[str, Any] = {}
        self.last_active = time.time()

    def reset_if_timeout(self, timeout=300):
        if time.time() - self.last_active > timeout:
            self.reset()

    def reset(self):
        self.state = DialogState.START
        self.context.clear()

    def handle_input(self, user_input: str):
        self.last_active = time.time()

        if self.state == DialogState.START:
            # 初始状态处理逻辑
            pass
        elif self.state == DialogState.COLLECTING_INFO:
            # 信息收集状态处理
            pass
        # 其他状态处理...

from functools import wraps
from typing import Callable, Optional

class SkillRegistry:
    _skills = {}

    @classmethod
    def register(
        cls, 
        intent: str,
        required_slots: Optional[list] = None
    ) -> Callable:
        def decorator(func: Callable) -> Callable:
            @wraps(func)
            def wrapper(*args, **kwargs):
                try:
                    return func(*args, **kwargs)
                except Exception as e:
                    # 统一异常处理
                    print(f"Skill 执行失败: {str(e)}")
                    return "抱歉，出现了问题，请稍后再试"

            cls._skills[intent] = {
                "func": wrapper,
                "required_slots": required_slots or []}
            return wrapper
        return decorator

# 使用示例
@SkillRegistry.register(intent="check_weather", required_slots=["city", "date"])
def handle_weather_check(city: str, date: str) -> str:
    # 实际业务逻辑
    return f"{date} {city} 的天气是晴朗，25℃"

from threading import Lock

class SessionManager:
    def __init__(self):
        self.sessions = {}
        self.lock = Lock()

    def get_session(self, session_id: str) -> DialogManager:
        with self.lock:
            if session_id not in self.sessions:
                self.sessions[session_id] = DialogManager()
            return self.sessions[session_id]

初期使用规则引擎 + 少量标注数据
随着数据积累逐步切换到机器学习模型
实现主动学习循环：人工审核不确定的预测结果

import re

def sanitize_log(text: str) -> str:
    # 过滤信用卡号
    text = re.sub(r"\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14})\b", "[CREDIT_CARD]", text)
    # 过滤手机号
    text = re.sub(r"\b1[3-9]\d{9}\b", "[PHONE]", text)
    return text

问题：完全依赖深度学习模型，难以控制对话流程
解决：采用混合架构，关键节点保留规则控制

问题：使用内存存储对话状态，服务重启丢失上下文
解决：使用 Redis 等持久化存储，实现状态恢复

问题：用户输入不可预测，容易导致系统崩溃
解决：为每个技能添加统一的异常处理装饰器

设计科学的 AB 测试方案：

定义核心指标：任务完成率、平均对话轮次、用户满意度
分流策略：按用户 ID 哈希分组，确保同一用户始终使用同一版本
数据分析：使用 t 检验验证差异显著性
持续优化：根据测试结果迭代改进

# 简单的 AB 测试分流实现
def get_ab_test_group(user_id: str) -> str:
    # 使用哈希确保均匀分布
    hash_val = hash(user_id) % 100
    if hash_val < 50:
        return "A"  # 对照组
    else:
        return "B"  # 实验组

开发高质量的 AI Skill 需要平衡技术复杂度和用户体验。通过本文介绍的方法，你应该能够：