小爱音响接入ChatGPT实战指南：从零开始构建智能语音助手

17次阅读

共计 2081 个字符，预计需要花费 6 分钟才能阅读完成。

小爱开放平台为开发者提供了丰富的语音交互能力，但在自然语言理解和生成方面存在一定局限。ChatGPT 作为强大的语言模型，能够弥补这一短板，实现更自然、智能的对话体验。将两者结合，可以打造出功能更强大的智能语音助手。

整体解决方案采用分层架构设计：

小爱技能层：负责接收用户语音输入和发送语音响应
中间服务层：处理语音转文本、意图识别和对话状态管理
ChatGPT 集成层：封装 API 调用并处理响应
语音合成层：将文本响应转换为语音

注册小爱开放平台开发者账号
创建新技能项目
配置意图和语音交互模型
设置服务端 API 地址

import openai

class ChatGPTClient:
    def __init__(self, api_key):
        openai.api_key = api_key

    def get_response(self, prompt):
        try:
            response = openai.ChatCompletion.create(
                model="gpt-3.5-turbo",
                messages=[{"role": "user", "content": prompt}]
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"ChatGPT API error: {str(e)}")
            return "抱歉，我暂时无法回答这个问题"

import speech_recognition as sr

def speech_to_text(audio_file):
    recognizer = sr.Recognizer()
    with sr.AudioFile(audio_file) as source:
        audio = recognizer.record(source)
        try:
            text = recognizer.recognize_google(audio, language="zh-CN")
            return text
        except sr.UnknownValueError:
            return "无法识别语音"
        except sr.RequestError:
            return "语音服务不可用"

from gtts import gTTS
import os

def text_to_speech(text, output_file):
    tts = gTTS(text=text, lang='zh-cn')
    tts.save(output_file)
    return output_file

import logging
from flask import Flask, request, jsonify

app = Flask(__name__)

# 初始化 ChatGPT 客户端
chatgpt = ChatGPTClient("your-openai-api-key")

@app.route('/xiaomi_skill', methods=['POST'])
def handle_request():
    try:
        # 1. 获取小爱请求数据
        req_data = request.get_json()

        # 2. 语音转文本
        audio_url = req_data['audio_url']
        user_text = speech_to_text(audio_url)

        # 3. 调用 ChatGPT 获取响应
        response_text = chatgpt.get_response(user_text)

        # 4. 文本转语音
        audio_output = text_to_speech(response_text, "response.mp3")

        return jsonify({
            "version": "1.0",
            "response": {
                "output_speech": {
                    "type": "audio",
                    "audio_url": audio_output
                }
            }
        })
    except Exception as e:
        logging.error(f"Error handling request: {str(e)}")
        return jsonify({"error": "internal server error"}), 500