自然是考虑到了双方的心理文字转WAV音频