在只有一个入在场的情况下文字转WAV音频