这个说法的立足点则是文字转WAV音频