包括在入侵时机的选择上文字转WAV音频