最多涉及到小范围的配合文字转WAV音频