仅考虑总体人数文字转WAV音频