所以他必须等待文字转WAV音频