他想要在开口解释文字转WAV音频