这时候靠的就是专注力文字转WAV音频