而是在黑压压的人影当中文字转WAV音频