若是能捕捉两三只文字转WAV音频