他们要面对几十道甚至上百道像文字转WAV音频