所以他必须选对目标进行跟踪文字转WAV音频