唯一需要的只是坐标文字转WAV音频