我觉得让他们自己说出来会比较好点文字转WAV音频