而且他说要自己唱文字转WAV音频