所以歌舞场景多为女主角所拟想文字转WAV音频