但立场却要基于自身文字转WAV音频