实际上这是建立在没得到宝藏之前的情况下文字转WAV音频