理论上是有可能抢在它前面的文字转WAV音频