其他三人根本就没有考虑文字转WAV音频