很容易就推断出了时间文字转WAV音频