而且也仅限于听说文字转WAV音频