而后者出于本能反应文字转WAV音频