主要是看两个孩子的反应文字转WAV音频