他应该是在接受最初步的传承文字转WAV音频