因为它从方源的身上文字转WAV音频