直到他看到拍出来的部分之后文字转WAV音频