这个方案刚被提出便直接被否定了文字转WAV音频