也能用这个结论来解释文字转WAV音频