它们不像机器人那样文字转WAV音频