但具体的认知能有多少文字转WAV音频