为您的对话式 AI 应用提供语音界面。
语音 AI 使人们能够与设备、机器和计算机交谈,从而简化并改善生活。语音 AI 是对话式 AI 的一个子集,它包括自动语音识别 (ASR) 和文本转语音 (TTS),可将人类语音转换为文本,并从书面词句中生成类似人类的声音,从而实现虚拟助理、实时转录、语音搜索和问答系统等强大技术。
通过语音 AI 模型自定义实现的出色准确性,将客户体验升级到卓越水平。
通过提供客户所用语言的语音应用,拓展您的客户群。
借助低延迟、高吞吐量的应用为更多客户提供服务,这些应用可以基于任意基础设施进行即时扩展:本地、云、边缘或嵌入式基础设施。
借助您的品牌专属语音进行快速、有意义的互动,提升您的客户服务质量。
了解如何为您的对话式 AI 应用构建和部署实时语音 AI 工作流。
现代语音 AI 系统使用基于海量数据集训练的深度神经网络 (DNN) 模型。随着时间的推移,语音 AI 模型的规模大幅增长,因此,即使在高性能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度学习框架,训练此类模型也可能需要数周的密集计算时间。
NVIDIA 语音 AI 在 NVIDIA NGC™ 目录中提供预训练的生产级优质模型,这些模型基于多个公共和专有数据集在 NVIDIA DGX™ 系统上训练了超过数十万小时。
图 1:高度准确的预训练模型。
图 2:端到端 TAO 工具套件工作流。
为实现企业特定对话应用所需的准确性,许多企业必须自定义语音 AI 模型。但是,从头开始自定义语音 AI 模型通常需要庞大的训练数据集和 AI 专业知识。
要在先前没有 AI 经验的情况下加速开发并高度自定义语音模型,您可以使用 NVIDIA TAO 工具套件(一种低代码 AI 模型开发工具套件)。它将经过验证的迁移学习方法应用于预训练模型,并根据您的用例微调语音 AI 模型。NVIDIA 还提供开源工具套件 NeMo,供研究人员构建先进 (SOTA) 的语音 AI 模型。使用 NeMo 和 TAO 工具套件优化的模型可以轻松导出,并在 NVIDIA® Riva 本地或云中部署为语音服务。
对于语音 AI 技能,公司之前必须始终在准确性和实时性能之间做出选择。例如,他们不能问一个问题,然后等待几秒钟才能得到回复。此外,他们不希望对话式 AI 应用存在误解或传达无用信息。
借助 NVIDIA Riva,公司可以实现出色的准确性,并在几毫秒内实时运行语音 AI 工作流。Riva 提供 NGC 上的 SOTA 预训练模型、低代码工具(例如用于微调的 TAO 工具套件),以实现出色准确性和面向实时性能的优化技能。
图 3:NVIDIA Riva 语音 AI 能力。
注册以接收 NVIDIA 发布的关于语音 AI 的新动态。