语音 AI

为您的对话式 AI 应用提供语音界面。

什么是语音 AI？

语音 AI 使人们能够与设备、机器和计算机交谈，从而简化并改善生活。语音 AI 是对话式 AI 的一个子集，它包括自动语音识别 (ASR) 和文本转语音 (TTS)，可将人类语音转换为文本，并从书面词句中生成类似人类的声音，从而实现虚拟助理、实时转录、语音搜索和问答系统等强大技术。

使用语音 AI 的优势。

出色的准确性。

通过语音 AI 模型自定义实现的出色准确性，将客户体验升级到卓越水平。

支持多种语言。

通过提供客户所用语言的语音应用，拓展您的客户群。

高性能和可扩展性。

借助低延迟、高吞吐量的应用为更多客户提供服务，这些应用可以基于任意基础设施进行即时扩展：本地、云、边缘或嵌入式基础设施。

为您的品牌提供专属自然语音。

借助您的品牌专属语音进行快速、有意义的互动，提升您的客户服务质量。

免费电子书：构建语音 AI 应用

了解如何为您的对话式 AI 应用构建和部署实时语音 AI 工作流。

下载电子书

语音 AI 用例。

同时转录多个发言者的发言内容。

现代的语音转文本算法可以将会议、讲座和社交对话转录为文本，同时识别发言者并标记他们的发言内容。借助 NVIDIA 语音 AI 技术和 SDK，您可以为呼叫中心对话和视频会议创建准确的转录，也可以在医患互动时自动创建临床笔记。

NVIDIA Riva：构建您自己的语音 AI 应用

实现助理虚拟化。

虚拟助理通过语音界面与用户通信，并协助完成各种任务：从解决呼叫中心的客户问题到作为智能家居助理打开电视，再到作为车载智能助理导航到最近的加油站。利用 NVIDIA Omniverse Avatar Cloud Engine (ACE) 集成 NVIDIA 语音 AI 技术，将易于使用的深度神经网络组件集成到交互式虚拟形象应用中，从而实现准确、快速、自然的交互。

使用 Omniverse ACE 开发和部署交互式虚拟形象

打造您的语音品牌。

借助可识别的品牌语音，公司可以创建应用，以便与客户建立关系，同时支持所有客户，包括存在言语和语言缺陷的客户。借助 NVIDIA Custom Voice（语音 AI 的组成部分），只需 30 分钟来录制语音数据，即可在几小时（而不是数周）内轻松为品牌打造独特的高质量个性化语音。

利用 NVIDIA Omniverse ACE 在 Project Tokkio 中提供专业自然的问答

开发可自定义的语音 AI 界面。

使用预训练模型缩短训练时间。

现代语音 AI 系统使用基于海量数据集训练的深度神经网络 (DNN) 模型。随着时间的推移，语音 AI 模型的规模大幅增长，因此，即使在高性能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度学习框架，训练此类模型也可能需要数周的密集计算时间。

NVIDIA 语音 AI 在 NVIDIA NGC™ 目录中提供预训练的生产级优质模型，这些模型基于多个公共和专有数据集在 NVIDIA DGX™ 系统上训练了超过数十万小时。

详细了解 NVIDIA 预训练模型

图 1：高度准确的预训练模型。

图 2：端到端 TAO 工具套件工作流。

自定义模型以获得更高的准确性。

为实现企业特定对话应用所需的准确性，许多企业必须自定义语音 AI 模型。但是，从头开始自定义语音 AI 模型通常需要庞大的训练数据集和 AI 专业知识。

要在先前没有 AI 经验的情况下加速开发并高度自定义语音模型，您可以使用 NVIDIA TAO 工具套件（一种低代码 AI 模型开发工具套件）。它将经过验证的迁移学习方法应用于预训练模型，并根据您的用例微调语音 AI 模型。NVIDIA 还提供开源工具套件 NeMo，供研究人员构建先进 (SOTA) 的语音 AI 模型。使用 NeMo 和 TAO 工具套件优化的模型可以轻松导出，并在 NVIDIA® Riva 本地或云中部署为语音服务。

下载此电子书，开始使用可自定义的语音 AI

通过开发实时技能，实现自然交互。

对于语音 AI 技能，公司之前必须始终在准确性和实时性能之间做出选择。例如，他们不能问一个问题，然后等待几秒钟才能得到回复。此外，他们不希望对话式 AI 应用存在误解或传达无用信息。

借助 NVIDIA Riva，公司可以实现出色的准确性，并在几毫秒内实时运行语音 AI 工作流。Riva 提供 NGC 上的 SOTA 预训练模型、低代码工具（例如用于微调的 TAO 工具套件），以实现出色准确性和面向实时性能的优化技能。

了解公司如何在生产环境中部署 Riva

图 3：NVIDIA Riva 语音 AI 能力。

探索语音 AI 领域的新突破。

语音 AI 将支持多个语种。

语音 AI 应用和工作流必须理解多种语言、方言和口音，才能在世界各地部署。例如，美国和大多数其他国家/地区的人说不同的语言。在呼叫中心等用例中，客户有时会使用多种语言来描述所发生的情况。下一步是拥有能处理这些情况的语音 AI 应用。

开发者可以为每种语言使用单独的语音模型，也可以使用能处理多种语言的单个模型。如需详细了解不同语言的 ASR 模型，请访问“Speech Recognition Collections”（语音识别集）页面。

将语音 AI 从云端带到设备。

首次开始使用语音 AI 时，公司都选择使用云服务，因为云服务易于设置和使用。慢慢地，公司开始改用本地解决方案，避免数据出现隐私问题。现在，设备端解决方案是新的突破，不仅可以保持数据的私密性，还可以加快推理速度并降低成本。

NVIDIA Riva 支持在嵌入式、数据中心和云环境中部署应用，为您的对话式 AI 应用开发可自定义的语音 AI 界面。

访问教育资源。

获取语音 AI 简介。

了解语音 AI 核心概念以及如何构建和部署语音技术应用。

阅读语音 AI 电子书

揭开对话式 AI 的神秘面纱。

了解如何在对话式 AI 应用中添加语音 AI，以及如何在训练和推理时自定义语音 AI。

观看 GTC 对话式 AI 揭秘讲座

浏览语音 AI 博客。

了解语音 AI 是什么，它如何随时间变化，其关键组件、挑战、用例和 NVIDIA 语音 AI SDK。

阅读语音 AI 博客

深入了解 NVIDIA Riva。

了解助力您构建语音 AI 服务的 NVIDIA Riva 主要功能。

阅读 NVIDIA Riva 入门博客

注册以接收 NVIDIA 发布的关于语音 AI 的新动态。