NVIDIA AI

NVIDIA NIM 微服务

旨在随时随地快速、可靠地部署加速生成式AI推理。

概述

什么是 NVIDIA NIM?

NVIDIA NIM™ 是一组预构建的优化推理微服务,可助力在任何 NVIDIA 加速基础设施(包括云端、数据中心、工作站和边缘设备)上快速部署最新的 AI 模型。

主权 AI 智能体:依托 NVIDIA AI Factory,立足本地思考,践行全球行动

经验证的 AI 工厂设计将加速基础设施与软件相结合,包括全新的 NVIDIA NIM™ 功能和扩展的 NVIDIA Blueprint 套件。

免费开发访问 NIM

借助由 DGX Cloud 加速的托管 API,免费进行无限制的 NIM 原型设计;或作为 NVIDIA 开发者计划的一部分,下载并自主托管 NIM 微服务,用于研究和开发。

使用 NVIDIA NIM 加速 AI 部署

NVIDIA NIM 将管理 API 的易用性和操作简便性与自托管模型在您首选基础架构上的灵活性和安全性相结合。NIM 微服务包含 AI 团队所需的一切内容 — — 最新的 AI 基础模型、优化推理引擎、行业标准 API 和运行时依赖项,这些内容均预先打包在企业级软件容器中,可随时随地进行部署和扩展。

NVIDIA NIM 栈示意图

优势

企业生成式AI 可以用更少的资源实现更多功能

易于使用的企业级微服务,专为高性能 AI 构建,可实现无缝协作并经济高效地扩展。体验由最新 AI 模型支持的 AI 智能体及其他企业生成式AI应用的最快价值实现,这些模型涵盖推理、仿真、语音等能力。

易用性

通过为最新 AI 模型预构建经优化的微服务,加速创新并缩短上市时间。 借助标准 API,模型可在五分钟内完成部署并轻松集成到应用中。

企业级

部署企业级微服务,这些微服务由 NVIDIA 通过严格的验证流程和专用功能分支持续管理,所有这些都得到 NVIDIA 企业级支持的保障,该支持还提供与 NVIDIA AI 专家直接沟通的机会。

性能和规模

通过低延迟、高吞吐量且可随云扩展的 AI 推理降低 TCO,并通过开箱即用的调优模型支持实现最佳模型精度。

便携性

借助预构建的云原生微服务,可在任何 NVIDIA 加速基础设施(云端、数据中心和工作站)上部署并运行,并在 Kubernetes 及云服务提供商环境中无缝扩展。

试用版

使用 NIM 构建 AI 智能体

了解如何设置两个 AI 智能体,分别用于内容生成和数字图形设计,并体验使用 NIM 微服务快速启动和运行的便捷性。


技术

代理式 AI 的基础模组

获取最新的 AI 模型

获取用于推理、语言、检索、语音、视觉等领域的最新 AI 模型,可在五分钟内轻松部署于任何 NVIDIA 加速基础设施之上。

使用 NVIDIA Blueprint 快速启动开发

借助包含 NVIDIA 加速库、SDK 和 NIM 微服务的全面参考工作流,构建有影响力的代理式 AI 应用。

使用 NVIDIA NeMo 智能体工具包简化开发

借助开发者工具包 NVIDIA NeMo Agent 工具包库,将 NIM 微服务集成到代理式 AI 应用中,该工具包可用于构建 AI 智能体并将其集成到自定义工作流中。

基准测试

借助 NIM 提升吞吐量

NVIDIA NIM 可开箱即用地提供优化的吞吐量和延迟,以更大限度提升 token 生成效率,支持高峰时段的并发用户,并增强响应能力。NIM 微服务将持续更新最新的优化推理引擎,随时间推移在相同基础设施上不断提升性能。

配置:Llama 3.1 8B instruct,1x H100 SXM;并发请求:200。NIM 开启:FP8,吞吐量 1201 tokens/s,ITL 32ms。NIM 关闭:FP8,吞吐量 613 tokens/s,ITL 37ms。

模型

为数千个开放模型解锁企业级推理能力

部署由 NVIDIA® TensorRT™-LLM、vLLM 或 SGLang 支持的大语言模型 (LLM),在 NVIDIA 加速基础设施上实现低延迟、高吞吐量的推理。


特性

AI 开发与部署的轻松之选

NIM 推理微服务可随时随地运行,提供行业标准 API,以便轻松与企业系统和应用集成,并可在 Kubernetes 上无缝扩展,从而提供云规模的高吞吐量、低延迟推理。

部署 NIM

使用单个命令部署 NIM 来运行您的模型。您还可以轻松地使用 NVIDIA TensorRT-LLM, vLLM 或 SGLang 支持的 LLM(包括微调过的模型)来运行 NIM。

运行推理

根据您的 NVIDIA 加速基础设施,获取经过优化的运行时引擎,启动并运行 NIM。

构建

仅用几行代码即可集成自托管 NIM 端点。

部署
运行
构建
docker run nvcr.io/nim/publisher_name/model_name
curl -X 'POST' 'http://0.0.0.0:8000/v1/completions' -H 'accept: application/json' -H 'Content-Type: application/json' -d '{ "model" : "model_name", "prompt" : "Once upon a time", "max_tokens" : 64 }'
import openai client = openai.OpenAI( base_url = "YOUR_LOCAL_ENDPOINT_URL", api_key="YOUR_LOCAL_API_KEY" ) chat_completion = client.chat.completions.create( model="model_name", messages=[{"role" : "user" , "content" : "Write me a love song" }], temperature=0.7 )

用例

了解 NIM 的实际应用方式

了解 NVIDIA NIM 如何支持行业用例,并借助精心策划的示例快速启动您的 AI 开发。

AI 虚拟助理

利用生成式AI增强客户体验,改进业务流程。

智能文档处理

使用生成式AI来加速和自动执行文档处理。

AI 赋能超个性化购物

借助 AI 提供量身定制的体验,提升客户满意度。

3D 产品配置器

使用 OpenUSD 和生成式 AI,在几乎任何设备上开发和部署 3D 产品配置器工具和体验。

启动选项

NVIDIA NIM 入门指南

免费开始原型设计体验

开始使用 NIM 的易于使用的 API 端点,由 DGX Cloud 提供支持。

  • 访问完全加速的 AI 基础架构。
  • 确保您的数据不会被用于模型训练。
  • 作为 NVIDIA 开发者计划的一部分,获取开发和测试权限

下载并部署

运行 NVIDIA NIM,在您选择的云或数据中心中扩展优化的 AI 模型。

  • 确保数据永远不会离开您的安全信道。
  • 无需更改代码即可从云端端点无缝过渡到自主托管 API。
  • 首先获得免费访问权限以进行开发和测试,然后转为 NVIDIA AI Enterprise 许可证以用于生产。

联系我们

与 NVIDIA AI 专家交流,了解如何借助 NVIDIA AI Enterprise 提供的安全性、API 稳定性和支持,将生成式AI试点项目投入生产。

资源

最新的 NVIDIA NIM 资源

NVIDIA NIM 微服务简介

了解 NIM 如何助力构建、部署和扩展 AI 应用。

调整 LLM 推理系统的规模

了解如何借助 NIM 微服务为真实应用优化和部署大语言模型。

使用 NIM 开发 AI 背景生成器

回顾创建 AI 赋能的 NVIDIA Omniverse™ Kit 应用程序的过程。您将学习如何使用 Omniverse 扩展程序、NIM 微服务和 Python 代码来添加一个能够从文本输入中生成背景的扩展程序。

如何借助 NVIDIA NIM 在 5 分钟内构建简单的 AI 智能体

了解如何设置两个分别用于内容生成和数字图形设计的 AI 智能体。

NVIDIA NIM 微服务适用于 RTX AI PC

利用 NVIDIA NIM 微服务和 NVIDIA AI Blueprints,在您的 NVIDIA RTX™ AI PC 上本地运行最新生成式AI模型。

生成式AI推理由NVIDIA NIM提供支持

利用 NVIDIA NIM 微服务,可视化高性能生成式AI推理的影响。

后续步骤

准备好开始了吗?

免费获取由 DGX Cloud 加速的 NIM API 端点,用于原型设计。准备好投入生产时,下载 NIM 并在您首选的基础设施(工作站、数据中心、边缘设备或云)上自行托管,或访问由 NVIDIA 合作伙伴托管的 NIM 端点。

联系我们

与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 提供的安全性、API 稳定性和服务支持,从试点转向生产阶段。

及时了解 NVIDIA NIM 新闻

获取最新的新闻、技术、突破等信息,直接发送到您的收件箱。