NVIDIA NIM 微服务

旨在随时随地快速、可靠地部署加速生成式AI推理。

开始使用

视频 | 解决方案概览 | 文档 | 面向开发者的内容

概述
优势
试用版
技术
基准测试
模型
特性
用例
启动选项
资源
后续步骤

概述
优势
试用版
技术
基准测试
模型
特性
用例
启动选项
资源
后续步骤

开始使用

概述

什么是 NVIDIA NIM?

NVIDIA NIM™ 是一组预构建的优化推理微服务，可助力在任何 NVIDIA 加速基础设施（包括云端、数据中心、工作站和边缘设备）上快速部署最新的 AI 模型。

主权 AI 智能体：依托 NVIDIA AI Factory，立足本地思考，践行全球行动

经验证的 AI 工厂设计将加速基础设施与软件相结合，包括全新的 NVIDIA NIM™ 功能和扩展的 NVIDIA Blueprint 套件。

阅读博客

免费开发访问 NIM

借助由 DGX Cloud 加速的托管 API，免费进行无限制的 NIM 原型设计；或作为 NVIDIA 开发者计划的一部分，下载并自主托管 NIM 微服务，用于研究和开发。

立即试用 API

使用 NVIDIA NIM 加速 AI 部署

NVIDIA NIM 将管理 API 的易用性和操作简便性与自托管模型在您首选基础架构上的灵活性和安全性相结合。NIM 微服务包含 AI 团队所需的一切内容 — — 最新的 AI 基础模型、优化推理引擎、行业标准 API 和运行时依赖项，这些内容均预先打包在企业级软件容器中，可随时随地进行部署和扩展。

优势

企业生成式AI 可以用更少的资源实现更多功能

易于使用的企业级微服务，专为高性能 AI 构建，可实现无缝协作并经济高效地扩展。体验由最新 AI 模型支持的 AI 智能体及其他企业生成式AI应用的最快价值实现，这些模型涵盖推理、仿真、语音等能力。

易用性

通过为最新 AI 模型预构建经优化的微服务，加速创新并缩短上市时间。借助标准 API，模型可在五分钟内完成部署并轻松集成到应用中。

观看：5 分钟内完成 NIM 部署

企业级

部署企业级微服务,这些微服务由 NVIDIA 通过严格的验证流程和专用功能分支持续管理,所有这些都得到 NVIDIA 企业级支持的保障,该支持还提供与 NVIDIA AI 专家直接沟通的机会。

性能和规模

通过低延迟、高吞吐量且可随云扩展的 AI 推理降低 TCO，并通过开箱即用的调优模型支持实现最佳模型精度。

观看：NVIDIA NIM 性能优势与总拥有成本 (TCO) 优化

便携性

借助预构建的云原生微服务，可在任何 NVIDIA 加速基础设施（云端、数据中心和工作站）上部署并运行，并在 Kubernetes 及云服务提供商环境中无缝扩展。

试用版

使用 NIM 构建 AI 智能体

了解如何设置两个 AI 智能体，分别用于内容生成和数字图形设计，并体验使用 NIM 微服务快速启动和运行的便捷性。

立即观看

技术

代理式 AI 的基础模组

获取最新的 AI 模型

获取用于推理、语言、检索、语音、视觉等领域的最新 AI 模型，可在五分钟内轻松部署于任何 NVIDIA 加速基础设施之上。

立即试用

使用 NVIDIA Blueprint 快速启动开发

借助包含 NVIDIA 加速库、SDK 和 NIM 微服务的全面参考工作流，构建有影响力的代理式 AI 应用。

了解更多立即试用

使用 NVIDIA NeMo 智能体工具包简化开发

借助开发者工具包 NVIDIA NeMo Agent 工具包库，将 NIM 微服务集成到代理式 AI 应用中，该工具包可用于构建 AI 智能体并将其集成到自定义工作流中。

了解更多立即试用

基准测试

借助 NIM 提升吞吐量

NVIDIA NIM 可开箱即用地提供优化的吞吐量和延迟，以更大限度提升 token 生成效率，支持高峰时段的并发用户，并增强响应能力。NIM 微服务将持续更新最新的优化推理引擎，随时间推移在相同基础设施上不断提升性能。

配置：Llama 3.1 8B instruct，1x H100 SXM；并发请求：200。NIM 开启：FP8，吞吐量 1201 tokens/s，ITL 32ms。NIM 关闭：FP8，吞吐量 613 tokens/s，ITL 37ms。

模型

为数千个开放模型解锁企业级推理能力

部署由 NVIDIA® TensorRT™-LLM、vLLM 或 SGLang 支持的大语言模型 (LLM)，在 NVIDIA 加速基础设施上实现低延迟、高吞吐量的推理。

探索模型系列

特性

AI 开发与部署的轻松之选

NIM 推理微服务可随时随地运行，提供行业标准 API，以便轻松与企业系统和应用集成，并可在 Kubernetes 上无缝扩展，从而提供云规模的高吞吐量、低延迟推理。

部署 NIM

使用单个命令部署 NIM 来运行您的模型。您还可以轻松地使用 NVIDIA TensorRT-LLM, vLLM 或 SGLang 支持的 LLM(包括微调过的模型)来运行 NIM。

运行推理

根据您的 NVIDIA 加速基础设施，获取经过优化的运行时引擎，启动并运行 NIM。

构建

仅用几行代码即可集成自托管 NIM 端点。

部署

运行

构建

docker run nvcr.io/nim/publisher_name/model_name

 curl -X 'POST'   'http://0.0.0.0:8000/v1/completions'   -H 'accept: application/json'   -H 'Content-Type: application/json'   -d '{  "model" : "model_name",  "prompt" : "Once upon a time",  "max_tokens" : 64 }'

 import openai client = openai.OpenAI(  base_url = "YOUR_LOCAL_ENDPOINT_URL",  api_key="YOUR_LOCAL_API_KEY" ) chat_completion = client.chat.completions.create(  model="model_name",  messages=[{"role" : "user" , "content" : "Write me a love song" }],  temperature=0.7 )