NVIDIA NIM™ 是一组预构建的优化推理微服务,可助力在任何 NVIDIA 加速基础设施(包括云端、数据中心、工作站和边缘设备)上快速部署最新的 AI 模型。
NVIDIA NIM 将管理 API 的易用性和操作简便性与自托管模型在您首选基础架构上的灵活性和安全性相结合。NIM 微服务包含 AI 团队所需的一切内容 — — 最新的 AI 基础模型、优化推理引擎、行业标准 API 和运行时依赖项,这些内容均预先打包在企业级软件容器中,可随时随地进行部署和扩展。
易于使用的企业级微服务,专为高性能 AI 构建,可实现无缝协作并经济高效地扩展。体验由最新 AI 模型支持的 AI 智能体及其他企业生成式AI应用的最快价值实现,这些模型涵盖推理、仿真、语音等能力。
通过为最新 AI 模型预构建经优化的微服务,加速创新并缩短上市时间。 借助标准 API,模型可在五分钟内完成部署并轻松集成到应用中。
部署企业级微服务,这些微服务由 NVIDIA 通过严格的验证流程和专用功能分支持续管理,所有这些都得到 NVIDIA 企业级支持的保障,该支持还提供与 NVIDIA AI 专家直接沟通的机会。
通过低延迟、高吞吐量且可随云扩展的 AI 推理降低 TCO,并通过开箱即用的调优模型支持实现最佳模型精度。
借助预构建的云原生微服务,可在任何 NVIDIA 加速基础设施(云端、数据中心和工作站)上部署并运行,并在 Kubernetes 及云服务提供商环境中无缝扩展。
了解如何设置两个 AI 智能体,分别用于内容生成和数字图形设计,并体验使用 NIM 微服务快速启动和运行的便捷性。
NVIDIA NIM 可开箱即用地提供优化的吞吐量和延迟,以更大限度提升 token 生成效率,支持高峰时段的并发用户,并增强响应能力。NIM 微服务将持续更新最新的优化推理引擎,随时间推移在相同基础设施上不断提升性能。
配置:Llama 3.1 8B instruct,1x H100 SXM;并发请求:200。NIM 开启:FP8,吞吐量 1201 tokens/s,ITL 32ms。NIM 关闭:FP8,吞吐量 613 tokens/s,ITL 37ms。
部署由 NVIDIA® TensorRT™-LLM、vLLM 或 SGLang 支持的大语言模型 (LLM),在 NVIDIA 加速基础设施上实现低延迟、高吞吐量的推理。
NIM 推理微服务可随时随地运行,提供行业标准 API,以便轻松与企业系统和应用集成,并可在 Kubernetes 上无缝扩展,从而提供云规模的高吞吐量、低延迟推理。
使用单个命令部署 NIM 来运行您的模型。您还可以轻松地使用 NVIDIA TensorRT-LLM, vLLM 或 SGLang 支持的 LLM(包括微调过的模型)来运行 NIM。
根据您的 NVIDIA 加速基础设施,获取经过优化的运行时引擎,启动并运行 NIM。
仅用几行代码即可集成自托管 NIM 端点。
了解 NVIDIA NIM 如何支持行业用例,并借助精心策划的示例快速启动您的 AI 开发。
利用生成式AI增强客户体验,改进业务流程。
使用生成式AI来加速和自动执行文档处理。
借助 AI 提供量身定制的体验,提升客户满意度。
使用 OpenUSD 和生成式 AI,在几乎任何设备上开发和部署 3D 产品配置器工具和体验。