Nvidia NIM 全面指南：您需要知道的一切

Q: NVIDIA NIM 可以用於哪些 AI 應用場景？

NVIDIA NIM 支持多樣化的 AI 應用，包括：構建聊天機器人與 AI 助手、文本生成和情感分析、圖像生成與描述、語音、視頻處理及人體解剖等。此外，它還支持藥物發現、語言翻譯和搜索引擎優化 (RAG) 等高專業領域的應用。

Q: 如何開始使用 NVIDIA NIM？

要開始使用 NVIDIA NIM，您需要：1. 獲取 NVIDIA AI Enterprise 評估許可證或成為 NVIDIA 開發者計劃的會員。2. 從 NVIDIA API Catalog 選擇模型，生成並安全保存 API 密鑰。3. 使用 Docker 登錄並下載所需的 NIM 容器映像，然後執行命令啟用微服務。4. （可選）通過 Python 操作以執行高級任務，例如聊天完成或文本到圖像生成。

Q: NVIDIA NIM 與其他推理解決方案相比有何優勢？

NVIDIA NIM 具備以下優勢：高性能：提升吞吐量，減少延遲，顯著加速推理速度。簡化部署：支持單命令部署、自動容器化及硬件優化。強大安全性：提供數據加密、認證和授權支持，適合處理敏感數據。靈活擴展：可從本地部署至雲端，滿足不同規模需求。

Q: 使用 NVIDIA NIM 的成本效益如何？

NVIDIA NIM 通過多種方式幫助企業節省成本：降低運營成本：減少硬件需求和標記消耗。加速基礎設施效率：提升能源利用率和生產性能。靈活定價選項：提供基於 GPU 數量的年度訂閱方案和雲端按需計費模式，適應企業不同需求和預算。

什麼是 NVIDIA NIM？

NVIDIA NIM (NVIDIA Inference Microservices) 是一套加速 AI 推理的微服務，讓組織能夠在任何地方的 NVIDIA GPU 上運行 AI 模型。這些微服務被設計為易於使用，可加速在雲端、數據中心和工作站上部署生成式 AI 模型。

NIM 為 IT 和 DevOps 團隊提供了在自己管理的環境中自主託管大型語言模型 (LLM) 和視覺語言模型 (VLM) 的簡便方法，同時為開發者提供業界標準 API，使他們能夠構建強大的 copilot、聊天機器人和 AI 助手。

核心功能與優勢

高性能特性

可擴展部署：能夠從少數用戶無縫擴展到數百萬用戶
先進模型支持：為多種尖端 AI 架構提供預先優化的引擎
靈活整合：提供與 OpenAI API 兼容的編程模型，以及額外功能的 NVIDIA 擴展
企業級安全：使用 safetensors 並進行內部滲透測試

簡化部署流程

自動容器化模型並為 NVIDIA 硬件優化，無需手動配置
提供全面的監控工具，用於監控模型性能、資源利用率和健康狀況
強大的安全功能，包括加密、認證和授權支持

如何運作

NVIDIA NIM 通過提供預優化的模型和業界標準 API，簡化了從實驗到部署 AI 應用程序的過程。它建立在強大的基礎上，包括 TensorRT、TensorRT-LLM 和 PyTorch 等推理引擎。

NIM 微服務以容器映像形式打包，每個模型/模型系列一個容器。當 NIM 首次部署時，它會檢查本地硬件配置和模型註冊表中可用的模型版本，自動選擇最適合可用硬件的模型版本。

支持的模型與應用場景

NVIDIA NIM 支持多種 AI 模型類型：

大型語言模型 (LLM)

提供卓越的自然語言處理和理解能力
適用於構建 copilot、聊天機器人和 AI 助手

視覺語言模型 (VLM)

支持圖像問答、圖像摘要和描述
理解圖表和圖表內容

其他應用

生成文本、圖像、視頻、語音和數字人
通過 NVIDIA BioNeMo NIM 微服務加速藥物發現

NIM Blueprints

NVIDIA NIM Blueprints 是預訓練、可定制的 AI 工作流程參考目錄，用於生成式 AI 的典型使用場景，如檢索增強生成 (RAG)、客戶服務頭像和藥物發現虛擬篩選。

企業可以使用 NVIDIA NIM Blueprint 與 NVIDIA NIM 微服務和庫一起構建自定義 AI 應用程序。Blueprints 還包括定制文檔、參考代碼、合作夥伴微服務和 Helm 圖表。

硬件支持

NVIDIA NIM 模型可以在任何具有足夠內存的 NVIDIA GPU 上運行，或在具有足夠總內存的多個 GPU 上運行：

NVIDIA H100 和 A100 GPU 必須有 80GB
NVIDIA L40S GPU 必須有 48GB
NVIDIA A10G 必須有 24GB

最近，NVIDIA 還為 RTX AI PC 推出了基礎模型，這些模型作為 NVIDIA NIM 微服務提供，由新的 GeForce RTX 50 系列 GPU 加速。這些 GPU 具有高達 3,352 萬億次/秒的 AI 性能和 32GB VRAM。

生態系統與合作夥伴

NVIDIA NIM 已經與眾多合作夥伴和平台集成：

平台提供商

Canonical、Red Hat、Nutanix 和 VMware 在開源 KServe 或企業解決方案上支持 NIM

雲服務提供商

Amazon Web Services、Google Cloud、Azure 和 Oracle Cloud Infrastructure

硬件製造商

Cisco、Dell Technologies、Hewlett-Packard Enterprise、Lenovo 和 Supermicro 等

數據庫集成

Couchbase 與 NVIDIA NIM 微服務套件集成，以簡化 AI 開發、部署和管理

如何獲取與使用

開發者可以在 ai.nvidia.com 免費試用 NVIDIA 微服務。企業可以通過在 NVIDIA 認證系統和領先的雲平台上運行的 NVIDIA AI Enterprise 部署生產級 NIM 微服務。

從 2024 年中開始，NVIDIA 開發者計劃的成員可以免費訪問 NIM 進行研究和測試。

對於希望在自己的基礎設施上部署微服務的開發者，需要註冊 NVIDIA AI Enterprise 90 天評估許可證。

How do I get started with NVIDIA NIM - 如何開始使用 NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) 是一套簡化 AI 模型部署的微服務，讓您能在任何雲端或數據中心基礎設施上加速部署基礎模型。以下是開始使用 NVIDIA NIM 的步驟：

獲取訪問權限

要使用 NVIDIA NIM，您需要以下其中一種訪問方式：

NVIDIA AI Enterprise 評估許可證：適合企業用戶，提供 90 天評估期
NVIDIA Developer Program 會員資格：適合個人開發者

步驟一：獲取 API 密鑰

訪問 NVIDIA API Catalog (https://build.nvidia.com/explore/discover)
選擇您想要部署的模型（例如 Llama3）
在右上角選擇 "Docker" 選項
點擊 "Get API Key" 並在提示時登錄
點擊 "Generate Key"
複製您的密鑰並將其存儲在安全的地方

步驟二：登錄 Docker

使用以下命令登錄 Docker，將用戶名和密碼替換為您的憑據：

docker login

步驟三：下載並啟動 NVIDIA NIM

以下是啟動 Llama3-8B-Instruct 模型的示例命令：

# 選擇容器名稱
export CONTAINER_NAME=Llama3-8B-Instruct

# 從之前的 ngc registry image list 命令中獲取的容器名稱
Repository=nim/meta/llama3-8b-instruct

# 選擇 NGC 中的 LLM NIM 鏡像
export IMG_NAME="nvcr.io/${Repository}:latest"

# 選擇系統上緩存下載模型的路徑
export LOCAL_NIM_CACHE=~/.cache/nim
mkdir -p "$LOCAL_NIM_CACHE"

# 啟動 LLM NIM
docker run -it --rm --name=$CONTAINER_NAME \
  --runtime=nvidia \
  --gpus all \
  --shm-size=16GB \
  -e NGC_API_KEY=$NGC_API_KEY \
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
  -u $(id -u) \
  -p 8000:8000 \
  $IMG_NAME

確保將 $NGC_API_KEY 設置為您之前生成的 API 密鑰。

使用 NVIDIA NIM 的 Python 環境設置

如果您想通過 Python 使用 NVIDIA NIM，可以按照以下步驟設置環境：

安裝必要的庫：

!pip install openai
!pip install Pillow

導入所需庫並設置 API 密鑰：

from openai import OpenAI
import requests
import base64
from pathlib import Path
from PIL import Image
import io
from dataclasses import dataclass, field
from typing import List, Optional, Dict, Any

api_key_nim = 'your_api_key_here'

現在您可以使用 NVIDIA NIM 進行各種 AI 任務，如聊天完成、向量嵌入、文本到圖像生成等。

支持的功能

使用 NVIDIA NIM，您可以：

聊天完成：使用 Llama3 等模型構建聊天界面
向量嵌入：使用多種模型生成文本的向量表示
重排序：改進搜索結果的質量
文本到圖像生成：使用 Stable Diffusion 模型從文本提示生成圖像

NVIDIA NIM 為開發者提供了一個簡化的方式來部署和使用 AI 模型，無需擔心底層的基礎設施和優化問題。

What are the key features of NVIDIA NIM

NVIDIA NIM 的關鍵特性

NVIDIA NIM (NVIDIA Inference Microservices) 是一套易於使用的微服務，專為加速生成式 AI 模型部署而設計。以下是 NVIDIA NIM 的主要特性：

高性能功能

可擴展部署：NIM 提供高性能且可擴展的解決方案，能夠從少數用戶無縫擴展到數百萬用戶。這使組織能夠輕鬆適應不斷變化的工作負載和數據需求。

先進語言模型支持：為多種尖端 LLM 架構提供預先生成的優化引擎，支持各種 AI 模型，從開源社區模型到 NVIDIA AI Foundation 模型，以及自定義 AI 模型。

靈活整合：提供與 OpenAI API 兼容的編程模型，以及額外功能的 NVIDIA 擴展，讓開發者能夠輕鬆地將微服務整合到現有工作流程和應用程序中。

企業級安全：強調安全性，使用 safetensors 並進行內部滲透測試，提供強大的安全功能來保護模型和數據，包括支持加密、認證和授權。

簡化部署與管理

簡化部署流程：NIM 通過自動容器化模型並為 NVIDIA 硬件優化，簡化了部署過程，消除了手動配置的需要，確保資源的高效利用。

監控與管理：提供全面的工具，用於監控模型性能、資源利用率和健康狀況，使您能夠快速識別和解決問題，並優化部署以實現最大效率。

單命令部署：NIM 微服務可以通過單一命令部署，使用標準 API 和幾行代碼輕鬆集成到企業級 AI 應用程序中。

廣泛的應用支持

多樣化應用場景：NIM 支持多種應用，包括聊天機器人和虛擬助手、內容生成和摘要、情感分析以及語言翻譯等。

模型定制：提供跨不同領域的模型定制微服務，使企業能夠優化其 AI 基礎設施，以實現最大效率和成本效益，而無需擔心 AI 模型性能和可擴展性。

靈活的部署選項

運行於任何地方：NIM 可以在任何有 NVIDIA GPU 的地方運行，包括 RTX AI PC、工作站、數據中心或雲端，讓組織能夠維護應用程序和數據的安全性和控制權。

容器化架構：NIM 以容器映像的形式打包，每個模型/模型系列一個容器。當首次部署時，NIM 會檢查本地硬件配置和模型註冊表中可用的優化模型，然後自動選擇最適合可用硬件的模型版本。

這些關鍵特性使 NVIDIA NIM 成為加速生成式 AI 模型部署的強大解決方案，為開發者和企業提供了一種簡化的方式來部署和使用 AI 模型，無需擔心底層的基礎設施和優化問題。

使用 NVIDIA NIM 進行 AI 部署的主要優勢

NVIDIA NIM (NVIDIA Inference Microservices) 為企業和開發者提供了多項顯著優勢，使其成為部署生成式 AI 模型的理想選擇。以下是使用 NVIDIA NIM 的主要好處：

性能優化

NVIDIA NIM 經過精心優化，可提供卓越的性能表現：

顯著提高吞吐量：例如，NVIDIA Llama 3.1 8B Instruct NIM 相比最佳開源替代方案實現了 2.5 倍的吞吐量提升
加速響應時間：首個標記生成時間 (TTFT) 加快 4 倍，標記間延遲 (ITL) 提高 2.2 倍
使用 Meta Llama 3-8B 的 NIM 在加速基礎設施上可產生多達 3 倍的生成式 AI 標記
在 Cloudera AI Inference 服務中，使用 NVIDIA NIM 微服務可將 LLM 性能速度提升 36 倍

簡化部署流程

NIM 大幅簡化了 AI 模型的部署過程：

自動容器化模型並為 NVIDIA 硬件優化，無需手動配置
通過單一命令即可部署，使用標準 API 和幾行代碼輕鬆集成到企業級 AI 應用程序中
預建的容器和 Helm 圖表已經過嚴格驗證和基準測試，確保在不同環境中的一致性能

安全性與數據控制

NIM 提供強大的安全功能和數據控制能力：

允許企業在私有環境中運行模型，完全控制自己的數據
保護敏感數據免於洩露到非私有、供應商託管的 AI 模型服務
提供加密、認證和授權支持，確保模型和數據安全

靈活性與可擴展性

NIM 設計為高度靈活且可擴展：

可在任何基礎設施上部署，包括本地工作站、雲端和本地數據中心
支持 NVIDIA DGX、NVIDIA DGX Cloud、NVIDIA Certified Systems、NVIDIA RTX 工作站和 PC
能夠從少數用戶無縫擴展到數百萬用戶

成本效益

使用 NIM 可以顯著降低 AI 部署的成本：

通過優化基礎設施使用，減少硬件和運營成本
提高基礎設施投資回報，使企業能夠用相同的計算基礎設施生成更多響應
通過框架不可知的 NVIDIA AI 推理平台，節省生產力、開發以及基礎設施和設置成本

廣泛的模型支持

NIM 支持多種 AI 模型和應用場景：

支持社區模型、NVIDIA AI Foundation 模型和 NVIDIA 合作夥伴提供的自定義 AI 模型
涵蓋大型語言模型 (LLM)、視覺語言模型 (VLM) 以及用於語音、圖像、視頻、3D、藥物發現和醫學成像的模型
提供領域特定的 NVIDIA CUDA 庫和專門代碼，涵蓋語言、語音、視頻處理等領域

開發者友好

NIM 為開發者提供了豐富的工具和資源：

使用符合每個領域行業標準的 API，簡化 AI 應用程序的開發
與常見的基礎設施設置無縫協作，包括雲環境和 Kubernetes 等容器編排平台
提供全面的監控工具，用於監控模型性能、資源利用率和健康狀況

通過這些優勢，NVIDIA NIM 使企業能夠更快、更安全、更高效地部署和擴展生成式 AI 應用程序，同時保持對其數據和基礎設施的完全控制。

NVIDIA NIM 的成本效益

NVIDIA NIM (NVIDIA Inference Microservices) 提供了多項成本效益，幫助企業在部署 AI 模型時優化投資回報：

降低運營成本

NVIDIA NIM 通過多種方式降低 AI 部署的運營成本：

減少標記消耗：Amdocs 使用 NVIDIA NIM 在數據預處理階段減少了高達 60% 的標記消耗，在推理階段減少了 40% 的標記消耗
優化 AI 基礎設施：企業可以實現最大效率和成本效益，無需擔心 AI 模型開發複雜性和容器化問題
降低硬件和運營成本：NIM 通過提高性能和可擴展性，同時減少硬件和運營成本

提高基礎設施效率

NIM 幫助企業從現有基礎設施中獲得更多價值：

提供最佳延遲和吞吐量：利用針對每個模型和硬件設置優化的推理引擎，在加速基礎設施上提供最佳性能
提高能源效率：Hopper 平台幫助提供比前幾代產品高達 15 倍的推理工作負載能源效率
優化總體擁有成本：通過軟件優化和 NVIDIA Hopper 平台的進步，企業可以在提供出色用戶體驗的同時降低總體擁有成本

加速投資回報

NIM 通過簡化部署和提高性能，加速 AI 投資的回報：

加快上市時間：NIM 簡化了 AI 模型部署過程，縮短了從開發到生產的時間
提高 AI 應用的 ROI：與 New Relic 等工具集成，幫助客戶更快地採用 AI 並實現更快的投資回報
節省生產力和開發成本：通過框架不可知的 NVIDIA AI 推理平台，節省生產力、開發以及基礎設施和設置成本

定價模式

NVIDIA NIM 的定價主要通過以下方式提供：

NVIDIA AI Enterprise 套件訂閱：每個 GPU 每年約 $4,500
基於 GPU 數量的定價：價格基於您使用的 GPU 數量的 NVIDIA AI Enterprise 套件成本
雲端使用定價選項：按每小時、每 GPU 計算

通過這些成本效益，NVIDIA NIM 使企業能夠在保持高性能和可擴展性的同時，顯著降低 AI 部署和運營的成本，從而實現更高的投資回報。

NVIDIA NIM 的雲端定價選項與內部部署相比如何？

NVIDIA NIM 提供了雲端和本地部署兩種不同的定價模式，各有其優勢和適用場景。以下是兩種部署方式的比較：

部署類型	定價模式	成本結構	適用場景	授權要求
雲端部署	按小時計費	每 GPU 每小時約 $1	彈性工作負載、短期專案	包含在雲端服務中
本地部署	年度訂閱	每 GPU 每年約 $4,500	長期使用、高安全性需求	需要 NVIDIA AI Enterprise 授權

雲端部署提供了更大的靈活性，讓企業能夠根據實際使用量支付費用，無需前期大量投資硬件。這種按需付費模式特別適合工作負載不穩定或只需短期使用 AI 模型的組織。

相比之下，本地部署雖然初始成本較高，但對於長期持續使用的場景可能更具成本效益。本地部署還提供了更高的數據控制和安全性，適合處理敏感數據的企業。

NVIDIA 還提供了一些免費試用選項：

開發者可以在 ai.nvidia.com 免費試用 NVIDIA 微服務
對於想要自託管 NIM 的客戶，NVIDIA 提供了 90 天的 NVIDIA AI Enterprise 免費評估許可證
通過 NVIDIA Developer Program，開發者可以免費獲得研究和測試用途的 NIM 訪問權限，最多支持 16 個 GPU

這些選項讓組織能夠在做出長期投資決策前先評估 NVIDIA NIM 的性能和適用性。

NVIDIA NIM 支持廣泛的 AI 模型類型，涵蓋多個領域和應用場景：

語言模型

大型語言模型 (LLM)：包括 Meta Llama 3.1/3.2 系列、NVIDIA Nemotron 系列（如 Nemotron-4-340B、Nemotron-4-Mini）和 Mistral 模型
小型語言模型 (SLM)：如 Nemotron-Mini-4B-Instruct 和 Mistral-Nemo-Minitron-8B，專為設備端推理優化
多語言模型：支持特定語言的模型，如 Nemotron-4-Mini-Hindi-4B-Instruct（印地語-英語雙語模型）

多模態模型

視覺語言模型：如 NVIDIA VILA 和 NEVA-22B，能夠理解文本和圖像並生成信息豐富的回應
圖像嵌入模型：如 NV-CLIP 和 NV-DINOv2，用於生成圖像的向量表示
視頻生成模型：如 Stable Video Diffusion，可從單一圖像合成視頻序列

專業領域模型

醫療和生物信息學：包括 AlphaFold2、AlphaFold2-Multimer、VISTA-3D（用於人體解剖分割）和 MAISI（CT 潛在擴散生成模型）
基因組學：如 DeepVariant 和 FQ2BAM，用於基因組分析
分子建模：如 MolMIM，用於受控分子生成
氣象預測：如 Earth-2 FourCastNet 和 AI Weather Forecasting

特殊功能模型

嵌入和排序模型：如 NV-Embed-V1、Embed-QA-4 和 Rerank-QA 系列，用於文本嵌入和問答檢索
語音和音頻模型：包括 StudioVoice、FastPitch HifiGAN Riva 和 Parakeet CTC Riva
光學字符識別：如 OCDRNet，用於光學字符檢測和識別
3D 和動畫：如 Audio2Face（將音頻轉換為面部表情）和 Consistory（生成一系列圖像中的一致角色）

社區和合作夥伴模型

除了 NVIDIA 自己的模型外，NIM 還支持：

開源社區模型：如 Google Gemma、Microsoft Phi-3.5、Meta Llama 系列
合作夥伴模型：如 Databricks DBRX、Mistral Large、Mixtral 8x22B、Snowflake Arctic、Rakuten AI 和 BRIA-2.3

NVIDIA NIM 的模型支持非常全面，從通用語言模型到高度專業化的領域特定模型，使其能夠滿足各種 AI 應用場景的需求。

FAQ

常見問題 (FAQ)1. 什麼是 NVIDIA NIM？

NVIDIA NIM (NVIDIA Inference Microservices) 是一套用於加速 AI 模型推理的微服務，能夠在 NVIDIA GPU 基礎設施上部署生成式 AI 模型。NIM 提供易於使用的工具，幫助開發者從訓練模型到商業應用快速轉換，支持包括大型語言模型 (LLM) 和視覺語言模型 (VLM) 在內的多種應用場景。

2. NVIDIA NIM 可以用於哪些 AI 應用場景？

NVIDIA NIM 支持多樣化的 AI 應用，包括：

構建聊天機器人與 AI 助手
文本生成和情感分析
圖像生成與描述
語音、視頻處理及人體解剖等
此外，它還支持藥物發現、語言翻譯和搜索引擎優化 (RAG) 等高專業領域的應用。

3. 如何開始使用 NVIDIA NIM？

要開始使用 NVIDIA NIM，您需要：

獲取 NVIDIA AI Enterprise 評估許可證或成為 NVIDIA 開發者計劃的會員。
從 NVIDIA API Catalog 選擇模型，生成並安全保存 API 密鑰。
使用 Docker 登錄並下載所需的 NIM 容器映像，然後執行命令啟用微服務。
（可選）通過 Python 操作以執行高級任務，例如聊天完成或文本到圖像生成。

4. NVIDIA NIM 與其他推理解決方案相比有何優勢？

NVIDIA NIM 具備以下優勢：

高性能：提升吞吐量，減少延遲，顯著加速推理速度。
簡化部署：支持單命令部署、自動容器化及硬件優化。
強大安全性：提供數據加密、認證和授權支持，適合處理敏感數據。
靈活擴展：可從本地部署至雲端，滿足不同規模需求。

5. 使用 NVIDIA NIM 的成本效益如何？

NVIDIA NIM 通過多種方式幫助企業節省成本：

降低運營成本：減少硬件需求和標記消耗。
加速基礎設施效率：提升能源利用率和生產性能。
靈活定價選項：提供基於 GPU 數量的年度訂閱方案和雲端按需計費模式，適應企業不同需求和預算。

More about Nvidia NIM

Develops comprehensive content plans that align with business goals and resonate with target audiences. Content is the reason search began in the first place.