Notebook

NVIDIA NIMs¶

NVIDIA NIMs为用户提供了便捷访问NVIDIA托管的AI模型API端点，如Mixtral 8x22B、Llama 3、Stable Diffusion等。这些模型托管在https://build.nvidia.com，经过优化、测试并托管在NVIDIA AI平台上，使其快速且易于评估，进一步定制，并在任何加速堆栈上无缝运行达到最佳性能。

使用NVIDIA NIMs，您可以从在NVIDIA DGX Cloud上运行的完全加速堆栈中快速获得结果。这些模型可以使用使用NVIDIA AI Enterprise在任何地方部署，具有企业级安全性、稳定性和支持。

这些模型可以通过llama-index-postprocessor-nvidia-rerank包轻松访问，如下所示。

本示例介绍了如何使用LlamaIndex与支持的NVIDIA Retrieval QA Ranking Model进行交互，以通过NVIDIARerank类进行检索增强生成。

重新排序¶

重新排序是高精度、高效的检索流程中的关键部分。

两个重要的用例：

结合多个数据源的结果
提高单个数据源的准确性

合并多个来源的结果¶

考虑一个包含来自语义存储（如VectorStoreIndex）和BM25存储的数据的流水线。

每个存储都是独立查询的，并返回各自认为高度相关的结果。确定结果的整体相关性是重新排序发挥作用的地方。

请参考高级 - 混合检索器 + 重新排序用例，将重新排序器替换为 -

In [ ]:

%pip install --upgrade --quiet llama-index-postprocessor-nvidia-rerank

In [ ]:

from llama_index.postprocessor.nvidia_rerank import NVIDIARerank

reranker = NVIDIARerank(top_n=4)

连接到本地NIMs¶

除了连接到托管的NVIDIA NIMs之外，此连接器还可用于连接到本地微服务实例。这有助于在必要时将应用程序部署到本地。

有关设置本地微服务实例的说明，请参阅https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

In [ ]:

来自llama_index.postprocessor.nvidia_rerank的NVIDIARerank# 从上面获取reranker = NVIDIARerank(top_n...) reranker = reranker.mode("nim", base_url="http://0.0.0.0:1976/v1")