NVIDIA NIMs为用户提供了便捷访问NVIDIA托管的AI模型API端点,如Mixtral 8x22B、Llama 3、Stable Diffusion等。这些模型托管在https://build.nvidia.com,经过优化、测试并托管在NVIDIA AI平台上,使其快速且易于评估,进一步定制,并在任何加速堆栈上无缝运行达到最佳性能。
使用NVIDIA NIMs,您可以从在NVIDIA DGX Cloud上运行的完全加速堆栈中快速获得结果。这些模型可以使用使用NVIDIA AI Enterprise在任何地方部署,具有企业级安全性、稳定性和支持。
这些模型可以通过
llama-index-postprocessor-nvidia-rerank
包轻松访问,如下所示。
本示例介绍了如何使用LlamaIndex与支持的NVIDIA Retrieval QA Ranking Model进行交互,以通过NVIDIARerank
类进行检索增强生成。
考虑一个包含来自语义存储(如VectorStoreIndex)和BM25存储的数据的流水线。
每个存储都是独立查询的,并返回各自认为高度相关的结果。确定结果的整体相关性是重新排序发挥作用的地方。
请参考高级 - 混合检索器 + 重新排序用例,将重新排序器替换为 -
%pip install --upgrade --quiet llama-index-postprocessor-nvidia-rerank
from llama_index.postprocessor.nvidia_rerank import NVIDIARerank
reranker = NVIDIARerank(top_n=4)
除了连接到托管的NVIDIA NIMs之外,此连接器还可用于连接到本地微服务实例。这有助于在必要时将应用程序部署到本地。
有关设置本地微服务实例的说明,请参阅https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/
来自llama_index.postprocessor.nvidia_rerank的NVIDIARerank# 从上面获取reranker = NVIDIARerank(top_n...) reranker = reranker.mode("nim", base_url="http://0.0.0.0:1976/v1")