使用Optimum-Intel优化嵌入模型¶

LlamaIndex支持使用Optimum-Intel库加载Intel的量化嵌入模型。

优化模型更小更快，准确性损失最小，详见文档和使用IntelLabs/fastRAG库的优化指南。

优化基于Xeon®第4代或更新处理器中的数学指令。

为了能够加载和使用量化模型，需要安装所需的依赖pip install optimum[exporters] optimum-intel neural-compressor intel_extension_for_pytorch。

加载使用IntelEmbedding类，用法类似于任何HuggingFace本地嵌入模型；参见示例：

In [ ]:

%pip install llama-index-embeddings-huggingface-optimum-intel

In [ ]:

from llama_index.embeddings.huggingface_optimum_intel import IntelEmbedding

embed_model = IntelEmbedding("Intel/bge-small-en-v1.5-rag-int8-static")

In [ ]:

embeddings = embed_model.get_text_embedding("Hello World!")
print(len(embeddings))
print(embeddings[:5])

384
[-0.0032782123889774084, -0.013396517373621464, 0.037944991141557693, -0.04642259329557419, 0.027709005400538445]