LlamaIndex支持使用Optimum-Intel库加载Intel的量化嵌入模型。
优化模型更小更快,准确性损失最小,详见文档和使用IntelLabs/fastRAG库的优化指南。
优化基于Xeon®第4代或更新处理器中的数学指令。
为了能够加载和使用量化模型,需要安装所需的依赖pip install optimum[exporters] optimum-intel neural-compressor intel_extension_for_pytorch
。
加载使用IntelEmbedding
类,用法类似于任何HuggingFace本地嵌入模型;参见示例:
%pip install llama-index-embeddings-huggingface-optimum-intel
from llama_index.embeddings.huggingface_optimum_intel import IntelEmbedding
embed_model = IntelEmbedding("Intel/bge-small-en-v1.5-rag-int8-static")
embeddings = embed_model.get_text_embedding("Hello World!")
print(len(embeddings))
print(embeddings[:5])
384 [-0.0032782123889774084, -0.013396517373621464, 0.037944991141557693, -0.04642259329557419, 0.027709005400538445]