这个代码教程展示了如何轻松地将DeepEval与LlamaIndex集成在一起。DeepEval使得对你的RAG/LLMs进行单元测试变得很容易。
你可以在这里阅读更多关于DeepEval框架的信息:https://docs.confident-ai.com/docs/getting-started
欢迎在GitHub上查看我们的仓库:https://github.com/confident-ai/deepeval
我们建议通过pip进行设置和安装!
!pip install -q -q llama-index
!pip install -U -q deepeval
这一步是可选的,只有当你想要一个由服务器托管的仪表板时才需要进行!(嘘,我认为你应该这样做!)
!deepeval login
from llama_index.core import VectorStoreIndex和SimpleDirectoryReader# 阅读LlamaIndex的快速入门以获取更多详细信息,您需要事先将数据存储在“YOUR_DATA_DIRECTORY”中documents = SimpleDirectoryReader("YOUR_DATA_DIRECTORY").load_data()index = VectorStoreIndex.from_documents(documents)rag_application = index.as_query_engine()
DeepEval提供了6种开箱即用的评估器,其中一些用于RAG,一些直接用于LLM输出(尽管也适用于RAG)。让我们尝试一下忠实度评估器(用于评估RAG中的幻觉)。
来自deepeval.integrations.llamaindex的DeepEvalFaithfulnessEvaluator# 你的RAG应用程序的一个示例输入user_input = "LlamaIndex是什么?"# LlamaIndex返回一个包含输出字符串和检索节点的响应对象response_object = rag_application.query(user_input)evaluator = DeepEvalFaithfulnessEvaluator()evaluation_result = evaluator.evaluate_response( query=user_input, response=response_object)print(evaluation_result)
以下是您可以从deepeval
中导入的所有6个评估器:
from deepeval.integrations.llama_index import (
DeepEvalAnswerRelevancyEvaluator,
DeepEvalFaithfulnessEvaluator,
DeepEvalContextualRelevancyEvaluator,
DeepEvalSummarizationEvaluator,
DeepEvalBiasEvaluator,
DeepEvalToxicityEvaluator,
)
要了解所有评估器的定义以及它们如何与DeepEval的测试套件集成,请点击这里。