今日收揽331星 DeepEval：让你的LLM应用像代码一样可测试的评估框架

大家好，我是贝克街的捉虫师呀！

最近我们都在聊LLM（大语言模型）应用开发，RAG、Agent、智能体这些概念真是层出不穷。但随之而来的一个实际问题是：我们怎么知道自己辛辛苦苦搭建的LLM应用到底靠不靠谱？它会不会一本正经地胡说八道（幻觉）？提供的答案是否真的关联了我们给的背景资料？换个提示词或者换个模型版本，性能会不会下降？

给传统代码写单元测试、集成测试是我们的老本行，但面对LLM这种输出带有一定随机性和不确定性的“黑盒”，传统的测试方法似乎有点力不从心。我们迫切需要一套专门针对LLM的测试和评估体系。正当我为此犯愁的时候，我发现了GitHub上一个很不错的项目——DeepEval，它就像是给你的LLM应用带来了单元测试的能力。

项目概述

DeepEval，顾名思义，是一个专注于深度评估的工具，只不过它评估的对象是大型语言模型系统。你可以把它想象成是开发者熟悉的Pytest、JUnit这类单元测试框架，只不过它不是用来测试你写的Python函数或Java类，而是用来测试你的LLM模型调用、RAG管道、Agent决策、或者整个LLM应用输出的质量。

它的核心目标是让你能够像测试普通代码一样，自动化、可重复地评估LLM的输出。项目是完全开源的，基于Python构建，提供了一系列丰富的评估指标和易用的接口，帮助开发者客观地衡量LLM应用的表现。

项目数据

这个项目最近挺火的，我在看它GitHub页面的时候，数据显示它今日收揽了331颗星，这增长势头很喜人。累计星标数量已经达到了7754，说明它已经吸引了不少关注和早期用户。

项目的主要开发语言是 Python，这对于广大的Python开发者来说非常友好，能够无缝集成到现有的技术栈中。项目的活跃度很高，维护者是 confident-ai 团队，从最近的星标增长和README的丰富程度来看，社区和开发都很活跃。

功能亮点

DeepEval提供了一套完整的LLM评估解决方案，我觉得下面这几个功能点特别值得关注：

✨ 丰富的内置评估指标

DeepEval内置了超多实用的评估指标，不像我们之前只能靠肉眼或者简单的关键词匹配。它有基于最新研究的 G-Eval，也有专门针对RAG应用的 Answer Relevancy (答案相关性)、Faithfulness (忠实度)、Contextual Recall (上下文召回)、Contextual Precision (上下文精确度) 等一系列指标，甚至还有 幻觉 (Hallucination)、偏见 (Bias)、毒性 (Toxicity) 等安全相关的指标。这些指标可以通过LLM或者其他NLP模型在本地运行，非常灵活。比如RAG相关的指标，能帮你准确判断模型是不是真的使用了提供的上下文，以及使用得怎么样。

🛠️ 像写单元测试一样写评估用例

这一点是DeepEval让我眼前一亮的地方。它提供了一个 LLMTestCase 类，你可以定义输入（input）、期望输出（expected_output）、实际输出（actual_output）、检索上下文（retrieval_context）等信息，然后使用 assert_test 函数，传入你的测试用例和需要评估的指标。这个模式和我们写 assert 语句进行单元测试非常相似，开发者上手会很快。我个人觉得这种方式把LLM的评估从“玄学”变成了一种更工程化、可维护的工作。

🔍 支持组件级评估

很多LLM应用不是一个简单的模型调用，而是包含检索、工具使用、多个LLM调用组成的复杂链条（比如LangChain或LlamaIndex应用）。DeepEval不仅能评估最终输出，还能通过 @observe 装饰器，让你追踪并单独评估链条中的每个“组件”的输入和输出。比如，你可以单独评估你的检索器是否返回了相关的上下文，再评估LLM根据这个上下文生成的答案是否准确。这对于调试复杂的LLM管道简直太有用了，能帮你快速定位问题出在哪里。

🛡️ 内置“红队”测试能力

构建安全的LLM应用非常重要。DeepEval内置了针对40多种安全漏洞的“红队”测试能力，包括常见的Prompt Injection、SQL Injection、以及检测输出的毒性、偏见等。它甚至支持多种攻击增强策略。这意味着你在开发阶段就可以用自动化的方式，像专业的攻击者一样去测试你的应用，提前发现并修复潜在的安全风险。这个功能对于面向公众或处理敏感信息的应用尤其重要。

📊 便捷的LLM基准测试

如果你需要对比不同的LLM模型（比如OpenAI、Claude或者自己微调的模型）在特定任务上的表现，DeepEval也提供了快速进行流行LLM基准测试（如MMLU, HellaSwag等）的能力。只需要几行代码，你就能在标准数据集上跑分，得到一个客观的对比结果，帮你更好地选择合适的模型。这比手动拿几个Prompt去试要高效和科学得多。

☁️ 可选的云平台集成

DeepEval的维护者Confident AI也提供了一个同名的云平台。DeepEval可以无缝地将你的测试数据、结果和traces上传到这个平台。在平台上，你可以更方便地管理评估数据集、可视化测试报告、对比不同版本的性能、调试Evaluation结果。虽然开源库本身功能强大，但如果你需要更高级的数据管理和团队协作功能，这个平台也是一个不错的扩展选择。使用 deepeval login 简单配置一下API Key就行。

安装与使用

DeepEval的安装和入门还是比较简单的，主要基于Python环境。

环境要求：

Python 3.8+
pip 包管理器

安装步骤：

打开你的终端，运行下面的命令：

bash
pip install -U deepeval

如果你想把测试结果同步到 DeepEval 云平台（非必须），可以运行 deepeval login，按照提示操作即可。

快速入门示例：

这是一个简单的例子，演示如何使用DeepEval评估一个答案的相关性：

from deepeval import evaluate
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

# 定义一个评估指标，比如答案相关性，设置通过阈值
# 这个指标会使用LLM来判断actual_output是否与input相关
answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.7)

# 创建一个测试用例
test_case = LLMTestCase(
    input="我想退货，请问流程是什么？",
    # 假设这是你的LLM应用给出的实际答案
    actual_output="如果您对购买的鞋子不满意，可以在30天内申请全额退款，无需额外费用。",
    # 假设这是提供给LLM的背景信息（如果是RAG应用）
    retrieval_context=["所有客户都可以在30天内享受无额外费用的全额退款服务。"]
)

# 运行评估
# evaluate函数接受一个测试用例列表和一个指标列表
evaluate([test_case], [answer_relevancy_metric])

# 运行结束后，会在命令行看到评估结果和分数
# 你也可以单独获取指标的分数和解释：
# score = answer_relevancy_metric.measure(test_case).score
# reason = answer_relevancy_metric.measure(test_case).reason

如果你喜欢用Pytest管理测试，也可以把你的 LLMTestCase 放到一个测试函数里，然后用 assert_test 来断言：

import pytest
from deepeval import assert_test
from deepeval.metrics import HallucinationMetric
from deepeval.test_case import LLMTestCase

def test_product_info():
    # 定义幻觉指标
    hallucination_metric = HallucinationMetric(threshold=0.8)

    # 创建测试用例
    test_case = LLMTestCase(
        input="iPhone 15 Pro Max有多少个摄像头？",
        actual_output="iPhone 15 Pro Max背面有三个摄像头，分别是主摄、超广角和长焦。",
        context=["iPhone 15 Pro Max配备了先进的三摄系统：48MP主摄像头、12MP超广角摄像头和12MP长焦摄像头。"] # 这里的context是验证幻觉的关键
    )

    # 使用assert_test进行评估
    assert_test(test_case, [hallucination_metric])

然后，在终端运行：

bash
deepeval test run your_test_file.py

DeepEval会运行你的测试，并生成详细的报告。

使用场景与推荐理由

我觉得DeepEval特别适合以下几种场景：

构建可靠的RAG应用： RAG应用的效果高度依赖于检索到的信息和模型如何使用这些信息。DeepEval提供了RAG特有的评估指标，能帮你定量分析检索质量和答案的忠实度，是提升RAG应用效果的利器。
开发复杂的LLM Agent或工作流： 当你的应用包含多个步骤或需要调用外部工具时， @observe 组件级评估能帮助你理解链条中哪一步出了问题，是检索没到位？还是模型理解错了工具的输出？极大地提高了调试效率。
在CI/CD管道中保障LLM应用质量： 就像我们需要在代码提交时跑单元测试一样，DeepEval可以将LLM评估测试集成到CI/CD流程中。每次代码或模型、Prompt发生变化时，自动运行评估，确保新的改动没有引入幻觉、偏见等问题，防止”Prompt Drift”或模型退化。
评估和对比不同LLM模型或Prompt： 如果你纠结于选择哪个模型，或者哪个Prompt效果更好，DeepEval提供的标准基准测试和自定义评估能力，可以给你一个客观的数据依据，而不是凭感觉。

总的来说，DeepEval将LLM应用从难以捉摸的“黑盒”变得像传统软件一样可以被系统化地测试和评估。它把很多前沿的LLM评估研究成果封装成了易用的工具，让开发者能够以工程化的方式保障LLM应用的质量、可靠性和安全性。对于任何认真构建LLM应用的团队或个人来说，这都是一个值得尝试甚至必备的工具。

结语

LLM开发还在飞速发展，如何保障应用的质量和稳定性是一个绕不开的挑战。DeepEval提供了一个非常棒的开源方案，用我们熟悉的测试思维来解决LLM评估这个新问题。它内置了丰富的指标和灵活的使用方式，无论是简单的模型调用还是复杂的Agent，都能找到适合的评估方法。

如果你也正在为LLM应用的测试和评估犯愁，强烈推荐你花点时间了解和试试 DeepEval。给你的LLM应用加上测试用例，让它们更健壮、更可信！

项目的GitHub地址在这里：
https://github.com/confident-ai/deepeval

去看看，给项目点个星，也欢迎在评论区分享你使用DeepEval或者其他LLM评估工具的经验和遇到的问题，我们一起探讨！