今日收揽331星 DeepEval：像测试普通代码一样测试你的大模型输出

大家好，我是贝克街的捉虫师呀！

做软件开发久了，大家对单元测试、集成测试这些流程肯定不陌生。我们写业务代码，写完总得测测对不对，有没有 bug，这是保证质量的基本操作。但最近一年多，随着大模型（LLM）的兴起，很多应用都开始集成 LLM 能力，比如智能客服、内容生成、代码助手等等。这时候问题就来了，怎么测试 LLM 的输出呢？

我们知道，LLM 的输出不像传统函数调用那样确定性那么强。给同样的输入，它可能返回略有不同的结果，甚至有时候会“胡说八道”（也就是幻觉）。传统的断言方式在这里就不太灵光了。我们总不能手动检查每一个 LLM 输出吧？这效率也太低了。而且，要怎么量化评估一个 LLM 输出的好坏？它的相关性、准确性、无害性这些指标怎么衡量？这成了摆在开发者面前的一个新难题。

就在我为这个问题犯愁的时候，在 GitHub 上发现了一个挺有意思的项目，它就是 DeepEval。它把自己定位成一个专门为 LLM 设计的评估框架，有点像我们写 Python 用 Pytest 做单元测试一样，只不过它是用来测试你的 LLM 应用输出的。

项目概述

DeepEval 的核心目标就是把 LLM 的评估流程标准化、工具化，让开发者能像测试传统代码一样，给自己的 LLM 应用写“测试用例”。你可以定义一些场景（输入），然后用 DeepEval 提供的一系列评估指标来检查 LLM 给出的“实际输出”到底靠不靠谱。

你可以把它想象成一个“大模型质量检测仪”。你把模型的输出喂给它，它会从多个维度给你打分，告诉你这个输出是不是符合预期，有没有产生幻觉，是不是有偏见或者不安全等等。而且，它很多评估是基于 LLM 或者其他 NLP 模型来做的，这些模型甚至可以在你的本地运行，保护数据隐私。

这个项目是完全开源的，用 Python 开发，非常贴合目前主流的 LLM 应用开发技术栈，比如 LangChain 和 LlamaIndex 等框架，它都提供了很好的集成。

项目数据

GitHub 星标数量：累计 7754 个星标，今天就新增加了 331 个。这增长速度，说明项目确实受到了不少关注，解决了大家的痛点。
主要开发语言：Python。对于 Python 开发者来说，上手门槛非常低。
作者及维护状态：项目由 confident-ai 团队维护。从 Readme 看，最近的更新频率很高，一直在增加新的评估指标和功能（比如红队测试、基准测试等），路线图也比较清晰，社区活跃度不错，Discord 上也有不少讨论。感觉这是一个正在快速发展并得到积极维护的项目。

功能亮点

🚀 丰富的内置评估指标

DeepEval 内置了非常多的评估指标，覆盖了 LLM 输出的各个方面。不仅有像 G-Eval 这样基于 LLM 自我评估的指标，还有专门针对 RAG（检索增强生成）应用的，比如判断模型输出是否忠于检索到的原文（Faithfulness）、答案与输入的相关性（Answer Relevancy）、检索到的上下文与问题和答案的相关性（Contextual Relevancy/Precision/Recall），甚至还有针对 Agent 的任务完成度和工具使用正确性的指标。对于对话类应用，它也提供了知识保留、对话完整性等指标。这些指标基本上涵盖了我在评估 LLM 输出时能想到的大部分维度。

🛡️ 强大的红队测试能力

这功能挺酷的！DeepEval 提供了一套红队测试（Red Teaming）工具，可以帮你测试 LLM 应用在面对恶意输入时的安全性，比如注入攻击、越狱、产生偏见或有毒内容等等。它甚至提供了40多种安全漏洞测试和10多种攻击增强策略。在 LLM 安全性越来越重要的今天，这个功能显得特别实用。

📊 内置 LLM 基准测试

如果你想知道你的 LLM 模型在一些公开的、经过验证的基准测试集上的表现，DeepEval 也提供了支持。你可以用几行代码就在 MMLU、HellaSwag、HumanEval 等知名数据集上测试你的模型，看看它到底有多“聪明”或者多“能干”。这对于选择合适的模型或者比较不同模型的性能非常有帮助。

🔧 支持端到端与组件级评估

DeepEval 不仅可以把你的整个 LLM 应用当成一个黑盒进行端到端测试，比如给一个用户输入，然后评估最终输出。它还支持组件级的评估，这意味着你可以只评估 LLM 应用管线中的某一个环节，比如只评估检索器检索到的文档质量，或者只评估某个工具调用的结果。通过 @observe 装饰器，你可以追踪并评估管道中的任意步骤，这对于复杂的 LLM 应用调试和优化太有用了。

🤝 与流行框架深度集成

作为 Python 生态的项目，DeepEval 与 LangChain 和 LlamaIndex 这两个非常流行的 LLM 应用开发框架进行了深度集成。特别是对 LlamaIndex 的 RAG 应用测试，它有专门的教程和支持，可以更方便地为你的 RAG 管道编写测试用例，确保检索和生成的效果。

💡 高度可定制性

除了内置指标，DeepEval 也允许你自定义评估指标。如果你有特别的评估需求，可以根据它的接口自己实现一套评估逻辑，然后无缝集成到整个评估流程中。这给了开发者很大的灵活性。

安装与使用

DeepEval 的安装非常简单，用 pip 包管理器就行：

bash
pip install -U deepeval

安装后，建议先运行一下登录命令，把测试结果同步到 Confident AI 平台（免费的），方便查看报告和对比：

bash
deepeval login

它会引导你创建账号并获取 API Key，然后粘贴到命令行里就行。

接下来，你就可以写第一个测试用例了。比如，创建一个 test_your_app.py 文件。在使用一些基于 LLM 的评估指标时，你可能需要设置 OpenAI 或其他模型的 API Key 环境变量：

bash
export OPENAI_API_KEY="sk-..."
# 或者其他模型提供商的 Key

这是一个简单的测试用例示例，使用了 Pytest 框架（DeepEval 与 Pytest 配合得很好）：

python
import pytest
from deepeval import assert_test
from deepeval.metrics import GEval, AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase, LLMTestCaseParams

# 定义评估指标
# GEval 可以让你用自然语言定义评估标准
correctness_metric = GEval(
    name="Correctness",
    criteria="Determine if the 'actual output' is correct based on the 'expected output' and context.",
    # 指标评估时可以参考哪些参数，这里让它参考实际输出、预期输出和检索上下文
    evaluation_params=[LLMTestCaseParams.ACTUAL_OUTPUT, LLMTestCaseParams.EXPECTED_OUTPUT, LLMTestCaseParams.RETRIEVAL_CONTEXT],
    threshold=0.5 # 设定通过的阈值，分数大于等于0.5就算通过
)

# 答案相关性指标，主要用于 RAG 应用
answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.7)

def test_faq_response():
    """测试智能客服FAQ问答的响应"""
    # 构造一个测试用例
    test_case = LLMTestCase(
        input="产品支持哪些支付方式？", # 用户输入
        # 替换成你的 LLM 应用实际返回的输出
        actual_output="我们支持支付宝、微信支付和银行卡支付。",
        # 预期输出，用于GEval评估
        expected_output="支持支付宝、微信和主流银行卡支付。",
        # RAG应用可能需要提供的检索上下文
        retrieval_context=["产品支持支付宝、微信支付、银行卡支付等多种在线支付方式。"]
    )

    # 运行测试，并使用定义的指标评估
    assert_test(test_case, [correctness_metric, answer_relevancy_metric])

# 你可以写更多的测试函数，或者使用 parametrize 装饰器来批量测试数据集
# @pytest.mark.parametrize("test_case", your_dataset)
# def test_data_driven(test_case: LLMTestCase):
#    ...

写好测试文件后，在命令行里运行 DeepEval 的测试命令：

bash
deepeval test run test_your_app.py

DeepEval 会执行你的测试用例，运行评估指标，并在控制台输出结果。如果登录了 Confident AI 平台，它还会生成一个网页报告链接，你可以在浏览器里看到更详细的评估报告，包括每个指标的得分、通过状态，以及 GEval 给出原因等等。这个报告界面挺直观的，比看命令行舒服多了。

使用场景与推荐理由

DeepEval 这个工具，我觉得特别适合以下几种场景：

开发和迭代 RAG 应用： RAG 效果受检索和生成的双重影响，很难调优。使用 DeepEval 的 RAG 专属指标（忠实度、相关性等），可以帮你量化评估不同检索策略、不同 LLM 模型对最终答案质量的影响，让你调优不再“盲人摸象”。我个人觉得这块价值很大，能显著提高 RAG 应用的稳定性和准确性。
构建需要高可靠性的 LLM Agent： Agent 需要复杂的多步骤操作，包括工具选择、参数生成、调用执行等。DeepEval 的 Agent 指标和组件级评估能力，能帮你追踪 Agent 内部每一步的决策和执行结果，确保 Agent 行为符合预期，减少非预期的“智能涌现”带来的麻烦。
LLM 模型选型与 Prompt 工程： 当你在纠结用 GPT-4 还是 Claude 还是微调的开源模型，或者不知道哪个提示词效果更好时，可以用 DeepEval 的基准测试和评估指标，在你的特定任务数据集上进行量化对比，数据说了算，决策更科学。
将 LLM 功能集成到生产系统并需要CI/CD： 对于需要稳定运行的服务来说，把 LLM 功能当作一个普通的服务模块来测试和监控是必不可少的。DeepEval 对 CI/CD 的良好支持，意味着你可以把它集成到你的自动化测试流程中，每次代码提交或模型更新都能自动运行评估，及时发现问题。

我推荐它的主要理由有：

首先，它把 LLM 评估这个相对模糊的事情，做成了一个像单元测试框架一样有章可循的工具，这符合工程师的思维习惯。其次，它提供的指标非常全面且实用，特别是 RAG、Agent 和安全测试相关的，都是当前 LLM 应用开发中的核心痛点。再次，Python 开发，容易上手，可以本地运行评估，保护数据隐私，并且对主流框架有良好支持。最后，有活跃的社区和持续的维护，说明项目在不断进步。

当然，使用基于 LLM 的评估指标可能会有成本（API 调用费用）和评估过程本身的稳定性问题，这是这类工具的共性。不过 DeepEval 也提供了本地运行模型的选项，并在不断优化，总体瑕不掩瑜。

结语

总的来说，DeepEval 是一个非常值得关注和尝试的开源项目。它为构建高质量、可靠的 LLM 应用提供了一套系统性的评估方案，把复杂的 LLM 行为评估转化为了可量化、可重复的测试流程。如果你正在开发任何形式的 LLM 应用，并且开始考虑如何保证它的质量和稳定性，那么 DeepEval 绝对能帮上大忙。

把你的大模型像测试普通代码一样测试起来吧！感兴趣的同学可以去 GitHub 仓库详细了解和把玩：

GitHub 项目地址：https://github.com/confident-ai/deepeval

文档地址：https://deepeval.com/docs/getting-started

去试试看，有什么使用体验或者疑问，也欢迎在评论区或者交流群里分享给我呀！