今日收揽78星 | DeepEval：像写单元测试一样评估你的大模型应用

大家好，我是贝克街的捉虫师呀！

最近大模型（LLM）实在是太火了，各种基于大模型的应用层出不穷，像是智能客服、内容生成、自动化助手等等。咱们开发者自然也跟着这波浪潮，开始在自己的项目里集成或开发基于 LLM 的功能。不过，在享受大模型带来便利的同时，一个新的问题也随之而来：怎么评估大模型的输出质量？

传统软件开发里，我们有单元测试、集成测试来保证代码逻辑的正确性。但对于 LLM 的输出，它没有固定的标准答案，可能是一个自然语言的句子、一段摘要、或者一个代码片段。你怎么知道它是不是“好”的？是不是“准确”的？有没有产生幻觉？面对这个问题，我最近在 GitHub 上找到一个有意思的开源项目，叫做 DeepEval，它号称是“The LLM Evaluation Framework”，感觉像是给大模型应用量身定制的“单元测试”工具。

项目概述

DeepEval 的核心定位，就是一个专注于评估和测试大型语言模型系统的开源框架。你可以把它想象成 LLM 领域的 Pytest，只不过它测试的不是你写的函数返回值是否等于某个固定值，而是评估大模型生成的文本是否满足一系列复杂、灵活的标准。

它不是简单地进行字符串匹配，而是引入了各种研究成果和度量指标来衡量 LLM 输出的质量，比如回答的相关性、是否产生幻觉、基于检索上下文的准确性等等。而且，它可以在本地运行，这对于保护数据隐私和降低成本都很有帮助。DeepEval 的目标是帮助开发者更自信地构建、测试和迭代他们的 LLM 应用，无论是 RAG 管线、聊天机器人还是 AI Agent。

这个项目目前是开源的，基于 Apache 2.0 许可证，由 Confident AI 的创始团队主导开发和维护。

项目数据

从 GitHub 的数据来看，DeepEval 还是挺受关注的：

项目累计星标数达到了 7542，这是一个相当不错的数字，说明它在社区里已经积累了一定的认可度。今日也新增了 78 个星标，这表明项目近期依然保持着活跃度和吸引力。

项目的主要开发语言是 Python，这对于很多后端开发者和熟悉 AI/ML 生态的朋友来说非常友好，可以无缝集成到现有的 Python 项目中。

通过 README 和最近的更新记录来看，项目维护状态良好，有一个清晰的 Roadmap，并且定期有新版本发布，贡献者也在持续加入。另外，它还提到了与一些流行的 LLM 框架（如 LlamaIndex, Hugging Face）的集成，这都是项目活跃和实用的体现。

功能亮点

用了一段时间 DeepEval 后，我总结了几个让我觉得特别实用的功能点：

🧪 丰富的内置评估指标

DeepEval 提供了一大堆预设的评估指标，覆盖了各种场景。比如针对 RAG 应用的回答相关性、忠实度、上下文召回和精确率；针对 Agent 的任务完成度、工具使用正确性；还有通用的幻觉检测、摘要质量、甚至偏见和毒性检测。这些指标很多都是基于最新的研究成果，比如 G-Eval，能够利用 LLM 本身的能力来评估输出，非常灵活和强大。而且这些评估过程可以在本地执行，这点对我来说很重要。

✍️ 支持自定义指标

虽然内置指标很多，但实际应用中总会有特殊需求。DeepEval 允许你构建自己的自定义评估逻辑，并能无缝集成到它的评估体系中。这意味着你可以根据自己的业务场景和质量标准，定义独有的评估方式，让测试更贴合实际。

📊 简便的基准测试

想要对比不同 LLM 模型的效果？或者调整了 Prompt 后想看看有没有提升？DeepEval 提供了对一些流行 LLM 基准测试数据集（比如 MMLU, HellaSwag, HumanEval 等）的快速评估能力。几行代码就能跑通这些基准测试，方便你量化不同模型或 Prompt 的表现差异，为决策提供数据支持。

🛡️ 内置红队测试能力

构建 LLM 应用安全性不容忽视。DeepEval 内置了红队测试（Red Teaming）功能，可以帮助你检测应用是否存在超过 40 种安全漏洞，比如毒性输出、偏见内容、甚至是 Prompt Injection 等攻击。它还结合了一些高级攻击增强策略，能帮你提前发现并规避潜在的安全风险。

🧩 友好的集成生态

DeepEval 被设计成可以轻松集成到现有的工作流中。无论是你的 CI/CD 管道，还是使用了 LlamaIndex 或 Hugging Face 等框架构建的应用，它都能很好地对接。这使得在开发和部署过程中持续进行 LLM 评估变得非常可行，而不是一个额外的负担。

🔗 与云平台的联动能力 (可选)

DeepEval 开源项目背后是 Confident AI 公司。他们提供了一个云平台，可以与开源库无缝联动。如果你需要更强大的数据管理、报告生成与分享、测试结果对比分析、甚至是监控线上 LLM 表现并基于实际数据改进评估数据集等功能，可以考虑使用他们的平台。这为更完整的 LLM 开发和评估生命周期提供支持，不过开源库本身的功能已经足够强大，云平台是更高阶的需求。

安装与使用

DeepEval 的安装和入门过程非常简单，基于 Python 生态：

首先，确保你安装了 Python (推荐 3.8+) 和 pip。

然后，使用 pip 命令进行安装：

bash
pip install -U deepeval

如果你的评估指标需要调用像 OpenAI 这样的付费 LLM 服务，你需要设置相应的 API Key 环境变量。例如：

bash
export OPENAI_API_KEY="..."

当然，DeepEval 也支持使用自定义的本地或私有模型进行评估，具体配置可以查阅它的官方文档。

接着，你就可以像写 Pytest 测试用例一样来编写你的 LLM 评估测试了。创建一个 Python 文件，比如 test_my_llm_app.py：

import pytest
from deepeval import assert_test
from deepeval.metrics import GEval, AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase, LLMTestCaseParams
def test_customer_chatbot_response():
    # 定义评估指标，这里用 GEval 评估输出正确性，并评估回答相关性
    correctness_metric = GEval(
        name="Correctness",
        criteria="判断 'actual output' 是否根据 'expected output' 是正确的回答。",
        evaluation_params=[LLMTestCaseParams.ACTUAL_OUTPUT, LLMTestCaseParams.EXPECTED_OUTPUT],
        threshold=0.7 # 设置通过阈值，分数0-1，高于0.7算通过
    )
    relevancy_metric = AnswerRelevancyMetric(threshold=0.6) # 回答相关性阈值

    # 构建一个测试用例
    test_case = LLMTestCase(
        input="这双鞋尺码不合适怎么办？",
        # 这里的 actual_output 应该替换为你实际 LLM 应用对上面 input 的输出
        actual_output="您可以在30天内享受免费全额退款。",
        expected_output="我们提供30天免费全额退款服务。", # 期望的理想输出
        retrieval_context=["所有顾客都享有30天免费全额退款的资格。"] # 如果是 RAG 应用，提供检索到的上下文
    )

    # 使用 assert_test 运行测试用例和指标
    assert_test(test_case, [correctness_metric, relevancy_metric])

# 你也可以定义更多测试函数来覆盖不同场景
# def test_another_scenario():
#    ...

保存文件后，在命令行运行 DeepEval 测试命令：

bash
deepeval test run test_my_llm_app.py

DeepEval 会运行你定义的测试用例，调用相应的评估指标对 LLM 输出进行打分，并根据设定的阈值判断测试是否通过。结果会在命令行输出，如果登录了 Confident AI 账户，也会同步到云平台生成可视化报告。

如果你不想依赖 Pytest 框架，也可以直接在脚本中调用 deepeval.evaluate 函数来运行测试，或者单独使用某个指标的 measure 方法进行评估，非常灵活。

python
from deepeval import evaluate
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

# 创建测试用例
test_case = LLMTestCase(
    input="你好",
    actual_output="您好！有什么可以帮您的吗？"
)

# 创建并测量指标
relevancy_metric = AnswerRelevancyMetric(threshold=0.7)
relevancy_metric.measure(test_case)

print(f"回答相关性分数: {relevancy_metric.score}")
print(f"解释: {relevancy_metric.reason}")

# 或者批量评估
# evaluate([test_case_1, test_case_2], [metric1, metric2])

如果在使用过程中遇到问题，比如某些依赖没有安装全，或者指标配置不对，建议首先查阅 DeepEval 的官方文档，通常都能找到对应的解决方案和更详细的说明。

使用场景与推荐理由

我觉得 DeepEval 特别适合以下几种场景的开发者和团队：

构建 RAG 应用的团队： RAG (Retrieval-Augmented Generation) 应用的质量高度依赖于检索到的上下文和基于上下文生成的回答。DeepEval 提供了丰富的 RAG 特定指标，可以帮助你量化和改进检索模块的精度和生成模块的忠实度、相关性。
开发聊天机器人或智能客服： 聊天机器人的交互性和回答质量直接影响用户体验。你可以使用 DeepEval 来评估机器人的回答是否正确、是否跑题、是否符合预设的角色等等，确保对话流程和质量稳定。
迭代优化 LLM 应用的开发者： 当你尝试不同的 Prompt engineering 技巧、更换基座模型、或者微调模型后，如何科学地评估效果？DeepEval 的基准测试和自定义指标能力让你能用数据说话，而不是靠感觉。
关注 LLM 应用安全性和鲁棒性： 随着 LLM 应用部署到生产环境，其安全漏洞可能带来风险。利用 DeepEval 的红队测试功能，可以在上线前进行全面的安全评估，提高应用的抗攻击能力。

相比于自己手动编写基于规则或简单 LLM调用的评估脚本，DeepEval 提供了一个结构化、系统化的框架和大量开箱即用的高质量指标。它将 LLM 评估这个复杂的任务标准化和工具化，让你能够像对待传统代码一样，为你的 LLM 应用建立回归测试和质量保障体系。对于任何严肃对待 LLM 应用开发的朋友，DeepEval 都是一个非常值得尝试的实用工具。它的 Python 生态友好、本地运行能力和丰富的评估维度，都能显著提高开发和测试效率。