作者：Peter Titov

对于任何组织来说，个人身份信息 (Personally Identifiable information, PII) 合规性都是一个日益严峻的挑战。无论你是在电子商务、银行、医疗保健还是其他数据敏感的领域，PII 都可能会在无意中被捕获和存储。拥有结构化日志，可以轻松快速识别、删除和保护敏感数据字段；但非结构化消息又如何呢？或者也许是呼叫中心转录？

Elasticsearch 凭借其在机器学习领域的长期经验，提供了各种引入自定义模型的选项，例如大语言模型 (LLM)，并提供了自己的模型。这些模型将有助于实施 PII 编辑。

如果你想了解有关自然语言处理、机器学习和 Elastic 的更多信息，请务必查看以下相关文章：

Elasticsearch 中使用 PyTorch 进行现代自然语言处理简介
Elastic Redact 处理器文档
Elastic Learned Sparse Encoder 简介：Elastic 用于语义搜索的 AI 模型
访问 Elastic 中的机器学习模型

在本博客中，我们将向你展示如何利用 Elasticsearch 在机器学习中加载经过训练的模型的能力以及 Elastic 摄取管道的灵活性来设置 PII 修订。

具体来说，我们将逐步建立一个用于人员和位置识别的命名实体识别 (NER)模型，以及部署用于自定义数据识别和删除的编辑处理器。然后，所有这些都将与摄取管道相结合，我们可以在其中使用 Elastic 机器学习和数据转换功能从数据中删除敏感信息。

加载训练好的模型

在开始之前，我们必须将 NER 模型加载到 Elasticsearch 集群中。这可以通过 Docker 和 Elastic Eland 客户端轻松完成。从命令行，让我们通过 git 安装 Eland 客户端：

git clone https://github.com/elastic/eland.git

导航到最近下载的客户端：

cd eland/

现在让我们构建客户端：

docker build -t elastic/eland .

从这里，你就可以将经过训练的模型部署到 Elastic 机器学习节点！请务必替换你的用户名、密码、es-cluster-hostname 和 esport。

如果你使用 Elastic Cloud 或已签名证书，只需运行以下命令：

docker run -it --rm --network host elastic/eland eland_import_hub_model --url https://<username>:<password>@<es-cluster-hostname>:<esport>/ --hub-model-id dslim/bert-base-NER --task-type ner --start

如果你使用自签名证书，请运行以下命令：

docker run -it --rm --network host elastic/eland eland_import_hub_model --url https://<username>:<password>@<es-cluster-hostname>:<esport>/ --insecure --hub-model-id dslim/bert-base-NER --task-type ner --start

从这里，你将见证 Eland 客户端从 HuggingFace 下载经过训练的模型并自动将其部署到你的集群中！

针对我的情况，我更倾向于使用已经发布好的 eland。详细的安装步骤，请参阅文章 “Elasticsearch：如何在 Elastic 中实现图片相似度搜索”。我们可以使用如下的命令来进行：

  eland_import_hub_model --url https://<user>:<password>@<hostname>:<port> \
  --hub-model-id dslim/bert-base-NER \
  --task-type ner \
  --ca-certs <your certificate> \
  --start

在我的电脑上，我使用：

通过机器学习概述 UI “Synchronize your jobs and trained models.” 单击蓝色超链接来同步新加载的训练模型。

就是这样！恭喜，你刚刚将第一个经过训练的模型加载到 Elasticsearch 中！

创建编辑处理器和摄取管道

在 DevTools 中，我们配置 redact 处理器和推理处理器，以利用我们刚刚加载的 Elastic 训练模型。这将创建一个名为 redact 的摄取管道，然后我们可以使用它从我们希望的任何字段中删除敏感数据。在此示例中，我将重点关注 “message” 字段。注意：在撰写本文时，redact 处理器处于实验阶段，必须通过 DevTools 创建。

Redact 处理器简介：Redact 处理器使用 Grok 规则引擎来模糊输入文档中与给定 Grok 模式匹配的文本。该处理器可用于通过配置检测电子邮件或 IP 地址等已知模式来隐藏个人识别信息 (PII)。与 Grok 模式匹配的文本将替换为可配置字符串，例如匹配电子邮件地址的 <EMAIL>，或者如果愿意，只需将所有匹配项替换为文本 <REDACTED>。

我们在 Dev Tools 下打入如下的命令：

PUT _ingest/pipeline/redact
{
  "processors": [
    {
      "set": {
        "field": "redacted",
        "value": "{{{message}}}"
      }
    },
    {
      "inference": {
        "model_id": "dslim__bert-base-ner",
        "field_map": {
          "message": "text_field"
        }
      }
    },
    {
      "script": {
        "lang": "painless",
        "source": """
           String msg = ctx['message'];
           for (item in ctx['ml']['inference']['entities']) {
             msg = msg.replace(item['entity'], '<' + item['class_name'] + '>')
           }
           ctx['redacted']=msg
        """
      }
    },
    {
      "redact": {
        "field": "redacted",
        "patterns": [
          "%{EMAILADDRESS:EMAIL}",
          "%{IP:IP_ADDRESS}",
          "%{CREDIT_CARD:CREDIT_CARD}",
          "%{SSN:SSN}",
          "%{PHONE:PHONE}"
        ],
        "pattern_definitions": {
          "CREDIT_CARD": """\d{4}[ -]\d{4}[ -]\d{4}[ -]\d{4}""",
          "SSN": """\d{3}-\d{2}-\d{4}""",
          "PHONE": """\d{3}-\d{3}-\d{4}"""
        }
      }
    },
    {
      "remove": {
        "field": [
          "ml"
        ],
        "ignore_missing": true,
        "ignore_failure": true
      }
    }
  ],
  "on_failure": [
    {
      "set": {
        "field": "failure",
        "value": "pii_script-redact"
      }
    }
  ]
}

好的，但是每个处理器的真正作用是什么？让我们在这里详细介绍每个处理器：

SET 处理器创建 redacted 字段，该字段从 message 字段复制过来，并稍后在管道中使用。
INFERENCE 处理器调用我们加载的 NER 模型，用于消息字段来识别名称、位置和组织。
然后，SCRIPT 处理器从消息字段中替换编辑字段内检测到的实体。
我们的 REDACT 处理器使用 Grok 模式来识别我们希望从编辑字段（从 message 字段复制而来）中删除的任何自定义数据集。
REMOVE 处理器从索引中删除无关的 ml.* 字段；请注意，一旦我们验证数据被正确编辑，我们就会向该处理器添加 “message”。
ON_FAILURE / SET 处理器会捕获任何错误，以防万一出现错误。

分割你的 PII

现在已经配置了包含所有必要步骤的摄取管道，让我们开始测试从文档中删除敏感数据的效果。导航到 Stack Management，选择 Ingest Pipelines 并搜索redact，然后单击结果。

在这里，我们将通过添加一些文档来测试我们的管道。下面是一个示例，你可以复制并粘贴以确保一切正常工作。

{"_source":{"message": "John Smith lives at 123 Main St. Highland Park, CO. His email address is jsmith123@email.com and his phone number is 412-189-9043.  I found his social security number, it is 942-00-1243. Oh btw, his credit card is 1324-8374-0978-2819 and his gateway IP is 192.168.1.2"}}

只需按下 “Run the pipeline” 按钮，您你看到以下输出：

下一步是什么？

将此摄取管道添加到要建立索引的数据集并验证其是否满足预期后，你可以添加要删除的消息字段，以便不会对 PII 数据建立索引。只需更新你的 REMOVE 处理器以包含 message 字段并再次模拟即可仅看到已编辑的字段。

再次运行测试 pipeline。我们发现 message 字段消失了。

结论

通过这种分步方法，你现在已准备好并能够检测和编辑整个索引中的任何敏感数据。

以下是我们所讨论内容的快速回顾：

将预训练的命名实体识别模型加载到 Elastic 集群中
配置 Redact 处理器和推理处理器，以在数据摄取期间使用经过训练的模型
测试示例数据并修改摄取管道以安全删除个人身份信息

准备好开始了吗？注册 Elastic Cloud 并尝试我上面概述的特性和功能，以从 OpenTelemetry 数据中获得最大价值和可见性。

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中，我们可能使用了第三方生成式人工智能工具，这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权，我们对其内容、操作或使用不承担任何责任，也不对你使用此类工具可能产生的任何损失或损害负责。使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。你提交的任何数据都可能用于人工智能培训或其他目的。无法保证你提供的信息将得到安全或保密。在使用之前，你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch 和相关标志是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。