みなさん、こんにちは。サニービュー事業部の小寺です。
re:Inventのアップデートとして、AWS Glue Data Qualityが発表されました。
発表時点の2022年12月時点でプレビュー版として提供されています。

どういったサービスなのか?の前に先に用語について、解説します。

AWS Glue Data Qualityで使われる用語たち

・DQDL
Data Quality Definition Languageの略。
AWS Glue データ品質ルールを記述するために使用できるドメイン固有の言語です。

・ルール
特定の特性についてデータをチェックし、ブール値を返す DQDL 式

・ルールセット
一連のデータ品質ルールで構成される AWS Glue リソース。
データのチェック内容(ルール)を規定する。

・データ品質
色々な意味がある言葉ですが、ここではデータセットが特定の目的をどの程度達成できるか?の観点に基づきます。データセットに対してルールを評価し、データ品質を測定します。

・データ品質スコア
AWS Glue Data Quality を使用してルールセットを評価したときに合格 (結果が true) になったルールの割合。

AWS Glue Data Qualityとは?

AWS Glue Data Qualityとは、データレイクとデータパイプラインのデータ品質を自動的に測定・モニタリングする新機能です。どうやって使うサービスなのか気になりますよね。

データの統計を計算し、データ品質ルールのセットをレコメンデーションしてくれます。
ルールが自動的にデータの正確性、鮮度、完全性などの品質面をチェックし、AWSから推奨されるルールを調整することも、独自のルールを作成することもできます。
データ品質タスクを実行して、データ品質の問題を分析、特定し、対応することができます。データ品質タスクは、データに対してルールを評価します。 評価については、ETL ジョブを使うこともできます。

対応後は、データ品質タスクの結果が表示されます。データ品質タスクを実行することで、データ品質スコアが計算されます。データ品質が低下した場合に、ユーザに警告するアクションを設定することもできます。データ品質メトリクスを Amazon CloudWatch に発行するオプションがあるので、連携させることで定期的なチェックを行うことができます。

Step 1: Add the Evaluate Data Quality node to the visual job

AWS Glue Studioのアクションメニューで「Data Evaluate Quality」を選びます。

Step 2: Create a rule using DQDL

完全性ルールタイプは、指定された列に対して、列内の完全な値のパーセンテージをチェックします。ここでいう完全性(Completeness)はNull以外を意味します。
Evaluate DataQualityのTransformタブを選択し、DQDL rule builderでCompletenessを選択します。

step3:Configure Data Quality actions and output

[データ品質アクション] で、[データ品質が失敗した場合にジョブを失敗させる] のチェックボックスをクリックします。
デフォルトでは、本アクションは選択されておらず、データ品質ルールが失敗した場合でもジョブは実行完了となります。

[データ品質変換の出力] で、次のオプションから選択します。
・元のデータ — 元の入力データの出力を選択します。このオプションは、品質の問題が検出されたときにジョブを停止する場合に使います。
・データ品質の結果 — 構成されたルールとその合格または不合格ステータスを出力することができます。このオプションは、カスタム アクションを実行する場合に便利です。

Step 4: View data quality results

ジョブが完了したらジョブのData qualityタブをクリックして、結果を確認することができます。ノードには、データ品質ステータスとステータスの詳細が表示されます。ノードをクリックして、すべてのルールと各ルールのステータスを表示し、確認することができます。

前提条件

・AWS Glue Data Catalog の AWS Glue Data Quality は現在、Amazon S3 ソースで動作します。
・AWS Glue Data Quality は、ETL ジョブの AWS Glue 3.0 と連携します。他のバージョンにはまだ対応していません。
・データ品質ルールは、ネストされたデータソースまたはリスト形式には対応していません。

利用可能なリージョン

以下のリージョンでプレビュー版として、利用ができます。東京リージョンでも試すことができます。
・バージニア北部(us-east-1)
・オハイオ(us-east-2)
・オレゴン(us-west-1)
・東京(ap-northeast-1)
・アイルランド(eu-west-1)


参考

チュートリアル

オフィシャル