こんばんは。小寺です。
Glueの機密データ検出機能のアップデートがありました。
https://aws.amazon.com/about-aws/whats-new/2023/06/aws-glue-250-entity-types-50-countries/

URLには、Customers can use this from AWS Glue Studio, Glue Interactive sessions and AWS Glue Studioと2回分Glue Studioと記載があるのですが、CLI、APIを意味しているのでは?と思います。Document Historyが更新されたらそのあたりも確認してみたいと思います。

アップデート内容

アップデートとしては今まで提供されていたAWS Glueの機密データ検出機能が50カ国の250以上の機密エンティティタイプをすぐに検出できるようになりました。

AWS Glueの機密データ検出機能とは、さまざまな PII や、クレジットカード番号などの機密データを識別することができます。
監査のために機密データについてのモニタリングが可能です。また、データレイクにレコードを書き込む前に機密情報をマスクするなどの対策を取ることができます。
AWS Glue Jobは以下のインターフェースからアクセスできます。

・AWS Glueコンソール
・AWS GlueStudio
・AWS Glue セクション(AWS CLIリファレンス)
・AWS Glue API

どの国に対応しているの?

サポートされている国は、アルゼンチン、オーストラリア、オーストリア、バルカン半島、ベルギー、ブラジル、ブルガリア、カナダ、チリ、中国、コロンビア、クロアチア、キプロス、チェコ、デンマーク、エストニア、フィンランド、フランス、ドイツ、ギリシャ、ハンガリー、アイスランド、インド、インドネシアが含まれます、アイルランド、イスラエル、イタリア、日本、韓国、ラトビア、リヒテンシュタイン、リトアニア、ルクセンブルク、マレーシア、マルタ、メキシコ、オランダ、ニュージーランド、ノルウェー、フィリピン、ポーランド、ポルトガル、ルーマニア、シンガポール、スロバキア、スロベニア、南アフリカ、スペイン、スリランカ、スウェーデン、スイス、タイ、トルコ、UAE、英国、ウクライナ、米国、ベネズエラです。

確認してみる

(1) AWS Glue Studio コンソールの [Create job] (ジョブを作成) セクションで、[Visual with a source and target] (ソースとターゲットを含むビジュアル) をクリックします。[Create] (作成) をクリックします。

(2) Detect Sensitive Dataを選びます。

(3) エンティティを選択することで、データのスキャン方法、Detect PII transform によって識別されてきた PIIで同アクションするかを定義することも可能です。スキャン方法は以下の2つ。


                 スクリーンショットには、データソースのスキャン方法のために、 Detect PII transform のオプションが表示されます。すべての行と列をスキャンしてデータソース全体で PII を検出するか、行をサンプリングして PII を含む列の PII を検出するかを選択できます。

(4) スキャンが終わった後に、EventBridgeと連携して、アラートを飛ばすこともできるようです。


            Data quality properties in AWS CloudFormation

またLambdaと組み合わせることで、整形されたレポートを作ることもできます。


            Data quality notification formatted as an email
https://docs.aws.amazon.com/glue/latest/dg/data-quality-alerts.htmlより引用