こんにちは。前回はAWS上で構築するデータ分析基盤(第1回)として、 Athena、Redshift、EMRについての用途別のご利用方法について、お伝えしました。今回は、AWS Lake Formationについて、解説します!

AWSにてデータ分析基盤を構築する際に、Lake Formationというサービスを使えば、データレイク構築をより簡単に行うことができます。Lake Formationについて、どのようなことができるのかを、具体的に見ていきましょう。

データ分析基盤の構築の手間

データ分析基盤を構築するには、様々なサービスを使い分け、構築を行う必要があります。例えば、以下のようなサービスの構築手順を理解して行う必要があります。

これらのサービスの構築手順を1つ1つ学習し、構築を行っていくには、非常に時間とコストがかかってしまいます。

Lake Formationでできること

Lake Formationは、データレイクから、データの加工まで、一貫して構築を行うことができるサービスです。

https://aws.amazon.com/jp/lake-formation より抜粋

具体的には、以下のことが可能です。

データレイクの構築

以下のように、Lake Formationの設定画面にてデータが格納されているS3のパスを記入するだけで、S3をデータレイクとして使用することができます。


セキュリティの設定

Lake Formationがリリースされる前は、データ分析基盤として利用するS3やAthenaにたいして1つ1つIAMロールを作成し、アタッチするように、アクセス権の設定は非常に手間がかかるものでした。Lake Formationでは、以下の赤枠のように、RevokeとGrantのボタンでシンプルにデータの読み書きに関するセキュリティの設定を簡易に行うことができます。

データの整理

データレイクは大量のデータを扱うため、データ量が増えていくにつれて、どこにどのようなデータが格納されているのかを把握することが困難になっていきます。このような状態を回避する為に、Lake Formationではメタデータ(どこに何のデータがあるのかを説明するためのデータ)の設定が可能です。タグ付けを行うことで、検索を行うこともできます。

運用支援(監視・ロギングなど)

CloudTrailと連携することで、S3の指定されたバケットに、どのデータにいつアクセスしたかを記録することができます。

まとめ

このように、Lake Formationを活用することで、データ分析基盤を手軽に、セキュアに構築することができます。また、Lake Formation自体の利用料金は無料になっています。データ分析基盤の運用管理についても様々な支援機能がついていますので、ぜひ利用してみてください!データ分析についてのご相談がございましたら、SunnyCloudまでお問合せお待ちしております!