AWS Glueから データのクリーニングと正規化をサポートするデータ準備ツールが発表されました。
https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual-data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/

分析の実行、レポートの作成、あるいは機械学習の導入を始めるには、使用するデータが適切な状態であることが必要です。そのために、データクレンジングは必須です。

データクレンジングは一般的に手間と時間がかかる作業です。外れ値や未整理のデータが存在するのかは、データを確認する必要があり、ときには、目視で内容を確認する必要があります。多数の外れ値などを一括して変換する、データ操作は大変です。

今回AWSが発表した「AWS Glue DataBrew」は、このデータクレンジングをビジュアルに行えるツールです。同社によれば、従来よりも80%速く作業ができるとのことです。

また、 「AWS Glue DataBrew」 で適用したすべての変換処理を、レシピから一覧表示で確認することができます。
レシピジョブを実行することにより、出力は S3 に保存されます。

■連携できるサービス
Amazon Simple Storage Service (S3)、Amazon Redshift、Amazon Relational Database Service (RDS) などに保存されたデータや、JDBC でアクセス可能なあらゆるデータストア、または AWS Glue データカタログによってインデックス化されたデータなどに、 接続ができます。

■どのようなケースで役立つか
自然現象やIoTのデータを収集されているようなデータソースで正規化をするときにとても有効です。
分析、機械学習、または BI 用のデータの準備が簡単になったことで、より本業であるビジネスへ集中ができるようになります。