みなさん、こんばんは。サニービュー事業部の小寺です。
re:Invent 2022で新サービス「Data Zone」が発表されました。

Amazon Data Zoneとは

Amazon Data Zoneとは、お客様が AWS、オンプレミス、およびサードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理をより迅速かつ簡単にする新しいデータ管理サービスです。 Amazon DataZone の利用いより、組織のデータ資産を監督する管理者とデータスチュワード(※)は、きめ細かい制御を使用してデータへのアクセスを管理および制御し、適切なレベルの権限で適切なコンテキストでデータにアクセスできるようにすることができます。

Amazon DataZone を使用することにより、エンジニア、データサイエンティスト、製品マネージャー、アナリスト、およびビジネスユーザーが組織全体のデータに簡単にアクセスできるようになり、
データを発見、使用、およびコラボレーションして洞察を得ることができます。

※データスチュワートとは
データスチュワードは、ビジネスもしくは業務知識とデータマネジメントの両方の知識が求められるものです。

最近の組織では、複数の部門、サービス、オンプレミス データベース、およびサードパーティ ソース (パートナー ソリューションやデータセットなど) にまたがるペタバイト単位、さらにはエクサバイト単位のデータを収集しています。

組織がこのデータの価値を最大限に引き出す前に、データを生成および管理する管理者とデータ スチュワード (つまり、データ プロデューサー) は、適切な人物のみがアクセスできるように制御とガバナンスを維持しながら、データにアクセスできるようにする必要があります。と同時に、会社全体の従業員 (つまり、データ コンシューマー) は、データ プロデューサーからの情報を発見して分析し、意思決定を促進したいと考えています。

組織は、データを安全に保つための制御の必要性と、新しい洞察を推進するためのアクセスの必要性とのバランスを取る必要がありますが、組織全体のさまざまなデータ、部門、およびユースケースを考慮したガバナンス ポリシーを実装することは困難です。 .一部の企業はカタログを構築して情報を整理していますが、これらのシステムは維持に時間がかかり、データ作成者は各データセットを見つけやすくするために追加のコンテキスト (出所や説明など) を使用して手動でラベル付けする必要があり、作成するための組み込みのアクセス制御がありません。ガバナンスは現状は複雑で、また、組織は一貫したデータ分類法を適用するのに苦労しており、個々のデータ プロデューサーは自身の情報を同期させておく必要があります。これにより、組織全体でデータを検索することが難しくなり、情報が古くなる可能性があります。
データの消費者が必要な情報を見つけたとしても、所有者にカタログから直接アクセスを要求したり、データを分析サービスにロードしたり、他のユーザーと協力したりするのは難しい状況です。
その結果、意思決定者は必要な情報をタイムリーに取得できなかったり、不完全または古いデータに基づいて不適切な意思決定を行ったりする可能性があります。

Amazon Data Zoneの特徴

Amazon DataZone は、データ プロデューサーがデータへのアクセスをより簡単に管理および制御できるようにする新しいデータ管理サービスであり、
データ コンシューマーがデータを発見、使用、コラボレーションしてビジネス インサイトを推進できるようにします。
データ プロデューサーは、Amazon DataZone のウェブ ポータルを使用して、データ分類法を定義し、ガバナンス ポリシーを設定し、さまざまな AWS サービス (Amazon S3 や Amazon Redshift など)、パートナー ソリューション (Salesforce やServiceNow)、およびオンプレミス システムと連携できます。

https://aws.amazon.com/jp/datazone/より引用

Amazon DataZone は、機械学習を使用して各データセットのメタデータ (オリジンやデータ型など) を収集および提案し、顧客の分類法と好みをトレーニングして時間の経過とともに改善することにより、カタログを維持するというコスト削減を実現することができます。
カタログがセットアップされると、データ コンシューマーは Amazon DataZoneウェブポータルを使用して、データ資産を検索および発見し、メタデータのコンテキストを調べ、データセットへのアクセスをリクエストできます。
データ コンシューマーは、データの分析を開始する準備ができたら、Amazon DataZone データ プロジェクトを作成します。
これは、ユーザーがさまざまなデータセットを取り込んだり、同僚とアクセスを共有したり、分析で共同作業したりできるウェブ ポータルの共有スペースです。
Amazon DataZone は、Amazon Redshift、Amazon Athena、Amazon QuickSight などの AWS 分析サービスと統合されているため、データ コンシューマーはデータ プロジェクトのコンテキストでこれらのサービスにアクセスできるため、個別のログイン認証情報とそのデータを管理する必要はありません。
これらのサービスを自動的に利用できます。

Amazon DataZone は、DataBricks、Snowflake、Tableau などのカスタム ソリューションやパートナーと統合するためのアプリケーション プログラミング インターフェイス (API) も提供するため、 顧客はすべてのデータ資産を簡単に公開、検索、操作できます。

ユースケース

NGIEのケースが紹介されていました。NGIEは再生可能エネルギーと低炭素分散型エネルギー インフラストラクチャに重点を置いた世界的なエネルギー企業であり、クライアントが脱炭素目標を達成するのを支援しています。
ENGIE の主な優先事項は、事業全体でデータを統合し、データ共有によってパフォーマンスを向上させ、大規模な価値を生み出すことです。

この目標を達成するために、まず Common Data Hub (CDH) を社内で構築して、この課題を大幅に解決しました。と、Data@ENGIE の最高技術責任者である Gregory Wolowiec 氏のコメントがありました。
データ共有とガバナンスのニーズをサポートするプラットフォームを構築して維持するのではなく、過去 6 か月間、ベータ版の顧客として Amazon DataZone チームと協力し、AWS ネイティブ サービスの作成に情報を提供してきました。 Amazon DataZone を使用して組織全体にデータを配布し、AWS 分析サービスとガバナンス ツールに簡単にアクセスできるようにすることができます。 これにより、アナリストと事業部門のリーダーは、革新的なプロジェクトを作成し、データ主導の意思決定を行うことができます。
Amazon DataZone を当社の事業運営に導入して、その堅牢な機能を活用して、データ共有と大規模なデータによる価値創造を可能にします。