Azure Data Lake Store について

  • 大容量、大量のデータを保存できるクラウドストレージ (サイズやデータ量の制限なし)
  • 構造は階層型ファイルシステムなので、Windowsファイルシステムと同じようなものとの認識で良い
  • 所謂ビッグデータの保存・分析にフォーカスしているため、小さいデータを扱うのはパフォーマンスが良くない (パフォーマンスの話なので、扱えないというわけではない)。 ドキュメントでは、「適切なファイル サイズの範囲は 256 MB ~ 1 GB で、100 MB を下回らず、2 GB を超えないのが理想」と記載されている
  • ファイルやフォルダを管理するためのメタデータが存在し、その関係で 1 オブジェクトについて 256 KB が最小課金単位となる。つまり、1 B のファイル 100 個と 256 KB のファイル 100 個は、請求額としては同じになる。小さいサイズのファイルを大量に保存するのは、課金額的にもあまりよろしくない
  • 単にデータ保存用のクラウドストレージとしてではなく、Azure Data Lake Analytics を使用することで、Data Lake Store 上に保存されたファイルを Azure 側で分析処理することが出来る。例えば、U-SQL と言う SQL ライクな Data Lake Analytics 用言語を使用して Data Lake Store 上の csv ファイルを読み込み、好きな条件に従ってデータをフィルタ・加工し、その結果を Data Lake Store 上にファイル保存することが出来る。これを Data Lake Analytics を使用しないで実現しようとすると、一度対象ファイルをローカルに全て落とした上でフィルタ・加工処理を行う必要があるが、ADLA を使用する事でこの作業が不要になる。ADL は GB, TB レベルの大容量サイズのファイルを保存する可能性があるので、これらの大容量データを Azure 上だけで分析できるのは、効率が良い。また、Azure 上で実行する分析処理は簡単にスケールアウトすることが出来るので (例えば、50 ユニットで並列処理)、料金の問題はあるが、処理速度を上げたい時の柔軟性も高い
  • Data Lake Analytics を使用する場合は、ファイルを保存する形式について事前によく検討する必要がある。csv などの形式で保存されていれば U-SQL で直接処理しやすいし、圧縮ファイルも gzip であれば対応しているらしい (未検証)
  • Data Lake Store の 1 リージョンに作成できるアカウントは、既定では最大で 10 なので注意。テストとかでポンポン作ると、上限に達してしまう可能性が高い。リージョン毎のカウントなのでリージョン変えれば作成できるが、どうしても上限に達したリージョンで新規アカウントを作成したい場合は、MS サポートに連絡して上げてもらうことが可能。ただし、それなりのビジネスインパクトの提出が必要

参考 URL