📝 Azure データレイク(Data Lake)データウェアハウス(Data Warehouse)

 

🧠 高レベル技術概要(+直感的な類比)

🔄 類比:データレイクは「データの湖」、データウェアハウスは「工場で精製された製品の倉庫」

  • データレイク(Data Lake)
    • 原材料(=構造化されていない生データ)を全部、そのまま保管する「」。
      → データを貯めておき、あとで処理・変換する。
  • データウェアハウス(DWH)
    • 整理・クリーニングされ、分析用に最適化されたデータを保管する「倉庫」。
      → 必要なものだけをきれいに整備して保存し、すぐ使えるようにする。

🔬 技術的な違い(詳細 + 直感的理解)

比較項目
データレイク(Data Lake)
データウェアハウス(Data Warehouse)
保存対象
あらゆる種類のデータ(構造化・半構造化・非構造化)
整形された構造化データ(表形式)
データ形式
CSV, JSON, Parquet, Avro, 音声, 画像, 動画など
テーブル(列・行)形式(SQLベース)
スキーマ
スキーマオンリード(読み取り時に構造解釈)
スキーマオンライト(保存前に構造定義が必要)
ストレージ
Azure Data Lake Storage (Gen2) などのオブジェクトストレージ
Azure Synapse Analytics / Azure SQL Data Warehouseなど
主な用途
生データの収集・蓄積、ML/AI向けの準備
BIダッシュボード、レポーティング、OLAPクエリ
処理エンジン
Spark, Databricks, Synapse Spark, HDInsightなど
T-SQL, Synapse SQL, Power BI など
処理タイミング
後処理(バッチ処理や探索的分析)
即時利用(すぐに分析可能)
成長性/拡張性
非常に高い(数PB以上のデータにも対応)
高いが、データ品質・構造維持が必要
コスト
ストレージ安価だが、処理のたびに計算コスト発生
ストレージ高めだが、アクセス・分析が高速

🎓 Azure 上の具体的なサービスで比較

概念
サービス名
特徴
データレイク
Azure Data Lake Storage Gen2
Hadoop/Spark 向けの分散ファイルシステム(階層構造)
データウェアハウス
Azure Synapse Analytics(旧 SQL DW)
分析特化型のDWH、MPP構造、高速なクエリ処理

🧠 深掘り:スキーマ・オン・リード vs スキーマ・オン・ライト

🧊 スキーマ・オン・ライト(Data Warehouse)

  • データを書き込む時点でスキーマ(構造)を決める必要がある
  • 整形されたデータでないと入らない
  • ✔️ データの整合性は保証される
  • ❌ 柔軟性が低く、事前の設計が必要

💧 スキーマ・オン・リード(Data Lake)

  • データはとりあえず保存しておいて、読み取る時に構造を解釈
  • ✔️ 生データをそのまま保持できる
  • ✔️ ML用途や未知の分析に強い
  • ❌ データの整合性・信頼性は分析側の責任

🎯 選び方の直感的判断基準

目的
最適
あらゆるデータをとにかく保管したい
データレイク
センサーデータ、ログ、画像、CSVなど
データレイク
データを整形・正規化して分析したい
データウェアハウス
経営レポートやKPI分析、BIツール接続
データウェアハウス

📊 2つの統合:

データレイク+DWHの共存アーキテクチャ

これは現代の主流。
  • 生データ → データレイクに格納(安価&無制限)
  • 必要な部分をクレンジング・整形 → データウェアハウスへ移送
  • ETL/ELT パイプライン(Azure Data Factory、Synapse Pipeline など)を通じて連携

 
宅地建物取引士Az305問題集
Loading...