type
status
date
slug
summary
tags
category
icon
password
📝 Azure データレイク(Data Lake) と データウェアハウス(Data Warehouse)
🧠 高レベル技術概要(+直感的な類比)
🔄 類比:データレイクは「データの湖」、データウェアハウスは「工場で精製された製品の倉庫」
- データレイク(Data Lake):
原材料(=構造化されていない生データ)を全部、そのまま保管する「湖」。
→ データを貯めておき、あとで処理・変換する。
- データウェアハウス(DWH):
整理・クリーニングされ、分析用に最適化されたデータを保管する「倉庫」。
→ 必要なものだけをきれいに整備して保存し、すぐ使えるようにする。
🔬 技術的な違い(詳細 + 直感的理解)
比較項目 | データレイク(Data Lake) | データウェアハウス(Data Warehouse) |
保存対象 | あらゆる種類のデータ(構造化・半構造化・非構造化) | 整形された構造化データ(表形式) |
データ形式 | CSV, JSON, Parquet, Avro, 音声, 画像, 動画など | テーブル(列・行)形式(SQLベース) |
スキーマ | スキーマオンリード(読み取り時に構造解釈) | スキーマオンライト(保存前に構造定義が必要) |
ストレージ | Azure Data Lake Storage (Gen2) などのオブジェクトストレージ | Azure Synapse Analytics / Azure SQL Data Warehouseなど |
主な用途 | 生データの収集・蓄積、ML/AI向けの準備 | BIダッシュボード、レポーティング、OLAPクエリ |
処理エンジン | Spark, Databricks, Synapse Spark, HDInsightなど | T-SQL, Synapse SQL, Power BI など |
処理タイミング | 後処理(バッチ処理や探索的分析) | 即時利用(すぐに分析可能) |
成長性/拡張性 | 非常に高い(数PB以上のデータにも対応) | 高いが、データ品質・構造維持が必要 |
コスト | ストレージ安価だが、処理のたびに計算コスト発生 | ストレージ高めだが、アクセス・分析が高速 |
🎓 Azure 上の具体的なサービスで比較
概念 | サービス名 | 特徴 |
データレイク | Azure Data Lake Storage Gen2 | Hadoop/Spark 向けの分散ファイルシステム(階層構造) |
データウェアハウス | Azure Synapse Analytics(旧 SQL DW) | 分析特化型のDWH、MPP構造、高速なクエリ処理 |
🧠 深掘り:スキーマ・オン・リード vs スキーマ・オン・ライト
🧊 スキーマ・オン・ライト(Data Warehouse)
- データを書き込む時点でスキーマ(構造)を決める必要がある
- 整形されたデータでないと入らない
- ✔️ データの整合性は保証される
- ❌ 柔軟性が低く、事前の設計が必要
💧 スキーマ・オン・リード(Data Lake)
- データはとりあえず保存しておいて、読み取る時に構造を解釈
- ✔️ 生データをそのまま保持できる
- ✔️ ML用途や未知の分析に強い
- ❌ データの整合性・信頼性は分析側の責任
🎯 選び方の直感的判断基準
目的 | 最適 |
あらゆるデータをとにかく保管したい | データレイク |
センサーデータ、ログ、画像、CSVなど | データレイク |
データを整形・正規化して分析したい | データウェアハウス |
経営レポートやKPI分析、BIツール接続 | データウェアハウス |
📊 2つの統合:
データレイク+DWHの共存アーキテクチャ
これは現代の主流。
- 生データ → データレイクに格納(安価&無制限)
- 必要な部分をクレンジング・整形 → データウェアハウスへ移送
- ETL/ELT パイプライン(Azure Data Factory、Synapse Pipeline など)を通じて連携
- Author:baipeiyu
- URL:https://tangly1024.com/article/247d5740-9b33-80d6-903a-d6450a8d5857
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!