ハクのクラウド学習
友人帳
  •   NotionNext介绍
  •   NotionNext操作说明
AWS
  •   AWS SAP問題集
Azure
  •   Microsoft Learn
baipeiyu
Article
10
Category
3
Tags
3
友人帳
NotionNext介绍
NotionNext操作说明
AWS
AWS SAP問題集
Azure
Microsoft Learn
IT技術
☠️データレイクとデータウェアハウ(Azure)
Post on: 2025-8-6
Last edited: 2025-8-6
Views
Azure
type
status
date
slug
summary
tags
category
icon
password

📝 Azure データレイク(Data Lake) と データウェアハウス(Data Warehouse)

 

🧠 高レベル技術概要(+直感的な類比)

🔄 類比:データレイクは「データの湖」、データウェアハウスは「工場で精製された製品の倉庫」

  • データレイク(Data Lake):
    • 原材料(=構造化されていない生データ)を全部、そのまま保管する「湖」。
      → データを貯めておき、あとで処理・変換する。
  • データウェアハウス(DWH):
    • 整理・クリーニングされ、分析用に最適化されたデータを保管する「倉庫」。
      → 必要なものだけをきれいに整備して保存し、すぐ使えるようにする。

🔬 技術的な違い(詳細 + 直感的理解)

比較項目
データレイク(Data Lake)
データウェアハウス(Data Warehouse)
保存対象
あらゆる種類のデータ(構造化・半構造化・非構造化)
整形された構造化データ(表形式)
データ形式
CSV, JSON, Parquet, Avro, 音声, 画像, 動画など
テーブル(列・行)形式(SQLベース)
スキーマ
スキーマオンリード(読み取り時に構造解釈)
スキーマオンライト(保存前に構造定義が必要)
ストレージ
Azure Data Lake Storage (Gen2) などのオブジェクトストレージ
Azure Synapse Analytics / Azure SQL Data Warehouseなど
主な用途
生データの収集・蓄積、ML/AI向けの準備
BIダッシュボード、レポーティング、OLAPクエリ
処理エンジン
Spark, Databricks, Synapse Spark, HDInsightなど
T-SQL, Synapse SQL, Power BI など
処理タイミング
後処理(バッチ処理や探索的分析)
即時利用(すぐに分析可能)
成長性/拡張性
非常に高い(数PB以上のデータにも対応)
高いが、データ品質・構造維持が必要
コスト
ストレージ安価だが、処理のたびに計算コスト発生
ストレージ高めだが、アクセス・分析が高速

🎓 Azure 上の具体的なサービスで比較

概念
サービス名
特徴
データレイク
Azure Data Lake Storage Gen2
Hadoop/Spark 向けの分散ファイルシステム(階層構造)
データウェアハウス
Azure Synapse Analytics(旧 SQL DW)
分析特化型のDWH、MPP構造、高速なクエリ処理

🧠 深掘り:スキーマ・オン・リード vs スキーマ・オン・ライト

🧊 スキーマ・オン・ライト(Data Warehouse)

  • データを書き込む時点でスキーマ(構造)を決める必要がある
  • 整形されたデータでないと入らない
  • ✔️ データの整合性は保証される
  • ❌ 柔軟性が低く、事前の設計が必要

💧 スキーマ・オン・リード(Data Lake)

  • データはとりあえず保存しておいて、読み取る時に構造を解釈
  • ✔️ 生データをそのまま保持できる
  • ✔️ ML用途や未知の分析に強い
  • ❌ データの整合性・信頼性は分析側の責任

🎯 選び方の直感的判断基準

目的
最適
あらゆるデータをとにかく保管したい
データレイク
センサーデータ、ログ、画像、CSVなど
データレイク
データを整形・正規化して分析したい
データウェアハウス
経営レポートやKPI分析、BIツール接続
データウェアハウス

📊 2つの統合:

データレイク+DWHの共存アーキテクチャ

これは現代の主流。
  • 生データ → データレイクに格納(安価&無制限)
  • 必要な部分をクレンジング・整形 → データウェアハウスへ移送
  • ETL/ELT パイプライン(Azure Data Factory、Synapse Pipeline など)を通じて連携

 
  • Author:baipeiyu
  • URL:https://tangly1024.com/article/247d5740-9b33-80d6-903a-d6450a8d5857
  • Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts
Azure関連知識
Az305問題集
Security Groups和Microsoft 365 Groups
权限的合理分配
宅地建物取引士Az305問題集
Loading...
baipeiyu
baipeiyu
baipeiyu
Article
10
Category
3
Tags
3
Latest posts
Az305問題集
Az305問題集
2025-8-15
权限的合理分配
权限的合理分配
2025-8-14
Security Groups和Microsoft 365 Groups
Security Groups和Microsoft 365 Groups
2025-8-14
bapey的照片合集
bapey的照片合集
2025-8-6
Azure S2S VPN構築-bgpを利用
Azure S2S VPN構築-bgpを利用
2025-8-6
Azure関連知識
Azure関連知識
2025-8-6
Announcement
🎉NotionNext 4.5已经上线🎉
-- 感谢您的支持 ---
👏欢迎更新体验👏
操作手册
更新记录
联系我们
 
2021-2025 baipeiyu.

ハクのクラウド学習 | baipeiyu

Powered by NotionNext 4.6.2.