Czym różni się Data Lake od Data Warehouse?

Data Warehouse przechowuje dane strukturyzowane ze zdefiniowanym schematem (schema-on-write), zoptymalizowane pod zapytania SQL i BI. Data Lake przechowuje surowe dane w dowolnym formacie (schema-on-read), tańsze storage, ale wymaga więcej pracy przy analizie. Data Lakehouse łączy obie architektury.

Co to jest Delta Lake?

Delta Lake to otwartoźródłowa warstwa storage stworzona przez Databricks, dodająca ACID transactions, schema enforcement, time travel (podróż w czasie po poprzednich wersjach danych) i efektywną obsługę DML (UPDATE, DELETE, MERGE) do plików Parquet w Data Lake. Jest fundamentem architektury Lakehouse.

Czym jest Data Lakehouse?

Data Lakehouse to architektura łącząca elastyczność Data Lake (surowe dane, niskie koszty storage) z możliwościami Data Warehouse (ACID, SQL, wysoka wydajność zapytań). Realizowana przez Delta Lake (Databricks), Apache Iceberg lub Apache Hudi. Platformy: Databricks, Azure Synapse, AWS Lake Formation.

Kiedy wybrać Data Lake zamiast Data Warehouse?

Data Lake sprawdza się gdy: masz różnorodne formaty danych (JSON, logi, obrazy, wideo), chcesz przechowywać surowe dane historyczne, potrzebujesz środowiska dla data science i ML, zależy Ci na niskich kosztach storage. Data Warehouse wybierz gdy: potrzebujesz szybkich zapytań SQL dla BI, dane są ustrukturyzowane i schema jest stabilny.

Data Lake – architektura przechowywania surowych danych

Definicja #

Data Lake to scentralizowane repozytorium danych przechowujące dane w ich oryginalnym formacie — surowe, bez wcześniejszej transformacji lub narzucania schematu. Zasada "schema-on-read" (schemat stosowany przy odczycie) odróżnia Data Lake od Data Warehouse ("schema-on-write").

Warstwy typowego Data Lake:

Raw/Bronze — dane w oryginalnej postaci, bez przetwarzania
Curated/Silver — dane przetworzone, oczyszczone, zwalidowane
Aggregated/Gold — dane zagregowane, gotowe dla analityków i BI

Nowoczesne formaty tabelaryczne dla Data Lake: Delta Lake (Databricks), Apache Iceberg (Netflix, Apple), Apache Hudi — dodają ACID transactions, time travel, schema evolution i efektywne zarządzanie plikami Parquet/ORC. Infrastruktura: AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage jako warstwy storage.

Alternatywa: Data Lakehouse — połączenie Data Lake i Data Warehouse (Databricks, Delta Lake, Azure Synapse).

Zastosowania #

Gromadzenie danych z wielu źródeł (IoT, logi, CRM, ERP) bez wstępnej strukturyzacji
Analityka zaawansowana i Machine Learning — przechowywanie danych treningowych i feature store
Data science — eksploracja i eksperymentowanie na surowych danych historycznych
Archiwizacja i compliance — długoterminowe przechowywanie danych w niskich kosztach
Real-time analytics — integracja ze strumieniowaniem (Kafka, Spark Streaming) w architekturze Lakehouse

Ścieżka nauki #

Naukę Data Lake warto zacząć od zrozumienia różnicy Data Lake vs Data Warehouse vs Data Lakehouse. Praktycznie: zacznij od Delta Lake w środowisku Databricks Community Edition (darmowe) — oficjalne szkolenia na databricks.com/learn.

Kluczowe zagadnienia: formaty plików (Parquet, ORC, Avro), Apache Spark jako silnik przetwarzania, Delta Lake / Apache Iceberg, architektura medalion (bronze/silver/gold), zarządzanie danymi (data catalog, data lineage). Certyfikaty: Databricks Certified Associate Developer for Apache Spark, Azure Data Engineer Associate (DP-203), AWS Data Analytics Specialty. Platformy chmurowe: Azure Synapse Analytics, AWS Lake Formation, Google BigLake.

FAQ #

Czym różni się Data Lake od Data Warehouse?: Data Warehouse przechowuje dane strukturyzowane ze zdefiniowanym schematem (schema-on-write), zoptymalizowane pod zapytania SQL i BI. Data Lake przechowuje surowe dane w dowolnym formacie (schema-on-read), tańsze storage, ale wymaga więcej pracy przy analizie. Data Lakehouse łączy obie architektury.
Co to jest Delta Lake?: Delta Lake to otwartoźródłowa warstwa storage stworzona przez Databricks, dodająca ACID transactions, schema enforcement, time travel (podróż w czasie po poprzednich wersjach danych) i efektywną obsługę DML (UPDATE, DELETE, MERGE) do plików Parquet w Data Lake. Jest fundamentem architektury Lakehouse.
Czym jest Data Lakehouse?: Data Lakehouse to architektura łącząca elastyczność Data Lake (surowe dane, niskie koszty storage) z możliwościami Data Warehouse (ACID, SQL, wysoka wydajność zapytań). Realizowana przez Delta Lake (Databricks), Apache Iceberg lub Apache Hudi. Platformy: Databricks, Azure Synapse, AWS Lake Formation.
Kiedy wybrać Data Lake zamiast Data Warehouse?: Data Lake sprawdza się gdy: masz różnorodne formaty danych (JSON, logi, obrazy, wideo), chcesz przechowywać surowe dane historyczne, potrzebujesz środowiska dla data science i ML, zależy Ci na niskich kosztach storage. Data Warehouse wybierz gdy: potrzebujesz szybkich zapytań SQL dla BI, dane są ustrukturyzowane i schema jest stabilny.

Data Lake

Definicja #

Zastosowania #

Ścieżka nauki #

FAQ #

Powiązane hasła

Przeglądaj słownik IT alfabetycznie