Definicja #
Data Lake to scentralizowane repozytorium danych przechowujące dane w ich oryginalnym formacie — surowe, bez wcześniejszej transformacji lub narzucania schematu. Zasada "schema-on-read" (schemat stosowany przy odczycie) odróżnia Data Lake od Data Warehouse ("schema-on-write").
Warstwy typowego Data Lake:
- Raw/Bronze — dane w oryginalnej postaci, bez przetwarzania
- Curated/Silver — dane przetworzone, oczyszczone, zwalidowane
- Aggregated/Gold — dane zagregowane, gotowe dla analityków i BI
Nowoczesne formaty tabelaryczne dla Data Lake: Delta Lake (Databricks), Apache Iceberg (Netflix, Apple), Apache Hudi — dodają ACID transactions, time travel, schema evolution i efektywne zarządzanie plikami Parquet/ORC. Infrastruktura: AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage jako warstwy storage.
Alternatywa: Data Lakehouse — połączenie Data Lake i Data Warehouse (Databricks, Delta Lake, Azure Synapse).
Zastosowania #
- Gromadzenie danych z wielu źródeł (IoT, logi, CRM, ERP) bez wstępnej strukturyzacji
- Analityka zaawansowana i Machine Learning — przechowywanie danych treningowych i feature store
- Data science — eksploracja i eksperymentowanie na surowych danych historycznych
- Archiwizacja i compliance — długoterminowe przechowywanie danych w niskich kosztach
- Real-time analytics — integracja ze strumieniowaniem (Kafka, Spark Streaming) w architekturze Lakehouse
Ścieżka nauki #
Naukę Data Lake warto zacząć od zrozumienia różnicy Data Lake vs Data Warehouse vs Data Lakehouse. Praktycznie: zacznij od Delta Lake w środowisku Databricks Community Edition (darmowe) — oficjalne szkolenia na databricks.com/learn.
Kluczowe zagadnienia: formaty plików (Parquet, ORC, Avro), Apache Spark jako silnik przetwarzania, Delta Lake / Apache Iceberg, architektura medalion (bronze/silver/gold), zarządzanie danymi (data catalog, data lineage). Certyfikaty: Databricks Certified Associate Developer for Apache Spark, Azure Data Engineer Associate (DP-203), AWS Data Analytics Specialty. Platformy chmurowe: Azure Synapse Analytics, AWS Lake Formation, Google BigLake.
FAQ #
- Czym różni się Data Lake od Data Warehouse?
- Data Warehouse przechowuje dane strukturyzowane ze zdefiniowanym schematem (schema-on-write), zoptymalizowane pod zapytania SQL i BI. Data Lake przechowuje surowe dane w dowolnym formacie (schema-on-read), tańsze storage, ale wymaga więcej pracy przy analizie. Data Lakehouse łączy obie architektury.
- Co to jest Delta Lake?
- Delta Lake to otwartoźródłowa warstwa storage stworzona przez Databricks, dodająca ACID transactions, schema enforcement, time travel (podróż w czasie po poprzednich wersjach danych) i efektywną obsługę DML (UPDATE, DELETE, MERGE) do plików Parquet w Data Lake. Jest fundamentem architektury Lakehouse.
- Czym jest Data Lakehouse?
- Data Lakehouse to architektura łącząca elastyczność Data Lake (surowe dane, niskie koszty storage) z możliwościami Data Warehouse (ACID, SQL, wysoka wydajność zapytań). Realizowana przez Delta Lake (Databricks), Apache Iceberg lub Apache Hudi. Platformy: Databricks, Azure Synapse, AWS Lake Formation.
- Kiedy wybrać Data Lake zamiast Data Warehouse?
- Data Lake sprawdza się gdy: masz różnorodne formaty danych (JSON, logi, obrazy, wideo), chcesz przechowywać surowe dane historyczne, potrzebujesz środowiska dla data science i ML, zależy Ci na niskich kosztach storage. Data Warehouse wybierz gdy: potrzebujesz szybkich zapytań SQL dla BI, dane są ustrukturyzowane i schema jest stabilny.