IT Architektura danych

Data integration

Znany też jako:integracja danychETLELTdata pipelines

Definicja #

Data integration to dziedzina inżynierii danych zajmująca się pozyskiwaniem, łączeniem i harmonizacją danych z wielu źródeł (bazy danych, API, pliki, strumienie zdarzeń) w celu tworzenia spójnych zbiorów gotowych do analizy lub zasilenia systemów downstream.

Kluczowe wzorce:

  • ETL (Extract, Transform, Load) — dane są transformowane przed załadowaniem do docelowego magazynu; tradycyjny wzorzec dla Data Warehouse
  • ELT (Extract, Load, Transform) — dane ładowane surowe, transformacja w miejscu docelowym (np. Snowflake, BigQuery); nowoczesny wzorzec dla chmury
  • CDC (Change Data Capture) — przechwytywanie zmian w bazie danych w czasie rzeczywistym (Debezium, AWS DMS)
  • Streaming integration — ciągłe przetwarzanie strumieni zdarzeń (Kafka, Kinesis, Flink)

Narzędzia: Apache Airflow, dbt (data build tool), Airbyte, Fivetran, AWS Glue, Azure Data Factory, Apache NiFi, Talend.

Zastosowania #

  • Zasilanie Data Warehouse i Data Lake danymi z systemów operacyjnych (CRM, ERP, bazy danych)
  • Synchronizacja danych między systemami biznesowymi — real-time CDC przez Debezium i Kafka
  • Transformacje i jakość danych — walidacja, deduplikacja, normalizacja (dbt, Spark)
  • Integracja API zewnętrznych — marketing, płatności, media społecznościowe
  • Master Data Management (MDM) — tworzenie single source of truth dla kluczowych encji

Ścieżka nauki #

Naukę data integration warto zacząć od zrozumienia podstawowych konceptów: ETL vs ELT, batch vs streaming, Data Warehouse vs Data Lake. Praktyczne narzędzie do nauki: dbt (dbt-core, dbt Cloud) — transformacje SQL w warstwie T, dostępny tutorial na getdbt.com.

Dalej: Apache Airflow do orchestracji (astronomer.io oferuje darmowe szkolenia), Airbyte jako open-source ELT connector. Cloud: Azure Data Factory lub AWS Glue dla środowisk chmurowych. Certyfikaty: dbt Certified Developer, Databricks certyfikaty (Data Engineer Associate), Google Professional Data Engineer. Praktyczne projekty: zbuduj pipeline z API (np. OpenWeatherMap) do bazy DuckDB lub Snowflake.

FAQ #

Czym różni się ETL od ELT?
ETL transformuje dane przed załadowaniem do docelowego systemu — wymaga oddzielnego silnika transformacji. ELT ładuje surowe dane i transformuje je w miejscu docelowym (np. Snowflake, BigQuery) używając ich mocy obliczeniowej. ELT jest preferowany w nowoczesnych architekturach chmurowych, gdzie magazyny danych mają wystarczającą moc do transformacji.
Co to jest Change Data Capture (CDC)?
CDC to technika przechwytywania zmian w bazie danych (INSERT, UPDATE, DELETE) w czasie rzeczywistym przez odczyt logu transakcji. Narzędzia: Debezium (open-source, Kafka Connector), AWS DMS, Oracle GoldenGate. CDC umożliwia replikację danych z minimalnym opóźnieniem i bez obciążania bazy źródłowej zapytaniami.
Czym jest dbt i do czego służy?
dbt (data build tool) to narzędzie do zarządzania transformacjami danych w Data Warehouse — piszesz SQL SELECT, dbt tworzy tabele i widoki. Obsługuje testy danych, dokumentację, lineage (zależności między modelami) i wersjonowanie przez git. Jest standardem w nowoczesnym stosie data engineering (ELT + dbt).
Jakie narzędzia do data integration są najpopularniejsze?
Orchestracja: Apache Airflow (standard), Prefect, Dagster. Connektory ELT: Fivetran (komercyjny), Airbyte (open-source). Transformacje: dbt. Streaming: Apache Kafka + Flink. Cloud-native: Azure Data Factory, AWS Glue, Google Dataflow. Wybór zależy od architektury — batch vs streaming, on-premises vs chmura.
Ostatnia aktualizacja:

Powiązane hasła

Technologie i biblioteki, które najczęściej pojawiają się razem z Data integration w ogłoszeniach.

Cały słownik IT

Przeglądaj słownik IT alfabetycznie

Wybierz literę, aby zobaczyć wszystkie hasła zaczynające się od niej.