Nowoczesna architektura danych w organizacji: Data Lakehouse
  • Strona główna
  • ->
  • Blog
  • Nowoczesna architektura danych w organizacji: Data Lakehouse

    Działanie współczesnych przedsiębiorstwa w znacznym stopniu jest oparte o narzędzia informatyczne takie jak np. CRM, systemy operacyjne, transakcyjne, które generują ogromne ilości informacji. Przez wiele lat standardem była budowa hurtowni danych, której celem było przechowywanie i udostępnienie oczyszczonych danych dla analityków oraz innych użytkowników. Hurtownia miała być centralnym repozytorium danych dla całej organizacji. Wraz z wzrostem organizacji, ich cyfryzacją oraz rozwojem jednostek analitycznych, centralizacja danych stała się idealistyczną koncepcją, którą trudno osiągnąć. Nadto okazało się, że hurtownie danych sprawdzały się dość dobrze przy przetwarzaniu mniejszych i ustrukturyzowanych zbiorów danych. Wraz z wzrostem wolumenu danych oraz ich zmienności hurtownie przestały spełniać swoją rolę jako narzędzie dostępu do istotnych danych dla analityków oraz data scientistów. Koniecznym było wypracowanie rozwiązania, które będzie odpowiadać na problemy związane z hurtowniami danych. Rozwiązaniem odpowiadającym na te potrzeby stało się „data lake”. 

    Data lake jest repozytorium, które umożliwia przechowywanie danych ustrukturyzowanych oraz nieustrukturyzowanych w dowolnym formacie bez znaczących limitów ilościowych. Data Lake pozwala przechowywać dane surowe bez  konieczności uprzedniej ich strukturyzacji, co ogranicza konieczność procesów ekstrakcji, transformacji oraz przetwarzania dla danych, które nie mają zastosowania w momencie ich kreacji. Oznacza to, że inżynierowe danych oraz analitycy budują procesy dopiero kiedy pojawia się rzeczywisty scenariusz biznesowy. Takie podejście zwiększa elastyczność budowanych rozwiązań oraz wyzwala kreatywność w podejściu do pracy z danymi. Data Lake często utożsamiany jest w technologią Hadoop, jednak jego implementacje możemy również znaleźć w środowiskach chmurowych takich jak Azure Data Lake Storage, Amazon S3, Google Cloud Storage które coraz częściej są wybierane przez przedsiębiorstwa. 

    W data lake w odróżnieniu od hurtowni dane zapisywane są w swoim oryginalnym formacie, schemat definiuje się kiedy chcemy odczytać lub zapisać dane. W hurtowni dane przechowywane są w  formie relacyjnych tabel, posiadających zdefiniowaną strukturę oraz typy danych. Sposób przechowywania i pracy z danymi w data lake sprawił, że jest on wykorzystywany tylko przez wąską grupę doświadczonych inżynierów danych. Odpowiedzią na ograniczenia zarówno hurtowni jak i data lake może być nowoczesne podejście do modelowania architektury danych określone mianem Data Lakehouse. 

    Czym jest Data Lakehouse?

    Data lakehouse łączy podejścia architektury opartej na hurtowni danych oraz na data lake. Lakehouse implementuje najlepsze rozwiązania z obu wcześniejszych podejść. Do najważniejszych cech tego systemu możemy zaliczyć: 

    1. Wydzielenie części przechowującej dane od mechanizmów przetwarzania danych – mechanizm ten umożliwia bardziej efektywne wykorzystanie zasobów, co jest szczególnie istotne w przypadku pracy z chmurą obliczeniową.   
    2. Wsparcie transakcyjności właściwości ACID (niepodzielność, spójność, izolacja, trwałość) – transakcyjność zapewnia integralność danych oraz zwiększa zaufanie analityków do jakości danych.
    3. Obsługa szerokiego spektrum typów danych – lakehouse pozwala na przetwarzanie również danych nieustrukturyzowanych np. obrazy, audio, wideo oraz wiele innych. 
    4. Bezpośredni dostęp do źródła danych – rozwiązanie pozwala na dostęp do danych bezpośrednio w źródle co ogranicza konieczność tworzenia kopii danych oraz zapewnia aktualność danych. 
    5. Wsparcie dla zarządzania danymi – platformy tego typu udostępniają mechanizm umożliwiający kontrolę oraz monitorowanie przepływów danych w organizacji. 
    6. Przetwarzanie danych w czasie rzeczywistym – lakehouse przyśpiesza projektowanie raportów oraz aplikacji biznesowych w oparciu o dane w czasie „near real-time”. 

    Koncepcja lakehouse łączy elementy hurtowni danych oraz data lake posiada jednocześnie wiele innych istotnych korzyści dla biznesu jak na przykład pozwala ograniczyć przepływ danych pomiędzy systemami, redukuje koszty związane z utrzymaniem systemu i procesów ETL oraz ułatwia zarządzanie danymi. 

    Jeśli chcesz dowiedzieć się więcej o nowoczesnym podejściu do projektowania architektury danych w organizacji skontaktuj się z nami!

    Sprawdź inne posty