Wykład 1

Wstęp.
Czym różnią się hurtownie danych od zwykłych baz danych?
Typowe zastosowania.

Streszczenie

Wykład wprowadzający w problematykę hurtowni danych i tematy pokrewne, jak OLAP, CRM, wspomaganie decyzji, Business Intelligence.


Co to jest hurtownia danych?

B. Inmon, jeden z twórców nazewnictwa i metodologii hurtowni danych, tak w 1996 roku zdefiniował to pojęcie:

Hurtownia danych to zbiór zintegrowanych, nieulotnych, ukierunkowanych baz danych, wykorzystywanych w systemach wspomagania decyzji.

Od tego czasu teoria i praktyka hurtowni danych znacznie się rozwinęły, jednak powyższa charakterystyka jest nadal aktualna. Pełnoskalowa hurtownia danych to złożone przedsięwzięcie organizacyjne i biznesowe, ogólnie uznawane za kosztowne ze względu na potrzebny czas, oprogramowanie i sprzęt. Z drugiej strony, na rynku pojawia się coraz więcej modułów typu open source, z których można budować stosunkowo tanie i efektywne rozwiązania, zazwyczaj „prawie zupełnie” wystarczające dla zastosowań.

Centrum hurtowni danych stanowi zbiór danych:

Podstawowe cele, z powodu których buduje się hurtownie danych, to:

Struktura hurtowni danych

OLAP a OLTP

Zadania OLAP można scharakteryzować porównując je z drugim popularnym rodzajem przetwarzania danych w systemach bazodanowych: OLTP (On-Line Transactional Processing, przetwarzanie transakcyjne). Transakcyjne przetwarzanie danych to operacje dokonywane w bieżących (produkcyjnych) bazach danych przedsiębiorstwa, wykorzystywanych do codziennej pracy. Są to systemy optymalizowane pod kątem maksymalnej wydajności transakcyjnej, wysokiej równoległości i dostępności. Przykłady: system bankowy obsługujący odczytywanie i modyfikację salda rachunków klientów; system finansowo-księgowy obsługujący supermarket i połączony z kasami fiskalnymi; baza danych obsługująca aktywną zawartość portalu internetowego, system billingowy sieci komórkowej itp.

Podstawowe cechy systemów OLTP to:

Przetwarzane typu OLAP to przede wszystkim tworzenie raportów (zwykle predefiniowanych) obejmujących zestawienia tabelaryczne i wykresy. Ten rodzaj przetwarzania przeznaczony jest zwykle dla innego rodzaju użytkowników: kierownictwa, analityków, administratorów. Przykłady: raport dynamiki sprzedaży produktów w różnych krajach, dla którego źródłem są pojedyncze zapisy wszystkich transakcji przy kasach 100 supermarketów danej sieci z ostatnich trzech lat; raporty podsumowujące obroty i prowizje klientów banku w rozbiciu na miesiące, rodzaje opłat i grupy klientów; typowe statystyki miesięczne ruchu internetowego na serwerach WWW.

Podstawowe cechy systemów OLAP to:

Rozbieżność wymagań pomiędzy przetwarzaniem typu OLTP i OLAP uzasadnia rozdzielenie tych zadań. Jest to jeden z powodów, dla których tworzy się hurtownie danych - oddzielne (logicznie i fizycznie) systemy informatyczne, wykorzystujące inne rodzaje silników bazodanowych, mające inaczej skonstruowaną zawartość, niż systemy produkcyjne (transakcyjne) przedsiębiorstwa. Z drugiej strony, wymagania użytkowników hurtowni danych powodują wprowadzanie coraz większej liczby elementów OLTP do funkcjonalności hurtowni danych, co może być związane, np., z potrzebą generowania raportów w czasie rzeczywistym podczas ładowania nowych danych, tudzież z koniecznością wykonywania raportów operacyjnych przez wielu użytkowników jednocześnie, co wiąże się z coraz bardziej ostatnio popularnym pojęciem Operational BI.

Wspomaganie decyzji

Przetwarzanie typu OLAP to jedno z narzędzi wspomagania decyzji. Systemy wspomagania decyzji (decision support systems) tworzone są na potrzeby kierownictwa przedsiębiorstwa i analityków, szukających sposobu na minimalizację kosztów, lepsze ukierunkowanie reklam, poprawę jakości produktów i obsługi klienta, przewidywanie ryzyka itp. Przykładowe rodzaje pytań, na które system powinien umieć odpowiadać, to (poczynając od najprostszych):

Część z tych pytań można prosto wyrazić w języku SQL, inne wymagają narzędzi typu statystycznego, jak też narzędzi KDD i sztucznej inteligencji, czyli np. drzew decyzyjnych, systemów regułowych, sieci neuronowych itp.

Narzędzia eksploracji danych

Jednym z ważnych segmentów wykorzystujących systemy wspomagania decyzji, OLAP, jak też inne możliwości hurtowni danych, jest CRM (Customer Relationship Management, zarządzanie kontaktami z klientami). Jest to ten dział przedsiębiorstwa (i jego systemu informatycznego), który odpowiedzialny jest za zatrzymanie najlepszych klientów i zwiększenie sprzedaży obecnym klientom. CRM to rozwiązania programowe i organizacyjne mające na celu zmniejszenie ryzyka utraty klientów (przyjmuje się, że pozyskanie nowego klienta jest droższe i trudniejsze, niż utrzymanie lojalności klientów obecnych). Podstawowe zadania systemu CRM to gromadzenie informacji o klientach, usprawnienie kontaktów z klientami (dzięki scentralizowanej, pełnej informacji o kliencie, dostępnej w wielu rozproszonych geograficznie punktach sprzedaży). Systemy CRM zapewniają ponadto wsparcie techniczne (jako źródło danych) akcji marketingowych, lojalnościowych itp.

Podsumowanie biznesowe

Podstawowy problem, na który lekarstwem ma być budowa hurtowni danych, to ciągłe przybywanie heterogenicznej informacji w przedsiębiorstwie. Rosnące możliwości techniczne i postępująca informatyzacja sprawia, że wzrost ten jest wykładniczy - szacuje się, że ilość danych podwaja się co dwa lata. Obecnie istnieje wiele tysięcy organizacji, których hurtownie danych przekraczają rozmiar 2 TB, zaś hurtownie wielkości 5 TB zaczynają być uważane są za „małe”. Jednocześnie rośnie zapotrzebowanie na wyniki złożonych analiz przeprowadzanych zarówno na danych historycznych jak i tych najświeższych.

Wszystkie te czynniki napędzają koniunkturę w sektorze hurtowni danych. Jest to rynek rosnący niemal 20% rocznie i nie ma podstaw, by w średniej perspektywie oczekiwać zmniejszenia zainteresowania. Budowa hurtowni danych jest często wymieniana w planach przedsiębiorstw, które jeszcze z nich nie korzystają.

Oczywiście znaczne nakłady związane z budową hurtowni danych muszą się zwrócić. Podstawowe wymierne korzyści z budowy hurtowni danych to dostęp do zintegrowanej informacji o przedsiębiorstwie, co pomaga podejmować decyzje i upraszcza zadanie działom marketingu, analitykom i kadrze kierowniczej. Często wśród zastosowań hurtowni danych wymienia się CRM i aplikacje typu Business Intelligence, których wykorzystanie może w namacalny sposób zmniejszyć liczbę klientów odchodzących do konkurencji. W sektorze bankowym hurtownie danych stanowią źródło danych dla systemów wykrywających oszustwa (np. podczas transakcji kartami kredytowymi). W telekomunikacji budowa hurtowni danych może pomóc wywiązać się z prawnego obowiązku przechowywania danych billingowych przez dłuższy czas, umożliwiając jednocześnie szybki dostęp do informacji historycznej dla danego klienta.

Aktualne trendy

Aktualne trendy na rynku hurtowni danych pokazują kilka dalszych dróg rozwoju:

Dotychczasowe założenia techniczne i biznesowe dotyczące hurtowni danych to:

Przykładowe tendencje w zmianach powyższych założeń:


Literatura


Strona przygotowana przez Jakuba Wróblewskiego, 2006.

Modyfikacje dokonane przez Dominika Ślęzaka, 2008/09.