Wykład wprowadzający w problematykę hurtowni danych i tematy pokrewne, jak
OLAP, CRM, wspomaganie decyzji, Business Intelligence.
B. Inmon, jeden z twórców nazewnictwa i metodologii hurtowni danych, tak w 1996 roku zdefiniował to
pojęcie:
Hurtownia
danych to zbiór zintegrowanych, nieulotnych, ukierunkowanych baz danych,
wykorzystywanych w systemach wspomagania decyzji.
Od tego czasu teoria i praktyka hurtowni danych znacznie się rozwinęły,
jednak powyższa charakterystyka jest nadal aktualna. Pełnoskalowa hurtownia
danych to złożone przedsięwzięcie organizacyjne i biznesowe, ogólnie uznawane
za kosztowne ze względu na potrzebny czas, oprogramowanie i sprzęt. Z drugiej
strony, na rynku pojawia się coraz więcej modułów typu open source, z których
można budować stosunkowo tanie i efektywne rozwiązania, zazwyczaj „prawie
zupełnie” wystarczające dla zastosowań.
Centrum hurtowni danych stanowi zbiór danych:
Podstawowe cele, z powodu których buduje się hurtownie danych, to:
Zadania OLAP można scharakteryzować
porównując je z drugim popularnym rodzajem przetwarzania danych w systemach
bazodanowych: OLTP (On-Line Transactional Processing,
przetwarzanie transakcyjne). Transakcyjne przetwarzanie danych to operacje
dokonywane w bieżących (produkcyjnych) bazach danych przedsiębiorstwa,
wykorzystywanych do codziennej pracy. Są to systemy optymalizowane pod kątem
maksymalnej wydajności transakcyjnej, wysokiej równoległości i dostępności.
Przykłady: system bankowy obsługujący odczytywanie i modyfikację salda
rachunków klientów; system finansowo-księgowy obsługujący supermarket i
połączony z kasami fiskalnymi; baza danych obsługująca aktywną zawartość
portalu internetowego, system billingowy sieci komórkowej itp.
Podstawowe cechy systemów OLTP to:
Przetwarzane typu OLAP to przede wszystkim tworzenie raportów (zwykle
predefiniowanych) obejmujących zestawienia tabelaryczne i wykresy. Ten rodzaj
przetwarzania przeznaczony jest zwykle dla innego rodzaju użytkowników:
kierownictwa, analityków, administratorów. Przykłady: raport dynamiki sprzedaży
produktów w różnych krajach, dla którego źródłem są pojedyncze zapisy
wszystkich transakcji przy kasach 100 supermarketów danej sieci z ostatnich
trzech lat; raporty podsumowujące obroty i prowizje klientów banku w rozbiciu
na miesiące, rodzaje opłat i grupy klientów; typowe statystyki miesięczne ruchu
internetowego na serwerach WWW.
Podstawowe cechy systemów OLAP to:
Rozbieżność wymagań pomiędzy przetwarzaniem typu OLTP i OLAP uzasadnia
rozdzielenie tych zadań. Jest to jeden z powodów, dla których tworzy się
hurtownie danych - oddzielne (logicznie i fizycznie) systemy informatyczne,
wykorzystujące inne rodzaje silników bazodanowych, mające inaczej skonstruowaną
zawartość, niż systemy produkcyjne (transakcyjne) przedsiębiorstwa. Z drugiej
strony, wymagania użytkowników hurtowni danych powodują wprowadzanie coraz
większej liczby elementów OLTP do funkcjonalności hurtowni danych, co może być
związane, np., z potrzebą generowania raportów w czasie rzeczywistym podczas
ładowania nowych danych, tudzież z koniecznością wykonywania raportów
operacyjnych przez wielu użytkowników jednocześnie, co wiąże się z coraz
bardziej ostatnio popularnym pojęciem Operational BI.
Przetwarzanie typu OLAP to jedno z narzędzi wspomagania decyzji. Systemy
wspomagania decyzji (decision support
systems) tworzone są na potrzeby kierownictwa przedsiębiorstwa i
analityków, szukających sposobu na minimalizację kosztów, lepsze ukierunkowanie
reklam, poprawę jakości produktów i obsługi klienta, przewidywanie ryzyka itp.
Przykładowe rodzaje pytań, na które system powinien umieć odpowiadać, to
(poczynając od najprostszych):
Część z tych pytań można prosto wyrazić w języku SQL, inne wymagają
narzędzi typu statystycznego, jak też narzędzi KDD i sztucznej inteligencji,
czyli np. drzew decyzyjnych, systemów regułowych, sieci neuronowych itp.
Jednym z ważnych segmentów wykorzystujących systemy wspomagania decyzji,
OLAP, jak też inne możliwości hurtowni danych, jest CRM (Customer Relationship
Management, zarządzanie
kontaktami z klientami). Jest to ten dział przedsiębiorstwa (i jego systemu
informatycznego), który odpowiedzialny jest za zatrzymanie najlepszych klientów
i zwiększenie sprzedaży obecnym klientom. CRM to rozwiązania programowe i
organizacyjne mające na celu zmniejszenie ryzyka utraty klientów (przyjmuje
się, że pozyskanie nowego klienta jest droższe i trudniejsze, niż utrzymanie
lojalności klientów obecnych). Podstawowe zadania systemu CRM to gromadzenie
informacji o klientach, usprawnienie kontaktów z klientami (dzięki
scentralizowanej, pełnej informacji o kliencie, dostępnej w wielu rozproszonych
geograficznie punktach sprzedaży). Systemy CRM zapewniają ponadto wsparcie
techniczne (jako źródło danych) akcji marketingowych, lojalnościowych itp.
Podstawowy problem, na który lekarstwem ma być budowa hurtowni danych, to
ciągłe przybywanie heterogenicznej informacji w przedsiębiorstwie. Rosnące
możliwości techniczne i postępująca informatyzacja sprawia, że wzrost ten jest
wykładniczy - szacuje się, że ilość danych podwaja się co dwa lata. Obecnie
istnieje wiele tysięcy organizacji, których hurtownie danych przekraczają
rozmiar 2 TB, zaś hurtownie wielkości 5 TB zaczynają być uważane są za „małe”.
Jednocześnie rośnie zapotrzebowanie na wyniki złożonych analiz przeprowadzanych
zarówno na danych historycznych jak i tych najświeższych.
Wszystkie te czynniki napędzają koniunkturę w sektorze hurtowni danych.
Jest to rynek rosnący niemal 20% rocznie i nie ma podstaw, by w średniej
perspektywie oczekiwać zmniejszenia zainteresowania. Budowa hurtowni danych
jest często wymieniana w planach przedsiębiorstw, które jeszcze z nich nie
korzystają.
Oczywiście znaczne nakłady związane z budową hurtowni danych muszą się
zwrócić. Podstawowe wymierne korzyści z budowy hurtowni danych to dostęp do
zintegrowanej informacji o przedsiębiorstwie, co pomaga podejmować decyzje i
upraszcza zadanie działom marketingu, analitykom i kadrze kierowniczej. Często
wśród zastosowań hurtowni danych wymienia się CRM i aplikacje typu Business
Intelligence, których wykorzystanie może w namacalny sposób zmniejszyć liczbę
klientów odchodzących do konkurencji. W sektorze bankowym hurtownie danych
stanowią źródło danych dla systemów wykrywających oszustwa (np. podczas
transakcji kartami kredytowymi). W telekomunikacji budowa hurtowni danych może
pomóc wywiązać się z prawnego obowiązku przechowywania danych billingowych
przez dłuższy czas, umożliwiając jednocześnie szybki dostęp do informacji
historycznej dla danego klienta.
Aktualne trendy na rynku hurtowni danych pokazują kilka dalszych dróg
rozwoju:
Dotychczasowe założenia techniczne i biznesowe dotyczące hurtowni danych
to:
Przykładowe tendencje w zmianach powyższych założeń:
Strona przygotowana
przez Jakuba Wróblewskiego, 2006.
Modyfikacje dokonane
przez Dominika Ślęzaka, 2008/09.