Systemy baz danych

Wykład składa się z dwóch części. Pierwsza część zaznajamia z metodami realizacji operatorów relacyjnych, z których składają się zapytania SQL.

W drugiej części są omówione zasady wykonywania zapytań. Przed wykonaniem zapytania przez SZBD włącza się moduł optymalizatora zapytań, którego zadaniem jest znaleźć możliwie najlepszy plan wykonania tego zapytania.

10.1 Operatory relacyjne

Każdą instrukcję SQL można rozłożyć na części przy czym każda z tych części jest związana z użyciem jednego operatora relacyjnego działającego na jednej lub więcej tabeli. Oto podstawowe operatory relacyjne:

Przypominamy, że na koszt realizacji operacji bazodanowych największy wpływ ma liczba stron dyskowych przesyłanych między dyskiem a pamięcią wewnętrzną.

Implementacja selekcji

Załóżmy, że warunek w klauzuli WHERE ma postać koniunkcji. (Wiadomo z wykładu z matematyki dyskretnej, że każdą formułę logiczną można sprowadzić do koniunkcji alternatyw prostych warunków – czyli do tzw. postaci normalnej.) Są dwie metody realizacji takiej selekcji:

W przypadku zastosowania indeksu nie pogrupowanego wskazane jest, jeśli możliwe, posortowanie identyfikatorów zwracanych rekordów według adresów stron dyskowych i ściągnięcie każdej potrzebnej strony tylko jeden raz.

Implementacja projekcji

Gdy nie ma operatora DISTINCT – wystarczy przejść cały plik (scan) i przepisać wartości wyrażeń na liście SELECT.

Problem stanowi tylko klauzula SELECT DISTINCT, która wymaga eliminacji powtórzeń co można uzyskać przez posortowanie zbioru wynikowego.

Do eliminacji powtórzeń można też użyć metody polegającej na rozrzuceniu wynikowych wartości do segmentów tablicy haszowanej poprzez zastosowanie funkcji haszującej. Eliminacja powtórzeń odbywa się wtedy w ramach jednego segmentu dla znacznie mniejszej liczby rekordów – można wtedy użyć sortowania wewnętrznego albo kolejnego rozrzucenia do segmentów - jeśli rozmiar segmentu jest zbyt duży aby zmieścił się w pamięci wewnętrznej.

Implementacja operatorów zbiorowych

Operatory UNION (DISTINCT) i EXCEPT są realizowane podobnie jak SELECT DISTINCT – wymagają usunięcia powtórzeń albo przez sortowanie zewnętrzne albo przez haszowanie.

Operator INTERSECT jest szczególnym przypadkiem złączenia. Na przykład, instrukcja:

Implementacja agregacji

Można posortować według wartości pól grupujących, przechodząc cały plik rekordów. Inną metodą realizacji grupowania może być użycie haszowania.

Implementacja złączenia tabel

W celu zaprezentowania metod złączania tabel rozważymy dla uproszczenia złączenie równościowe z jedną kolumną złączenia. Założymy mianowicie, że interesuje nas złączenie dowolnych tabel E i D względem i-tej kolumny w E oraz j-tej kolumny w D. To znaczy przyjmiemy, że warunkiem złączenia jest E_i=D_j.

Przegląd metod złączania tabel zaczynamy od najprostszego algorytmu opartego na rozważeniu wszystkich możliwych kombinacji wierszy tabel E i D.

Algorytm Simple Nested Loops Join

Tabela E nazywa się tabelą zewnętrzną (złączenia), tabela D nazywa się tabelą wewnętrzną (złączenia).

Oczywiste ulepszenie polega na zastosowaniu postępowania: dla każdej strony w E, sprowadź każdą stronę w D. Będziemy dalej używać metody Simple Nested Loops Join razem z tym ulepszeniem.

Algorytm Index Nested Loops Join

Dla każdego wiersza w E najpierw wyszukujemy pozycję danych w indeksie na kolumnie D_j . Mając pozycję danych w indeksie na kolumnie D_j, przechodzimy do wierszy w D.

Wydajność tej metody zależy od rodzaju indeksu. W przypadku indeksu głównego, jednoznacznego, pogrupowanego jej koszt jest względnie niewielki - liniowy względem liczby wierszy w tabeli zewnętrznej i nie zależy od liczby wierszy w tabeli wewnętrznej.

Natomiast w pozostałych przypadkach koszt istotnie zależy od selektywności wyszukiwania przez indeks i może być bardzo duży (nawet kwadratowy względem liczby wierszy w tabeli zewnętrznej i wewnętrznej).

Użycie klastra tabel

Można się lepiej przygotować do często występujących złączeń tabel przez umieszczenie ich w jednym klastrze z kluczem będącym kolumną złączenia obu tabel. Połączenie tabel w klaster powoduje, że złączenie odbywa się tak jakby to była pojedyncza operacja przejścia jednej tabeli. Realizacja naszego przykładowego zapytania zostanie przyśpieszona jeśli obie tabele Emp i Dept umieścimy w jednym klastrze tak jak to zrobliśmy na wykładzie 3.

Więcej informacji o implementacji i zastosowaniu klastra będzie podane na następnym wykładzie przy okazji omawiania struktur indeksowych w systemie Oracle.

W przypadku złączania gdy brak klastra albo odpowiedniego indeksu, SZBD stosuje jedną z dwóch poniższych metod.

Algorytm Sort Merge Join

Algorytm Hash Join

Złączanie tabel obiektowo-relacyjnych

Przy złączaniu tabel obiektowo-relacyjnych możemy skorzystać z referencji i kolekcji referencji. Obie operacje zarówno przejście przez referencję jak i przejście przez kolekcję referencji są szybsze niż odpowiednie operacje przejścia przez indeksy zewnętrzne dla tabel relacyjnych. Wadą referencji i kolekcji referencji (oprócz utraty niezależności od wartości modelu fizycznego) jest dodatkowy narzut czasowy i miejsca na dysku związany z reprezentacją i przetwarzaniem kolekcji (rekord zawierający obszerną kolekcję referencji może wymagać więcej niż jednej strony do zapisu; przejście do rekordów wskazywanych przez referencje wymaga sprowadzenia tylu stron ile jest referencji w kolekcji.)

Porównanie metod złączania

Gdy SZBD chce wykonać złączenie tabel, rozważa możliwe metody w następującej kolejności:

Gdy jest zbudowany klaster, złączenie tabel sprowadza się do przejścia klastra tak jakby to była jedna tabela. Kluczem klastra powinna być kolumna złączania tabel.
W przypadku złączania tabel, których powiązanie jest określone nie przez związek klucz obcy-klucz główny ale bezpośrednio przez referencje, możemy zastosować przejścia przez te referencje. Przeciwskazaniem może być tylko przewidywana duża liczba referencji do przejścia (duża liczba stron do sprowadzenia do pamięci wewnętrznej).
Metoda Simple Nested Loops Join jest prosta i to jest jej podstawowa zaleta. Może być używana w sytuacji, gdy jedna ze złączanych tabel ma niewielki rozmiar.
Na koszt metody Index Nested Loops Join istotny wpływ mają własności indeksu np. czy jest pogrupowany, czy jest selektywny jak np. indeks główny, jednoznaczny. W połączeniu z selekcją na tabeli zewnętrznej złączenia bywa najszybszą metodą.
Metoda Hash Join wypada lepiej w oszacowaniach średniej liczby operacji We/We niż metoda Sort-Merge ale w przypadku pesymistycznym może się okazać bardzo zła.
Metoda Hash Join wypada lepiej od Sort-Merge gdy rozmiary sortowanych plików zasadniczo się różnią. Jest łatwiejsza do zrównoleglenia niż Sort-Merge.
Metoda Sort Merge jest lepsza gdy rozmiary sortowanych plików są zbliżone. Jest mniej wrażliwa na mało losowe dane oraz rezultat złączenia jest posortowany.

Strategia tylko-indeks

Przy realizacji operatorów selekcji, projekcji, agregowania i grupowania w przypadku gdy wszystkie elementy klauzul instrukcji SELECT należą do klucza wyszukiwania jednego indeksu – można ograniczyć się do przejścia tylko pliku indeksowego zamiast całego pliku rekordów. Metoda ta nosi nazwę strategii tylko-indeks. Jej zastosowanie wymaga aby wszystkie potrzebne do wyznaczenia wyniku zapytania wiersze tabeli były indeksowane.

Na przykład, jeśli mamy indeks założony na kolumnach Ename i Comm tabeli Emp oraz w kolumnie Ename nie występuje pseudo-wartość NULL (np. z powodu użycia więzów spójności NOT NULL na kolumnie Ename w tabeli Emp), to możemy strategię tylko-indeks zastosować do obliczenia wyniku instrukcji:

ponieważ to czy w kolumnie Comm występuje NULL nie ma tu znaczenia, bowiem operator Avg nie bierze w ogóle pod uwagę pseudo-wartości NULL.

10.2 Optymalizacja zapytań

Zapytanie SQL ma charakter deklaratywny: określa co ma być wyznaczone w bazie danych, a nie jak to ma być znalezione. Dla każdego zapytania istnieje wiele sposobów jego realizacji. Który sposób jest najlepszy, zależy od dodatkowych okoliczności. SZBD rozważa różne alternatywy, szacuje ich koszt oraz wybiera możliwie najlepszy, "optymalny" plan. Proces ten nazywa się optymalizacją zapytania a moduł go realizujący optymalizatorem zapytań.

Niektóre plany wykonania zapytania nie korzystają z tymczasowych tabel - działając w miejscu. Ich działanie polega na tym, że przy określonym sposobie dostępu do rekordów każdej tabeli utrzymuje się tylko kursory przebiegające rekordy w plikach (ewentualnie pozycje danych w pliku indeksowym) bez zapisywania pomocniczych tabel. Unikamy w ten sposób zapisywania tymczasowych wyników na dysk aby je potem sprowadzać powtórnie do pamięci RAM.

Plany mające postać drzewa skierowanego w lewo (omawiane dalej) w powiązaniu z metodami Simple Nested Loops Join i Index Nested Loops Join umożliwiają działanie w miejscu. Natomiast metody Sort-Merge Join i Hash Join wymagają użycia pomocniczych plików na dysku, więc nie działają w miejscu. Zastosowanie klastra lub kolekcji referencji zamiast operatora złączenia też umożliwia działanie w miejscu.

Jeśli chodzi o połączenie ze sobą operatorów w planie wykonania zapytania, to jest używana zasada przetwarzania potokowego. Wynik jednego operatora jest przekazywany na wejście drugiego operatora. Oznacza to, że nie jest potrzebna tymczasowa tabela, więc też mamy do czynienia z działaniem w miejscu.

W przykładach będziemy używać oznaczeń na operatory SQL zebranych w Tabeli 10.1.

Zapytanie jest przedstawiane w postaci drzewa operatorów SQL. Na przykład, zapytanie

wykonywać złączenie tabel Emp E i Dept D metodą Simple Nested Loops Join i dla każdego wiersza złączenia sprawdzać warunek E.Mgr=100 AND D.Loc='Oz';
jeśli warunek zachodzi, wydobywać wartość z kolumny E.Ename i przekazywać ją do zbioru wyników.

Plan ten działa w miejscu (bez tymczasowych tabel) i nie wykorzystuje indeksów. Nie jest zbyt dobry.

osobno przechodzimy Emp E i Dept D z jednoczesną selekcją E.Mgr=100 oraz odpowiednio D.Loc='Oz'; wyniki selekcji zapisujemy w dwóch tymczasowych tabelach;
stosujemy Sort-Merge Join do złączenia (alternatywnie, zamiast Sort-Merge Join możemy użyć Hash Join.);
gdy wyniki selekcji mieszczą się w pamięci wewnętrznej stosujemy od razu uzgodnienie wierszy z obu zestawów.

Główna różnica z poprzednim planem polega na tym, że zanim rozpocznie się złączanie rekordów - najpierw są wykonywane selekcje. Jest nadzieja, że istotnie ograniczą one liczbę złączanych rekordów w porównaniu z poprzednim planem. Przed złączaniem, oprócz selekcji, można byłoby jeszcze dokonywać eliminacji nie używanych dalej kolumn czyli, inaczej mówiąc, moglibyśmy zastosować projekcje

_Ename,Deptno dla Emp oraz

_Deptno dla Dept. W ten sposób zmniejszylibyśmy rozmiar tabel tymczasowych T1 i T2 a co za tym idzie również liczbę operacji We/Wy.

Drobna zmiana w powyższym planie polegałaby na zastąpieniu operacji scan wyszukiwaniem przez indeksy odpowiednio na kolumnach E.Mgr i D.Loc. W przypadku indeksów: pogrupowanego na B+ drzewie lub o dobrej selektywności zmiana istotnie przyśpieszyłaby cały proces obliczeniowy.

Rozważmy jeszcze jeden alternatywny plan tym razem taki, w którym złączenie jest oparte na indeksie (czyli jest stosowana metoda Index Nested Loops Join). Dodatkowo na tabeli zewnętrznej złączenia stosujemy selekcję przez indeks, która może istotnie ograniczyć liczbę wierszy rozpatrywanych jako kandydaci do złączenia.

Korzystając z indeksu haszowanego na E.Mgr wybieramy wiersze spełniające warunek E.Mgr=100.
Dla każdego otrzymanego wiersza z E, korzystając z indeksu na D.Deptno, znajdujemy pasujące (D.Deptno=E.Deptno) do niego wiersze z tabeli D.
Złączamy ze sobą oba wiersze, sprawdzamy czy zachodzi warunek D.Loc='Oz' a na koniec dokonujemy projekcji na kolumnę E.Ename.

Jest dużo możliwych planów wykonania jednego zapytania, ponieważ kolejność wykonywania złączeń jest dowolna na podstawie praw przemienności i łączności operatora złączenia.

Drzewo skierowane w lewo zawiera "rdzeń" w postaci gałęzi węzłów, na której każdy kolejny węzeł jest lewym następnikiem poprzedniego i tylko węzły leżące na tej gałęzi mogą mieć stopień dwa odpowiadający operatorowi złączenia (pozostałe węzły w drzewie mają stopień 0 lub 1).

Z trzech drzew na rysunku 10.8 tylko środkowe jest skierowane w lewo. Drzewa skierowane w lewo dają plany umożliwiające "potokowe" wykonywanie zapytania "w miejscu" tj. bez tymczasowych plików.

Oczywiście złączanie metodą Sort Merge Join czy Hash Join wymaga zapisywania pomocniczych plików, więc nawet jeśli zastosujemy plan oparty o drzewo skierowane w lewo, to wykonanie zapytania nie będzie działać potokowo „w miejscu”.

Zauważmy, że dla zapytania zawierającego n-1 operatorów złączenia jest co najmniej n! drzew skierowanych w lewo odpowiadających n! permutacjom operatorów złączenia.

Faza 1: Generujemy drzewo planu wykonania zapytania: Emp - tabela zewnętrzna, Dept - tabela wewnętrzna. (Drugie możliwe drzewo to wariant pierwszego drzewa, w którym z lewej strony znajduje się tabela Dept a z prawej Emp.)

Faza 3: Rozpatrujemy każdy plan dostępu, bierzemy pod uwagę możliwe dla tego planu dostępu metody złączenia (SNLJ, INLJ, SMJ, HJ) i liczymy orientacyjny koszt korzystając ze statystyk zebranych przez system takich jak liczba wierszy w tabeli, liczba stron w pliku z danymi i w pliku indeksu.

Podzapytania

Podzapytania są optymalizowane niezależnie od głównego zapytania. Główne zapytanie jest optymalizowane z branym pod uwagę kosztem „wywoływanych” podzapytań. Alternatywnie, podzapytanie jest sprowadzane do złączeń i optymalizowane łącznie z całym zapytaniem.

Ogólne strategie optymalizacyjne

Dokonuj jak najwcześniej selekcji zmniejszającej liczbę rozważanych rekordów – istotne szczególnie wtedy gdy wynik selekcji przekazujemy do złączenia – które jest najbardziej kosztowną operacją. W szczególnym przypadku wynik selekcji może się cały dać zapisać w buforach pamięci RAM co przyśpieszyłoby istotnie wykonywanie zapytania.
Do wykonania selekcji stosuj indeks - najlepiej indeks główny, jednoznaczny, pogrupowany lub względem selektywnego warunku - powiedzmy wybierającego mniej niż 5-10% wszystkich rekordów w pliku. Jeśli takiego indeksu nie da się zastosować, zamiast wyszukiwać przez indeks, bardziej opłaca się sekwencyjnie przejrzeć cały plik (scan) z wyborem rekordów spełniających zadany warunek.
Staraj się wiązać selekcje z iloczynem kartezjańskim, w celu zidentyfikowania rodzaju złączenia tabel.
Do wykonania złączenia stosuj indeks na tabeli wewnętrznej (preferowany indeks główny, jednoznaczny, pogrupowany lub względem selektywnego warunku).
Wybierz plan działający "w miejscu" bez tymczasowych tabel np. w postaci drzewa skierowanego w lewo. Stosuj przetwarzanie potokowe (pipelining) do wykonywania ciągu operatorów jednoargumentowych jak selekcje i projekcje.
Zamiast operatora złączenia zastosuj klaster, który też umożliwia działanie w miejscu.
Jeśli to możliwe - ograniczaj się do przechodzenia indeksów a nie tabel (strategia tylko-indeks).
Wyszukuj wspólne podwyrażenia i obliczaj je tylko raz.
Przetwórz wstępnie plik we właściwy sposób (indeksy, sortowanie, haszowanie).
Gromadź statystyki ilościowe dotyczące tabel, kolumn i indeksów – w tym histogramy to znaczy dystrybucje wartości w kolumnach tabel. Korzystaj ze statystyk gromadzonych w katalogu systemowym.
Szacuj koszt każdego planu i wybieraj plan o najmniejszym koszcie. Przy obliczaniu kosztu planu szacuj koszt realizacji każdego operatora relacyjnego i rozmiar jego wyników.
Zapamiętuj plan wykonania zapytania, aby móc ten plan zastosować w tych samych warunkach.

10.4 Podsumowanie

W wykładzie 10 zostały omówione metody implementacji operatorów relacyjnych stanowiących cegiełki, z których składa się całe zapytanie SQL. Implementację tych operatorów można dokładnie dostroić. Zostały omówione podstawowe zasady wykonywania zapytań w tym podstawowy problem optymalizacji zapytania.

10.5 Słownik pojęć

operator relacyjny - selekcja, projekcja, złączenie, suma i agregacja. Wykonywanie zapytania SQL sprowadza się do złożenia implementacji tych podstawowych operatorów.

selekcja - operator relacyjny polegający na ograniczeniu pliku rekordów do podzbioru.

projekcja - operator relacyjny polegający na ograniczeniu pliku rekordów do wybranych pól.

suma (union) - operator relacyjny polegający na zsumowaniu dwóch plików rekordów.

agregacja - operator relacyjny polegający na wyliczeniu statystyk na danym pliku rekordów według podziału na grupy rekordów.

złączenie - operator relacyjny polegający na połączeniu dwóch plików rekordów według wartości wspólnych pól.

Simple Nested Loops Join - metoda złączenia polegająca na rozpatrzeniu po kolei każdego rekordu z pierwszego pliku rekordów a z kolei dla niego przejrzenia wszystkich rekordów z drugiego pliku w poszukiwaniu wszystkich par rekordów, które dadzą się złączyć ze sobą.

Index Nested Loops Join - metoda złączenia polegająca na rozpatrzeniu po kolei każdego rekordu z pierwszego pliku rekordów a z kolei dla niego zastosowania wyszukiwania przez indeks w celu wyznaczenia wszystkich rekordów z drugiego pliku, które dadzą się z nim złączyć.

Sort Merge Join - metoda złączenia polegająca na posortowaniu plików rekordów według wartości w kolumnach złączenia a następnie dokonaniu ich scalenia.

Hash Join - metoda złączenia polegająca na rozrzuceniu rekordów w złączanych plikach rekordów według wartości funkcji haszującej na wartościach w kolumnach złączenia a następnie dokonaniu ich scalenia.

optymalizacja zapytań - zadanie wykonywane przez SZBD polegające na analizie różnych planów wykonania zapytania SQL i wyboru "najoptymalniejszego".

optymalizator zapytań - moduł SZBD, którego zadaniem jest znaleźć możliwie najlepszy ("optymalny") plan wykonania zapytania SQL.

10.6 Zadania

1. Zastanów się nad implementacją złożonej selekcji F1 AND F2 gdzie F1 i F2 są prostymi predykatami równościowymi. Jakie widzisz możliwości?

2. Zastanów się nad implementacją złożonej selekcji F1 OR F2 gdzie F1 i F2 są prostymi predykatami równościowymi. Jakie widzisz możliwości?

3. Uzasadnij, że operator INTERSECT jest szczególnym przypadkiem operatora złączenia. Które algorytmy złączenia są odpowiednie dla INTERSECT?

Operator	Symbol
Selekcja
Projekcja
Złączenie

Wykład 10

Wykonywanie zapytań

Streszczenie