« poprzedni punkt   następny punkt »


2. Analiza dwięku i obrazu

2.1. Analiza dwięku

Analiza sygnałów jednowymiarowych, w tym i dźwięku, to przede wszystkim analiza widmowa, zwykle wykonywana przy użyciu transformaty Fouriera. Do analizy dźwięku stosowane są też inne transformaty, np. falkowa czy kosinusowa.

Analiza widmowa pozwala określić skład częstotliwościowy dźwięku.

Podstawową metodą analizy widmowej jest transformata Fouriera. Przebieg zmian składu częstotliwościowego dźwięku w czasie można prześledzić wykonując serię transformat Fouriera i umieszczając wyniki na wspólnym wykresie.

Metodą pozwalającą na jednoczesną analizę czasowo-częstotliwościową jest analiza falkowa.

Skład widmowy dźwięku można również określać metodami filtracyjnymi.

Poniżej przedstawiono wykresy postaci czasowych oraz widma dla podstawowych dźwięków: fali sinusoidalnej, prostokątnej, trójkątnej, piłokształtnej, a także szumów: białego, różowego i brązowego.

Najprostszymi dźwiękami są fala sinusoidalna, impuls, oraz szum biały. Również ciąg impulsów jest często spotykany, np. cyfrowy zapis dźwięku opiera się na ciągu impulsów próbkujących. Charakterystyki tych dźwięków przedstawiono poniżej.

Fala sinusoidalna ma następującą postać czasową oraz widmo (1 składnik częstotliwościowy):

<bgsound balance="0" src="w5/sinus.wav" volume="0">


Szum biały ma następującą postać czasową oraz widmo (widmo ciągłe):

<bgsound balance="0" src="w5/szum-bialy.wav" volume="0">

Impuls ma następującą postać czasową oraz widmo:

Ciąg impulsów ma następującą postać czasową oraz widmo:


Inne charakterystyczne fale dźwiękowe przedstawiono poniżej. Ponieważ widmo uzyskano dla dźwięku cyfrowego, prążki widma widziane są w szerszej postaci.

Poniższe rysunki przedstawiają postać czasową oraz widmo fali prostokątnej. Widmo jest harmoniczne, tj. częstotliwości wszystkich składowych częstotliwościowych są wielokrotnościami pierwszej składowej, wyznaczającej słyszaną wysokość tego dźwięku.

<bgsound balance="0" src="w5/prostokat.wav" volume="0">


Fala trójkątna ma następujący przebieg oraz widmo:

<bgsound balance="0" src="w5/trojkat.wav" volume="0">


Fala piłokształtna ma następujący przebieg oraz widmo:

<bgsound balance="0" src="w5/pila.wav" volume="0">


Szum różowy ma następującą postać czasową oraz widmo:

<bgsound balance="0" src="w5/szum-rozowy.wav" volume="0">


Szum brązowy ma następującą postać czasową i widmo:

<bgsound balance="0" src="w5/szum-brazowy.wav" volume="0">


2.1.1. Transformacja Fouriera

Transformata Fouriera sygnału ciągłego f(t) wyraża się następującym wzorem:

gdzie t - czas ciągły.

Transformacja ta przekształca dziedzinę czasu w dziedzinę widma.

Możliwe jest przekształcenie odwrotne, tj. przejście z dziedziny widma w dziedzinę czasu poprzez odwrotną transformację Fouriera:

W nagraniach cyfrowych dziedzina czasu zostaje poddana dyskretyzacji i zamiast ciągłej funkcji f(t) otrzymuje się sygnał {x(nT)}, gdzie T - okres próbkowania. Do analizy dźwięku stosowana jest wówczas dyskretna transformacja Fouriera.

Dyskretna transformata Fouriera X(k) dla okna czasowego o długości N definiowana jest na ciągu próbek x(0), …, x((N-1)T) w sposób następujący:

gdzie

Odwrotna dyskretna transformacja Fouriera opisywana jest poniższym wzorem:

Dla ciągu próbek o długości 2nopracowano szybki algorytm wyznaczania transformaty Fouriera (Fast Fourier Transform), tzw. szybką transformatę Fouriera.

Aby skorzystać z tego algorytmu, stosowane jest uzupełnianie ciągu próbek do najbliższej potęgi dwójki (zeropadding).

Własności transformacji Fouriera

Efektem ubocznym próbkowania sygnału są repliki widma, gdyż widmem ciągu impulsów próbkujących jest ciąg impulsów, a operacji mnożenia (sygnału przez ciąg impulsów próbkujących) w dziedzinie czasu odpowiada splot transformaty Fouriera sygnału i transformaty funkcji okna w dziedzinie widma:

Ilustruje to poniższy rysunek.

Ponieważ mnożenie w dziedzinie czasu odpowiada splotowi w dziedzinie częstotliwości, otrzymujemy repliki widma w widmie spróbkowanego sygnału.

Aby uniknąć aliasingu, czyli nakładania replik widma, należy usunąć z sygnału częstotliwości powyżej połowy częstotliwości próbkowania (częstotliwości Nyquista) , gdzie - częstotliwość próbkowania.

Ponieważ dyskretna transformacja Fouriera operuje na danych dyskretnych i o skończonej długości, otrzymany wynik różni się od transformaty ciągłej.

Dla różnych długości analizowanej ramki otrzymuje się różne wyniki analiz.

Wybranie fragmentu danych o długości N oznacza, że sygnał na tym odcinku został przemnożony przez 1, zaś na pozostałych przez 0. Jest to równoważne przemnożeniu sygnału przez sygnał prostokątny o szerokości N i wysokości 1. Operację tę nazywamy okienkowaniem sygnału (z użyciem okna prostokątnego).

Operację okienkowania można zapisać jako:

v(n) = w(n) * s(n)

gdzie:

s(n) - sygnał wejściowy,
v(n) - sygnał wynikowy otrzymany poprzez okienkowanie,
w(n) - funkcja okna.

Skutkiem ubocznym okienkowania z użyciem okna prostokątnego są przecieki widma (listki boczne).

Poprzez zastosowanie okna o wartościach bliskich 0 na brzegach przedziału [0, N] możemy zmniejszyć wysokość listków bocznych - kosztem poszerzenia listka głównego i rozmycia prążków widma (tj. pogorszenia rozdzielczości).

Podstawowe funkcje okienkowe przedstawiono w poniższej tabeli.

Analiza dźwięku jest zwykle wykonywana z zastosowaniem funkcji okna różnych od prostokątnego.

Przykład analizy dla fragmentu dźwięku klarnetu (dźwięk o częstotliwości około 523 Hz) przedstawiono na poniższym rysunku.

Analiza zmian dźwięku w czasie, wykonana w celu prześledzenia ewolucji barwy dźwięku w czasie, została przedstawiona na poniższym rysunku tzw. sonogramie (spektrogramie) dla dźwięku trąbki (dźwięk o częstotliwości 523 Hz). Amplituda składowych harmonicznych jest reprezentowana odpowiednim odcieniem szarości.

Do analizy czasowo-częstotliwościowej stosowana jest m.in. transformata falkowa (ang. wavelet - falka).

Jest ona przekształceniem liniowym, w którym dwuwymiarowa reprezentacja sygnału za pomocą odpowiednich funkcji elementarnych pozwala na rekonstrukcję sygnału w postaci kombinacji liniowej tych funkcji.

Analiza falkowa umożliwia analizę dźwięku ze zmienną rozdzielczością (MRA - ang. multiresolution analysis). Dla dowolnej funkcji analiza MRA oparta jest na rozkładzie przestrzeni na sumę podprzestrzeni:

gdzie:

j - poziom rozdzielczości,

- przestrzenie aproksymacji (ogółów),

- przestrzenie szczegółów.

Funkcja rozkładana jest za pomocą funkcji i .

Dla najpopularniejszego typu tej analizy, tj. przy połowieniu pasma częstotliwości, oraz przy wykorzystaniu baz ortonormalnych, i muszą spełniać następujące założenia:

,

jest bazą ortonormalną dla Vj,

,

jest bazą ortonormalną dla Wj,

g, h - współczynniki odpowiadające filtrom górno- i dolnoprzepustowemu,

Funkcja nazywana jest funkcją skalującą, zaś - falką macierzystą

Funkcje skalujące i macierzyste można definiować na różne sposoby w zależności od zastosowanych filtrów.

Najpopularniejsze są falki Haara, Daubechies, Meyera, Shannona, Morleta, oraz "kapelusz meksykański".

Poniższy rysunek przedstawia funkcje skalujące i falki macierzyste Daubechies (górny rząd) oraz Coifmana, tzw. Coiflets (dolny rząd) rzędu 2.

W innym podejściu do analizy falkowej kopie falki macierzystej są przesuwane i skalowane według wzoru:

gdzie jest parametrem przesunięcia w czasie, zaś a jest parametrem przeskalowania. W powyższym wzorze występuje jedynie falka , natomiast funkcja skalująca została zastąpiona przez parametry i a, przy czym odpowiada analizie oktawowej (tj. połowieniu kolejnych pasm). Lokalizacja częstotliwości tak zdefiniowanych funkcji elementarnych określona jest za pomocą transformaty Fouriera funkcji :

Lokalizacja czasowa i częstotliwościowa falek przedstawia się jak na poniższych rysunkach.

Analiza czasowo-częstotliwościowa falkowa dokonywana jest poprzez rozkład sygnału na funkcje elementarne. Dla danej funkcji macierzystej transformacja falkowa sygnału s dana jest wzorem

gdzie oznacza sprzężenie zespolone, zaś < > - iloczyn skalarny.

Analiza czasowo-częstotliwościowa oparta na transformacji falkowej jest obecnie coraz częściej stosowana, ze względu na ograniczoną rozdzielczość analizy FFT w dziedzinie czasu bądź częstotliwości.

Przykład analizy falkowej (dźwięk skrzypiec, 1047 Hz, filtr Daubechies rzędu 2, ramka 8192 próbki) przedstawiono na poniższym rysunku.

Jak można zaobserwować, kolejne wartości na osi pionowej (tj. częstotliwości) są kolejnymi dwukrotnościami, a zatem odpowiadają kolejnym oktawom.

Porównanie analizy Fouriera i falkowej dla tego samego dźwięku przedstawiono na poniższym rysunku.


2.2. Analiza obrazu

Analizowany obraz cyfrowy będzie, podobnie jak w przypadku dźwięku, obrazem spróbkowanym.

Wpływ częstotliwości próbkowania na odbiór obrazu zilustrowano poniżej.

RESOLUTION.ANIMATION.GIF

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Do analizy obrazy stosowane są transformacje dwuwymiarowe (te same, co w analizie dźwięku).

Najważniejsze metody analizy obrazu to: transformacja Fouriera, transformacja cosinusowa i analiza falkowa.

Dyskretna Transformata Fouriera (DFT) dla obrazu I o wymiarach dla piksela (x,y) obliczana jest ze wzoru

gdzie I(x,y) - liczba oznaczająca atrybut piksela (np. RGB).

DFT dla obrazu pozwala na przejście do dziedziny częstotliwości przestrzennej.

Dyskretna Transformata Cosinusowa (DCT) opisywana jest wzorem

gdzie .

Zarówno DFT, jak i DCT są w pełni odwracalne.


« poprzedni punkt   następny punkt »