następny punkt »


1. Cyfrowa rejestracja dźwięku

Dźwięk rejestrowany jest cyfrowo w postaci dyskretnej. Oś czasu zostaje spróbkowana ciągiem impulsów próbkujących, zaś rozdzielczość bitowa zapisu wyznacza spróbkowanie osi amplitudy.

Ogólny schemat cyfrowej rejestracji dźwięku przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W celu uzyskania wrażenia przestrzenności dźwięku dokonuje się rejestracji wielokanałowej.

Cyfrowa rejestracja dźwięku ma wiele zalet:

Dla sygnału fonicznego analogowego dynamika odbierana przez ucho ludzkie (natężenie intensywości dźwięku) waha się w zakresie od 0 do 130dB. Słyszalne zniekształcenia liniowe wahają się na poziomie 1-3%. Niedostrzegalne zniekształcenia spowodowane modulacją amplitudową są na poziomie poniżej 0.2%, zaś niedostrzegalne zniekształcenia spowodowane modulacją częstotliwości są na poziomie poniżej +/- 1%.

Metody zapisu stosowane w cyfrowej rejestracji dźwięku są następujące:

Przetwarzanie analogowo-cyfrowe polega na:

Schemat ogólny przetwarzania analogowo-cyfrowego (A/C) przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Aliasing

Przy cyfrowej rejestracji dźwięku należy zadbać o to, aby w rejestrowanym sygnale nie było częstotliwości powyżej połowy częstotliwości próbkowania, . W przeciwnym razie repliki widma dźwięku będą się nakładać, co nazywamy aliasingiem (patrz rysunek poniżej).

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Warunkiem koniecznym zapobieżenia aliasingowi jest

gdzie - częstotliwość próbkowania, - maksymalna częstotliwość występująca w sygnale.

Przy ustalonej częstotliwości próbkowania niezbędne jest ograniczenie pasma sygnału wejściowego poprzez filtrację antyaliasingową dolnoprzepustową.

Aby uniknąć aliasingu stosuje się zatem przed rejestracją filtrację dolnoprzepustową z częstotliwością odcięcia (częstotliwość Nyquista).

Standardy częstotliwości próbkowania dźwięku są m.in. związane z formatami telewizyjnymi.

Telewizja europejska stosuje częstotliwość odchylania poziomego 625 linii na obraz * 25 = 15625Hz. Częstotliwość odchylania pionowego wynosi 50Hz.

Telewizja amerykańska i japońska (NTSC) stosuje częstotliwość odchylania poziomego 525 linii na obraz * 29.97 = 15734,25Hz.

Przykładowe standardy częstotliwości próbkowania przedstawiają poniższe tabele.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W działaniu układu próbkującego mogą pojawiać się błędy. Jednym z takich błędów jest tzw. jitter aperturowy (fluktuacja okresu próbkowania). Jest to błąd synchronizacji płyt audio - błąd podstawy czasowej w czasie konwersji próbek na sygnał analogowy. Jitter aperturowy ilustruje poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Innym błędem działania układu próbkującego jest błąd droopu (spadek napięcia).

Maksymalny spadek napięcia w fazie pamiętania nie powinien przekraczać zmiany stanowiącej ułamek wartości najmniej znaczącego bitu (LSB).

Kwantyzacja (wielobitowa) polega na podziale osi amplitudy na pewną liczę poziomów (zależnie od rozdzielczości bitowej), a następnie przypisanie wartości amplitudy w każdej próbce jak na poniższym rysunku.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Obie próbki na powyższym rysunku zostały skwantowane na poziomie 0.375V z błędami i .

Im większa liczba przedziałów kwantyzacji w stosunku do amplitudy sygnału, tym mniejsze błędy kwantyzacji.

Liczba poziomów kwantyzacji wynosi , gdzie n - długość słowa zapisu.

Długości słów zostały znormalizowane i wynoszą 8, 14, 16, 20 i 24 bity.

Szerokość przedziału kwantyzacji (rozdzielczość) wynosi .

Rozdzielczość bitowa wyznacza dynamikę, która wynosi [dB]

Wskutek nakładania błędów kwantyzacji na sygnał przy przetwarzaniu C/A powstaje szum kwantyzacji, zilustrowany na poniższym rysunku.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Szum kwantyzacji jest szumem białym.

Moc szumu kwantyzacji wynosi .

Odstęp szumu kwantyzacji od sygnału wynosi 20log Umax/Uq = 6n + 1,8 [dB], gdzie Uq - wartość skuteczna szumu kwantyzacji (RMS - Root Mean Square), Umax - napięcie maksymalne.

W ujęciu matematycznym wartość skuteczna prądu zmiennego to jego wartość szczytowa podzielona przez . RMS w odniesieniu do wielkości elektrycznych odpowiada wartości skutecznej np. prądu lub mocy.

Gdy poziom sygnałów kwantowanych przewyższa poziom najwyższego poziomu kwantowania, powstają zniekształcenia nieliniowe, zilustrowane na poniższym rysunku. Rozwiązaniem tego problemu jest pozostawienie podczas nagrywania rezerwy około 6 dB na wysterowanie.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W związku z kwantyzacją stosuje się procedury preemfazy i deemfazy.

Preemfaza polega na zwiększeniu składowych wysokich częstotliwości sygnału wejściowego przed kwantyzacją, zaś deemfaza na zmniejszeniu składowych wysokich częstotliwości (wraz z szumami kwantyzacji) po zdekodowaniu, co pozwala zmniejszyć szum kwantyzacji.

Omówiona dotychczas kwantyzacja jest kwantyzacją liniową (PCM - pulse-code modulation), co ilustruje poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W kwantyzacji liniowej następuje dzielenie zakresu zmian sygnału analogowego na równe przedziały.

Kwantyzacja nieliniowa polega na podziale zakresu zmian sygnału analogowego w nierównych odstępach, co ilustruje poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Kodowanie dźwięku cyfrowego polega na zapisie skwantowanej wartości próbki numerem przedziału kwantowania za pomocą kodu binarnego.

Numer przedziału kwantowania wyrażony kodem nazywamy słowem logicznym, słowem kodowym, lub słowem.

Każde słowo składa się z określonej liczby - n bitów.

Sygnał foniczny jest sygnałem symetrycznym, tzn. jego przebieg ma chwilowe wartości dodatnie i ujemne, bez składowej stałej i określa się go jako sygnał bipolarny.

Przetwarzając sygnał stosuje się zatem kody bipolarne:

Kody bipolarne ilustruje poniższa tabelka.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Schemat działania koderów PCM przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Szybkość transmisji w kodowaniu wielobitowym opisywana jest zależnością

c=n*fp [bit/s], gdzie

n - długość słowa,
fp - częstotliwość próbkowania.

Przykładowe prędkości transmisji przy kodowaniu wielobitowym przedstawia poniższa tabelka.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Schemat ogólny działania wielobitowego przetwornika C/A przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Schemat prostego przetwornika wielobitowego C/A przedstawiono na poniższym rysunku.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W przetwarzaniu wielobitowym każde słowo określa wartość próbki przedstawioną liczbą dwójkową.

Przetwarzanie jednobitowe polega na tym, że słowo 1-bitowe określa różnicę wartości 2 kolejnych próbek,obecnej i poprzedniej:

Porównanie przetwarzania jedno- i wielobitowego przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Schemat przetwornika 1-bitowego przedstawia poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Zaletami przetwarzania jednobitowego są mniejsze wymagania na stromość zbocza filtru antyaliasingowego, zmniejszone szumy kwantyzacji, a także niższe koszty w porównaniu z podobnej klasy przetwornikami wielobitowymi.

Przykładami przetwarzania jednobitowego są modulacja delta oraz sigma-delta.

Modulację i demodulację typu delta przedstawia poniższy schemat.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Rysunek poniżej przedstawia zmodyfikowaną modulację i demodulację delta.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Na poniższym rysunku przedstawiono modulację i demodulację sigma-delta w połączeniu z całkowaniem.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Poniżej zamieszczono schemat przetwornika C/A z architekturą sigma-delta.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Przetwornik A/C z architekturą sigma-delta przedstawiono na rysunku poniżej.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Zbyt duża częstotliwość po wyjściu modulatora sigma-delta powoduje konieczność stosowania bardzo szybkich systemów DSP.

Filtr decymacyjny (patrz rysunek poniżej) ogranicza częstotliwość na wejściu DSP i dopasowuje sygnał wyjściowy do standardu PCM.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Zalety przetwornika sigma-delta to:

Wady przetwornika sigma-delta to:

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

W przypadku dźwięku wielokanałowego stosuje się multipleksowanie i demultipleksowanie, co ilustruje poniższy rysunek.

(źródło: K. Szklanny, Multimedia, materiały do wykładów, 2004 -kszklanny@pjwstk.edu.pl)

Przy przesyłaniu i rejestracja sygnałów cyfrowych mogą pojawić się następujące składowe widmowe sygnału PCM (np. NRZ):

Dla c=128kb/s -> fmax=64kHz.

(źródło: M. Dobosz, Multimedia, materiały do wykładów, 2002)


1.1. SACD, dyski fluorescencyjne, MD

SACD, czyli Super Audio CD oparty jest na technologii nagrywania Direct Stream Digital (DSD).

Podstawą jest zapis bezpośredni sygnału PDM (modulacja gęstości impulsów) otrzymywanego bezpośrednio z przetwornika jednobitowego.

Odpowiedź częstotliwościowa dla SACD przekracza 100kHz, zaś zakres dynamiki przekracza 120dB w zakresie słyszalności.

SACD może zawierać ponad 4-krotnie więcej informacji niż CD. Standardowa płyta SACD pozwala na zapis 2-kanałowy stereo oraz dodatkowo do 6 ścieżek danych wielokanałowych, plus tekst i rysunki, ochronę praw autorskich etc.

SACD multi-channel może zawierać do 6 oddzielnych kanałów, każdy zapisany w pełnej przepływności DSD, z pełną jakością DSD.

Odtwarzacze SACD są produkowane przez firmy Sony, Philips, Marantz, Accuphase, Denon, Kenwood, Aiwa i Sharp. Odtwarzacze SACD odtwarzają też CD.

Płyta SACD może być odtwarzana przy użyciu odtwarzacza CD, jeżeli jest dwuwarstwowa i jedna warstwa jest zapisana w formacie CDDA.

(źródła: http://www.sonymusic.com/sacd/, http://interprod5.imgusa.com/son-403/technology.asp).

Dyski fluorescencyjnepowstają na tej zasadzie, że informacja na dysku i karcie fluorescencyjnej zapisywana jest w postaci wytłoczonego pitu (zagłębienia) wypełnionego tworzywem fluorescencyjnym.

MiniDisc (MD) mieści tyle samo muzyki, co CD, tj. do 80 minut w trybie nagrywania "SP", w 1/5 liczby bitów, poprzez kompresję audio ATRAC (Adaptive TRansform Acoustic Coding) firmy Sony.

ATRAC jest formą kodowania perceptualnego.

MiniDiscs Recordable stosuje odmianę konwencjonalnej metody magneto-optycznej "Magnetic Field Modulation", gdzie dane są nagrywane za pomocą lasera półprzewodnikowego 4.5mW i głowicy magnetycznej.

(źródła: http://www.minidisc.org/part_MD_technology.html, http://www.minidisc.org/aes_atrac.html)

 następny punkt »