Synteza i rozpoznawanie mowy. Nowoczesne rozwiązania. Sprzęt dźwiękowy komputera. Konwertuj dźwięk w liczbę liczb. Kompresja dźwięku: zasada i konfiguracja dynamicznego zakresu sprężonego lub standardowego

Poziom dźwięku jest taki sam w całym kompozycji, istnieje kilka pauzów.

Zawężając dynamiczny zakres

Zawężenie zakresu dynamicznego lub po prostu mówiąc kompresjapotrzebne do różnych celów, które są ich najczęstsze:

1) Osiągnięcie pojedynczego poziomu objętości w całej kompozycji (lub partii narzędziowej).

2) Osiągnij pojedynczy poziom objętościowych kompozycji na transmisję albumu / radiowej.

2) Zwiększenie zrozumiałości, głównie z kompresją pewnej partii (wokal, baryłkę basową).

W jaki sposób zwężenie zakresu dynamicznego?

Sprężarka analizuje poziom audio na wejściu porównując go z użytkownikiem określonym przez wartość progu (próg).

Jeśli poziom sygnału jest niższy niż wartość Próg. - Sprężarka nadal analizuje dźwięk bez zmiany go. Jeśli poziom dźwięku przekroczy wartość progu - wówczas sprężarka rozpoczyna swoją działanie. Ponieważ rola sprężarki polega na zwężeniu zakresu dynamicznego, logiczne jest założenie, że ogranicza największą i najmniejszą wartości amplitudy (poziom sygnału). W pierwszym etapie istnieje ograniczenie największych wartości, które zmniejszają się z określoną siłą Stosunek. (Nastawienie). Spójrzmy na przykład:

Zielone krzywe Wyświetlanie poziomu dźwięku, tym większa amplituda ich oscylacji z osi X - Im większy poziom sygnału.

Żółta linia jest progiem (progiem) sprężarki. Wykonywanie wartości progowej powyżej - użytkownik usuwa go z osi X. Wykonanie progu progowego poniżej - Użytkownik przynosi go do osi Y. Jest jasne, że niższa wartość progu - tym częściej sprężarka zostanie wyzwolona a na odwrót. Jeśli wartość stosunku jest bardzo duża, a następnie po osiągnięciu poziomu sygnału progowego cały kolejny sygnał zostanie stłumiony przez sprężarkę do milczenia. Jeśli wartość współczynnika jest bardzo mała - nic się nie dzieje. W wyborze wartości progowych i stosunków przyjdzie później. Teraz powinniśmy zadawać sobie następne pytanie: jaki jest punkt tłumienia całego następnego dźwięku? Rzeczywiście, w tym sensie nie ma, musimy pozbyć się wartości amplitudy (Peaks), które przekraczają wartość progu (w grafice są oznaczone na czerwono). Ma rozwiązać ten problem i jest parametr Wydanie (Tłumienie), które ustanowi czas kompresji.

Przykład pokazuje, że pierwszy i drugi nadmiar progu progowego trwa mniej niż trzeci nadmiar progu progowego. Tak więc, jeśli parametr wydania jest dostosowany do dwóch pierwszych pików, a następnie podczas przetwarzania trzeciej może pozostać nietraktowaną częścią (ponieważ próg przekraczający próg trwa dłużej). Jeśli parametr uwalniania jest dostosowany do trzeciego piku - wtedy podczas przetwarzania pierwszego i drugiego piku, powstaje niepożądany spadek poziomu sygnału.

To samo przychodzi parametr stosunku. Jeśli parametr stosunku jest skonfigurowany do dwóch pierwszych pików, trzeci nie będzie wystarczająco tłumiony. Jeśli parametr stosunku jest skonfigurowany do przetwarzania trzeciego piku - wtedy przetwarzanie dwóch pierwszych pików będzie zbyt wysokie.

Problemy te można rozwiązać na dwa sposoby:

1) Ustaw parametr ataku (atak) jest częściowym rozwiązaniem.

2) Kompresja dynamiczna jest kompletnym rozwiązaniem.

Parametr aletaki (atak)jest przeznaczony do zadania czasu, po czym sprężarka rozpocznie pracę po przekroczeniu progu progu. Jeśli parametr jest blisko zera (równy zero w przypadku równoległej kompresji, patrz ACC. Artykuł) - Następnie sprężarka zacznie natychmiast stłumić sygnał, a liczba określona przez parametr uwalniania będzie działać. Jeśli prędkość ataku jest świetna, sprężarka rozpocznie działanie po pewnym okresie upływu czasu (konieczne jest podjęcie definicji). W naszym przypadku można skonfigurować parametry progu (progowy), tłumienie (zwolnienie) i poziom kompresji (stosunek) w celu przetworzenia dwóch pierwszych pików, a wartość ataku (atak) jest ustawiony w pobliżu zera. Następnie sprężarka pomija pierwsze dwa szczyty, a podczas przetwarzania trzeciej tłumie go do końca progu (próg). Nie gwarantuje jednak to wysokiej jakości przetwarzania dźwięku i blisko ograniczania (szorstki cięcie wszystkich wartości amplitudy, w tym przypadku sprężarka nazywa się ogranicznikiem).

Spójrzmy na wynik przetwarzania dźwięku przez sprężarkę:

Piki zniknęły, zauważając fakt, że ustawienia przetwarzania były wystarczająco delikatne i dostarczyliśmy tylko najbardziej mówców amplitudy. W praktyce zakres dynamiczny jest zwężony znacznie silniejszy, a ten trend się rozwija. W umysłach wielu kompozytorów - tworzą głośniej muzyki, jednak w praktyce, całkowicie pozbawiają jej głośniki dla tych słuchaczy, którzy mogą słuchać jej w domu, a nie w radiu.

Pozostaliśmy do rozważenia ostatniego parametru kompresji Zdobyć.(Zdobyć). Wzmocnienie ma na celu zwiększenie amplitudy całej kompozycji iwłaściwie, równoważne innym narzędziem edytorów dźwięku - Normalizacja. Spójrzmy na wynik końcowy:

W naszym przypadku kompresja była uzasadniona i poprawiła Dopy dźwięku, ponieważ wydany szczyt jest raczej wypadek niż celowy wynik. Ponadto widać, że muzyka jest rytmiczna, dlatego charakteryzuje się wąskim zakresem dynamicznym. W przypadkach, w których dokonano wysokich amplitudów, kompresja może stać się błędem.

Dynamiczna kompresja

Różnica między dynamiczną kompresją z nie dynamiczna jest fakt, że przy pierwszym poziomie tłumienia sygnału (stosunek) zależy od poziomu sygnału przychodzącego. Dynamiczne sprężarki znajdują się we wszystkich nowoczesnych programach, kontrolując parametry stosunku i progów za pomocą okna (każdy parametr odpowiada własnej osi):

Nie ma pojedynczego harmonogramu standardowy, gdzieś wzdłuż osi Y wyświetlany jest poziom sygnału przychodzącego, gdzieś wręcz przeciwnie, poziom sygnału po kompresji. Gdzieś punkt (0,0) znajduje się w prawym górnym rogu, gdzieś w lewym dolnym rogu. W każdym przypadku, gdy przesuwając kursor myszy za pomocą tego pola, wartości liczb odpowiadających stosunek i parametry progowe są zmieniane. Te. Określasz poziom kompresji dla każdej wartości progowej, dzięki czemu można łatwo elastycznie skonfigurować kompresję.

Łańcuch boczny

Sprężarka do łańcucha bocznego analizuje sygnał pojedynczego kanału, a gdy poziom dźwięku przekracza próg (próg) - stosuje kompresję do innego kanału. Łańcuch boczny ma swoje zalety współpracy z narzędziami, które znajdują się w jednej dziedzinie częstotliwości (bas basowy bas basowy jest aktywnie stosowany), ale czasami używane są narzędzia znajdujące się w różnych obszarach częstotliwości, co prowadzi do ciekawego efektu bocznego Chein.

Część dwa - etapy kompresji

Istnieją trzy etapy kompresji:

1) Pierwszym etapem jest kompresja poszczególnych dźwięków (Singleshoots).

Tymbrze dowolnego narzędzia ma następujące funkcje: atak (atak), trzymający (HOLD), spadek (próchnicę), okres poziomu (podtrzymywanie), postawę (wydanie).

Faza kompresyjna poszczególnych dźwięków jest podzielona na dwie części:

1.1) Kompresja poszczególnych dźwięków narzędzi rytmicznych

Często składniki bitów wymagają oddzielnej kompresji, aby dać im jasność. Wiele traktowanych baryłkę basową oddzielnie od innych narzędzi rytmicznych, zarówno na etapie kompresji pojedynczych dźwięków, jak i na etapie kompresji poszczególnych stron. Wynika to z faktu, że jest w obszarze niskiej częstotliwości, gdzie zwykle obecny jest tylko bas basowy. Pod jasnością beczek basowych oznacza obecność charakterystycznego kliknięcia (bardzo krótki czas ataku i barów trzymających). Jeśli kliknięcie nie jest - konieczne jest przetworzenie go za pomocą sprężarki, ustawiając próg równy zero i czas ataku od 10 do 50 ms. Sprężarka realueska musi kończyć się nowym uderzeniem lufy basowej. Ostatni problem można rozwiązać za pomocą wzoru: 60 000 / BPM, gdzie BPM jest tempa kompozycji. Tak więc, na przykład) 60 000/137 \u003d 437.96 (czas w milisekundach do nowego silnego cienia kompozycji 4-wymiarowej).

Wszystkie powyższe stosuje się do innych narzędzi rytmicznych z krótkim atakiem - muszą mieć akcentowane kliknięcie, które nie powinno być tłumione przez sprężarkę na niektórych etapach poziomów kompresji.

1.2) Kompresja Oddzielne dźwięki Instrumenty harmoniczne

W przeciwieństwie do instrumentów rytmicznych, partia narzędzi harmonicznych jest dość rzadko składa się z indywidualnych dźwięków. Jednak nie dotyczy tego, że nie należy ich przetwarzać na poziomie kompresji dźwiękowej. W przypadku, gdy używasz próbki z nagraną imprezą, jest to drugi poziom kompresji. Ten poziom kompresji obejmuje tylko syntetyzowane instrumenty harmoniczne. Mogą to być próbki, syntezatorów przy użyciu różnych metod syntezy dźwięku (modelowanie fizyczne, FM, dodatek, odejmowanie itp.). Jak zapewne odgadłeś już - mówimy o programowaniu ustawień syntezatora. Tak! To także kompresja! Prawie wszystkie syntezator mają programowalny parametr kopertowy (ADSR), co oznacza kopertę. Z pomocą koperty, czas ataku (atak) jest ustawiony, recesja (próchnica), utrzymywania poziomów (podtrzymywanie), abouts (zwolnienie). A jeśli powiesz mi, co to nie jest kompresja każdego indywidualnego dźwięku - jesteś moim wrogiem dla życia!

2) Drugim etapem jest kompresja poszczególnych partii.

Pod kompresją poszczególnych stron rozumiem zawężenie dynamicznego zakresu wielu zjednoczonych pojedynczych dźwięków. Ten etap obejmuje zapisy stron, w tym wokale, które wymagają przetwarzania kompresji, aby nadać mu jasność i zrozumiałość. Podczas przetwarzania kompresji stron należy wziąć pod uwagę, że gdy dodaje się pojedyncze dźwięki, mogą pojawić się niechciane szczyty, na których konieczne jest pozbycie się tego etapu, ponieważ jeśli nie zostanie to teraz, to zdjęcie można pogorszyć na etapie informacji na całej kompozycji. Na etapie kompresji poszczególnych stron należy wziąć pod uwagę kompresję etapu przetwarzania poszczególnych dźwięków. Jeśli osiągnąłeś jasność baryłki basowej - wtedy nieprawidłowe ponowne przetwarzanie w drugim etapie można zrujnować wszystko. Przetwarzanie wszystkich partii sprężarki nie jest wymagane, a także przetwarzanie wszystkich poszczególnych dźwięków nie jest wymagane. Radzę dostarczyć analizator amplitudy na wszelki wypadek, aby określić obecność niepożądanych skutków ubocznych łączenia pojedynczych dźwięków. Oprócz kompresji, na tym etapie konieczne jest zapewnienie, aby strony były jak najbardziej możliwe w różnych pasma częstotliwości, aby wykonano kwantyzację. Przydatne jest również pamiętanie, że dźwięk ma taką charakterystykę, jak maskowania (psychoacusti):

1) Cichy dźwięk jest maskowany głośno, idąc do niego.

2) Cichy dźwięk przy niskiej częstotliwości jest zamaskowany głośnym dźwiękiem przy wysokiej częstotliwości.

Tak więc, na przykład, jeśli masz partię syntezatora, często notatki zaczynają grać przed poprzednimi notatkami zakończyć dźwięk. Czasami jest to konieczne (tworzenie harmonii, stylu gry, polifonii), ale czasami wcale nie można przyciąć ich koniec (opóźnienie - zwolnienie) na wypadek, gdyby jest słychać w trybie solo, ale nie słyszany w trybie odtwarzania wszystkich partii. To samo dotyczy efektów, takich jak pogłosek - nie powinien trwać do nowego dźwięku źródła dźwięku. Cięcie i usuwanie niepotrzebnego sygnału - wykonujesz środek do czyszczenia dźwięku, a to można również uznać za kompresję - ponieważ usuwasz niepotrzebne fale.

3) Trzeci etapem jest kompresja kompozycji.

Wraz z kompresją całej kompozycji konieczne jest uwzględnienie, że wszystkie strony są związane z wieloma oddzielnymi dźwiękami. W związku z tym, gdy są związane i późniejsze kompresję, konieczne jest zapewnienie, aby ostateczna kompresja nie zepsuła, co osiągnęliśmy na pierwszych dwóch etapach. Musisz także oddzielić kompozycje, w których jest ważny i wąski zakres. Ze kompresją kompozycji z szerokim zakresem dynamicznym - wystarczy umieścić sprężarkę, która przepisuje krótkoterminowe szczyty, które powstały w wyniku dodawania stron między sobą. Z kompresją kompozycji, w której ważne jest wąski zakres dynamiczny - wszystko jest znacznie bardziej skomplikowane. Tutaj sprężarki są niedawno nazywane maksymalizatorami. Maksymalizator jest wtyczką, która łączy sprężarkę, olitorek, graffiti korektor, enhaiser i inne narzędzia do konwersji dźwięku. Jednocześnie musi koniecznie mieć narzędzia do analizy dźwięku. Ruchome, końcowe przetwarzanie z sprężarką, jest w dużej mierze potrzebne do zwalczania błędów w poprzednich etapach. Błędy - nie tyle kompresji (jednak, jeśli robisz na ostatnim etapie, co możesz zrobić na pierwszym etapie - jest to błąd), ile w oryginalnym wyborze dobrych próbek i narzędzi, które nie przeszkadzały sobie nawzajem (Mówimy o pasmach częstotliwości). To w tym celu wykonane jest korekta ACHK. Często zdarza się, że dzięki silnej kompresji na Master musisz zmienić parametry kompresji i informacji na wcześniejszych etapach, ponieważ z silnym zwężeniem zakresu dynamicznego, ciche dźwięki, które wcześniej zamaskowane, zmienia dźwięk poszczególnych składników kompozycji .

W tych częściach nie wpływałem na konkretne parametry kompresji. Uważam, że konieczne jest napisanie o tym, gdy kompresja konieczna jest zwrócenie uwagi na wszystkie dźwięki i wszystkie strony na wszystkich etapach tworzenia kompozycji. Tylko w końcu otrzymasz harmonijny wynik nie tylko z punktu widzenia teorii muzyki, ale także z punktu widzenia inżynierii dźwiękowej.

Następnie istnieją praktyczne wskazówki dotyczące przetwarzania poszczególnych partii. Jednak w kompresji liczby i ustawienia wstępne mogą sugerować tylko pożądany obszar, w którym konieczne jest wyszukiwanie. Idealne ustawienia kompresji zależą od każdego indywidualnego przypadku. Parametry amplifikacji (zysk) i progu (próg) oznaczają normalny poziom dźwięku ( zastosowanie logiczne. Całkowity zakres).

Część krawata - parametry kompresji

Krótkie odniesienie:

Próg (próg) - określa poziom dźwięku sygnału przychodzącego, aby osiągnąć, który sprężarka rozpoczyna pracę.

Atak (atak) - określa czas, po którym sprężarka rozpocznie działalność.

Poziom (stosunek) - określa kamień zmniejszający wartości amplitudy (w odniesieniu do pierwotnej wartości amplitudy).

Wydanie (wydanie) - określa czas, po którym sprężarka przestanie działać.

Uzyskanie (zysk) - określa poziom zwiększenia sygnału, po przetworzeniu sprężarki.

Tabela kompresji:

Narzędzie	Próg.	Atak	Stosunek.	Wydanie	Zdobyć.	Opis
Wokal	0 db.	1-2 ms. 2-5 ms. 10 pani 0,1 ms. 0,1 ms.	mniej niż 4: 1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 ms. 50-100 ms. 150 MSK. 150 ms. 0,5s.		Kompresja podczas nagrywania musi być minimalna, wymaga obowiązkowego przetwarzania na etapie informacji, aby dokonać definicji i zrozumiałości.
Instrumenty dęte		1 - 5ms.	6:1 – 15:1	0,3s.
Beczka		od 10 do 50 ms 10-100 ms.	4: 1 i więcej 10:1	50-100 ms. 1 ms.		Dolny Throphold i Większy stosunek i dłuższy atak, tym silniejszy kliknięcie na początku beczek.
Syntezatorów.						Zależy od rodzaju fali (koperty adsr).
Drum bęben:		10-40 ms. 1-5ms.	5:1 5:1 – 10:1	50 ms. 0,2s.
Wysoki kapelusz		20 ms.	10:1	1 ms.
Mikrofony testowe		2-5 ms.	5:1	1-50 ms.
bębny		5 ms.	5:1 – 8:1	10ms.
Bas-gitar.		100-200 ms. 4 ms do 10 ms.	5:1	1 ms. 10ms.
Strunowy		0-40 ms.	3:1	500 ms.
Sint. gitara basowa		4 ms - 10ms.	4:1	10ms.		Zależy od kopert.

Perkusja		0-20 ms.	10:1	50 ms.
Gitara akustyczna, fortepian		10-30 ms. 5 - 10ms.	4:1 5:1 -10:1	50-100 ms. 0,5s.
Electro-Nitara.		2 - 5 ms.	8:1	0,5s.

Ostateczna kompresja		0,1 ms. 0,1 ms.	2:1 od 2: 1 do 3: 1	50 ms. 0,1 ms.	0 dB na wyjściu	Czas ataku zależy od celu - niezależnie od tego, czy konieczne jest usunięcie szczytów lub sprawiają, że ścieżka gładsza.
Ogranicznik po ostatecznej kompresji		0 ms.	10:1	10-50 ms.	0 dB na wyjściu	Jeśli potrzebujesz wąskiego zakresu dynamicznego i niegrzecznego "cięcia" fal.

Informacje zostały pobrane z różnych źródeł, które są określane tak długo, jak są zasoby w Internecie. Różnica w parametrach kompresji jest kompresowana przez różnicę w preferencjach dźwiękowych i pracować z różnymi materiałami.

Ludzie, którzy są entuzjastyczni z domowym dźwiękiem, pokazują interesujący paradoks. Są gotowe wepchnąć pokój słuchania, zbudować kolumny z egzotycznymi emiterami, ale są zawstydzone przed muzycznym puszystym, jakby wilk przed czerwoną flagą. W rzeczywistości, dlaczego nie jest to niemożliwe, aby wybrać się, a z puszki spróbuj ugotować coś bardziej jadalnego?

Okresowo istnieją skargi na forum: "Doradzaj dobrze nagrane albumy". To jest niezrozumiałe. Specjalne edycje audiofile, choć zachwycą słuchania pierwszej minuty, ale nikt nie słucha końca, boli repertuar. Jeśli chodzi o resztę Phonotek, problem wydaje się oczywisty. Możesz zapisać, ale nie możesz zapisać i opróżnić brzęczenia pieniędzy w komponenty. Nadal nie lubię słuchać swojej ulubionej muzyki o dużej objętości i możliwości wzmacniacza tutaj.

Dzisiaj, nawet w albumach Hi-Res, szczyty fonogramu i objętość napędzanego do przycinania są cięte. Uważa się, że większość słucha muzyki na każdym śmieciach, a zatem konieczne jest "poprosić o gat", aby zrobić rodzaj poświęcenia.

Oczywiście nie jest to wykonywane specjalnie do zdenerwowania audiofile. O nich zazwyczaj niewielu ludzi pamiętają. Cóż, z wyjątkiem tego, że odgadnęli, aby umożliwić pliki główne, z którymi główny obieg jest kopiowany - CD, MP3 i tak dalej. Oczywiście Kreator od dawna spłaszczył sprężarkę, nikt świadomie przygotowuje specjalne wersje dla utworów HD. Czy to pewna procedura dla przewoźnika winylowego, który z tego powodu i brzmi bardziej humanitarnie. A dla ścieżki cyfrowej wszystko kończy się tak samo - duża gruba sprężarka.

Tak więc, obecnie wszystkie 100% opublikowanych fonogramów, minus muzyka klasyczna, poddaje się kompresji, gdy mama. Ktoś wykonuje tę procedurę mniej lub bardziej umiejętnie, a ktoś jest całkowicie głupi. W rezultacie mamy pielgrzymów na forach z linią wtyczki DR na zatokę, bolesne porównania publikacji, uciec do winylu, gdzie także potrzebujesz głównego popera.

Najbardziej odmroczony na widok wszystkich tych harmonii obrócił się dosłownie w obuwia audio. Żaden żart, czytają źródło dźwięku Pismo Święte do tyłu! Nowoczesne programy Edycja dźwięku ma jakieś narzędzie do przywrócenia fali dźwiękowej podlegającym przycinaniu.

Początkowo ta funkcjonalność była przeznaczona dla studiów. Po zmieszaniu istnieją sytuacje, gdy przycinanie przyszedł napisać, i nie jest już możliwe, aby odprowadzać sesję z wielu powodów, a tutaj przychodzi do Aid Arsenal Audio Editor - Decalipper, dekompresyjnik itp.

I już dla takiego oprogramowania, wszystkie odważniejsze wyciąga uchwyty zwykłych słuchaczy, którzy mają krew z uszu po następnej nowości. Ktoś preferuje Izotope, kogoś Adobe Audition, Ktoś działają dzieli się między kilkoma programami. Znaczenie przywrócenia dawnej dynamiki jest prawidłowe skorygowanie napiwkowanych pików sygnałowych, które spoczywają w 0 dB, przypominają sprzęt.

Tak, około 100% ożywienie źródła mowy nie przechodzi, ponieważ występuje procesy interpolacji w sprawie dość spekulacyjnych algorytmów. Ale nadal niektóre z wyników przetwarzania wydawały mi się interesujące i godne studiów.

Na przykład album Lana Del Rey "Lust of Life", konsekwentnie marszcząc brwi, PAH, jazdy! W oryginalnej piosence "Kiedy Świat Byłem na wojnie, który tańczyliśmy "był taki.

A po serii odcinków i dekompresorów stał się taki. Współczynnik DR zmienił się od 5 do 9. Pobierz i słuchaj próbki przed i po przetworzeniu.

Nie mogę powiedzieć, że metoda jest uniwersalna i nadaje się do wszystkich wdrożonych albumów, ale w tym przypadku wolę zachować w kolekcji dokładnie ta opcja leczona aktywistą Rutraker, zamiast oficjalnej publikacji w 24 bitach.

Nawet jeśli sztuczne ciągnięcie szczytów z dźwięku mielonego nie zwraca prawdziwej dynamiki muzycznej wydajności, Twój DAC nadal będzie ci podziękować. Było tak trudne dla niego pracować bez błędów na poziomie limitu, gdzie jest prawdopodobieństwo tak zwanego szczytów intersmonicznych (ISP). A teraz do 0 dB dopakuje tylko rzadkie spowolnienia sygnału. Ponadto wywołany fonogram, gdy skompresowany w flacu lub innym bezstratnym kodecznym będzie teraz mniejszy. Więcej "powietrza" w sygnale zapisuje przestrzeń dysk twardy.

Spróbuj ożywić najbardziej znienawidzone albumy zabite na "wojnie głośności". W przypadku rezerwy mówcy najpierw musisz obniżyć poziom ścieżki o -6 dB, a następnie uruchomić spisek. Ci, którzy nie wierzą, że komputery mogą po prostu trzymać się między odtwarzaczem CD a Expander Studio wzmacniacza. To urządzenie jest zasadniczo zaangażowane w taki sam - jak może przywrócić i ciągnie szczyty ściśnięte na sygnale audio. Istnieją podobne urządzenia z 80-90, które nie są bardzo drogie i jako eksperyment, spróbuj ich bardzo interesujących.

Dynamiczny sterownik zasięgu DBX 3BX przetwarza sygnał oddzielnie w trzech paskach - LF, SC i RF

Po udzieleniu korektorów przyznano składnik systemu audio, a nikt ich nie bał. Dziś nie jest konieczne wyrównanie wysokich częstotliwości taśmy magnetycznej, ale z brzydką dynamiką konieczne jest rozwiązanie czegoś, braci.

Dynamiczna kompresja (Kompresja dynamicznego zakresu, DRC) jest zwężeniem (lub ekspansją w przypadku ekspandera) dynamicznego zakresu fonogramu. Zakres dynamicznyJest to różnica między najbardziej cichym i najgłośniejszym dźwiękiem. Czasami najbardziej ciche w fonogramie będzie dźwięk małego głośnego poziomu hałasu, a czasami trochę cichszy z najbardziej głośnych. Urządzenia sprzętowe i programy przeprowadzające dynamiczną kompresję nazywane są sprężarkami, podświetlając cztery główne grupy: sprężarki, ogranicznik, ekspandery i bramy.

Lampa sprężarka analogowa DBX 566

Zmniejszona i promująca kompresję

Obniżenie kompresji (Kompresja w dół) zmniejsza głośność dźwięku, gdy zaczyna przekraczać pewną wartość progową, pozostawiając cichsze dźwięki niezmienione. Ekstremalna opcja niższej kompresji jest ogranicznik. Kompresja ulepszenia (Ściskanie w górę), wręcz przeciwnie, zwiększa objętość dźwięku, jeśli jest poniżej progu, bez wpływu na najgłośniejsze dźwięki. Jednocześnie oba typy kompresji wąskie dynamiczny zakres sygnału audio.

Obniżenie kompresji

Kompresja ulepszenia

Expander and Gate.

Jeśli sprężarka zmniejsza zakres dynamiczny, ekspander go zwiększa. Gdy poziom sygnału staje się powyżej poziomu progowego, ekspander zwiększa go jeszcze więcej, zwiększając tym samym różnicę między głośnymi i cichymi dźwiękami. Takie urządzenia są często używane podczas nagrywania instalacji bębna, aby oddzielić dźwięki niektórych bębnów od innych.

Rodzaj ekspandera, który nie jest używany, aby nie zwiększać głośnych i wysuszyć ciche dźwięki, które nie przekraczają poziomu wartości progowej (na przykład szum w tle) Brama hałasu.. W takim urządzeniu, gdy tylko poziom dźwięku staje się mniejszy niż próg, przepustka sygnału jest zatrzymana. Zazwyczaj brama służy do tłumienia hałasu w pauzach. W niektórych modelach można to zrobić, aby dźwięk, gdy poziom progowy nie zatrzymuje się ostro, ale stopniowo wędruje. W tym przypadku prędkość tłumienia jest ustawiona przez regulator rozpadu (recesja).

Brama, może może inne rodzaje sprężarek częstotliwość zależna od (tj. Na różne sposoby przetwarzania pewnych pasm częstotliwości) i może działać w trybie Łańcuch boczny. (patrz poniżej).

Zasada działania sprężarki

Sygnał wpadający do sprężarki jest podzielony na dwie kopie. Jedna kopia jest wysyłana do wzmacniacza, w którym stopień wzmocnienia jest sterowany przez sygnał zewnętrzny, druga kopia - tworzy ten sygnał. Wchodzi do urządzenia o nazwie łańcuch boczny, w którym zmierzono sygnał, a koperta jest tworzona na podstawie tych danych opisujących zmianę jego głośności.
Więc najnowocześniejsze sprężarki są rozmieszczone, jest to tak zwany typ do przodu. W starszych urządzeniach (typ sprzężenia zwrotnego) poziom sygnału jest mierzony po wzmacniaczu.

Istnieją różne technologie sterowania analogowymi (wzmocnienie o zmiennej wzmocnienia), każdy z jego zaletami i wadami: lampy, optyczne przy użyciu fotoreistry i tranzistum. Podczas pracy z cyfrowym audio (w edytorze dźwięku lub DAW) ich własne algorytmy matematyczne mogą być używane lub można wprowadzić działanie technologii analogowej.

Główne parametry sprężarek

Próg.

Sprężarka zmniejsza sygnał audio, jeśli jego amplitudzie primarze określonej wartości progowej (próg). Jest on zwykle wskazany w decybelach, o niższym progu (na przykład -60 dB) oznacza, że \u200b\u200bdźwięk zostanie przetworzony niż o wyższym progu (na przykład -5 dB).

Stosunek.

Stopień spadku poziomu zależy od parametru stosunku: stosunek 4: 1 oznacza, że \u200b\u200bjeśli poziom wejściowy wynosi 4 DB przekroczy próg, poziom wyjściowy będzie wyższy niż próg o 1 dB.
Na przykład:
Próg \u003d -10 dB
Sygnał wejściowy \u003d -6 db (na 4 dB powyżej progu)
Sygnał wyjściowy \u003d -9 db (na 1 dB powyżej progu)

Ważne jest, aby pamiętać, że tłumienie poziomu sygnału trwa i jakiś czas po tym, jak spadnie poniżej poziomu progowego, a tym razem określa wartość parametru wydanie.

Kompresja z maksymalną wartością stosunku ∞: 1 nazywa się ograniczeniem. Oznacza to, że dowolny sygnał powyżej poziomu progowego jest tłumiony przed poziomem progowym (z wyjątkiem krótkiego okresu po gwałtownym wzrostu objętości wejściowej). Szczegółowe informacje można znaleźć poniżej "ogranicznik".

Przykłady różnych wartości współczynników

Atak i wydanie

Sprężarka zapewnia pewną kontrolę nad tym, jak szybko odpowiada na zmianę dynamiki sygnału. Parametr Atak określa czas, dla którego sprężarka zmniejsza współczynnik wzmocnienia na poziomie, który jest określony przez parametr stosunku. Wydanie Określa czas, dla którego sprężarka, wręcz przeciwnie, zwiększa współczynnik wzmocnienia lub powraca do normy, jeśli poziom sygnału wejściowego spadnie poniżej wartości progowej.

Atak i fazy uwalniania

Parametry te wskazują czas (zwykle w milisekundach), które będą wymagane do zmiany wzmocnienia do pewnej ilości decybeli, wynosi zwykle 10 dB. Na przykład, w tym przypadku, jeśli atak jest ustawiony na 1 ms, w celu zmniejszenia wzmocnienia o 10 dB, wymagane zostanie 1 ms, a 20 dB - 2 ms.

W wielu sprężarkach parametry ataku i wersji można skonfigurować, ale w niektórych są początkowo ustawione, a nie regulowane. Czasami są one oznaczone jako "automatyczny" lub "zależne od programu", tj. różnią się w zależności od sygnału wejściowego.

Kolano.

Inny parametr sprężarki: twarde / miękkie kolano. Określa, czy początek zastosowania kompresji jest ostry (twardy) lub stopniowy (miękki). Miękkie kolano zmniejsza senę przejścia z sygnału surowego do sygnału poddanego kompresji, zwłaszcza przy wysokich wartościach stosunku i ostre zwiększenie objętości.

Twarda kompresja kolana i miękka kolana

Peak i RMS.

Sprężarka może reagować na wartości piku (krótkoterminowe) lub na uśrednionym poziomie wejściowym. Zastosowanie wartości szczytowych może prowadzić do ostrych wahań w stopniu kompresji, a nawet zniekształcenia. Dlatego sprężarki stosują funkcję uśredniania (zwykle jest to sygnał wejściowy RMS) przy porównywaniu go z wartością progową. Daje bardziej komfortową kompresję, w pobliżu ludzkiej postrzegania objętości.

RMS jest parametrem odzwierciedlającym średni objętość fonogramu. Z matematycznego punktu widzenia RMS (średnia kwadratowa) jest wartością RMS amplitudy pewnej liczby próbek:

Łączenie stereo.

Sprężarka w trybie łączenia stereo stosuje ten sam wzmocnienie zarówno kanałów stereo. Pozwala to uniknąć przemieszczenia stereopanoramy, która może być wynikiem indywidualnego przetwarzania lewego i prawego kanału. Takie przemieszczenie występuje, jeśli na przykład każdy głośny element dyszono nie w środku.

Wzmocnienie do makijażu.

Ponieważ sprężarka zmniejsza ogólny poziom sygnału, zwykle dodaje się możliwość stałego wzmocnienia na wyjściu, co pozwala uzyskać optymalny poziom.

PATRZ PRZED SIEBIE.

Funkcja wyglądu do przodu jest zaprojektowana tak, aby rozwiązać problemy osobliwe zarówno zbyt duże, jak i zbyt małe wartości ataku i zwolnienia. Zbyt dużo ataków nie pozwalają na skuteczne przechwytywanie transmisji, ale zbyt małe może nie być wygodne dla słuchacza. Podczas korzystania z funkcji wyglądają do przodu główny sygnał jest opóźniony względem kontrolera, umożliwia rozpoczęcie kompresji z wyprzedzeniem, nawet zanim sygnał osiągnie wartość progową.
Jedyną wadą tej metody jest opóźnienie czasu sygnału, które w niektórych przypadkach niepożądane.

Korzystanie z dynamicznej kompresji

Kompresja jest używana wszędzie, nie tylko w fonogramach muzycznych, ale także wszędzie, gdzie trzeba zwiększyć ogólną objętość, bez zwiększenia poziomów szczytowych, w których stosowany jest niedrogi sprzęt do odtwarzania dźwięku, lub ograniczony kanał transmisji (system alarmowy, radio alarmowe, radio, amatorskie, radio, itd.).

Kompresja jest stosowana podczas odtwarzania muzyki w tle (w sklepach, restauracjach itp.), Gdzie każde zauważalne zmiany głośności są niepożądane.

Ale najważniejszym zakresem stosowania dynamicznej kompresji jest produkcja muzyczna i nadawanie. Kompresja służy do podawania dźwięku "gęstości" i "napędu", aby uzyskać lepszą kombinację narzędzi ze sobą, a zwłaszcza podczas przetwarzania wokalu.

Strony wokalne w muzyce skalnej i popu są zazwyczaj poddawane kompresji, aby podkreślić je na tle akompaniamentu i dodać przejrzystość. Specjalny widok sprężarki, skonfigurowany tylko na pewne częstotliwości - Deesser, jest używany do tłumienia syczącym tle.

W przyjęciach instrumentalnych kompresja jest również wykorzystywana do skutków, które nie są bezpośrednio związane z objętością, na przykład, szybko zanikające dźwięki bębna mogą stać się bardziej długotrwałe.

W elektronicznej muzyce tanecznej (EDM), chaning boczny jest często używany (patrz poniżej) - na przykład linia basowa może być sterowana przez beczkę lub coś podobnego, aby zapobiec konfliktowi basu i bębnów oraz stworzyć dynamiczne pulsację.

Kompresja jest szeroko stosowana w transmisji transmisji (radio, telewizji, transmisji internetowej), aby zwiększyć postrzeganą objętość przy jednoczesnym zmniejszeniu dynamicznego zakresu dźwięku źródłowego (zwykle CD). Większość krajów ma ograniczenia prawne na natychmiastowej maksymalnej objętości, która może być transmitowana. Zazwyczaj ograniczenia te są realizowane przez ciągłe sprężarki sprzętowe w łańcuchu eterycznym. Ponadto wzrost postrzeganej objętości poprawia "jakość" dźwięku z punktu widzenia większości słuchaczy.

Zobacz też Wojna głośno.

Spójny wzrost objętości tej samej piosenki wyrównanej dla CD od 1983 do 2000.

Boczny chaning.

Innym często znalezionym przełącznikiem sprężarki jest "łańcuch boczny". W tym trybie kompresja dźwięku nie występuje w zależności od jego własnego poziomu, ale w zależności od poziomu sygnału wejścia do złącza, który jest tak zwykle nazywany łańcuchem bocznym.

Można go znaleźć kilka aplikacji. Na przykład, wokalista Shepelvit i wszystkie litery "C" wyróżniają się z ogólnego obrazu. Pomijasz głos przez sprężarkę, a złącze łańcucha bocznego serwuje ten sam dźwięk, ale przegapił się przez korektor. Na korektorze usuwasz wszystkie częstotliwości, z wyjątkiem tych używanych przez wokalistę, gdy wymawiając literę "C". Zwykle około 5 kHz, ale może wynosić od 3 kHz do 8 kHz. Jeśli następnie umieść sprężarkę w trybie łańcucha bocznego, kompresja głosu nastąpi w tych momentach, gdy litera "C" jest wymawiana. W ten sposób okazało się, że urządzenie znane jako "Deesser" (De-Esser). Ta metoda pracy nazywa się "zależną częstotliwością" (zależna od częstotliwości).

Kolejne użycie tej funkcji nazywa się "Ducker". Na przykład na stacji radiowej muzyka przechodzi przez sprężarkę, a słowa DJ - przez łańcuch boczny. Gdy DJ zaczyna rozmawiać, głośność muzyki jest automatycznie zmniejszona. Efekt ten można pomyślnie wykorzystać w rekordach, na przykład, zmniejsz głośność partii klawiatury podczas śpiewania.

Ograniczenie ściany z cegły

Sprężarka i ogranicznik są w przybliżeniu taka sama, można powiedzieć, że ogranicznik jest sprężarką o wysokim stosunku (od 10: 1), a zwykle czasu niskiego ataku.

Istnieje koncepcja ograniczenia ściany z cegły - bardzo wysoki stosunek ograniczający (od 20: 1 i więcej) i bardzo szybki atak. Idealnie, nie pozwala na przekroczenie poziomu progu. Wynik będzie nieprzyjemny dla plotki, ale zapobiegnie to uszkodzeniu technologii lub nadmiaru dźwięku pasmo Kanał. Wielu producentów integruje urządzeń ograniczników do tego celu.

Clipper vs. Ogranicznik, miękki i twardy przycinanie

, Media Gracze

Płytki, zwłaszcza stare, które zostały zarejestrowane i produkowane przed 1982 r., Przy znacznie mniejszym prawdopodobieństwie mieszania, podczas których rekord był głośniejszy. Odtwarzają naturalną muzykę z naturalnym zakresem dynamicznym, który jest przechowywany w rekordzie i zostaje utracony w większości standardowych formatów cyfrowych lub formatów o wysokiej rozdzielczości.

Oczywiście istnieją wyjątki - słuchać nie do długotrwałego albumu Stephen Wilson z nagrań MA lub nagrań referencyjnych, a można usłyszeć, jak dobry może być dźwięk cyfrowy. Ale to rzadkość, najnowocześniejsze nagrywania są głośne i skompresowane.

Ostatnio kompresja muzyczna podlega poważnej krytyce, ale jestem gotów argumentować, że prawie wszystkie twoje ulubione rekordy są skompresowane. Niektóre z nich są mniej, jeszcze więcej, ale wciąż ściskane. Kompresja dynamicznego zakresu jest rodzajem kozła, który jest obwiniany w złym muzycznym dźwięku, ale silnie skompresowana muzyka nie jest nowym trendem: Słuchaj albumów 60-tych. To samo można powiedzieć o klasycznej pracy LED Zeppelin lub Młodszych Albumów Wilco i Radiohead. Kompresja zakresu dynamicznego zmniejsza naturalny stosunek między głośnym a cichym dźwiękiem na płycie, więc szept może być tak głośny jak krzyk. Jest to dość problematyczne, aby znaleźć muzykę POP ostatniego 50 lat, co nie podlegało kompresji.

Niedawno rozmawiałem słodko z założycielem i redaktora magazynu Tape OP Larry'ego Crane (Larry Crane) o dobrych, złych i "złych" aspektach kompresji. Larry Crane pracował z takimi grupami i wykonawcami, jak Stefan Marcus, Moc Cat, Sleened-Kinney, Jenny Lewis, M. Ward, Go-betgeens, Jason Little, Eliot Smith, Quasi i Richmond Fontaine. Steruje także jackpotem studio nagrywania dźwięku! W Portland, Oregon, który był schronieniem dla hodowców, oszalec, Eddie Vederra, Pavelment, R.E.M., Ona i więcej dla wielu innych innych.

Jako przykład, zaskakująco nienaturalnie brzmiący, ale wciąż doskonałe piosenki, przytoczam łyżkę albumu "Chcę mojej duszy", wydanej w 2014 roku. Caren śmieje się i mówi, że słucha mu w samochodzie, ponieważ tam jest doskonale brzmi. Co prowadzi nas do innej odpowiedzi na pytanie, dlaczego muzyka jest skompresowana: ponieważ kompresja i dodatkowa "jasność" pozwalają lepiej usłyszeć go w hałaśliwym miejscach.

Larry Crena w pracy. Zdjęcie Jason Quigley (Jason Quigley)

Kiedy ludzie mówią, że lubią dźwięk nagrania audio, wierzę, że lubią muzykę, jakby dźwięk i muzyka były nierozłączne warunki. Ale dla siebie różnią się tymi pojęciami. Z punktu widzenia muzyki Audany dźwięk może być niegrzeczny i surowy, ale nie będzie miało znaczenia dla większości słuchaczy.

Wielu pośpiechu, aby oskarżyć inżynierów mistrzowskich w nadużyciach kompresji, ale kompresja jest nakładana bezpośrednio podczas nagrywania dźwięku podczas mieszania i tylko wtedy, gdy podczas mastering. Jeśli osobiście nie uczestniczyłeś w każdym z tych etapów, nie możesz powiedzieć, jak narzędzia i przyjęcie wokalne brzmiały na samym początku procesu.

Craine był w ciosie: "Jeśli muzyk chce celowo sprawić, że dźwięk szaleństwo i zniekształcono jako rekord prowadzony przez głosy, nie ma nic złego w tym - pragnienie zawsze przewyższa jakość dźwięku". Głos wykonawcy jest prawie zawsze skompresowany, to samo dzieje się z basami, bębnami, gitarami i syntezatorami. Za pomocą kompresji objętość wokalu jest zapisywany na pożądanym poziomie w całej utworze lub nieznacznie wyróżnionym na tle innych dźwięków.

Prawidłowo kompresja może sprawić, że dźwięk bębnów jest bardziej żywy lub celowo dziwny. Aby uzyskać doskonale dźwięk muzyki, musisz być w stanie korzystać z niezbędnych narzędzi. Dlatego zrozumieć, jak korzystać z kompresji, a nie przesadza, lata urlopu. Jeśli inżynier Mix wycisnął za dużo przyjęcia na gitarze, inżynier Master nie będzie już w stanie w pełni przywrócić brakujące częstotliwości.

Jeśli muzycy chcieli, żebyś słuchać muzyki, która nie przeszła etapów mieszania i opanowania, wyprodukujemy go na półkach sklepów prosto ze studia. Żuraw mówi, że ludzie, którzy tworzą, edytować, mieszają muzykę i prowadzą swoje opanowanie, nie ma być mylone przez muzyków - pomagają wykonawcom od samego początku, to znaczy ponad sto lat.

Ci ludzie są częścią procesu stworzenia, w wyniku czego otrzymuje się niesamowite dzieła sztuki. Caren dodaje: "Nie potrzebujesz wersji ciemnej strony księżyca, który nie przeszedł przez mieszanie i opanowanie". Różowy Floyd wypuścił w ten rodzaj piosenki, w tym, co chcieli go usłyszeć.

Ta grupa metod opiera się na fakcie, że przesyłane sygnały są poddawane przekształceniom nieliniowym amplitudy, aw nadawaniu i odbieraniu części nieliniowości jest konwertowane. Na przykład, jeśli nadajnik wykorzystuje nieliniową funkcję Öu, w odbiorniku - U 2. Spójne zastosowanie funkcji zbieżnych doprowadzi do faktu, że w ogóle transformacja pozostaje liniowa.

Pomysł nieliniowych metod kompresji danych jest zredukowany do faktu, że nadajnik może dać większy zakres zmian w przenoszonym parametrze o tej samej amplitudzie sygnałów wyjściowych (to znaczy, większy zakres dynamiczny). Zakres dynamiczny - Wyraża to w jednostkach względnych lub postawy decybelilah największej amplitudy sygnału do najmniejszego:

;	(2.17)
.	(2.18)

Naturalne pragnienie zwiększenia dynamiki poprzez zmniejszenie U MIN jest ograniczone przez czułość sprzętu i wzrost efektu zakłóceń i jego własnego hałasu.

Najczęściej, kompresja dynamicznego zakresu prowadzi się za pomocą pary zbieżnych funkcji logarytmingu i wzmocnienia. Pierwsza operacja zmieniającej się amplitudy kompresja(kompresja), drugi - rozszerzenie (rozciąganie). Wybór tych funkcji jest związany z ich największą zdolnością do kompresji.

Jednocześnie metody te mają wady. Pierwszym z nich jest to, że logarytm małej liczby jest ujemny i na limicie:

oznacza to, że czułość jest bardzo nieliniowa.

Aby zmniejszyć te wady, obie funkcje są modyfikowane przez przesunięcie i przybliżenie. Na przykład, dla kanałów telefonicznych, funkcja przybliżona jest powiązana (typ A,):

a a \u003d 87,6. Zysk ze ściskania wynosi 24dB.

Kompresja danych za pomocą procedur nieliniowych jest realizowana przez urządzenia analogowe o dużych błędach. Zastosowanie narzędzi cyfrowych może znacznie poprawić dokładność lub szybkość transformacji. Jednocześnie bezpośrednie wykorzystanie sprzętu obliczeniowego (to znaczy, bezpośrednie obliczenie logarytmów i wykładniczej) da lepszy wynik z powodu niskiej prędkości i akumulacyjnego błędu obliczeniowego.

Kompresja danych przez kompresję z powodu ograniczeń dokładności stosuje się w przypadkach bez odpowiedzi, na przykład do przesyłania mowy na kanałach telefonicznych i radiowych.

Skuteczne kodowanie

Skuteczne kody zostały zaproponowane na Sundonowi, Fano i Hafmanowi. Istotą kodów jest to, że są nierówne, czyli z inną kategorią wyładowań, a długość kodu jest odwrotnie proporcjonalna do prawdopodobieństwa jego wyglądu. Inną niezwykłą cechą efektywnych kodów - nie wymagają separatorów, czyli znaki specjalne oddzielające sąsiednie kombinacje kodu. Osiąga się to przy obserwacji prostej reguły: krótsze kody nie są już początkiem. W takim przypadku stały strumień rozładowców binarnych jest wyjątkowo zdekodowany, ponieważ dekoder ujawnia najpierw najkrótsze kombinacje kodu. Skuteczne kody przez długi czas były czysto akademickie, ale niedawno stosowane w tworzeniu baz danych, a także w ściskaniu informacji w nowoczesnych modemach i archiwach oprogramowania.

Ze względu na nierówność wprowadzana jest średni długość kodu. Średnia długość - matematyczne oczekiwania długości kodu:

co więcej, L CP ma tendencję do H (x) z góry (to znaczy, L. Środa\u003e H (x)).

Wdrożenie warunku (2.23) jest wzmocnione przez zwiększenie N.

Istnieją dwie odmiany efektywnych kodów: Shannon Fano i Hafman. Rozważ ich odbiór na przykładzie. Załóżmy, że prawdopodobieństwa znaków w sekwencji są znaczenia pokazane w tabeli 2.1.

Tabela 2.1.

Prawdopodobieństwa symboli

N.
LICZBA PI.	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

Symbole są rankingowe, to znaczy, szukają z rzędu na malejącym prawdopodobieństwie. Po tym, zgodnie z metodą SHENNON FANO, poniższa procedura jest okresowo powtarzana: Cała grupa zdarzeń jest podzielona na dwie podgrupy z tym samym (lub w przybliżeniu taką samą) prawdopodobieństwem. Procedura trwa, aż jeden element pozostanie w następnej podgrupie, po czym ten element zostanie wyeliminowany, a pozostałe te działania będą kontynuowane. Dzieje się tak, aż ostatnie dwie podgrupy pozostają jednym elementem. Kontynuuj rozważenie naszego przykładu, który jest zmniejszony w tabeli 2.2.

Tabela 2.2.

Metoda Chennon Fano.

N.	LICZBA PI.
4	0.3		JA.
	0.2	JA.	II.
6	0.15		JA.	JA.
	0.1			II.
1	0.1			JA.	JA.
9	0.05	II.			II.
5	0.05		II.		JA.
7	0.03			II.	II.	JA.
8	0.02					II.

Jak widać z tabeli 2.2, pierwszy symbol prawdopodobieństwa P 4 \u003d 0,3 uczestniczył w dwóch procedurach partycjonowania i oba razy uderzyły w grupę z numerem I. Zgodnie z tym jest zakodowany przez kod dwutacyny II. Drugi element w pierwszym etapie partycji należał do grupy I, na drugim - grupie II. Dlatego jego kod 10. Kody reszty znaków w dodatkowych komentarzach nie potrzebują.

Zwykle nierównomierne kody są przedstawiane w postaci drzew kodu. Drzewo kodu jest wykresem wskazującym do dozwolonych kombinacji kodów. Wstępnie określić kierunki żeber tego wykresu, jak pokazano na rysunku 2.11 (wybór wskazówek jest arbitralny).

Wykres jest kierowany w następujący sposób: tworzą trasę dla dedykowanego symbolu; Liczba zrzutów jest równa liczbie krawędzi na trasie, a wartość każdego wyładowania jest równa kierunku odpowiedniego żebra. Trasa składa się z punktu źródłowego (jest oznakowany w rysunku A). Na przykład trasa do wierzchołka 5 składa się z pięciu żeber, z czego wszystko, oprócz tego drugiego, mają kierunek 0; Dostajemy kod 00001.

Oblicz tę przykładową entropię i średnią długość słowa.

H (x) \u003d - (0,3 LOG 0,3 + 0,2 LOG 0,2 + 2 0.1 Log 0.1+ 2 0.05 Log 0.05+

0,03 LOG 0,03 + 0,02 LOG 0,02) \u003d 2,23 bitów

l CP \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Jak widać, średnia długość słowa jest blisko entropii.

Kody Hafman są zbudowane na innym algorytmie. Procedura kodowania składa się z dwóch etapów. W pierwszym etapie, jednorazowa kompresja alfabetu jest konsekwentnie. Jednorazowa kompresja jest zastąpieniem dwóch ostatnich znaków (z niższymi prawdopodobieństwami), o całkowitym prawdopodobieństwie. Kompresja jest przeprowadzana do momentu pozostania dwóch znaków. Jednocześnie wypełnij tabelę kodowania, w której powstałe prawdopodobieństwa są umieszczone, a także przedstawić trasy, dla których nowe znaki poruszają się na następnym etapie.

W drugim etapie występuje sam kodowanie, który zaczyna się od ostatniego etapu: Pierwszy z dwóch znaków przypisuje kod 1, drugi - 0. Następnie przejdź do poprzedniego etapu. Do symboli, które nie uczestniczyły w ściskaniu na tym etapie, kody atrybutu z kolejnego etapu, a do dwóch najnowszych znaków dwukrotnie przypisuje kod symbolu uzyskany po klejeniu i dodać do górnego kodu symbolu 1, niższego - 0. Jeśli Symbol jest dalej przy klejeniu uczestniczy, jego kod pozostaje niezmieniony. Procedura kontynuuje koniec (czyli, aż do pierwszego etapu).

Tabela 2.3 pokazuje kodowanie wzdłuż algorytmu Hafman. Jak widać z tabeli, kodowanie przeprowadzono w 7 etapach. Po lewej są prawdopodobieństwa znaków, kodów prawnych - pośrednie. Strzałki pokazują przenoszenie nowo utworzonych znaków. Na każdym etapie ostatnie dwa znaki różnią się tylko z młodszym wyładowaniem, co odpowiada technikom kodowania. Obliczamy średnią długość słowa:

l CF \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + 0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

Jest jeszcze bliższy entropii: kod jest jeszcze bardziej skuteczny. Na rys. 2.12 przedstawia drzewo kod Hafman.

Tabela 2.3.

Kodowanie na algorytmie Hafman

N.	LICZBA PI.	kod	JA.	II.	III.	IV.	V.	Vi.	Vii.
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Oba kody spełniają wymóg dekodowania wyjątkowości: jak widać z tabel, krótsze kombinacje nie są początkiem dłuższych kodów.

Wraz ze wzrostem liczby symboli, skuteczność wzrostu kodów, więc w niektórych przypadkach zakodowała większe bloki (na przykład, jeśli rozmawiamy o tekstach, możesz kodować niektóre z najczęstszych sylab, słów, a nawet fraz).

Wpływ wdrażania takich kodów jest określony w porównaniu z jednolitym kodem:

(2.24)

gdzie n jest liczbą zrzutów jednolitego kodu, który zastępuje się skutecznym.

Modyfikacje kodów Khafman

Klasyczny algorytm Hafman odnosi się do dwóch pasywnych, tj. Wymaga wstępnego zestawu statystyk dotyczących symboli i wiadomości, a następnie opisane powyżej procedury. Jest niewygodne w praktyce, ponieważ zwiększa czas przetwarzania wiadomości i gromadzenie się słownika. Jednostkowe metody, w których łączą się akumulacje i procedury kodowania. Takie metody nazywane są również kompresją adaptacyjną wzdłuż Hafman [46].

Istota adaptacyjnej kompresji przez Hafman zmniejsza się do konstrukcji początkowego drzewa kodowego i jej spójnej modyfikacji po otrzymaniu każdego następnego symbolu. Jak wcześniej drzewa są binarne, tj. Od każdego wierzchołka wykresu - wystąpi maksymalnie dwa łuki. Jest to zwyczajne, aby zadzwonić do oryginalnego szczytu przez rodzic, a dwa powiązane kolejne wierzchołki - dzieci. Wprowadzamy koncepcję wagi wierzchołka - jest to liczba znaków (słów) odpowiadających temu wierzchołom uzyskanym, gdy stosowana jest początkowa sekwencja. Oczywiście suma skal dzieci jest równa ciężarowi rodzica.

Po wejściu do następnego symbolu sekwencji wejściowej, drzewo kodowe jest zmieniane: Ciężary wierzchołków są ponownie obliczane, a jeśli to konieczne, wierzchołki są przestawiane. Zasada przegrupowania wierzchołków w następujący sposób: Ciężary dolnych wierzchołków są najmniejsze, a wierzchołki pozostawione na kolumnie mają najmniejsze ciężary.

W tym samym czasie wierzchołki są ponumerowane. Numeracja zaczyna się od niższych (wiszących, tj. Kto nie ma dzieci) wierzchołków od lewej do prawej, a następnie przeniesiony wyższy poziom itp. do numeracji ostatniego, źródłowego wierzchołka. Jednocześnie osiąga się następujący wynik: mniejsza waga wierzchołka, tym mniejsza liczba.

Permentacja prowadzona jest głównie do zawieszania wierzchołków. Gdy permutacja jest rozpatrywana reguła formulacyjna: wierzchołki o dużej masy mają większą liczbę.

Po przejściu sekwencji (nazywana jest również sterowaniem lub testem), kombinacje kodów są przypisane do wszystkich wierzchołków wiszących. Reguła Przypisania reguły jest podobna do powyższego: liczba zrzutów kodu jest równa liczbie wierzchołków, przez którą trasa przebiega ze źródła do tego wiszącego wierzchołka, a wartość określonego wyłustnego odpowiada kierunku od rodzica do "Dziecko" (powiedzmy, przejście w lewo od rodzica odpowiada wartości 1, w prawo - 0).

Uzyskane kombinacje kodu są wprowadzane do pamięci urządzenia dociskowego wraz z ich analogami i formować słownik. Zastosowanie algorytmu jest następujące. Ściswarna sekwencja znaków jest podzielona na fragmenty zgodnie z istniejącym słownikiem, po czym każdy z fragmentów zostanie zastąpiony przez jego kod ze słownika. Fragmenty nie wykryte w słowniku tworzą nowe wierzchołki wiszące, przybierają wagę i są również wprowadzane do słownika. Jest to utworzone przez algorytm adaptacyjny dla uzupełniania słownika.

Aby zwiększyć wydajność metody, pożądane jest zwiększenie wielkości słownika; W tym przypadku współczynnik kompresji rośnie. Praktycznie rozmiar słownika jest 4 - 16 KB pamięci.

Zilustrujemy algorytm podany przez przykład. Na rys. 2.13 przedstawia diagram źródłowy (nazywany jest również drzewem Hafman). Każdy wierzchołek drewna jest pokazany przez prostokąt, w którym dwie cyfry są wpisane przez frakcję: Pierwszy oznacza liczbę wierzchołków, druga jest jego waga. Jak możesz upewnić się, że wtaje się wagi i ich liczby są spełnione.

Przypuśćmy, że symbol odpowiadający wierzchołek 1 w sekwencji testowej spotkał się z dodatkowym. Waga wierzchołków zmieniono, jak pokazano na FIG. 2.14 W rezultacie naruszono liczbę numeracji wierzchołka. Na następnym etapie zmieniamy układ wiszących wierzchołków, dla których zmieniamy wierzchołki 1 i 4 i renumeruje wszystkie wierzchołki drzewa. Wynikowy wykres jest pokazany na FIG. 2.15. Następnie procedura kontynuuje podobnie.

Należy pamiętać, że każdy wiszący szczyt w drzewie Hafman odpowiada konkretnym symbolem lub ich grupie. Rodzic różni się od dzieci przez fakt, że grupa bohaterów, jest dla niego odpowiedni, na krótki symbol, niż jego dzieci, a te dzieci różnią się w ostatnim symbolu. Na przykład rodzice odpowiadają symbolom "samochodu"; Wtedy dzieci mogą mieć sekwencje "Kara" i "karp".

Powyższy algorytm nie jest akademicki i jest aktywnie stosowany w programach - archiws, w tym podczas kompresji danych graficznych (zostaną omówione poniżej).

Lempel - Algorytmy Ziva

Są to najczęściej używane algorytmy kompresji. Są one używane w większości programów - archiws (na przykład PKZIP. ARJ, LHA). Istotą algorytmów jest to, że jakiś zestaw znaków zastępuje się, gdy archiwizują go w specjalnie wygenerowanym słowniku. Na przykład, często występując w sprawach frazy "na liście wychodzącym ..." może zajmować się w pozycji słownika 121; Następnie, zamiast przenosić lub przechowywania wspomnianego frazy (30 bajtów), można przechowywać numer frazy (1,5 bajtów w postaci binarnej - dziesiętną lub 1 bajt - w binarnym).

Algorytmy są nazwane na cześć autorów, którzy najpierw zaoferowali im w 1977 roku. Z nich pierwsza - LZ77. W celu archiwizacji tworzone jest tak zwane okno przesuwne składające się z dwóch części. Pierwsza część, większa format, służy do tworzenia słownika i ma rozmiar zamówienia kilku kilobajtów. W drugim, mniejsza część (zwykle do 100 bajtów) jest akceptowana przez bieżące znaki oglądane tekstu. Algorytm próbuje znaleźć w stylu zestawu znaków zbiegających się z oknem oglądanym. Jeśli jest to możliwe, wygenerowany jest kod składający się z trzech części: przemieszczenie w słowniku dotycząca jego początkowego podciążenia, długość tego podgrzewania obok tego znaku podłoża. Na przykład, dedykowane substrat składa się z symboli "aplikacji" (tylko 6 znaków), następujący symbol to "E". Następnie, jeśli substring ma adres (miejsce w słowniku) 45, nagranie w słowniku ma formularz "45, 6. E". Następnie zawartość okna przesuwa się do pozycji, a wyszukiwanie trwa. W ten sposób powstaje słownik.

Zaletą algorytmu jest łatwo sformalizowany algorytm do kompilowania słownika. Ponadto można rozpowszechniać i bez słownika początkowego (pożądane jest, aby mieć sekwencję testową) - słownik tworzy się w procesie Unymber.

Wady algorytmu pojawiają się wraz ze wzrostem wielkości słownika - wzrasta czas do wyszukiwania. Ponadto, jeśli brakuje ciąg znaków w bieżącym oknie, każdy symbol jest zapisywany na kod trzyksiężych, tj. Okazuje się, że nie kompresji, ale rozciąganie.

Najlepsze funkcje posiada algorytm LZSS proponowany w 1978 roku. Ma różnice w utrzymaniu przesuwnego okna i kodów wyjściowych sprężarki. Oprócz okna, algorytm tworzy drzewo binarne, podobne do drzewa Hafman, aby przyspieszyć wyszukiwanie zbieżności: Każdy podłoża opuszczający bieżące okno jest dodawane do drzewa jako jednego z dzieci. Taki algorytm umożliwia dalsze zwiększenie rozmiaru bieżącego okna (pożądane jest, aby jego wartość była równa stopniu dwóch: 128, 256 itp. Bajt). Kody sekwencji są również tworzone inaczej: 1-bitowy prefiks jest dodatkowo wprowadzany do odróżnienia nie przewidywanych znaków z par "przesunięcie, długość".

Otrzymuje się jeszcze większą kompresję przy użyciu algorytmów typu LZW. Wcześniej opisane algorytmy mają stały rozmiar okna, który prowadzi do niemożliwości wejścia do słownika fraz jest dłuższy niż rozmiar okna. W algorytmach LZW (i ich poprzednik LZ78) Okno widoku ma nieograniczony rozmiar, a słownik gromadzi frazę (a nie całość znaków jak wcześniej). Słownik ma nieograniczoną długość, a enkoder (dekoder) działa w trybie trybu gotowości. Po utworzeniu frazy, która zbiega się ze słownikiem, zostanie wydany kod zbiegności (tj. Kod tej frazy w słowniku) i kod następnego symbolu za nim. Jeśli jako symbole gromadzą się nową frazę, jest utworzony, jest również wpisany do słownika, jak najkrótszy. W rezultacie powstaje procedura rekurencyjna, zapewniająca szybkie kodowanie i dekodowanie.

Dodatkowa okazja Kompresja zapewnia skompresowane kodowanie powtarzających się znaków. Jeśli w sekwencji, niektóre znaki następują z rzędu (na przykład w tekście może być "przestrzeni" znaków, w sekwencji liczbowej - płynących zer itp.), Ma sens, aby zastąpić symbol swojej pary; długość "lub" znak, długość ". W pierwszym przypadku kod wskazuje funkcję, że sekwencja jest zakodowana (zwykle 1 bit), a następnie kodem symbolu powtarzającego się i długość sekwencji. W drugim przypadku (przewidziane dla najczęstszych powtarzających się symboli) w prefiksie wskazuje po prostu znak powtórzeń.