Sintesi e riconoscimento vocale. Soluzioni moderne. Apparecchiature audio del computer. Converti il \u200b\u200bsuono in un flusso di numeri. Compressione del suono: principio e impostazione Gamma dinamica compressa o standard

Il livello del suono è lo stesso in tutta la composizione, ci sono diverse pause.

Restringimento della gamma dinamica

Restringere la gamma dinamica, o semplicemente mettere compressione, è necessario per scopi diversi, il più comune dei quali:

1) Raggiungimento di un livello di volume uniforme nell'intera composizione (o parte dello strumento).

2) Raggiungere un livello di volume uniforme delle canzoni durante la trasmissione album / radio.

2) Miglioramento dell'intelligibilità, soprattutto quando si comprime una determinata parte (voce, grancassa).

Come si verifica il restringimento della gamma dinamica?

Il compressore analizza il livello sonoro all'ingresso confrontandolo con un valore di soglia definito dall'utente.

Se il livello del segnale è inferiore a Soglia - quindi il compressore continua ad analizzare il suono senza modificarlo. Se il livello del suono supera il valore di soglia, il compressore inizia la sua azione. Poiché il ruolo del compressore è restringere la gamma dinamica, è logico supporre che limiti i valori più grandi e più piccoli dell'ampiezza (livello del segnale). Nella prima fase, i valori più grandi sono limitati, che diminuiscono con una certa forza, che viene chiamata Rapporto (Atteggiamento). Diamo un'occhiata a un esempio:

Le curve verdi mostrano il livello del suono, maggiore è l'ampiezza delle loro oscillazioni dall'asse X - maggiore è il livello del segnale.

La linea gialla è la soglia del compressore. Aumentando il valore di Soglia, l'utente lo sposta dall'asse X. Abbassando il valore di Soglia, l'utente lo avvicina all'asse Y. È chiaro che più basso è il valore di soglia, più spesso il compressore funzionerà e viceversa, più alto sarà il minore. Se il valore del Rapporto è molto grande, quindi dopo aver raggiunto il livello del segnale di soglia, l'intero segnale successivo verrà soppresso dal compressore in silenzio. Se il valore del Rapporto è molto piccolo, non accadrà nulla. Soglia e rapporto saranno discussi più avanti. Ora dovremmo porci la seguente domanda: che senso ha sopprimere tutto il suono successivo? In effetti, questo non ha senso, dobbiamo solo sbarazzarci dei valori di ampiezza (picchi) che superano il valore di soglia (contrassegnato in rosso sul grafico). È per risolvere questo problema che esiste il parametro pubblicazione (Attenuazione), che imposta la durata della compressione.

L'esempio mostra che la prima e la seconda soglia superata durano meno della terza soglia superata. Pertanto, se si imposta il parametro Release sui primi due picchi, l'elaborazione del terzo potrebbe lasciare la parte non elaborata (poiché il superamento della soglia della soglia dura più a lungo). Se il parametro Release è impostato sul terzo picco, durante l'elaborazione del primo e del secondo picco si forma dietro una riduzione indesiderata del livello del segnale.

Lo stesso vale per il parametro Ratio. Se il parametro Ratio viene regolato sui primi due picchi, il terzo non verrà sufficientemente eliminato. Se il parametro Ratio è impostato per elaborare il terzo picco, l'elaborazione dei primi due picchi sarà troppo alta.

Questi problemi possono essere risolti in due modi:

1) Impostando il parametro di attacco (Attack) - una soluzione parziale.

2) Compressione dinamica: una soluzione completa.

Parametro etaki (attacco)ha lo scopo di impostare il tempo trascorso il quale il compressore inizierà a funzionare dopo aver superato la soglia di soglia. Se il parametro è vicino allo zero (uguale a zero in caso di compressione parallela, vedere l'articolo corrispondente), il compressore inizierà immediatamente a sopprimere il segnale e il tempo specificato dal parametro Release funzionerà. Se la velocità di attacco è alta, il compressore inizierà la sua azione dopo un certo periodo di tempo (ciò è necessario per chiarire). Nel nostro caso, puoi configurare i parametri di soglia (Soglia), attenuazione (Rilascio) e livello di compressione (Rapporto) per elaborare i primi due picchi e impostare il valore di attacco (Attacco) su quasi zero. Quindi il compressore sopprimerà i primi due picchi e, durante l'elaborazione del terzo, lo sopprimerà fino al superamento della soglia (Soglia). Tuttavia, ciò non garantisce un'elaborazione del suono di alta qualità ed è vicino alla limitazione (un taglio approssimativo di tutti i valori di ampiezza, in questo caso il compressore è chiamato limitatore).

Diamo un'occhiata al risultato dell'elaborazione del suono da parte del compressore:

I picchi sono scomparsi, noto che le impostazioni di elaborazione erano piuttosto parsimoniose e abbiamo soppresso solo i valori di ampiezza più importanti. In pratica, la gamma dinamica si restringe molto di più e questa tendenza sta solo progredendo. Nella mente di molti compositori - rendono la musica più forte, ma in pratica la privano completamente della dinamica per quegli ascoltatori che possono ascoltarla a casa e non alla radio.

Resta da considerare l'ultimo parametro di compressione, questo Guadagno(Guadagno). Il guadagno è progettato per aumentare l'ampiezza dell'intera composizione e, in sostanza, equivale a un altro strumento di editor di suoni: la normalizzazione. Diamo un'occhiata al risultato finale:

Nel nostro caso, la compressione era giustificata e migliorava la qualità del suono, poiché il picco che risalta è più un incidente che un risultato intenzionale. Inoltre, si può vedere che la musica è ritmica, quindi ha una gamma dinamica ristretta. Nei casi in cui sono state fatte specifiche ampiezze elevate, la compressione può essere un errore.

Compressione dinamica

La differenza tra compressione dinamica e compressione non dinamica è che al primo livello di soppressione del segnale (Rapporto) dipende dal livello del segnale in ingresso. Esistono compressori dinamici in tutti i programmi moderni, i parametri Ratio e Threshold sono controllati tramite la finestra (ogni parametro ha il suo asse):

Non esiste un unico standard per la visualizzazione del grafico, da qualche parte lungo l'asse Y viene visualizzato il livello del segnale in ingresso, da qualche parte al contrario, il livello del segnale dopo la compressione. Da qualche parte, il punto (0,0) si trova nell'angolo in alto a destra, da qualche parte in basso a sinistra. In ogni caso, quando si sposta il cursore del mouse su questo campo, i valori delle cifre che corrispondono ai parametri Rapporto e Soglia cambiano. Coloro. È possibile impostare il livello di compressione per ciascun valore di soglia, in modo da poter configurare la compressione in modo molto flessibile.

Catena laterale

Il compressore a catena laterale analizza il segnale di un canale e quando il livello del suono supera una soglia, applica la compressione a un altro canale. La catena laterale ha i suoi vantaggi di lavorare con strumenti che si trovano nello stesso dominio di frequenza (viene utilizzato attivamente il barilotto basso-basso), ma a volte vengono anche utilizzati strumenti situati in diverse regioni di frequenza, il che porta a un interessante effetto catena laterale.

Parte seconda - Fasi di compressione

Esistono tre fasi di compressione:

1) Il primo stadio è la compressione di singoli suoni (singoli).

Il timbro di qualsiasi strumento ha le seguenti caratteristiche: Attack, Hold, Decay, Delay, Sustain, Release.

Lo stadio di compressione dei singoli suoni è diviso in due parti:

1.1) Compressione dei singoli suoni degli strumenti ritmici

Spesso, i bit costituenti richiedono una compressione separata per dare loro chiarezza. Molti elaborano la grancassa separatamente dagli altri strumenti ritmici, sia nella fase di compressione dei singoli suoni, sia nella fase di compressione delle singole parti. Ciò è dovuto al fatto che si trova nella regione delle basse frequenze, dove oltre ad esso di solito sono presenti solo i bassi. La chiarezza del barilotto dei bassi indica la presenza di un clic caratteristico (il barilotto dei bassi ha un attacco e un tempo di attesa molto brevi). Se non vi è alcun clic, è necessario elaborarlo con un compressore, impostando la soglia su zero e il tempo di attacco da 10 a 50 ms. Il Realese del compressore dovrebbe terminare prima che il calcio dei bassi colpisca di nuovo. L'ultimo problema può essere risolto usando la formula: 60.000 / BPM, dove BPM è il tempo della composizione. Quindi, per esempio) 60.000 / 137 \u003d 437,96 (tempo in millisecondi a una nuova forte quota della composizione quadridimensionale).

Tutto quanto sopra si applica ad altri strumenti ritmici con un breve tempo di attacco: devono avere un clic accentato, che non dovrebbe essere soppresso dal compressore in nessuna delle fasi dei livelli di compressione.

1.2) Compressione suoni individuali strumenti armonici

A differenza degli strumenti ritmici, parti di strumenti armonici sono abbastanza raramente composte da singoli suoni. Tuttavia, ciò non significa che non debbano essere elaborati a livello di compressione dei suoni. Se si utilizza un campione con una parte registrata, questo è il secondo livello di compressione. Solo gli strumenti armonici sintetizzati appartengono a questo livello di compressione. Può essere campionatore, sintetizzatore che utilizza vari metodi di sintesi sonora (modellazione fisica, FM, additivo, sottrattivo, ecc.). Come probabilmente hai già indovinato, stiamo parlando della programmazione delle impostazioni del sintetizzatore. Sì! Anche questa è una compressione! Quasi tutti i sintetizzatori hanno un parametro di inviluppo programmabile (ADSR), che significa inviluppo. La busta imposta il tempo per Attack, Decay, Sustain, Release. E se mi dici che questa non è una compressione di ogni singolo suono, sei il mio nemico per la vita!

2) La seconda fase - Compressione delle singole parti.

Con la compressione di singole parti, capisco il restringimento della gamma dinamica di un numero di singoli suoni combinati. Questa fase include anche la registrazione di parti, compresa la voce, che richiedono un'elaborazione di compressione per dargli chiarezza e leggibilità. Quando si comprimono i batch, è necessario tenere conto del fatto che quando si aggiungono suoni separati, potrebbero apparire picchi indesiderati, che è necessario eliminare in questa fase, perché se non lo si fa ora, l'immagine potrebbe essere aggravata nella fase di miscelazione dell'intera composizione. Nella fase di compressione delle singole parti, è necessario tenere conto della compressione della fase di elaborazione dei singoli suoni. Se hai raggiunto la chiarezza del barilotto dei bassi, un ritrattamento improprio nel secondo stadio può rovinare tutto. L'elaborazione di tutte le parti con un compressore è opzionale, così come l'elaborazione di tutti i singoli suoni. Vi consiglio di mettere un analizzatore di ampiezza per ogni evenienza per determinare la presenza di effetti collaterali indesiderati della combinazione di singoli suoni. Oltre alla compressione in questa fase, è necessario garantire che le parti si trovino, se possibile, in diversi intervalli di frequenza, in modo che venga eseguita la quantizzazione. È anche utile ricordare che il suono ha una caratteristica come il travestimento (psicoacustica):

1) Un suono più silenzioso è mascherato da un suono più forte che gli sta di fronte.

2) Un suono più silenzioso a bassa frequenza è mascherato da un suono più forte ad alta frequenza.

Quindi, ad esempio, se hai una parte di un sintetizzatore, allora spesso le note iniziano a suonare prima che le note precedenti finiscano il loro suono. A volte è necessario (creare armonia, stile di gioco, polifonia), ma a volte no affatto - puoi tagliare la loro fine (Ritardo - Rilascio) se viene ascoltato in modalità Solo, ma non ascoltato nella modalità di riproduzione di tutte le parti. Lo stesso vale per gli effetti, come il riverbero: non dovrebbe durare fino a quando la sorgente sonora non si riavvia. Tagliare ed eliminare un segnale non necessario - rendi il suono più pulito e questo può anche essere considerato come compressione - perché rimuovi le onde non necessarie.

3) Il terzo stadio - Compressione della composizione.

Quando si comprime l'intera composizione, si deve tener conto del fatto che tutte le parti sono l'unione di molti suoni separati. Pertanto, quando li combini e la successiva compressione, è necessario assicurarsi che la compressione finale non rovini ciò che abbiamo ottenuto nelle prime due fasi. È anche necessario separare le composizioni in cui è importante un intervallo ampio o stretto. quando si comprimono composizioni con un ampio intervallo dinamico, è sufficiente inserire un compressore che schiacci i picchi a breve termine che si formano a seguito dell'aggiunta di lotti tra loro. Quando si comprime una composizione in cui è importante una gamma dinamica ristretta, tutto è molto più complicato. Qui, i compressori sono stati recentemente chiamati massimizzatori. Maximizer è un plugin che combina un compressore, un limitatore, un equalizzatore graffico, un potenziatore e altri strumenti di conversione del suono. Allo stesso tempo, deve avere strumenti di analisi del suono. L'ottimizzazione, l'elaborazione finale da parte del compressore, è ampiamente necessaria per combattere gli errori commessi nelle fasi precedenti. Gli errori non sono tanta compressione (tuttavia, se si fa nell'ultimo stadio ciò che si potrebbe fare nel primo stadio è già un errore), ma nella scelta iniziale di buoni campioni e strumenti che non interferirebbero tra loro (stiamo parlando di intervalli di frequenza) . È per questo che la risposta in frequenza è corretta. Accade spesso che con una forte compressione sul master, è necessario modificare i parametri e le informazioni di compressione nelle fasi precedenti, poiché con un forte restringimento della gamma dinamica, vengono emessi suoni silenziosi che in precedenza erano mascherati, il suono dei singoli componenti della composizione cambia.

Da queste parti, non ho deliberatamente parlato dei parametri specifici della compressione. Ho ritenuto necessario scrivere che durante la compressione è necessario prestare attenzione a tutti i suoni e tutte le parti in tutte le fasi della creazione della composizione. Solo alla fine otterrai un risultato armonioso, non solo in termini di teoria musicale, ma anche in termini di ingegneria del suono.

La tabella seguente fornisce consigli pratici sull'elaborazione di singoli lotti. Tuttavia, in compressione, numeri e impostazioni predefinite possono solo dire l'area desiderata nel distretto di cui devi guardare. Le impostazioni di compressione ideali dipendono da ogni singolo caso. I parametri di guadagno e soglia indicano un livello sonoro normale (uso logico dell'intero intervallo).

Parte terza - Opzioni di compressione

Riferimento rapido:

Soglia (soglia): determina il livello sonoro del segnale in ingresso, al raggiungimento del quale il compressore inizia a funzionare.

Attack (Attack) - determina il tempo dopo il quale il compressore inizierà a funzionare.

Livello (rapporto): determina il grado di diminuzione dei valori di ampiezza (rispetto al valore di ampiezza originale).

Rilascio: determina il tempo trascorso il quale il compressore smetterà di funzionare.

Guadagno: determina il livello di aumento del segnale in ingresso, dopo l'elaborazione da parte del compressore.

Tabella di compressione:

Attrezzo	Soglia	attacco	Rapporto	pubblicazione	Guadagno	Descrizione
vocals	0 db	1-2 ms 2-5 mS 10 ms 0,1 ms 0,1 ms	meno di 4: 1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 ms 50-100 mS 150 ms 150 ms 0.5s		La compressione durante la registrazione dovrebbe essere minima, richiede l'elaborazione obbligatoria in fase di missaggio per dare chiarezza e leggibilità.
Strumenti a fiato		1 - 5ms	6:1 – 15:1	0.3s
barile		da 10 a 50 ms 10-100 mS	4: 1 e versioni successive 10:1	50-100 ms 1 mS		Più basso è il Thrshold e maggiore è il rapporto e più lungo è l'attacco, più pronunciato il clic all'inizio della canna.
Sintetizzatori						Dipende dal tipo di onda (inviluppo ADSR).
Tamburo rullante:		10-40 mS 1-5ms	5:1 5:1 – 10:1	50 mS 0.2s
Ciao cappello		20 mS	10:1	1 mS
Microfoni per la testa		2-5 mS	5:1	1-50 mS
batteria		5ms	5:1 – 8:1	10ms
Bas-chitarra		100-200 mS 4ms a 10ms	5:1	1 mS 10ms
Corda		0-40 mS	3:1	500 mS
Sint. basso		4ms - 10ms	4:1	10ms		Dipende dalle buste.

Percussione		0-20 mS	10:1	50 mS
Chitarra acustica, pianoforte		10-30 mS 5 - 10ms	4:1 5:1 -10:1	50-100 mS 0.5s
Electro-Nitara		2 - 5ms	8:1	0.5s

Compressione finale		0,1 ms 0,1 ms	2:1 da 2: 1 a 3: 1	50 ms 0,1 ms	0 dB in uscita	Il tempo di attacco dipende dall'obiettivo: se rimuovere i picchi o rendere la traccia più fluida.
Limitatore dopo la compressione finale		0 mS	10:1	10-50 mS	0 dB in uscita	Se hai bisogno di una gamma dinamica ristretta e di un "taglio" approssimativo delle onde.

Le informazioni sono state prese da varie fonti a cui fanno riferimento risorse di pot-pourri su Internet. La differenza nei parametri di compressione è spiegata dalla differenza nelle preferenze audio e nel lavoro con materiali diversi.

Le persone appassionate del suono domestico dimostrano un paradosso interessante. Sono pronti a spalare la stanza di ascolto, a costruire altoparlanti con emettitori esotici, ma sono imbarazzati a ritirarsi davanti alla musica in scatola, come un lupo davanti a una bandiera rossa. Ma in realtà, perché non puoi scavalcare la bandiera e provare a cucinare qualcosa di più commestibile dal cibo in scatola?

Periodicamente, il forum solleva domande pietose: "Consiglia album ben registrati". È comprensibile. Pubblicazioni speciali audiofili, anche se per il primo minuto piaceranno all'audizione, ma nessuno le ascolta fino alla fine, il repertorio è troppo noioso. Per quanto riguarda il resto della biblioteca musicale, il problema sembra essere evidente. È possibile risparmiare, ma non è possibile salvare e gonfiare la svolta del denaro nei componenti. Ad ogni modo, poche persone amano ascoltare la loro musica preferita ad alto volume e l'amplificatore non ha nulla a che fare con essa.

Oggi, anche negli album ad alta risoluzione, i picchi di fonogrammi vengono tagliati e il volume viene portato al ritaglio. Si ritiene che la maggioranza ascolti musica in tutti i tipi di spazzatura, e quindi è necessario "rinunciare al gas", per fare una specie di volume.

Naturalmente, questo non è fatto specificamente per sconvolgere gli audiofili. Poche persone li ricordano affatto. A parte il fatto che hanno indovinato di liberare loro i file master da cui viene copiata la circolazione principale: CD, MP3 e altro ancora. Naturalmente, il compressore è stato a lungo appiattito dal compressore, nessuno preparerà consapevolmente versioni speciali per le tracce HD. A meno che non venga eseguita una determinata procedura per un supporto in vinile, che per questo motivo sembra più umano. E per il percorso digitale, tutto finisce allo stesso modo: un grande compressore spesso.

Quindi, al momento, tutto il 100% dei fonogrammi pubblicati, meno la musica classica, è soggetto a compressione durante il mastering. Qualcuno esegue questa procedura più o meno abilmente e qualcuno è completamente stupido. Di conseguenza, abbiamo pellegrini sui forum con la linea di plug-in DR nel petto, dolorosi confronti di pubblicazioni, volo in vinile, dove è anche necessario estrarre le prime macchine da stampa.

I più gelati alla vista di tutti questi oltraggi si sono letteralmente trasformati in satanisti audio. Non scherzando, leggono le scritture del sound engineering al contrario! I moderni programmi di editing del suono hanno una sorta di strumento di recupero dell'onda sonora di ritaglio.

Inizialmente, questa funzionalità era destinata agli studi. Durante il missaggio, ci sono situazioni in cui il clipping ha ottenuto il record ed è già impossibile ricreare la sessione per una serie di motivi, e qui l'arsenale dell'editor audio viene in soccorso: declipper, decompressore, ecc.

E ora gli ascoltatori ordinari, che hanno sanguinamenti dalle orecchie dopo un'altra novità, stanno tirando sempre più audacemente penne su tale software. Qualcuno preferisce iZotope, qualcuno Adobe Audition, qualcuno condivide l'operazione tra diversi programmi. Il significato del ripristino della dinamica precedente risiede nella correzione software dei picchi di segnale troncati, che, riposando a 0 dB, assomigliano a una marcia.

Sì, non stiamo parlando di un revival del 100% della fonte, poiché esistono processi di interpolazione che utilizzano algoritmi piuttosto speculativi. Tuttavia, alcuni dei risultati di elaborazione mi sono sembrati interessanti e degni di studio.

Ad esempio, l'album di Lana Del Rey “Lust For Life”, che è costantemente fottutamente bestemmiato, pah, spazzato! Nella canzone originale "When the World Was at War We Kept Dancing" è stato così.

E dopo una serie di declipper e decompressori, è stato così. Il coefficiente DR è cambiato da 5 a 9. È possibile scaricare e ascoltare il campione prima e dopo l'elaborazione.

Non posso dire che il metodo sia universale e adatto a tutti gli album morenti, ma in questo caso ho scelto di mantenere questa particolare versione elaborata dall'attivista rutracker invece dell'edizione ufficiale a 24 bit.

Anche se tirare artificialmente i picchi dalla carne macinata non restituisce la vera dinamica della performance musicale, il tuo DAC continuerà a dire grazie. È stato così difficile per lui lavorare senza errori ai livelli estremi, dove la probabilità di comparsa dei cosiddetti picchi intersample (ISP) è alta. E ora solo i rari lampi di un segnale salteranno a 0 dB. Inoltre, un fonogramma silenzioso quando compresso in FLAC o un altro codec senza perdita di dati avrà ora dimensioni inferiori. Più "aria" nel segnale consente di risparmiare spazio sul disco rigido.

Prova a far rivivere i tuoi album più odiati, uccisi nella "guerra dei volumi". Per immagazzinare la dinamica, devi prima abbassare il livello della traccia di -6 dB, quindi eseguire il declipper. Coloro che non credono che i computer possano semplicemente attaccare un espansore da studio tra il lettore CD e l'amplificatore. Questo dispositivo essenzialmente fa la stessa cosa: come può ripristinare e allungare i picchi di un segnale audio compresso. Esistono dispositivi simili degli anni 80-90 per non dire che è molto costoso e, come esperimento, provarli sarà molto interessante.

Il controller di gamma dinamica DBX 3BX elabora il segnale separatamente in tre bande: LF, MF e HF

Gli equalizzatori una volta facevano parte del sistema audio per scontato, e nessuno ne aveva paura. Oggi non è necessario equalizzare il blocco delle alte frequenze del nastro magnetico, ma con brutte dinamiche è necessario risolvere qualcosa, fratelli.

Compressione dinamica (Compressione della gamma dinamica, DRC) - restringimento (o espansione nel caso di un espansore) della gamma dinamica del fonogramma. Gamma dinamica, questa è la differenza tra i suoni più silenziosi e più forti. A volte il suono più silenzioso nella colonna sonora sarà un po 'più forte del livello di rumore, a volte un po' più silenzioso del più forte. I dispositivi hardware e i programmi che eseguono la compressione dinamica sono chiamati compressori, distinguendo tra loro quattro gruppi principali: in realtà compressori, limitatori, espansori e gate.

DBX 566 Compressore analogico a valvole

Riduzione e aumento della compressione

Compressione verso il basso (Compressione verso il basso) riduce il volume del suono quando inizia a superare un determinato valore di soglia, lasciando invariati i suoni più silenziosi. Un'opzione estrema per la compressione verso il basso è limitatore. Aumenta la compressione (Compressione verso l'alto), al contrario, aumenta il volume del suono se è inferiore al valore di soglia senza influire sui suoni più forti. Allo stesso tempo, entrambi i tipi di compressione restringono la gamma dinamica del segnale audio.

Compressione verso il basso

Aumenta la compressione

Expander e Gate

Se il compressore riduce la gamma dinamica, l'espansore la aumenta. Quando il livello del segnale supera il livello di soglia, l'espansore lo aumenta ulteriormente, aumentando così la differenza tra suoni forti e bassi. Tali dispositivi vengono spesso utilizzati durante la registrazione di un drum kit per separare i suoni di alcuni tamburi da altri.

Viene chiamato il tipo di espansore che viene utilizzato non per amplificare ad alta voce, ma per attutire i suoni silenziosi che non superano il livello di soglia (ad esempio, il rumore di fondo) Noise gate. In tale dispositivo, non appena il livello del suono diventa inferiore alla soglia, il flusso del segnale si interrompe. In genere, un gate viene utilizzato per sopprimere il rumore di pausa. Su alcuni modelli, è possibile assicurarsi che il suono quando raggiunge il livello di soglia non si interrompa bruscamente, ma si attenui gradualmente. In questo caso, il tasso di decadimento viene impostato dal controllo Decadimento.

Un gate, come altri tipi di compressori, può essere dipendente dalla frequenza (ovvero gestire determinate bande di frequenza in modo diverso) e può funzionare in modalità catena laterale (vedi sotto).

Principio di funzionamento del compressore

Il segnale che entra nel compressore è diviso in due copie. Una copia viene inviata all'amplificatore, in cui il grado di amplificazione è controllato da un segnale esterno, la seconda copia forma questo segnale. Entra in un dispositivo chiamato side-chain, in cui viene misurato il segnale, e sulla base di questi dati viene creato un inviluppo che descrive la variazione del suo volume.
Ecco come funzionano i compressori più moderni, questo è il cosiddetto tipo feed-forward. Nei dispositivi meno recenti (feedback di tipo), il livello del segnale viene misurato dopo l'amplificatore.

Esistono varie tecnologie analogiche di amplificazione a guadagno variabile, ognuna con i suoi vantaggi e svantaggi: tubo, ottica con fotoresistori e transistor. Quando si lavora con l'audio digitale (in un editor audio o DAW), è possibile utilizzare i propri algoritmi matematici o simulare il lavoro delle tecnologie analogiche.

Parametri chiave del compressore

Soglia

Il compressore riduce il livello del segnale audio se la sua ampiezza supera un determinato valore di soglia (soglia). Di solito è specificato in decibel, con una soglia più bassa (ad esempio, -60 dB) significa che verrà elaborato più suono rispetto a una soglia più alta (ad esempio, -5 dB).

Rapporto

Il grado di riduzione del livello è determinato dal parametro ratio: ratio 4: 1 significa che se il livello di input è 4 dB più alto della soglia, il livello del segnale di output sarà 1 dB più alto della soglia.
Per esempio:
Soglia \u003d −10 dB
Ingresso \u003d −6 dB (4 dB superiore alla soglia)
Segnale di uscita \u003d −9 dB (1 dB sopra il livello di soglia)

È importante tenere presente che la soppressione del livello del segnale continua per qualche tempo dopo che scende al di sotto del livello di soglia, e questo tempo è determinato dal valore del parametro pubblicazione.

La compressione con un rapporto massimo ∞: 1 si chiama limitazione. Ciò significa che qualsiasi segnale al di sopra del livello di soglia viene soppresso al livello di soglia (tranne per un breve periodo dopo un forte aumento del volume di ingresso). Vedi sotto "Limiter" per i dettagli.

Esempi di diversi valori di rapporto

Attacco e rilascio

Il compressore fornisce un certo controllo sulla velocità con cui risponde ai cambiamenti nella dinamica del segnale. Il parametro Attack determina il tempo durante il quale il compressore riduce il guadagno al livello determinato dal parametro Ratio. Il rilascio determina il tempo durante il quale il compressore, al contrario, aumenta il guadagno o torna alla normalità se il livello del segnale di ingresso scende al di sotto di un valore di soglia.

Fasi di attacco e rilascio

Questi parametri indicano il tempo (di solito in millisecondi) impiegato per modificare il guadagno di una certa quantità di decibel, di solito 10 dB. Ad esempio, in questo caso, se Attack è impostato su 1 ms, occorreranno 1 ms per ridurre il guadagno di 10 dB e 2 ms di 20 dB.

In molti compressori, i parametri Attack e Release possono essere regolati, ma in alcuni sono impostati inizialmente e non sono regolabili. A volte vengono definiti "automatici" o "dipendenti dal programma", ad es. variare a seconda del segnale di ingresso.

Ginocchio

Un altro parametro del compressore: ginocchio duro / morbido. Determina se l'inizio della compressione sarà acuto (difficile) o graduale (morbido). Il ginocchio morbido riduce la percettibilità della transizione dal segnale non elaborato al segnale sottoposto a compressione, specialmente a valori di Rapporto elevati e aumenti di volume netti.

Compressione del ginocchio duro e del ginocchio morbido

Picco e RMS

Il compressore può rispondere ai valori di picco (massimo a breve termine) o al livello medio del segnale di ingresso. L'uso di valori di picco può portare a forti fluttuazioni del grado di compressione e persino alla distorsione. Pertanto, i compressori utilizzano la funzione di media (di solito un RMS) del segnale di ingresso quando lo confrontano con un valore di soglia. Questo dà una compressione più confortevole, vicino alla percezione umana del volume.

RMS - un parametro che riflette il volume medio del fonogramma. Da un punto di vista matematico, RMS (Root Mean Square) è il valore rms dell'ampiezza di un certo numero di campioni:

Collegamento stereo

Il compressore in modalità collegamento stereo applica lo stesso guadagno ad entrambi i canali stereo. Ciò evita lo spostamento del panorama stereo, che può derivare dall'elaborazione individuale dei canali sinistro e destro. Tale spostamento si verifica se, ad esempio, un elemento forte viene spostato fuori centro.

Guadagno di trucco

Poiché il compressore riduce il livello generale del segnale, viene solitamente aggiunta la possibilità di un guadagno fisso in uscita, che consente di ottenere il livello ottimale.

Guarda avanti

La funzione look-ahead è progettata per risolvere problemi inerenti valori di attacco e rilascio troppo grandi e troppo piccoli. Un tempo di attacco troppo lungo non ci consente di intercettare efficacemente i transitori e un tempo troppo breve potrebbe non essere comodo per l'ascoltatore. Quando si utilizza la funzione look-ahead, il segnale principale viene ritardato rispetto al segnale di controllo, ciò consente di avviare la compressione in anticipo, anche prima che il segnale raggiunga un valore di soglia.
L'unico inconveniente di questo metodo è il ritardo del segnale, che in alcuni casi è indesiderabile.

Utilizzando la compressione dinamica

La compressione viene utilizzata ovunque, non solo nei fonogrammi musicali, ma ovunque sia necessario aumentare il volume complessivo senza aumentare i livelli di picco, dove vengono utilizzate apparecchiature di riproduzione del suono economiche o un canale di trasmissione limitato (sistemi di avviso e comunicazione, radio amatoriali, ecc.) .

La compressione viene utilizzata quando si suona musica di sottofondo (in negozi, ristoranti, ecc.), Dove sono indesiderabili eventuali cambiamenti di volume.

Ma il più importante campo di applicazione della compressione dinamica è la produzione e la trasmissione di musica. La compressione viene utilizzata per dare al suono "densità" e "unità", per una migliore combinazione di strumenti tra loro, e specialmente durante l'elaborazione della voce.

Le parti vocali della musica rock e pop sono generalmente compresse per evidenziarle contro l'accompagnamento e aggiungere chiarezza. Un tipo speciale di compressore, sintonizzato solo su determinate frequenze - de-esser, viene utilizzato per sopprimere i fonemi sibilanti.

Nelle parti strumentali, la compressione viene utilizzata anche per effetti non direttamente correlati al volume, ad esempio i suoni di batteria in rapido decadimento possono allungarsi.

Nella musica dance elettronica (EDM), viene spesso utilizzata la concatenazione laterale (vedi sotto) - ad esempio, la linea di basso può essere controllata da un calcio o qualcosa di simile per prevenire un conflitto tra basso e batteria e creare un'increspatura dinamica.

La compressione è ampiamente utilizzata nella trasmissione broadcast (radio, televisione, trasmissione Internet) per aumentare il volume percepito riducendo la gamma dinamica dell'audio originale (di solito un CD). La maggior parte dei paesi ha restrizioni legali sul volume massimo istantaneo che può essere trasmesso. In genere, queste restrizioni sono implementate da compressori hardware permanenti nel circuito eterico. Inoltre, un aumento del volume percepito migliora la "qualità" del suono dal punto di vista della maggior parte degli ascoltatori.

Guarda anche Loudness war.

Un aumento sequenziale del volume della stessa canzone, rimasterizzato per CD dal 1983 al 2000.

Side-chaining

Un altro interruttore del compressore comune è la catena laterale. In questa modalità, il suono viene compresso non in base al proprio livello, ma in base al livello del segnale fornito al connettore, che di solito viene chiamato catena laterale.

Ci sono molti usi per questo. Ad esempio, il cantante sta leccando e tutte le lettere "c" si distinguono dal quadro generale. Fai passare la sua voce attraverso il compressore e nel connettore a catena laterale dai lo stesso suono, ma passa attraverso l'equalizzatore. Sull'equalizzatore, rimuovi tutte le frequenze tranne quelle usate dal cantante quando pronuncia la lettera "c". Di solito circa 5 kHz, ma può variare da 3 kHz a 8 kHz. Se poi si mette il compressore in modalità catena laterale, la compressione vocale avverrà nei momenti in cui la lettera "c" è pronunciata. Pertanto, è stato ottenuto un dispositivo noto come de-esser. Questo modo di lavorare è chiamato "dipendente dalla frequenza".

Un altro uso di questa funzione è chiamato ducker. Ad esempio, su una stazione radio, la musica passa attraverso un compressore e le parole di un DJ passano attraverso una catena laterale. Quando un DJ inizia a chattare, il volume della musica diminuisce automaticamente. Questo effetto può anche essere applicato con successo nelle registrazioni, ad esempio, per ridurre il volume delle parti della tastiera mentre si canta.

Limitazione del muro di mattoni

Il compressore e il limitatore funzionano all'incirca allo stesso modo, possiamo dire che il limitatore è un compressore con un rapporto elevato (da 10: 1) e, di solito, un tempo di attacco basso.

C'è il concetto di limitazione del muro di mattoni - limitazione con un rapporto molto alto (da 20: 1 e superiore) e un attacco molto veloce. Idealmente, generalmente non consente al segnale di superare il livello di soglia. Il risultato sarà sgradevole a orecchio, ma impedirà danni alle apparecchiature di riproduzione del suono o superando la larghezza di banda del canale. Molti produttori integrano limitatori nei loro dispositivi proprio per questo scopo.

Clipper vs. Limiter, ritaglio morbido e duro

, Lettori multimediali

I dischi, in particolare quelli vecchi che erano stati registrati e realizzati prima del 1982, avevano molte meno probabilità di essere mixati, durante i quali la registrazione sarebbe stata resa più forte. Riproducono musica naturale con una gamma dinamica naturale che viene memorizzata sul disco e viene persa nella maggior parte dei formati standard digitali o ad alta risoluzione.

Naturalmente ci sono delle eccezioni: ascolta l'album recentemente pubblicato da Stephen Wilson da MA Recordings o Reference Recordings e sentirai quanto può essere buono il suono digitale. Ma è raro, le registrazioni più moderne sono rumorose e compresse.

Ultimamente, la compressione della musica è stata fortemente criticata, ma sono disposto a sostenere che quasi tutte le tue registrazioni preferite sono compresse. Alcuni sono meno, altri ancora, ma ancora compressi. La compressione della gamma dinamica è una specie di capro espiatorio, accusato del povero suono musicale, ma la musica ad alta compressione non è una nuova tendenza: ascoltare gli album dei Motown degli anni '60. Lo stesso si può dire delle opere classiche dei Led Zeppelin o degli album più giovani Wilco e Radiohead. La compressione della gamma dinamica riduce la relazione naturale tra il suono più forte e più silenzioso nella registrazione, quindi un sussurro può essere forte come un urlo. È abbastanza problematico trovare musica pop degli ultimi 50 anni che non sia stata sottoposta a compressione.

Di recente ho avuto una bella chiacchierata con il fondatore ed editore della rivista Tape Op Larry Crane sugli aspetti positivi, negativi e negativi della compressione. Larry Crane ha lavorato con band e artisti come Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi e Richmond Fontaine. Gestisce anche Jackpot! a Portland, in Oregon, che ospitava The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him e molti, molti altri.

Come esempio di suoni sorprendentemente innaturali, ma comunque di grandi canzoni, ho citato l'album di Spoon "They Want My Soul", pubblicato nel 2014. Crane ride e dice che lo ascolta in macchina, perché suona benissimo lì. Il che ci porta a un'altra risposta alla domanda sul perché la musica sia compressa: perché la compressione e l'ulteriore “chiarezza” rendono più facile l'ascolto in luoghi rumorosi.

Larry Crane al lavoro. Foto di Jason Quigley

Quando la gente dice che gli piace il suono di una registrazione audio, penso che gli piaccia la musica, come se il suono e la musica fossero termini inseparabili. Ma per me stesso, differenzio questi concetti. Dal punto di vista dell'amante della musica, il suono può essere grezzo e rozzo, ma per la maggior parte degli ascoltatori non importa.

Molte persone hanno fretta di accusare gli ingegneri del mastering di abusare della compressione, ma la compressione viene applicata direttamente durante la registrazione, durante il missaggio e solo successivamente durante il mastering. Se non eri presente personalmente in ciascuna di queste fasi, non sarai in grado di dire come suonavano gli strumenti e la parte vocale all'inizio del processo.

Crane era scioccato: "Se un musicista vuole intenzionalmente rendere un suono pazzo e distorto come Guided by Voices, non c'è nulla di sbagliato in questo - il desiderio supera sempre la qualità del suono". La voce dell'artista è quasi sempre compressa, la stessa cosa accade con bassi, batteria, chitarre e sintetizzatori. Usando la compressione, il volume vocale viene mantenuto al livello desiderato per tutta la canzone o si distingue un po 'dal resto dei suoni.

La compressione eseguita correttamente può rendere il suono dei tamburi più vivace o intenzionalmente strano. Affinché la musica suoni alla grande, devi essere in grado di utilizzare gli strumenti necessari per questo. Ecco perché ci vogliono anni per capire come usare la compressione e non esagerare. Se l'ingegnere del mix ha schiacciato troppo la parte di chitarra, l'ingegnere del master non sarà più in grado di ripristinare completamente le frequenze mancanti.

Se i musicisti volessero che tu ascoltassi musica che non ha attraversato le fasi del missaggio e del mastering, la lasceresti sugli scaffali dei negozi direttamente dallo studio. Crane afferma che le persone che creano, montano, mixano e registrano registrazioni musicali non esistono per mettersi sotto i piedi dei musicisti - hanno aiutato gli artisti sin dall'inizio, cioè da più di cento anni.

Queste persone fanno parte del processo di creazione, che si traduce in incredibili opere d'arte. Crane aggiunge: "Non hai bisogno di una versione di Dark Side of the Moon che non sia stata sottoposta a missaggio e mastering". I Pink Floyd pubblicarono la canzone nella forma in cui volevano ascoltarla.

Questo gruppo di metodi si basa sul fatto che i segnali trasmessi subiscono trasformazioni di ampiezza non lineari e nelle parti trasmittenti e riceventi della non linearità sono reciproci. Ad esempio, se il trasmettitore utilizza la funzione non lineare Öu, il ricevitore utilizza u 2. L'applicazione coerente di funzioni reciproche porterà al fatto che in generale la trasformazione rimane lineare.

L'idea di metodi non lineari di compressione dei dati è ridotta al fatto che il trasmettitore con la stessa ampiezza dei segnali di uscita può trasmettere una gamma più ampia di variazione del parametro trasmesso (cioè una gamma dinamica più ampia). Gamma dinamica è il rapporto, espresso in unità relative o decibel, dell'ampiezza massima consentita del segnale al più piccolo:

;	(2.17)
.	(2.18)

Il desiderio naturale di aumentare la gamma dinamica riducendo U min è limitato dalla sensibilità dell'apparecchiatura e dalla crescente influenza di interferenze e rumore intrinseco.

Molto spesso, la compressione della gamma dinamica viene eseguita utilizzando una coppia di logaritmo reciproco e funzioni di potenziamento. Viene chiamata la prima operazione di modifica dell'ampiezza compressione(compressione), il secondo - espansione (allungando). La scelta di queste funzioni è legata alla loro massima capacità di compressione.

Allo stesso tempo, questi metodi presentano degli svantaggi. Il primo è che il logaritmo di un piccolo numero è negativo nel limite:

cioè la sensibilità è molto non lineare.

Per ridurre questi inconvenienti, entrambe le funzioni sono modificate dalla distorsione e dall'approssimazione. Ad esempio, per i canali telefonici, la funzione approssimata ha la forma (tipo A,):

dove A \u003d 87.6. Il guadagno dalla compressione in questo caso è di 24 dB.

La compressione dei dati mediante procedure non lineari è implementata con mezzi analogici con errori di grandi dimensioni. L'uso di strumenti digitali può migliorare in modo significativo l'accuratezza o la velocità di conversione. In questo caso, l'uso diretto della tecnologia informatica (ovvero il calcolo diretto dei logaritmi e degli esponenti) non darà il miglior risultato a causa della bassa velocità e dell'accumulo di errori di calcolo.

La compressione dei dati per compressione dovuta a limiti di accuratezza viene utilizzata in casi non critici, ad esempio per la trasmissione vocale su canali telefonici e radio.

Codifica efficiente

Codici efficaci furono proposti da C. Shannon, Fano e Huffman. L'essenza dei codici è che sono irregolari, cioè con un numero diseguale di bit, e la lunghezza del codice è inversamente proporzionale alla probabilità del suo verificarsi. Un'altra grande caratteristica dei codici efficaci è che non richiedono separatori, ovvero caratteri speciali che separano le parole in codice adiacenti. Ciò si ottiene osservando una semplice regola: i codici più brevi non sono l'inizio di quelli più lunghi. In questo caso, il flusso solido di bit viene decodificato in modo univoco, poiché il decodificatore rileva innanzitutto modelli di codice più brevi. I codici efficaci sono stati a lungo puramente accademici, ma recentemente sono stati utilizzati con successo nella formazione di database, nonché nella compressione delle informazioni nei modem moderni e negli archivi software.

A causa dell'irregolarità, viene inserita la lunghezza media del codice. Lunghezza media - l'aspettativa matematica della lunghezza del codice:

inoltre, l cp tende ad H (x) dall'alto (cioè, l cp\u003e H (x)).

Il soddisfacimento della condizione (2.23) aumenta all'aumentare di N.

Esistono due varietà di codici efficaci: Shannon-Fano e Huffman. Considera la loro ricevuta con l'esempio. Supponiamo che le probabilità dei caratteri nella sequenza abbiano i significati indicati nella tabella 2.1.

Tabella 2.1

Probabilità del personaggio

N
p i	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

I simboli sono classificati, cioè sono presentati in una riga in ordine decrescente di probabilità. Successivamente, secondo il metodo Shannon-Fano, si ripete periodicamente la seguente procedura: l'intero gruppo di eventi è diviso in due sottogruppi con le stesse (o approssimativamente le stesse) probabilità totali. La procedura continua fino a quando un elemento rimane nel sottogruppo successivo, dopo di che questo elemento viene eliminato e con le restanti azioni specificate continuano. Ciò accade fino a quando un elemento rimane negli ultimi due sottogruppi. Continuiamo la considerazione del nostro esempio, che è riassunto nella tabella 2.2.

Tabella 2.2

Codifica di Shannon Fano

N	P i
4	0.3		io
	0.2	io	II
6	0.15		io	io
	0.1			II
1	0.1			io	io
9	0.05	II			II
5	0.05		II		io
7	0.03			II	II	io
8	0.02					II

Come si può vedere dalla tabella 2.2, il primo carattere con una probabilità di p 4 \u003d 0,3 ha partecipato a due procedure per suddividere in gruppi ed entrambe le volte sono rientrate nel gruppo con il numero I. Di conseguenza, è codificato con un codice a due cifre II. Il secondo elemento nel primo stadio della partizione apparteneva al gruppo I, al secondo - al gruppo II. Pertanto, il suo codice è 10. I codici dei caratteri rimanenti non richiedono commenti aggiuntivi.

In genere, i codici irregolari sono rappresentati come alberi dei codici. Un albero di codice è un grafico che indica le combinazioni di codici consentite. Preimpostare la direzione dei bordi di questo grafico, come mostrato in Fig. 2.11 (la scelta delle direzioni è arbitraria).

Il grafico è orientato come segue: crea un percorso per il personaggio selezionato; il numero di bit per esso è uguale al numero di bordi nel percorso e il valore di ciascun bit è uguale alla direzione del bordo corrispondente. Il percorso viene compilato dal punto di partenza (nel disegno, è contrassegnato dalla lettera A). Ad esempio, il percorso verso il vertice 5 è costituito da cinque bordi, di cui tutti tranne l'ultimo hanno una direzione pari a 0; otteniamo il codice 00001.

Per questo esempio, calcoliamo l'entropia e la lunghezza media delle parole.

H (x) \u003d - (0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) \u003d 2,23 bit

l avg \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Come puoi vedere, la lunghezza media delle parole è vicina all'entropia.

I codici Huffman sono costruiti usando un algoritmo diverso. La procedura di codifica consiste in due fasi. Nella prima fase, la compressione una tantum dell'alfabeto viene eseguita in sequenza. Compressione singola: sostituisce gli ultimi due caratteri (con probabilità inferiori) con uno, con una probabilità totale. La compressione viene eseguita fino a quando rimangono due caratteri. Allo stesso tempo, compilano la tabella di codifica, in cui vengono inserite le probabilità risultanti, e descrivono anche i percorsi lungo i quali i nuovi simboli procedono nella fase successiva.

Nella seconda fase, viene eseguita la codifica effettiva, che inizia con l'ultima fase: al primo di due caratteri viene assegnato il codice 1, il secondo - 0. Successivamente, passano alla fase precedente. I codici del passaggio successivo vengono attribuiti ai simboli che non hanno partecipato alla compressione in questa fase e il codice del simbolo ottenuto dopo l'incollaggio viene attribuito due volte agli ultimi due simboli e vengono aggiunti al codice del simbolo superiore 1, quello inferiore 0. Se il simbolo non viene ulteriormente incollato coinvolto, il suo codice rimane invariato. La procedura continua fino alla fine (cioè fino al primo stadio).

La Tabella 2.3 mostra la codifica di Huffman. Come si può vedere dalla tabella, la codifica è stata effettuata in 7 fasi. Le probabilità dei simboli sono indicate a sinistra, i codici intermedi a destra. Le frecce mostrano i movimenti dei personaggi appena formati. Ad ogni stadio, gli ultimi due personaggi differiscono solo nell'ordine basso, che corrisponde alla tecnica di codifica. Calcoliamo la lunghezza media delle parole:

l cf \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + + 0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

Questo è ancora più vicino all'entropia: il codice è ancora più efficiente. In fig. 2.12 mostra l'albero del codice Huffman.

Tabella 2.3

Codifica di Huffman

N	p i	codice	io	II	III	IV	V	VI	VII
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Entrambi i codici soddisfano il requisito di unicità della decodifica: come si può vedere dalle tabelle, le combinazioni più brevi non sono l'inizio di codici più lunghi.

Con un aumento del numero di caratteri, l'efficacia dei codici aumenta, pertanto, in alcuni casi, vengono codificati blocchi più grandi (ad esempio, quando si tratta di testi, è possibile codificare alcune delle più comuni sillabe, parole e persino frasi).

L'effetto dell'introduzione di tali codici viene determinato confrontandoli con un codice uniforme:

(2.24)

dove n è il numero di bit di un codice uniforme, che viene sostituito da uno efficace.

Modifiche al codice Huffman

L'algoritmo classico di Huffman si riferisce a due passaggi, ad es. Richiede prima una serie di statistiche su simboli e messaggi, quindi le procedure sopra descritte. Ciò è in pratica scomodo, poiché aumenta il tempo di elaborazione dei messaggi e l'accumulo del dizionario. Più comunemente usati sono i metodi single-pass in cui sono combinate le procedure di accumulazione e codifica. Tali metodi sono anche chiamati compressione adattativa di Huffman [46].

L'essenza della compressione adattativa di Huffman si riduce alla costruzione dell'albero del codice iniziale e alla modifica sequenziale dopo l'arrivo di ogni nuovo personaggio. Come prima, gli alberi qui sono binari, cioè da ciascun vertice del grafico - albero emana un massimo di due archi. È consuetudine chiamare il vertice originale il genitore e i due vertici successivi ad esso associati: i bambini. Introduciamo il concetto di peso del vertice - questo è il numero di caratteri (parole) corrispondenti a un dato vertice, ottenuto inviando la sequenza originale. Ovviamente, la somma dei pesi dei bambini è uguale al peso del genitore.

Dopo aver inserito il carattere successivo della sequenza di input, l'albero del codice viene modificato: i pesi dei vertici vengono ricalcolati e, se necessario, i vertici vengono riorganizzati. La regola per permutare i vertici è la seguente: i pesi dei vertici inferiori sono i più piccoli e i vertici situati a sinistra del grafico hanno i pesi più piccoli.

Allo stesso tempo, i vertici sono numerati. La numerazione inizia dai picchi inferiori (pendenti, cioè senza figli) da sinistra a destra, quindi viene trasferita al livello superiore, ecc. prima di numerare l'ultimo picco iniziale. Si ottiene il seguente risultato: minore è il peso del vertice, minore è il suo numero.

Il riarrangiamento viene eseguito principalmente per i picchi sospesi. Nel riordinare, la regola formulata sopra dovrebbe essere presa in considerazione: i vertici con un peso maggiore hanno un numero maggiore.

Dopo aver superato la sequenza (viene anche chiamata controllo o test), a tutti i vertici pendenti vengono assegnate combinazioni di codici. La regola per assegnare i codici è simile alla precedente: il numero di bit del codice è uguale al numero di vertici attraverso i quali il percorso passa dall'originale a questo vertice sospeso e il valore di un particolare bit corrisponde alla direzione da genitore a "figlio" (diciamo, la transizione a sinistra del genitore corrisponde a 1, a destra - 0 )

Le combinazioni di codice risultanti sono registrate nella memoria del dispositivo di compressione insieme alle loro controparti e formano un dizionario. L'uso dell'algoritmo è il seguente. La sequenza di caratteri compressa viene divisa in frammenti in base al dizionario esistente, dopodiché ciascuno dei frammenti viene sostituito dal suo codice dal dizionario. Frammenti non trovati nel dizionario formano nuovi picchi pendenti, aumentano di peso e vengono anche inseriti nel dizionario. Pertanto, si forma un algoritmo di rifornimento adattivo del dizionario.

Per aumentare l'efficienza del metodo, è desiderabile aumentare le dimensioni del dizionario; in questo caso, il rapporto di compressione è aumentato. La dimensione pratica del dizionario è di 4 - 16 Kbyte di memoria.

Illustriamo l'algoritmo sopra con un esempio. In fig. 2.13 mostra il diagramma originale (è anche chiamato l'albero di Huffman). Ogni vertice dell'albero è mostrato da un rettangolo in cui vengono inserite due cifre attraverso una frazione: il primo indica il numero del vertice, il secondo il suo peso. Come puoi vedere, la corrispondenza dei pesi dei vertici e dei loro numeri è soddisfatta.

Supponiamo ora che il simbolo corrispondente al vertice 1 venga rilevato una seconda volta nella sequenza del test. Il peso del vertice è cambiato, come mostrato in fig. 2.14, a seguito del quale viene violata la regola di numerazione dei vertici. Nella fase successiva, cambiamo la posizione dei vertici pendenti, per i quali scambiamo i vertici 1 e 4 e rinumeriamo tutti i vertici dell'albero. Il grafico risultante è mostrato in Fig. 2.15. Inoltre, la procedura continua in modo simile.

Va ricordato che ogni vertice sospeso nell'albero di Huffman corrisponde a un certo simbolo o al loro gruppo. Un genitore differisce dai figli in quanto il gruppo di caratteri corrispondente ad esso è un personaggio più corto di quello dei suoi figli, e questi figli si distinguono per l'ultimo personaggio. Ad esempio, il genitore corrisponde ai caratteri "macchina"; allora i bambini possono avere le sequenze "kara" e "carpa".

L'algoritmo dato non è accademico e viene attivamente utilizzato nei programmi di archiviazione, anche durante la compressione di dati grafici (ne discuteremo di seguito).

Algoritmi di Lempel - Ziva

Questi sono gli algoritmi di compressione più comunemente usati. Sono utilizzati nella maggior parte dei programmi di archiviazione (ad esempio, PKZIP. ARJ, LHA). L'essenza degli algoritmi è che un certo set di caratteri viene sostituito durante l'archiviazione con il suo numero in un dizionario appositamente formato. Ad esempio, la frase "Numero in uscita ..." spesso trovata nella corrispondenza commerciale può contenere 121 nel dizionario; quindi invece di trasmettere o memorizzare la frase menzionata (30 byte), è possibile memorizzare il numero della frase (1,5 byte in formato decimale binario o 1 byte in binario).

Gli algoritmi prendono il nome dagli autori che li hanno proposti per la prima volta nel 1977. Di questi, il primo è LZ77. Per l'archiviazione, viene creata una cosiddetta finestra scorrevole in due parti per il messaggio. La prima parte, di formato più grande, serve a formare un dizionario e ha una dimensione dell'ordine di diversi kilobyte. Nella seconda parte più piccola (di solito fino a 100 byte di dimensione) vengono accettati i caratteri correnti del testo visualizzato. L'algoritmo tenta di trovare un set di caratteri nel dizionario che corrisponda a quelli accettati nella finestra di visualizzazione. Se ciò riesce, viene generato un codice in tre parti: l'offset nel dizionario relativo alla sua sottostringa iniziale, la lunghezza di questa sottostringa, il carattere che segue questa sottostringa. Ad esempio, la sottostringa selezionata è composta dai caratteri "app" (6 caratteri in totale), seguiti dal carattere "e". Quindi, se la sottostringa ha un indirizzo (inserire nel dizionario) 45, la voce nel dizionario ha il formato "45, 6. e." Successivamente, il contenuto della finestra viene spostato di una posizione e la ricerca continua. Pertanto, viene formato un dizionario.

Il vantaggio dell'algoritmo è l'algoritmo di compilazione del dizionario facilmente formalizzabile. Inoltre, è possibile decomprimere senza un dizionario iniziale (è preferibile avere una sequenza di test) - il dizionario viene formato nel corso della decompressione.

Gli svantaggi dell'algoritmo compaiono quando le dimensioni del dizionario aumentano: il tempo di ricerca aumenta. Inoltre, se nella finestra corrente appare una stringa di caratteri che non si trova nel dizionario, ogni carattere è scritto con un codice a tre elementi, ad es. risulta non compressione, ma tensione.

L'algoritmo LZSS, proposto nel 1978, ha le migliori caratteristiche. Esistono differenze nel mantenimento di una finestra scorrevole e dei codici di uscita del compressore. Oltre alla finestra, l'algoritmo forma un albero binario simile all'albero di Huffman per accelerare la ricerca di corrispondenze: ogni sottostringa che lascia la finestra corrente viene aggiunta all'albero come uno dei figli. Questo algoritmo consente di aumentare ulteriormente le dimensioni della finestra corrente (è auspicabile che il suo valore sia uguale alla potenza di due: 128, 256, ecc. Byte). I codici di sequenza si formano in un modo diverso: viene introdotto un prefisso aggiuntivo a 1 bit per distinguere i caratteri non codificati dalle coppie "offset, lunghezza".

Un rapporto di compressione ancora maggiore si ottiene utilizzando algoritmi come LZW. Gli algoritmi precedentemente descritti hanno una dimensione della finestra fissa, il che rende impossibile inserire frasi più lunghe della dimensione della finestra nel dizionario. Negli algoritmi LZW (e il loro predecessore LZ78), la finestra di visualizzazione ha dimensioni illimitate e il dizionario accumula frasi (anziché una raccolta di caratteri, come in precedenza). Il dizionario ha una lunghezza illimitata e il codificatore (decodificatore) funziona con frasi in modalità standby. Quando viene generata una frase che corrisponde al dizionario, viene emesso un codice di corrispondenza (ovvero il codice di questa frase nel dizionario) e il codice del carattere che lo segue. Se si forma una nuova frase mentre i caratteri si accumulano, viene anche inserita nel dizionario, oltre a una più breve. Il risultato è una procedura ricorsiva che fornisce codifica e decodifica veloci.

Un'ulteriore funzione di compressione è fornita dalla codifica compressa di caratteri ripetuti. Se nella sequenza alcuni caratteri seguono una riga (ad esempio, nel testo possono essere i caratteri "spazio", in una sequenza numerica - zeri successivi, ecc.), Ha senso sostituirli con una coppia di "caratteri; lunghezza" o "segno, lunghezza " Nel primo caso, il codice indica che la sequenza verrà codificata (in genere 1 bit), quindi il codice del carattere ripetuto e la lunghezza della sequenza. Nel secondo caso (fornito per i caratteri ripetuti più comuni), il prefisso indica semplicemente il segno di ripetizioni.