Synthèse et reconnaissance vocale. Des solutions modernes. Matériel de sonorisation informatique. Conversion du son en un flux de nombres. Compression audio: principe et réglage Plage dynamique compressée ou standard

Le niveau sonore est le même dans toute la composition, il y a plusieurs pauses.

Réduire la plage dynamique

Réduire la plage dynamique, ou plus simplement compression, est nécessaire à différentes fins, les plus courantes sont:

1) Atteindre un niveau de volume uniforme dans toute la composition (ou partie instrumentale).

2) Atteinte d'un niveau uniforme de volume de chansons tout au long de l'album / diffusion radio.

2) Amélioration de l'intelligibilité, principalement lors de la compression d'une certaine partie (voix, grosse caisse).

Comment la plage dynamique diminue-t-elle?

Le compresseur analyse le niveau sonore d'entrée en le comparant à une valeur de seuil définie par l'utilisateur.

Si le niveau du signal est inférieur à la valeur Seuil - puis le compresseur continue d'analyser le son sans le changer. Si le niveau sonore dépasse la valeur Seuil, le compresseur démarre son action. Le rôle du compresseur étant de rétrécir la plage dynamique, il est logique de supposer qu'il limite les valeurs les plus grandes et les plus petites de l'amplitude (niveau du signal). Au premier stade, les plus grandes valeurs sont limitées, qui diminuent avec une certaine force, appelée Rapport (Attitude). Regardons un exemple:

Les courbes vertes montrent le niveau sonore, plus l'amplitude de leurs oscillations par rapport à l'axe X est grande, plus le niveau du signal est élevé.

La ligne jaune est le seuil (Threshold) du compresseur. En augmentant la valeur de seuil, l'utilisateur l'éloigne de l'axe X. En diminuant la valeur de seuil, l'utilisateur la rapproche de l'axe Y. Il est clair que plus la valeur de seuil est basse, plus le compresseur sera déclenché souvent, et vice versa, plus il est élevé, moins souvent. Si la valeur du rapport est très élevée, alors après avoir atteint le niveau de signal de seuil, tout signal suivant sera supprimé par le compresseur jusqu'au silence. Si la valeur Ratio est très petite, rien ne se passera. Le choix des valeurs de seuil et de rapport sera discuté plus tard. Maintenant, nous devons nous poser la question suivante: quel est l'intérêt de supprimer tout son ultérieur? En effet, cela n'a aucun sens, il suffit de se débarrasser des valeurs d'amplitude (pics) qui dépassent la valeur Seuil (marquée en rouge sur le graphique). C'est pour résoudre ce problème qu'il existe un paramètre Libération (Decay), qui définit la durée de la compression.

L'exemple montre que les premier et deuxième seuils dépassant le seuil durent moins que le troisième dépassant le seuil du seuil. Ainsi, si le paramètre Release est réglé sur les deux premiers pics, lors du traitement du troisième, une partie non traitée peut rester (car le dépassement du seuil de seuil prend plus de temps). Si le paramètre Release est réglé sur le troisième pic, lors du traitement des premier et second pics, une diminution indésirable du niveau du signal se forme derrière eux.

Il en va de même pour le paramètre Ratio. Si le paramètre Ratio est réglé sur les deux premiers pics, le troisième ne sera pas suffisamment supprimé. Si le paramètre Ratio est réglé pour traiter le troisième pic, le traitement des deux premiers pics sera trop élevé.

Ces problèmes peuvent être résolus de deux manières:

1) La définition du paramètre Attack est une solution partielle.

2) La compression dynamique est une solution complète.

Paramètre ettaki (attaque)est conçu pour définir le temps après lequel le compresseur commencera son travail après avoir dépassé le seuil. Si le paramètre est proche de zéro (égal à zéro dans le cas de la compression parallèle, voir l'article correspondant) - alors le compresseur commencera immédiatement à supprimer le signal et la durée définie par le paramètre Release fonctionnera. Si la vitesse d'attaque est élevée, le compresseur commencera son action après un certain laps de temps (ceci est nécessaire pour clarifier). Dans notre cas, vous pouvez ajuster les paramètres Threshold, Release et Ratio pour gérer les deux premiers pics et définir la valeur d'attaque proche de zéro. Ensuite, le compresseur supprime les deux premiers pics et lors du traitement du troisième, il les supprime jusqu'à ce que le seuil soit dépassé. Cependant, cela ne garantit pas un traitement du son de haute qualité et est proche de la limitation (une coupe grossière de toutes les valeurs d'amplitude, dans ce cas le compresseur est appelé un limiteur).

Regardons le résultat du traitement du son par le compresseur:

Les pics ont disparu, je note que les paramètres de traitement étaient assez doux et nous n'avons supprimé que les valeurs d'amplitude les plus importantes. En pratique, la plage dynamique se rétrécit beaucoup plus et cette tendance ne fait que progresser. Dans l'esprit de nombreux compositeurs, ils rendent la musique plus forte, mais en pratique, ils la privent complètement de la dynamique des auditeurs qui l'écoutent peut-être à la maison et non à la radio.

Il nous reste à considérer le dernier paramètre de compression, c'est Gain(Gain). Le gain est destiné à augmenter l'amplitude de la composition entière et équivaut essentiellement à un autre outil d'édition sonore - normaliser. Voyons le résultat final:

Dans notre cas, la compression s'est justifiée et a amélioré la qualité du son, puisque le pic proéminent est plus un accident qu'un résultat délibéré. De plus, on peut voir que la musique est rythmique, donc elle a une plage dynamique étroite. Dans les cas où des valeurs d'amplitude élevées ont été délibérément établies, la compression peut devenir une erreur.

Compression dynamique

La différence entre la compression dynamique et non dynamique est qu'au début, le niveau de suppression du signal (Ratio) dépend du niveau du signal d'entrée. Les compresseurs dynamiques sont disponibles dans tous les programmes modernes, les paramètres Ratio et Threshold sont contrôlés à l'aide de la fenêtre (chaque paramètre a son propre axe):

Il n'y a pas de norme uniforme pour l'affichage du graphique, quelque part le long de l'axe Y le niveau du signal d'entrée est affiché, quelque part au contraire, le niveau du signal après compression. Quelque part, le point (0,0) est dans le coin supérieur droit, quelque part dans le coin inférieur gauche. Dans tous les cas, déplacer le curseur de la souris sur ce champ modifie les valeurs des nombres qui correspondent aux paramètres Ratio et Threshold. Ceux. Vous définissez le niveau de compression pour chaque valeur de seuil, ce qui rend très flexible l'ajustement de la compression.

Chaîne latérale

Le compresseur Side Chain analyse le signal d'un canal et lorsque le niveau sonore dépasse le seuil, il applique la compression à l'autre canal. La chaîne latérale a ses avantages à travailler avec des instruments situés dans la même région de fréquence (la grosse caisse est activement utilisée), mais parfois des instruments situés dans différentes régions de fréquence sont utilisés, ce qui conduit à un effet de side-chain intéressant.

Deuxième partie - Étapes de la compression

Il existe trois étapes de compression:

1) La première étape est la compression des sons individuels (singleshoots).

Le timbre de tout instrument a les caractéristiques suivantes: Attack, Hold, Decay, Delay, Sustain, Release.

L'étape de compression des sons individuels est divisée en deux parties:

1.1) Compression des sons individuels des instruments rythmiques

Souvent, les bits constitutifs nécessitent une compression séparée pour leur donner une netteté. De nombreuses personnes traitent la grosse caisse séparément des autres instruments rythmiques, à la fois au stade de la compression des sons individuels et au stade de la compression des parties individuelles. Cela est dû au fait qu'il se trouve dans la région des basses fréquences, où, à part cela, seules les basses sont généralement présentes. La clarté de la grosse caisse s'entend comme la présence d'un clic caractéristique (la grosse caisse a un temps d'attaque et de maintien très court). S'il n'y a pas de clic, vous devez le traiter avec un compresseur, en réglant le seuil sur zéro et le temps d'attaque de 10 à 50 ms. Le Realese du compresseur doit se terminer avant le coup à nouveau. Le dernier problème peut être résolu en utilisant la formule: 60 000 / BPM, où BPM est le tempo de la composition. Ainsi, par exemple) 60 000/137 \u003d 437,96 (temps en millisecondes jusqu'à une nouvelle fraction forte d'une composition à 4 dimensions).

Tout ce qui précède s'applique à d'autres instruments rythmiques avec un temps d'attaque court - ils doivent avoir un clic accentué, qui ne doit pas être supprimé par le compresseur à aucun stade des niveaux de compression.

1.2) Compression sons individuels instruments harmoniques

Contrairement aux instruments rythmiques, les parties d'instruments harmoniques sont rarement composées de sons séparés. Cependant, cela ne signifie pas qu'ils ne doivent pas être traités au niveau de la compression sonore. Si vous utilisez un échantillon avec une partie enregistrée, il s'agit du deuxième niveau de compression. Ce niveau de compression inclut uniquement les instruments harmoniques synthétisés. Il peut s'agir d'échantillonneurs, de synthétiseurs utilisant diverses méthodes de synthèse sonore (modélisation physique, FM, additive, soustractive, etc.). Comme vous l'avez probablement déjà deviné, nous parlons de programmation des paramètres du synthétiseur. Oui! C'est aussi la compression! Presque tous les synthétiseurs ont un paramètre d'enveloppe programmable (ADSR), qui signifie enveloppe. L'enveloppe est utilisée pour régler les temps d'attaque, de déclin, de maintien et de relâchement. Et si vous me dites que ce n'est pas une compression de chaque son, vous êtes mon ennemi à vie!

2) La deuxième étape - Compression de pièces individuelles.

En compressant des parties individuelles, je veux dire réduire la plage dynamique d'une série de sons individuels combinés. Cette étape comprend également les enregistrements de parties, y compris les voix, qui nécessitent un traitement de compression pour le rendre clair et intelligible. Lors du traitement de la compression des parties, vous devez prendre en compte le fait que lors de l'ajout de sons individuels, des pics indésirables peuvent apparaître, dont vous devez vous débarrasser à ce stade, car si cela n'est pas fait maintenant, l'image peut s'aggraver au stade du mélange de la composition entière. Au stade de la compression des parties individuelles, vous devez prendre en compte l'étape de compression du traitement des sons individuels. Si vous avez atteint la clarté de la grosse caisse, un retraitement incorrect au deuxième étage peut tout gâcher. Le traitement par compresseur de toutes les parties n'est pas nécessaire et il n'est pas non plus nécessaire de traiter tous les sons individuels. Je vous conseille de mettre un analyseur d'amplitude juste au cas où pour déterminer la présence d'effets secondaires indésirables de la combinaison de sons individuels. En plus de la compression, à ce stade, il est nécessaire de s'assurer que les parties sont, si possible, dans des gammes de fréquences différentes, pour que la quantification soit effectuée. Il est également utile de se rappeler que le son a une caractéristique telle que le masquage (psychoacoustique):

1) Le son le plus faible est masqué par le son plus fort qui se trouve devant lui.

2) Un son plus faible à basse fréquence est masqué par un son plus fort à haute fréquence.

Ainsi, par exemple, si vous avez une partie synthétiseur, les notes commencent souvent à jouer avant que les notes précédentes ne terminent leur son. Parfois cela est nécessaire (création d'harmonie, style de jeu, polyphonie), mais parfois pas du tout - vous pouvez couper leur fin (Delay - Release) si elle est entendue en mode solo, mais pas en mode lecture de toutes les parties. La même chose s'applique aux effets tels que la réverbération - elle ne devrait pas durer tant que la source sonore ne redémarre pas. En coupant et en supprimant le signal inutile - vous rendez le son plus propre, et cela peut également être considéré comme une compression - parce que vous supprimez les ondes inutiles.

3) La troisième étape - Compression de la composition.

Lors de la compression d'une composition entière, gardez à l'esprit que toutes les parties sont une combinaison de plusieurs sons distincts. Par conséquent, lors de leur combinaison puis de leur compression, vous devez vous assurer que la compression finale ne gâche pas ce que nous avons réalisé dans les deux premières étapes. Vous devez également séparer les compositions dans lesquelles une plage large ou étroite est importante. lors de la compression de compositions avec une large plage dynamique, il suffit de mettre un compresseur qui écrasera les pics à court terme qui se sont formés à la suite de l'ajout des parties ensemble. La compression d'une composition dans laquelle une plage dynamique étroite est importante est beaucoup plus compliquée. Ici, les compresseurs sont récemment appelés maximiseurs. Maximizer est un plug-in qui combine un compresseur, un limiteur, un égaliseur graffiti, un amplificateur et d'autres outils de conversion sonore. De plus, il doit nécessairement disposer d'outils d'analyse solides. La maximisation, le traitement final par le compresseur, est à bien des égards nécessaire pour faire face aux erreurs commises lors des étapes précédentes. Les erreurs ne concernent pas tant la compression (cependant, si vous faites à la dernière étape ce que vous auriez pu faire à la première étape est déjà une erreur), que dans le choix initial de bons échantillons et instruments qui n'interféreraient pas les uns avec les autres (nous parlons de plages de fréquences) ... C'est pourquoi la réponse en fréquence est corrigée. Il arrive souvent qu'avec une forte compression sur le maître, vous deviez modifier les paramètres de compression et de mixage à des étapes antérieures, car avec un fort rétrécissement de la plage dynamique, des sons calmes qui étaient auparavant masqués sortent, le son des composants individuels de la composition change.

Dans ces parties, je n'ai délibérément pas parlé de paramètres de compression spécifiques. J'ai ressenti le besoin d'écrire sur la nécessité de prêter attention à tous les sons et à toutes les parties pendant la compression à toutes les étapes de la création de la composition. C'est la seule façon, à la fin, d'obtenir un résultat harmonieux non seulement du point de vue de la théorie musicale, mais aussi du point de vue de l'ingénierie du son.

Le tableau ci-dessous fournit des conseils pratiques pour le traitement de lots individuels. Cependant, en compression, les nombres et les préréglages ne peuvent vous indiquer que la zone à rechercher. Le réglage de compression idéal variera d'un cas à l'autre. Les paramètres Gain et Threshold supposent un niveau sonore normal (utilisation logique de toute la plage).

Troisième partie - Options de compression

Référence rapide:

Seuil - détermine le niveau sonore du signal entrant, lorsque le compresseur commence à fonctionner.

Attack - définit le temps après lequel le compresseur commencera à fonctionner.

Niveau (rapport) - détermine le degré de diminution des valeurs d'amplitude (par rapport à la valeur d'origine de l'amplitude).

Release (release) - définit le temps après lequel le compresseur cessera de fonctionner.

Gain - Détermine le niveau d'augmentation du signal d'entrée, après avoir été traité par le compresseur.

Table de compression:

Outil	Seuil	Attaque	Rapport	Libération	Gain	La description
Voix	0 dB	1 à 2 ms 2 à 5 mS 10 msec 0,1 ms 0,1 ms	moins de 4: 1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 ms 50 à 100 mS 150 msec 150 ms 0,5 s		La compression pendant l'enregistrement doit être minimale; elle nécessite un traitement obligatoire au stade du mixage pour la rendre claire et intelligible.
Instruments à vent		1 à 5 ms	6:1 – 15:1	0,3 s
Baril		de 10 à 50 ms 10 à 100 mS	4: 1 et plus 10:1	50 à 100 ms 1 mS		Plus le Thrshold est bas, plus le ratio est élevé et plus l'attaque est longue, plus le clic est prononcé au début du coup de pied.
Synthétiseurs						Dépend du type d'onde (enveloppes ADSR).
Caisse claire:		10 à 40 mS 1 à 5 ms	5:1 5:1 – 10:1	50 mS 0,2 s
Salut chapeau		20 mS	10:1	1 mS
Microphones suspendus		2 à 5 mS	5:1	1 à 50 mS
Tambours		5 ms	5:1 – 8:1	10 ms
Bas-guitare		100 à 200 mS 4 ms à 10 ms	5:1	1 mS 10 ms
Cordes		0 à 40 mS	3:1	500 mS
Sint. basse		4 ms à 10 ms	4:1	10 ms		Dépend des enveloppes.

Percussion		0 à 20 mS	10:1	50 mS
Guitare acoustique, Piano		10 à 30 mS 5 à 10 ms	4:1 5:1 -10:1	50 à 100 mS 0,5 s
Electro-nitara		2 à 5 ms	8:1	0,5 s

Compression finale		0,1 ms 0,1 ms	2:1 2: 1 à 3: 1	50 ms 0,1 ms	Sortie 0dB	Le temps d'attaque dépend de la cible - que vous souhaitiez supprimer les pics ou rendre la piste plus fluide.
Limiteur après compression finale		0 mS	10:1	10 à 50 mS	Sortie 0dB	Si vous avez besoin d'une plage dynamique étroite et d'une «coupe» approximative des vagues.

Les informations proviennent de diverses sources auxquelles se réfèrent les différentes ressources sur Internet. La différence des paramètres de compression s'explique par la différence des préférences sonores et du travail avec des matériaux différents.

Les amateurs d'audio à domicile présentent un paradoxe intéressant. Ils sont prêts à pelleter la salle d'écoute, à construire des haut-parleurs avec des émetteurs exotiques, mais à se retirer avec embarras devant des conserves musicales, comme un loup devant un drapeau rouge. Mais en fait, pourquoi est-il impossible de passer derrière le drapeau et d'essayer de cuisiner quelque chose de plus comestible à partir de conserves?

De temps en temps sur le forum, il y a des questions qui se plaignent: "Merci de conseiller les albums bien enregistrés." C'est compréhensible. Si les éditions spéciales audiophiles plairont à l'oreille pendant la première minute, personne ne les écoute jusqu'à la fin, le répertoire est trop terne. Quant au reste de la bibliothèque, le problème semble évident. Vous pouvez économiser, mais vous ne pouvez pas économiser et investir beaucoup d'argent dans les composants. Quoi qu'il en soit, peu de gens aiment écouter leur musique préférée à un volume élevé et les capacités de l'amplificateur n'ont rien à voir avec cela.

Aujourd'hui, même dans les albums Hi-Res, les pics du phonogramme sont coupés et le volume est entraîné en écrêtage. On pense que la majorité écoute de la musique sur toutes sortes de bric-à-brac, et donc il faut "allumer le gaz", pour faire une sorte de volume.

Bien sûr, cela n'est pas fait exprès pour déranger les audiophiles. Peu de gens s'en souviennent. Mais ils ont seulement deviné de les raser des fichiers maîtres à partir desquels la principale diffusion est copiée - CD, MP3, etc. Bien sûr, le master a longtemps été aplati par le compresseur, personne ne préparera délibérément des versions spéciales pour les pistes HD. À moins qu'une certaine procédure ne soit suivie pour les supports en vinyle, ce qui, pour cette raison, semble plus humain. Et pour le chemin numérique, tout se termine de la même manière - avec un gros compresseur.

Ainsi, à l'heure actuelle, tous les 100% des phonogrammes publiés, à l'exclusion de la musique classique, sont compressés lors du mastering. Quelqu'un exécute cette procédure plus ou moins habilement, et quelqu'un est complètement stupide. Du coup, on a des pèlerins sur les forums avec la ligne de plugins DR dans leur sein, des comparaisons douloureuses de publications, une évasion vers le vinyle, où la première presse doit aussi être minée.

Les plus gelés à la vue de tous ces outrages se sont littéralement transformés en satanistes audio. Sans blague, ils lisent les écritures de l'ingénierie sonore à l'envers! Les programmes d'édition sonore modernes ont une sorte d'outil de restauration de l'onde sonore coupée.

Cette fonctionnalité était à l'origine destinée aux studios. Lors du mixage, il y a des situations où le clipping est sur l'enregistrement, et il n'est plus possible de refaire la session pour un certain nombre de raisons, et ici l'arsenal d'un éditeur audio vient à la rescousse - un déclipper, un décompresseur, etc.

Et maintenant, les auditeurs ordinaires qui saignent des oreilles après la prochaine nouveauté tirent de plus en plus hardiment leurs stylos vers de tels logiciels. Quelqu'un préfère iZotope, quelqu'un d'Adobe Audition, quelqu'un partage des opérations entre plusieurs programmes. Le but de la restauration de la dynamique précédente est de corriger par programme les pics de signal écrêtés, qui, reposant à 0 dB, ressemblent à un engrenage.

Oui, il n'est pas question de relance à 100% de la source, puisque les processus d'interpolation se déroulent selon des algorithmes plutôt spéculatifs. Pourtant, certains des résultats du traitement m'ont semblé intéressants et dignes d'être étudiés.

Par exemple, l'album de Lana Del Rey "Lust For Life", jurant constamment, ugh, mastering! La chanson originale "When the World Was at War We Kept Dancing" était comme ça.

Et après une série de déclippers et de décompresseurs, c'est devenu comme ça. Le coefficient DR est passé de 5 à 9. Vous pouvez télécharger et écouter l'échantillon avant et après le traitement.

Je ne peux pas dire que la méthode soit universelle et adaptée à tous les albums abandonnés, mais dans ce cas, j'ai préféré conserver dans la collection cette même version, traitée par un activiste root tracker, au lieu de l'édition officielle 24 bits.

Même si extraire artificiellement les pics du bourrage sonore ne renvoie pas la véritable dynamique de la performance musicale, votre DAC vous en remerciera toujours. Il était si difficile pour lui de travailler sans erreur à des niveaux extrêmes, où il y a une forte probabilité de ce que l'on appelle les pics inter-échantillons (ISP). Et maintenant, seuls de rares flashs du signal passeront à 0 dB. De plus, le phonogramme muet lorsqu'il est compressé en FLAC ou dans un autre codec sans perte sera désormais de plus petite taille. Plus «d'air» dans le signal permet d'économiser de l'espace sur le disque dur.

Essayez de donner vie à vos albums les plus détestés tués dans la guerre du son. Pour la marge, vous devez d'abord baisser le niveau de la piste de -6 dB, puis démarrer le déclipper. Ceux qui ne croient pas aux ordinateurs peuvent simplement coller un expandeur de studio entre le lecteur CD et l'amplificateur. Cet appareil fait essentiellement la même chose - comment il peut reconstruire et étirer les pics d'un signal audio compressé dynamiquement. De tels appareils des années 80-90 valent la peine de ne pas dire qu'ils sont très chers, et à titre expérimental, il sera très intéressant de les essayer.

Le contrôleur de plage dynamique DBX 3BX traite le signal séparément dans trois bandes - LF, MF et HF

Il était une fois, les égaliseurs étaient une composante évidente d'un système audio, et personne n'en avait peur. Aujourd'hui, il n'est pas nécessaire d'égaliser le blocage des hautes fréquences de la bande magnétique, mais avec la dynamique laide, il est nécessaire de résoudre quelque chose, frères.

Compression dynamique (Compression de la plage dynamique, DRC) - rétrécissement (ou élargissement dans le cas d'un expandeur) de la plage dynamique d'un phonogramme. Plage dynamique, c'est la différence entre le son le plus faible et le plus fort. Parfois, le son le plus faible de la bande sonore sera un peu plus fort que le niveau de bruit, et parfois un peu plus faible que le plus fort. Les périphériques matériels et les programmes qui effectuent une compression dynamique sont appelés compresseurs, distinguant quatre groupes principaux parmi eux: les compresseurs eux-mêmes, les limiteurs, les expandeurs et les portes.

Compresseur analogique à tubes DBX 566

Compression ascendante et descendante

Compression vers le bas (Compression vers le bas) diminue le volume d'un son lorsqu'il commence à dépasser un certain seuil, laissant les sons plus faibles inchangés. L'option de compression vers le bas extrême est limiteur. Compression ascendante (Compression vers le haut), au contraire, augmente le volume du son s'il est en dessous de la valeur seuil, sans affecter les sons plus forts. Dans ce cas, les deux types de compression réduisent la plage dynamique du signal audio.

Compression vers le bas

Compression ascendante

Expander et Gate

Si le compresseur diminue la plage dynamique, l'expandeur l'augmente. Lorsque le niveau du signal dépasse le niveau de seuil, l'expandeur l'augmente encore plus, augmentant ainsi la différence entre les sons forts et faibles. Ces appareils sont souvent utilisés lors de l'enregistrement de kits de batterie pour séparer les sons de certains tambours des autres.

Un type d'extenseur utilisé non pas pour amplifier les sons forts, mais pour couvrir les sons faibles qui ne dépassent pas la valeur seuil (par exemple, le bruit de fond) est appelé Porte de bruit... Dans un tel dispositif, dès que le niveau sonore tombe en dessous du seuil, le flux du signal s'arrête. Habituellement, la porte est utilisée pour supprimer le bruit pendant les pauses. Sur certains modèles, vous pouvez vous assurer que le son ne s'arrête pas brusquement lorsque le niveau de seuil est atteint, mais disparaît progressivement. Dans ce cas, la vitesse de décroissance est définie avec le bouton Decay.

Gate, comme d'autres types de compresseurs, peut être dépendant de la fréquence (c'est-à-dire gérer différemment certaines bandes de fréquences) et peut fonctionner chaîne latérale (voir ci-dessous).

Principe de fonctionnement du compresseur

Le signal entrant dans le compresseur est divisé en deux copies. Une copie est envoyée à un amplificateur, dans lequel le degré d'amplification est contrôlé par un signal externe, la deuxième copie forme ce signal. Il entre dans un dispositif appelé side-chain, où le signal est mesuré, et sur la base de ces données, une enveloppe est créée qui décrit le changement de son volume.
C'est ainsi que la plupart des compresseurs modernes sont agencés, c'est ce que l'on appelle le type à anticipation. Dans les appareils plus anciens (type rétroaction), le niveau du signal est mesuré après l'amplificateur.

Il existe différentes technologies d'amplification analogique à gain variable, chacune avec ses propres avantages et inconvénients: tube, optique utilisant des photorésistances et transistor. Lorsque vous travaillez avec du son numérique (dans un éditeur de son ou un DAW), vous pouvez utiliser vos propres algorithmes mathématiques ou émuler le travail des technologies analogiques.

Paramètres de base des compresseurs

Seuil

Le compresseur réduit le niveau du signal audio si son amplitude dépasse une certaine valeur seuil. Il est généralement spécifié en décibels, avec un seuil plus bas (par exemple -60 dB) signifie plus de son sera traité qu'un seuil plus élevé (par exemple -5 dB).

Rapport

La quantité de réduction de niveau est déterminée par le paramètre de rapport: le rapport 4: 1 signifie que si le niveau d'entrée est supérieur de 4 dB au seuil, le niveau du signal de sortie sera supérieur de 1 dB au seuil.
Par exemple:
Seuil \u003d −10 dB
Signal d'entrée \u003d -6 dB (4 dB au-dessus du seuil)
Signal de sortie \u003d −9 dB (1 dB au-dessus du seuil)

Il est important de garder à l'esprit que la suppression du niveau du signal se poursuit pendant un certain temps après qu'il est tombé en dessous du niveau de seuil, et cette durée est déterminée par la valeur du paramètre libération.

La compression avec un rapport maximum de ∞: 1 est appelée limite. Cela signifie que tout signal supérieur au niveau de seuil est supprimé au niveau de seuil (sauf pendant une courte période après une augmentation soudaine du volume d'entrée). Pour plus de détails, voir Limiteur ci-dessous.

Exemples de différentes valeurs de ratio

Attaque et libération

Le compresseur permet de contrôler la rapidité avec laquelle il répond aux changements de dynamique du signal. Le paramètre Attack détermine le temps nécessaire au compresseur pour réduire le gain au niveau déterminé par le paramètre Ratio. Release détermine le temps pendant lequel le compresseur, au contraire, augmente le gain, ou revient à la normale si le niveau du signal d'entrée tombe en dessous du seuil.

Phases d'attaque et de libération

Ces paramètres indiquent le temps (généralement en millisecondes) qu'il faudra pour modifier le gain d'une certaine quantité de décibels, généralement 10 dB. Par exemple, dans ce cas, si Attack est réglé sur 1 ms, il faudra 1 ms pour diminuer le gain de 10 dB et 2 ms pour diminuer le gain de 20 dB.

Dans de nombreux compresseurs, les paramètres Attack et Release peuvent être ajustés, mais dans certains ils sont préréglés et non réglables. Parfois, ils sont appelés "automatiques" ou "dépendants du programme", c'est-à-dire varient en fonction du signal d'entrée.

Le genou

Un autre paramètre de compresseur: genou dur / mou... Il détermine si le début de la compression sera dur ou doux. Le genou souple réduit la transition notable du signal sec au signal compressé, en particulier à des rapports élevés et des augmentations soudaines de volume.

Compression du genou dur et du genou souple

Peak et RMS

Le compresseur peut répondre aux valeurs de crête (maximum à court terme) ou au niveau d'entrée moyen. L'utilisation de pics peut entraîner des fluctuations dramatiques du taux de compression, voire une distorsion. Par conséquent, les compresseurs appliquent une fonction de moyennage (généralement RMS) du signal d'entrée lorsqu'ils le comparent à la valeur de seuil. Cela donne une compression plus confortable, proche de la perception humaine du volume.

RMS est un paramètre qui reflète le volume moyen d'un phonogramme. D'un point de vue mathématique, RMS (Root Mean Square) est la valeur quadratique moyenne de l'amplitude d'un certain nombre d'échantillons:

Liaison stéréo

Un compresseur en mode de liaison stéréo applique le même gain aux deux canaux stéréo. Cela évite le déplacement du panorama stéréo qui peut résulter du traitement individuel des canaux gauche et droit. Ce décalage se produit si, par exemple, un élément bruyant est décentré.

Gain de maquillage

Puisque le compresseur réduit le niveau global du signal, il est courant d'ajouter une option de gain de sortie fixe pour obtenir le niveau optimal.

Regard vers l’avenir

La fonction d'anticipation est conçue pour résoudre les problèmes de valeurs d'attaque et de relâchement trop élevées et trop faibles. Un temps d'attaque trop long ne nous permet pas d'intercepter efficacement les transitoires, et un temps d'attaque trop court peut ne pas être confortable pour l'auditeur. Lors de l'utilisation de la fonction d'anticipation, le signal principal est retardé par rapport au gestionnaire, ce qui permet à la compression de commencer tôt, même avant que le signal n'atteigne le seuil.
Le seul inconvénient de cette méthode est la temporisation du signal, qui n'est pas souhaitable dans certains cas.

Utilisation de la compression dynamique

La compression est utilisée partout, non seulement dans les bandes sonores musicales, mais aussi partout où il est nécessaire d'augmenter le volume global sans augmenter les niveaux de crête, là où un équipement de reproduction sonore peu coûteux est utilisé ou un canal de transmission limité (systèmes de sonorisation, radio amateur, etc.) ...

La compression est utilisée lors de la lecture de musique de fond (dans les magasins, restaurants, etc.), où tout changement notable de volume n'est pas souhaitable.

Mais l'application la plus importante de la compression dynamique est la production et la diffusion de musique. La compression est utilisée pour donner au son "densité" et "drive", pour une meilleure combinaison des instruments entre eux, et en particulier lors du traitement des voix.

Les voix de la musique rock et pop sont généralement compressées pour les faire ressortir de l'accompagnement et ajouter de la clarté. Un type spécial de compresseur accordé uniquement à certaines fréquences - le de-esser - est utilisé pour supprimer les phonèmes sifflants.

Dans les parties instrumentales, la compression est également utilisée pour les effets qui ne sont pas directement liés au volume, par exemple, les sons de batterie qui décroissent rapidement peuvent devenir plus longs.

L'enchaînement latéral est souvent utilisé dans la musique de danse électronique (EDM) (voir ci-dessous) - par exemple, une ligne de basse peut être entraînée par une grosse caisse ou similaire pour éviter les chocs entre la basse et la batterie et créer une ondulation dynamique.

La compression est largement utilisée en radiodiffusion (radio, télévision, diffusion sur Internet) pour augmenter le volume sonore perçu tout en réduisant la plage dynamique de l'audio d'origine (généralement un CD). La plupart des pays ont des restrictions légales sur le volume maximum instantané qui peut être diffusé. En règle générale, ces limitations sont implémentées par des compresseurs matériels permanents dans la chaîne éther. De plus, l'augmentation du volume sonore perçu améliore la «qualité» du son du point de vue de la plupart des auditeurs.

voir également Guerre de Loudness.

Augmentation séquentielle du volume de la même chanson remasterisée pour CD de 1983 à 2000.

Chaînage latéral

Un autre interrupteur de compresseur commun est l'interrupteur "chaîne latérale". Dans ce mode, le son est compressé non pas en fonction de son propre niveau, mais en fonction du niveau du signal entrant dans le connecteur, généralement appelé chaîne latérale.

Il y a plusieurs utilisations pour cela. Par exemple, un chanteur écoute et toutes les lettres «s» se détachent de l'image globale. Vous passez sa voix à travers le compresseur, et dans le connecteur de la chaîne latérale, vous alimentez le même son, mais en passant par l'égaliseur. Sur l'égaliseur, vous supprimez toutes les fréquences sauf celles utilisées par le chanteur lors de la prononciation de la lettre "c". Généralement autour de 5 kHz, mais peut aller de 3 kHz à 8 kHz. Si vous mettez ensuite le compresseur en mode side chain, alors la compression de la voix se produira dans les moments où la lettre «c» est prononcée. C'est ainsi que le dispositif appelé de-esser a été créé. Cette façon de travailler est appelée "dépendant de la fréquence".

Une autre utilisation de cette fonctionnalité est appelée "ducker". Par exemple, dans une station de radio, la musique passe par le compresseur et les paroles du DJ passent par la chaîne latérale. Lorsque le DJ commence à discuter, le volume de la musique est automatiquement réduit. Cet effet peut être utilisé avec beaucoup de succès lors de l'enregistrement, par exemple en diminuant le volume des parties du clavier pendant le chant.

Limitation de mur de brique

Le compresseur et le limiteur fonctionnent à peu près de la même manière, nous pouvons dire qu'un limiteur est un compresseur avec un rapport élevé (de 10: 1) et généralement un temps d'attaque faible.

Il existe un concept appelé Brick wall limit - limitant avec un ratio très élevé (20: 1 et plus) et une attaque très rapide. Idéalement, cela ne permet pas du tout au signal de dépasser le niveau de seuil. Le résultat sera désagréable pour l'oreille, mais cela évitera d'endommager l'équipement de reproduction sonore ou de dépasser la bande passante du canal. De nombreux fabricants intègrent des limiteurs dans leurs appareils dans ce but précis.

Clipper vs. Limiteur, écrêtage doux et dur

, Lecteurs multimédias

Les disques, en particulier les plus anciens enregistrés et produits avant 1982, étaient beaucoup moins susceptibles d'être mixés et rendus plus forts. Ils reproduisent de la musique naturelle avec une plage dynamique naturelle qui est conservée sur disque et perdue dans la plupart des formats numériques standard ou haute définition.

Il y a, bien sûr, des exceptions - écoutez l'album de Steven Wilson récemment sorti de MA Recordings ou Reference Recordings et vous entendrez à quel point le son numérique peut être bon. Mais c'est rare, la plupart des enregistrements modernes sont bruyants et compressés.

La compression de la musique a fait l'objet de critiques sérieuses ces derniers temps, mais je dirais que presque tous vos enregistrements préférés sont compressés. Certains d'entre eux sont moins, d'autres plus, mais toujours compressés. La compression de la plage dynamique est un bouc émissaire pour un son musical médiocre, mais la musique hautement compressée n'est pas une nouvelle tendance: écoutez les albums de Motown des années 60. On peut en dire autant des œuvres classiques de Led Zeppelin ou des albums plus jeunes de Wilco et Radiohead. La compression de la plage dynamique réduit la relation naturelle entre les sons les plus forts et les plus faibles d'un enregistrement, de sorte que les chuchotements peuvent être aussi forts que les cris. Il est assez difficile de trouver de la musique pop des 50 dernières années qui n'ait pas été compressée.

J'ai récemment eu une bonne conversation avec le fondateur et éditeur de Tape Op, Larry Crane, sur les aspects bons, mauvais et mauvais de la compression. Larry Crane a travaillé avec des groupes et des artistes tels que Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi et Richmond Fontaine. Il dirige également le studio d'enregistrement Jackpot! à Portland, dans l'Oregon, où se trouvent les Breeders, les Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him et bien d'autres.

Comme exemple de son étonnamment artificiel, mais toujours de bonnes chansons, je cite l'album de Spoon They Want My Soul, sorti en 2014. Crane rit et dit qu'il l'écoute dans la voiture parce qu'il y sonne bien. Ce qui nous amène à une autre réponse à la question de savoir pourquoi la musique est compressée: parce que la compression et la "clarté" supplémentaire permettent de mieux l'entendre dans les endroits bruyants.

Larry Crane au travail. Photo de Jason Quigley

Quand les gens disent qu'ils aiment le son d'un enregistrement audio, je crois qu'ils aiment la musique, comme si le son et la musique étaient des termes inséparables. Mais pour moi, je différencie ces concepts. Du point de vue d'un mélomane, le son peut être rugueux et brut, mais cela n'a pas d'importance pour la plupart des auditeurs.

Beaucoup sont pressés d'accuser les ingénieurs de mastering d'avoir abusé de la compression, mais la compression est appliquée directement pendant l'enregistrement, pendant le mixage, et seulement ensuite pendant le mastering. Si vous n'étiez pas personnellement présent à chacune de ces étapes, vous ne pourrez pas dire comment les instruments et les voix sonnaient au tout début du processus.

Crane était en feu: "Si un musicien veut délibérément rendre le son fou et déformé comme des enregistrements Guided by Voices, il n'y a rien de mal à cela - le désir l'emporte toujours sur la qualité du son." La voix de l'interprète est presque toujours compressée, la même chose se produit avec la basse, la batterie, les guitares et les synthétiseurs. La compression maintient le volume vocal au niveau souhaité tout au long de la chanson ou se démarque légèrement du reste des sons.

Une compression correcte peut rendre le son de la batterie plus vivant ou délibérément bizarre. Pour que la musique sonne bien, vous devez pouvoir utiliser les instruments nécessaires pour cela. C'est pourquoi il faut des années pour comprendre comment utiliser la compression et ne pas en faire trop. Si l'ingénieur de mixage a trop compressé la partie de guitare, l'ingénieur de mastering ne pourra plus restaurer complètement les fréquences manquantes.

Si les musiciens voulaient que vous écoutiez de la musique qui ne passait pas par les étapes de mixage et de mastering, alors ils la sortiraient dans les rayons des magasins directement depuis le studio. Crane dit que les gens qui créent, éditent, mixent et maîtrisent la musique ne sont pas là pour se perdre dans les pieds des musiciens - ils aident les artistes depuis le début, depuis plus d'un siècle.

Ces personnes font partie du processus de création qui produit des œuvres d'art étonnantes. Crane ajoute: "Vous n'avez pas besoin d'une version de 'Dark Side of the Moon' qui n'a pas subi de mixage et de mastering." Pink Floyd a sorti la chanson comme ils voulaient l'entendre.

Ce groupe de méthodes est basé sur le fait que les signaux émis sont soumis à des transformations non linéaires de l'amplitude, et dans les parties d'émission et de réception de la non-linéarité sont réciproques. Par exemple, si l'émetteur utilise la fonction non linéaire Öu, le récepteur utilise u 2. L'application séquentielle des fonctions inverses aura pour résultat que la transformation reste linéaire dans son ensemble.

L'idée de méthodes de compression de données non linéaires se résume au fait que l'émetteur peut transmettre une plus grande plage de changements dans le paramètre transmis (c'est-à-dire une plage dynamique plus grande) avec la même amplitude des signaux de sortie. Plage dynamique est le rapport de la plus grande amplitude de signal autorisée à la plus petite, exprimé en unités relatives ou décibels:

;	(2.17)
.	(2.18)

La volonté naturelle d'augmenter la dynamique en réduisant U min est limitée par la sensibilité de l'équipement et l'augmentation de l'influence des interférences et du bruit intrinsèque.

Le plus souvent, la compression de la plage dynamique est effectuée à l'aide d'une paire de fonctions de logarithme inverse et de potentialisation. La première opération de changement d'amplitude s'appelle compression(par compression), le second est expansion (en s'étirant). Le choix de ces fonctions est associé à leur plus grande capacité de compression.

Dans le même temps, ces méthodes présentent également des inconvénients. Le premier est que le logarithme d'un petit nombre est négatif à la limite:

c'est-à-dire que la sensibilité est très non linéaire.

Pour atténuer ces inconvénients, les deux fonctions sont modifiées avec décalage et approximation. Par exemple, pour les canaux téléphoniques, la fonction approximative est (type A,):

et A \u003d 87,6. Le gain de compression est de 24 dB.

La compression des données au moyen de procédures non linéaires est mise en œuvre par des moyens analogiques avec de grandes erreurs. L'utilisation d'outils numériques peut améliorer considérablement la précision ou la vitesse de conversion. Dans le même temps, l'utilisation directe de la technologie informatique (c'est-à-dire le calcul direct des logarithmes et des exponentiels) ne donnera pas le meilleur résultat en raison de la faible vitesse et de l'erreur de calcul qui s'accumule.

La compression des données par compression due à des limitations de précision est utilisée dans des cas non critiques, par exemple pour la transmission de la voix sur des canaux téléphoniques et radio.

Codage efficace

Des codes efficaces ont été proposés par K. Shannon, Fano et Huffman. L'essence des codes est qu'ils sont inégaux, c'est-à-dire avec un nombre de bits inégal, et la longueur du code est inversement proportionnelle à la probabilité de son occurrence. Une autre caractéristique remarquable des codes efficaces est qu'ils ne nécessitent pas de séparateurs, c'est-à-dire des caractères spéciaux qui séparent les combinaisons de codes adjacentes. Ceci est réalisé en suivant une règle simple: les codes plus courts ne sont pas le début de codes plus longs. Dans ce cas, le train de bits continu est décodé de manière unique puisque le décodeur détecte d'abord les mots de code plus courts. Les codes efficaces ont longtemps été purement académiques, mais récemment, ils ont été utilisés avec succès dans la formation de bases de données, ainsi que dans la compression d'informations dans les modems modernes et dans les archiveurs de logiciels.

Compte tenu des irrégularités, la longueur moyenne du code est saisie. La longueur moyenne est l'espérance mathématique de la longueur du code:

de plus, l cf tend vers H (x) par le haut (c'est-à-dire l cf\u003e H (x)).

La condition (2.23) devient plus forte avec l'augmentation de N.

Il existe deux types de codes efficaces: Shannon-Fano et Huffman. Voyons comment les obtenir à l'aide d'un exemple. Supposons que les probabilités des symboles dans une séquence aient les valeurs indiquées dans le tableau 2.1.

Tableau 2.1.

Probabilités de symboles

N
p i	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

Les symboles sont classés, c'est-à-dire qu'ils sont présentés dans une série par ordre décroissant de probabilités. Après cela, selon la méthode de Shannon-Fano, la procédure suivante est répétée périodiquement: l'ensemble du groupe d'événements est divisé en deux sous-groupes avec les mêmes probabilités totales (ou approximativement les mêmes). La procédure se poursuit jusqu'à ce qu'un élément reste dans le sous-groupe suivant, après quoi cet élément est éliminé, et les actions spécifiées continuent avec les autres. Cela se produit jusqu'à ce qu'un élément reste dans les deux derniers sous-groupes. Continuons notre exemple, qui est résumé dans le tableau 2.2.

Tableau 2.2.

Codage Shannon-Fano

N	P i
4	0.3		je
	0.2	je	II
6	0.15		je	je
	0.1			II
1	0.1			je	je
9	0.05	II			II
5	0.05		II		je
7	0.03			II	II	je
8	0.02					II

Comme le montre le tableau 2.2, le premier symbole avec une probabilité p 4 \u003d 0,3 a participé à deux procédures de division en groupes et les deux fois sont tombés dans le groupe I. En conséquence, il est codé avec un code à deux chiffres II. Le deuxième élément au premier stade de la partition appartenait au groupe I, au second - au groupe II. Par conséquent, son code est 10. Les codes d'autres symboles ne nécessitent pas de commentaires supplémentaires.

En règle générale, les codes non uniformes sont représentés sous forme d'arbres de codes. Une arborescence de codes est un graphique indiquant les combinaisons de codes autorisées. Les directions des arêtes de ce graphe sont préréglées, comme le montre la figure 2.11 (le choix des directions est arbitraire).

Ils sont guidés par le graphique comme suit: tracez un itinéraire pour le symbole sélectionné; le nombre de chiffres correspondant est égal au nombre d'arêtes dans l'itinéraire, et la valeur de chaque chiffre est égale à la direction du bord correspondant. L'itinéraire est compilé à partir du point de départ (dans le dessin, il est marqué de la lettre A). Par exemple, l'itinéraire vers le sommet 5 se compose de cinq arêtes, dont toutes sauf la dernière ont la direction 0; nous obtenons le code 00001.

Calculons l'entropie et la longueur moyenne des mots pour cet exemple.

H (x) \u003d - (0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) \u003d 2,23 bits

l moyenne \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 + 0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Comme vous pouvez le voir, la longueur moyenne des mots est proche de l'entropie.

Les codes de Huffman sont construits selon un algorithme différent. La procédure de codage comprend deux étapes. Lors de la première étape, une compression ponctuelle de l'alphabet est effectuée de manière séquentielle. Compression unique - en remplaçant les deux derniers caractères (avec les probabilités les plus faibles) par un, par la probabilité totale. La compression est effectuée jusqu'à ce que deux caractères restent. En même temps, la table de codage est remplie, dans laquelle les probabilités résultantes sont inscrites, et les itinéraires le long desquels les nouveaux symboles se déplacent à l'étape suivante sont également représentés.

À la deuxième étape, le codage proprement dit a lieu, qui commence à partir de la dernière étape: le premier des deux caractères reçoit le code 1, le second - 0. Après cela, l'étape précédente est passée. Les codes de l'étape suivante sont attribués aux caractères qui n'ont pas participé à la compression à ce stade, et le code du caractère obtenu après collage est attribué aux deux derniers caractères, et ils sont ajoutés au code du caractère supérieur 1, le caractère inférieur - 0. Si le caractère n'est pas plus loin dans le collage participe, son code reste inchangé. La procédure se poursuit jusqu'à la fin (c'est-à-dire jusqu'à la première étape).

Le tableau 2.3 montre le codage de Huffman. Comme vous pouvez le voir sur le tableau, le codage a été effectué en 7 étapes. À gauche, les probabilités des symboles, à droite - les codes intermédiaires. Les flèches montrent les mouvements des symboles nouvellement formés. A chaque étape, les deux derniers caractères ne diffèrent que par le bit le moins significatif, qui correspond à la technique de codage. Calculons la longueur moyenne des mots:

l av \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + + 0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

C'est encore plus proche de l'entropie: le code est encore plus efficace. En figue. 2.12 montre l'arborescence de code de Huffman.

Tableau 2.3.

Codage Huffman

N	p i	code	je	II	III	IV	V	VI	Vii
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Les deux codes satisfont à l'exigence de décodage sans ambiguïté: comme le montrent les tableaux, des combinaisons plus courtes ne sont pas le début de codes plus longs.

À mesure que le nombre de symboles augmente, l'efficacité des codes augmente, par conséquent, dans certains cas, des blocs plus grands sont codés (par exemple, en ce qui concerne les textes, vous pouvez coder certaines des syllabes, des mots et même des phrases les plus courants).

L'effet de l'introduction de tels codes est déterminé par comparaison avec le code uniforme:

(2.24)

où n est le nombre de bits du code uniforme, qui est remplacé par le code effectif.

Modifications des codes Huffman

L'algorithme classique de Huffman fait référence à deux passes, c'est-à-dire nécessite d'abord un ensemble de statistiques sur les symboles et les messages, puis les procédures décrites ci-dessus. Ceci est peu pratique en pratique, car cela augmente le temps de traitement des messages et l'accumulation du dictionnaire. Les méthodes en un seul passage sont plus souvent utilisées, dans lesquelles les procédures d'accumulation et de codage sont combinées. Ces méthodes sont également appelées compression adaptative de Huffman [46].

L'essence de la compression adaptative de Huffman est réduite à la construction de l'arbre de code initial et à sa modification séquentielle après l'arrivée de chaque caractère suivant. Comme précédemment, les arbres sont ici binaires, c'est-à-dire au plus deux arcs émanent de chaque sommet de l'arborescence. Il est courant d'appeler le sommet d'origine le parent, et les deux sommets suivants qui lui sont associés, les enfants. Introduisons le concept du poids d'un sommet - c'est le nombre de symboles (mots) correspondant à un sommet donné, obtenu lors de la soumission de la séquence d'origine. Évidemment, la somme des poids des enfants est égale au poids des parents.

Après l'introduction du caractère suivant de la séquence d'entrée, l'arbre de code est révisé: les poids des sommets sont recalculés et, si nécessaire, les sommets sont réorganisés. La règle de permutation des sommets est la suivante: les poids des sommets inférieurs sont les plus petits et les sommets à gauche du graphe ont le moins de poids.

En même temps, les sommets sont numérotés. La numérotation commence par les sommets du bas (pendants, c'est-à-dire sans enfants) de gauche à droite, puis se déplace vers le niveau supérieur, etc. avant la numérotation du dernier sommet d'origine. Dans ce cas, le résultat suivant est obtenu: moins le poids du sommet est faible, moins son nombre est réduit.

La permutation se fait principalement pour les pics suspendus. Lors du réarrangement, la règle formulée ci-dessus doit être prise en compte: les sommets avec un poids plus élevé ont un nombre plus élevé.

Après avoir traversé la séquence (elle est également appelée contrôle ou test), des combinaisons de codes sont attribuées à tous les sommets suspendus. La règle d'attribution des codes est similaire à celle ci-dessus: le nombre de bits de code est égal au nombre de sommets par lesquels la route passe de la source au sommet suspendu donné, et la valeur d'un bit particulier correspond à la direction du parent vers "enfant" (par exemple, la transition vers la gauche du parent correspond à la valeur 1, vers la droite - 0 ).

Les combinaisons de codes résultantes sont entrées dans la mémoire du dispositif de compression avec leurs équivalents et forment un dictionnaire. L'utilisation de l'algorithme est la suivante. La séquence compressée de caractères est divisée en fragments conformément au dictionnaire disponible, après quoi chacun des fragments est remplacé par son code du dictionnaire. Les fragments non trouvés dans le dictionnaire forment de nouveaux sommets suspendus, prennent du poids et sont également entrés dans le dictionnaire. Ainsi, un algorithme de réapprovisionnement de dictionnaire adaptatif est formé.

Pour améliorer l'efficacité de la méthode, il est souhaitable d'augmenter la taille du dictionnaire; dans ce cas, le taux de compression est augmenté. Pratiquement, la taille du dictionnaire est de 4 à 16 Ko de mémoire.

Illustrons l'algorithme donné avec un exemple. En figue. 2.13 montre le diagramme original (il est également appelé l'arbre de Huffman). Chaque sommet de l'arbre est représenté par un rectangle dans lequel deux nombres sont inscrits à travers une fraction: le premier signifie le numéro du sommet, le second - son poids. Comme vous pouvez le voir, la correspondance des poids des sommets et de leurs nombres est satisfaite.

Supposons maintenant que le symbole correspondant au sommet 1 soit rencontré une seconde fois dans la séquence de test. Le poids des sommets a changé comme indiqué sur la Fig. 2.14, à la suite de quoi la règle de numérotation des sommets est violée. À l'étape suivante, nous changeons l'emplacement des sommets suspendus, pour lesquels nous échangeons les sommets 1 et 4 et renumérotons tous les sommets de l'arbre. Le graphique résultant est illustré à la Fig. 2.15. De plus, la procédure se poursuit de la même manière.

Il ne faut pas oublier que chaque sommet pendant dans l'arbre de Huffman correspond à un certain symbole ou à un groupe d'entre eux. Un parent diffère des enfants en ce que le groupe de symboles qui lui correspond est un symbole plus court que celui de ses enfants, et ces enfants diffèrent dans le dernier symbole. Par exemple, les caractères "kar" correspondent au parent; alors les enfants peuvent avoir les séquences «kara» et «carpe».

L'algorithme donné n'est pas académique et est activement utilisé dans les programmes d'archivage, y compris lors de la compression de données graphiques (nous en parlerons ci-dessous).

Lempel - Algorithmes Ziv

Ce sont les algorithmes de compression les plus couramment utilisés aujourd'hui. Ils sont utilisés dans la plupart des programmes d'archivage (par exemple PKZIP. ARJ, LHA). L'essence des algorithmes est qu'un certain ensemble de symboles est remplacé lors de l'archivage par son numéro dans un dictionnaire spécialement formé. Par exemple, la phrase «Numéro sortant à votre lettre ...», qui se trouve souvent dans la correspondance commerciale, peut occuper la position 121 dans le dictionnaire; puis, au lieu de transmettre ou de stocker la phrase mentionnée (30 octets), vous pouvez stocker le numéro de phrase (1,5 octets en binaire - forme décimale ou 1 octet - en binaire).

Les algorithmes portent le nom des auteurs qui les ont proposés pour la première fois en 1977. Le premier d'entre eux est LZ77. Pour l'archivage, une fenêtre dite coulissante est créée, composée de deux parties. La première partie, d'un format plus grand, sert à former un dictionnaire et a une taille de l'ordre de plusieurs kilo-octets. La deuxième partie, plus petite (généralement jusqu'à 100 octets), accepte les caractères actuels du texte affiché. L'algorithme essaie de trouver dans le dictionnaire une collection de caractères correspondant à ceux reçus dans la fenêtre. Si cela réussit, un code est formé qui se compose de trois parties: le décalage dans le dictionnaire par rapport à sa sous-chaîne initiale, la longueur de cette sous-chaîne, le caractère suivant cette sous-chaîne. Par exemple, la sous-chaîne sélectionnée est constituée des caractères "app" (6 caractères au total) suivis du caractère "e". Ensuite, si la sous-chaîne a l'adresse (place dans le dictionnaire) 45, alors l'entrée dans le dictionnaire a la forme "45, 6. e". Après cela, le contenu de la fenêtre est décalé d'une position et la recherche se poursuit. Ainsi, un dictionnaire est formé.

L'avantage de l'algorithme est un algorithme de compilation de dictionnaire facilement formalisable. De plus, il est possible de décompresser sans le dictionnaire d'origine (il est souhaitable d'avoir une séquence de test) - le dictionnaire est formé au cours de la décompression.

Les inconvénients de l'algorithme apparaissent lorsque la taille du dictionnaire augmente - le temps de recherche augmente. De plus, si une chaîne de caractères apparaît dans la fenêtre courante qui n'est pas dans le dictionnaire, chaque caractère est écrit avec un code à trois éléments, c'est-à-dire le résultat n'est pas une compression, mais un étirement.

L'algorithme LZSS, proposé en 1978, présente les meilleures caractéristiques. Il présente des différences dans la maintenance de la fenêtre coulissante et des codes de sortie du compresseur. En plus de la fenêtre, l'algorithme forme un arbre binaire similaire à l'arbre de Huffman pour accélérer la recherche de correspondances: chaque sous-chaîne qui quitte la fenêtre courante est ajoutée à l'arbre comme l'un des enfants. Cet algorithme permet d'augmenter en plus la taille de la fenêtre courante (il est souhaitable que sa taille soit égale à des puissances de deux: 128, 256, etc. octets). Les codes de séquence sont également formés d'une manière différente: un préfixe supplémentaire de 1 bit est introduit pour distinguer les caractères non codés des paires «offset, length».

Un taux de compression encore plus élevé est obtenu lors de l'utilisation d'algorithmes tels que LZW. Les algorithmes décrits précédemment ont une taille de fenêtre fixe, ce qui rend impossible la saisie de phrases plus longues que la taille de la fenêtre dans le dictionnaire. Dans les algorithmes LZW (et leur prédécesseur LZ78), la fenêtre d'affichage est de taille illimitée et le dictionnaire accumule des phrases (pas une collection de caractères, comme auparavant). Le dictionnaire a une longueur illimitée et l'encodeur (décodeur) fonctionne en mode d'attente de phrase. Lorsqu'une phrase correspondant au dictionnaire est formée, le code correspondant (c'est-à-dire le code de cette phrase dans le dictionnaire) et le code du caractère suivant sont renvoyés. Si, au fur et à mesure que les caractères s'accumulent, une nouvelle phrase est formée, elle est également entrée dans le dictionnaire, comme la plus courte. Le résultat est une procédure récursive qui fournit un codage et un décodage rapides.

Une capacité de compression supplémentaire est fournie par le codage de symboles répétitifs compressés. Si dans la séquence certains caractères suivent une ligne (par exemple, dans le texte, il peut s'agir de caractères "espace", dans une séquence numérique - zéros consécutifs, etc.), alors il est judicieux de les remplacer par une paire de "caractère; longueur" ou "signe, longueur ". Dans le premier cas, le code indique un signe que la séquence sera codée (généralement 1 bit), puis le code du symbole répété et la longueur de la séquence. Dans le second cas (prévu pour les caractères répétés les plus fréquents), le préfixe indique simplement les répétitions.