| Codifiche
nel dominio della frequenza |
Questi
algoritmi sono accomunati dal fatto di esaminare e processare
il segnale non nel dominio del tempo, ma nel demonio della
frequenza. Ogni strumento musicale, ogni suono e anche la
voce ha una propria impronta spettrale caratteristica; ossia
è costituita da una combinazione di frequenze contenute
in uno spettro più o meno ampio. Lavorando su tale
spettro vedremo come è possibile comprimere il segnale
in misura molto maggiore di quanto non si riesca a fare nel
dominio del tempo. Per far capire subito il senso dell'approccio
facciamo un esempio estremo: supponiamo di avere un segnale
persistente con frequenza di 440Hz (il "la" di uno
strumento), molto probabilmente avremo anche una certa quantità
di armoniche rilevanti a frequenze multiple di 440Hz. In ogni
caso, nel dominio delle frequenze, il suono sarà caratterizzabile
da un numero limitato di valori numerici che indicano l'intensità
e la frequenza di tali componenti spettrali (es: una ventina
di valori a 16bit) mentre nel dominio del tempo saranno sempre
necessari i soliti 44100 campioni al secondo...una bella differenza.
Timbro
e pitch
Ora, osserviamo la figura seguente :

Si capisce subito che
la voce umana occupa solo certe frequenze mentre gli strumenti
musicali spaziano secondo range diversi a seconda del tipo
di strumento impiegato. La tastiera elettronica, poi, può
occupare virtualmente qualsiasi frequenza. In realtà l'intervallo
di frequenze occupato da uno strumento dice poco. Per esempio,
come fa il nostro orecchio a distinguere fra un "do" emesso
da un pianoforte da un "do" emesso da un violino , visto che
la frequenza del "do" è sempre quella? Qui entra in gioco
il timbro. Nessuno strumento emette una singola frequenza
. Quando uno strumento emette, per esempio, un "la", corrispondente
a 440Hz, emette in realtà molte altre frequenze multiple della
fondamentale, note come armoniche (880, 1320, e 1760Hz ad
esempio). È proprio la diversa distribuzione di queste frequenze,
nonchè la loro differente intensità, che distingue il "la"
prodotto da un violino da quello prodotto da un piano. Anche
se la frequenza centrale, cioè l' armonica fondamentale, sia
per il violino che per il piano è sempre 440 Hz.
Oltre al timbro, un altro aspetto del suono prodotto
da uno strumento o dalla nostra voce è il pitch, che
in inglese significa catrame ma che qui ha un significato
completamente diverso;-). Supponiamo di avere un "la" minore
e un "la" maggiore. Entrambi sono dei "la", nel senso che
la distribuzione delle varie armoniche è sempre la stessa
, ma cambia la frequenza centrale di riferimento, ora leggermente
più bassa, ora leggermente più alta . Si dice dunque che è
cambiato il pitch, cioè la frequenza "centrale".
Detto questo, appare chiaro che tentare di comprimere
una musica generica utilizzando un approccio basato su modelli
(come abbiamo visto per il CERP) risulterebbe estremamente
complesso. Limitarsi alla sola voce è "facile"
ma prevedere un modello per ogni strumento è, allo
stato attuale della tecnologia, un impresa titanica. La soluzione
è porre l'attenzione non sulla sorgente ma sulla "destinazione"
dei suoni. In ogni caso la musica dovrà essere "ascoltata
da un orecchio" quindi conoscere fino in fondo quello
che un uomo medio riesce a sentire o non riesce a sentire
può rivelarsi sorprendentemente utile...
| APPROCCIO
PSICO-ACUSTICO ALLA COMPRESSIONE |
La sensibilità dell'orecchio
umano
Il nostro orecchio PER FORTUNA non è perfetto e, come
vedremo, questo è un grande vantaggio... In prima analisi
esso è sensibile in misura diversa alle diverse frequenze,
come è possibile dedurre esaminando il grafico in basso.

Questo grafico è stato
tracciato nella seguente maniera: una persona viene posta
in una stanza rivestita di materiale fonoassorbente e si varia
l'ampiezza e la frequenza di un tono a partire da 1 KHz. Quando
la persona avverte il tono, si traccia il punto sul grafico
corrispondente alla ampiezza per quella specifica frequenza.
Otteniamo in questa maniera l'andamento in frequenza della
soglia di udibilità.
Dal grafico emerge che l'orecchio umano è maggiormente
sensibile alle frequenze comprese fra 2 e 4 KHz, che richiedono
pochissimi dB per essere percepite (per capire cosa è il dB
nel mondo audio, si consulti l' appendice
2 a fine articolo). Non è un caso che l'intervallo
fra i 2 e i 4 KHz sia quello massimamente usato dalla nostra
voce.
Ovviamente possiamo già usare questa caratteristica
dell'orecchio a nostro vantaggio eliminando dallo spettro
del segnale in analisi quelle componenti spettrali non udibili
dall'orecchio medio. In sostanza si tagliano le alte frequenze
e le bassissime frequenze. In generale, siccome l'orecchio
a queste frequenze perde sensibilità e selettività,
si può ridurre la quantità di informazione trasmessa
in questa parte di spettro.
Questo diagramma è stato tracciato facendo variare
una sola armonica, cioè un singolo tono. Ma che succede se
di toni ve ne sono due? Il nostro orecchio è in grado di distinguerli
sempre oppure in alcuni casi uno dei due viene mascherato
dall'altro? ( Calma e portate pazienza, cari lettori, questa
trattazione serve a introdurvi nel mondo delle codifiche che
sfruttano fenomeni psico-acustici come fa l'MP3 ! ).