SUONO
(XXXII, p. 995; App. III, II, p. 872; IV, III, p. 545)
Registrazione e riproduzione dei suoni. - Tecniche digitali. -I sistemi analogici basano il loro funzionamento sull'analogia di grandezze fisiche diverse, atte a rappresentare lo stesso fenomeno. Una grandezza fisica viene cioè rappresentata per mezzo di un'altra posta in corrispondenza con la prima. Per es., nel caso della registrazione meccanica su disco (v. App. III, ii, p. 872), una vibrazione sonora (grandezza meccanica) viene dapprima trasformata in una elettrica mediante un microfono e poi nuovamente in una grandezza meccanica per incidere il solco sul disco. Sistemi di questo tipo presentano tutti un difetto ineliminabile, proprio delle grandezze fisiche interessate: i valori assunti a ogni istante da una grandezza fisica nel sistema sono soggetti ad alterazioni dovute, per es., a fenomeni di non linearità o a variazioni di temperatura. Anche se progetti sofisticati e progressi tecnologici continui concorrono a minimizzare questi effetti, essi non sono eliminabili per principio. Nei sistemi numerici (o digitali) una grandezza fisica viene rappresentata da una successione di numeri in base a un determinato procedimento di codifica. I numeri, entità astratte, non possono essere influenzati da un fenomeno fisico, come per es. la temperatura. Perciò i sistemi di questo tipo, una volta che la grandezza in esame sia stata convertita in forma numerica, sono insensibili a variazioni dei parametri fisici. Restano solo gli errori di conversione, ma questi, oltre ad assumere in generale valori contenuti, possono essere in molti casi rivelati e corretti, mediante particolari sistemi che utilizzano codici di verifica e di controllo.
I procedimenti di registrazione del s. basati su tecniche numeriche sono stati introdotti a partire dagli anni Ottanta. Attualmente, come supporto per immagazzinare il segnale numerico (risultante dalla conversione analogico/digitale), si usa uno speciale disco (Compact Disc o CD), che viene inciso e letto utilizzando una tecnica basata su un procedimento ottico, o un nastro magnetico (Digital Audio Tape o DAT). La registrazione ottica su disco è stata introdotta commercialmente nel 1982, dopo un periodo piuttosto lungo, necessario perché fosse accettato dalle varie case costruttrici uno standard comune. La novità del sistema, oltre all'impiego di un trasduttore a luce laser, consiste principalmente nella registrazione del segnale in forma numerica. Benché questo procedimento fosse già in uso da molti anni nei laboratori di ricerca, esso ha potuto essere impiegato in apparecchiature commerciali solo quando lo sviluppo nel campo dell'elettronica di circuiti integrati VLSI (Very Large Scale Integration) ha permesso la realizzazione delle complesse funzioni richieste a un costo accettabile. L'introduzione sul mercato di registratori magnetici digitali, rallentata all'inizio essenzialmente per motivi di politica commerciale, è avvenuta a partire dagli anni Novanta.
La qualità di registrazione e riproduzione ottenibile con i sistemi digitali è assai elevata, superiore alle prestazioni ottenibili allo stato dell'arte dai migliori sistemi di registrazione analogici professionali. A titolo di esempio, si riportano in tabella le specifiche tipiche ottenibili da un sistema di registrazione e riproduzione basato su compact disc.
Registrazione ottica su disco. - Nella registrazione ottica su disco il segnale numerico viene immagazzinato su una sola faccia di un disco sottile (1,2 mm) di policarbonato del diametro di soli 120 mm (da cui la dizione di compact disc) sotto forma di zone riflettenti o non riflettenti distribuite su di una traccia spiraliforme che inizia dalla parte interna del disco stesso e si sviluppa verso l'esterno. In questo modo non è preclusa la possibilità da parte del sistema di lettura di avere la compatibilità anche con dischi di diametro diverso da quello attualmente standardizzato. Il disco viene fatto rotare a velocità lineare costante (CLV). Ciò comporta che la velocità di rotazione del disco varia da 200 a 500 giri/minuto, in modo da mantenere costante la velocità lineare di lettura del fotorivelatore, consentendo la massima densità di dati registrati sul supporto fisico disponibile. Alcune caratteristiche fisiche del disco utilizzato sono deducibili dalla fig. 1. I problemi di wow e flutter, tipici dei sistemi analogici di registrazione, sono virtualmente eliminati, poiché gli impulsi letti dal trasduttore optoelettronico vengono risincronizzati mediante l'impiego di un oscillatore stabilizzato al quarzo.
Lo strato riflettente sul disco è ottenuto mediante la deposizione di uno strato di alluminio sul supporto di policarbonato (fig. 1B), mentre le zone non riflettenti s'identificano in realtà con delle ''fossette'' (pit) nello strato riflettente, profonde λ/4. Siccome la radiazione del laser è coerente, tali fossette appaiono come ''scure'', poiché si producono fenomeni d'interferenza distruttiva (percorso ottico di andata e ritorno dal fondo al bordo della fossetta pari a λ/2). L'informazione immagazzinata viene letta rivelando la presenza o l'assenza delle fossette per mezzo di un fascetto laser esploratore. Non essendovi contatto meccanico tra il rivelatore e il disco, non vi è alcun deterioramento del disco stesso per effetto del processo di lettura. Per mantenere il fascio laser focalizzato sulla traccia è necessario utilizzare un sofisticato servomeccanismo. Infatti le tracce costituite dal susseguirsi delle fossette sono estremamente sottili (0,5 μm) e vicine fra loro (1,5 μm). Il servomeccanismo dev'essere in grado di mantenere il fascio sulla traccia anche in presenza di vibrazioni esterne, presenza di sporco o rigature sulla superficie esterna del disco. Inoltre dev'essere presente un ulteriore servomeccanismo di focalizzazione, per mantenere sempre a fuoco il sistema ottico associato al fotorivelatore. L'equipaggio di lettura è montato su di un braccio incernierato o su una slitta dotata di movimento radiale rispetto al disco.
I sistemi usati per la rivelazione degli errori di tracciamento sono essenzialmente due: a tre raggi e a raggio singolo. Il sistema a tre raggi è utilizzato dai costruttori giapponesi, che recentemente impiegano in alternativa anche sistemi a raggio singolo.
Nel sistema a tre raggi un dispositivo g denominato griglia (fig. 2A) divide il fascio prodotto dal laser i in un fascio principale e due laterali r1 e r2, che devono produrre lo stesso segnale quando la traccia risulta centrata come in fig. 2C, I; nel caso in cui la traccia non è centrata (fig. 2C, II) viene prodotto un segnale d'errore che aziona il controllo del sistema ottico. I vantaggi dell'uso del sistema a tre raggi sono: la separazione fisica dei segnali di errore per il tracciamento di errore di focalizzazione; i circuiti di rivelazione degli errori semplici. Gli svantaggi sono: la sensibilità relativamente alta alla sporcizia depositata sulla superficie esterna del disco; la necessità di utilizzare parti dotate di elevata precisione meccanica; un sistema ottico più complicato rispetto a quello del sistema monoraggio.
Nel sistema a raggio singolo si utilizza un fotorivelatore costituito da zone sensibili multiple, di solito a quattro quadranti (fig. 3). Per rivelare lo squilibrio di lettura fra le varie zone del fotorivelatore si utilizzano tre sistemi diversi: push-pull (usato nelle macchine prodotte in Europa); eterodina (comparazione analogica di fase); rivelazione di differenze temporali (comparatore di fase digitale). I vantaggi del sistema monoraggio sono: la semplicità costruttiva del sistema ottico; l'alta insensibilità ai difetti superficiali del disco. Gli svantaggi sono il verificarsi di interferenze fra il controllo di fuoco e quello di centraggio della traccia.
Codifica dei segnali digitali. - La forma d'onda analogica (fig. 4) viene campionata, cioè misurata in ampiezza a brevi intervalli di tempo di solito eguali fra loro. In un dispositivo, detto convertitore Analogico/Digitale (A/D), i valori misurati vengono tradotti in numeri, espressi in forma binaria e codificati come un treno di impulsi. Tali impulsi corrispondono a una sequenza (codice binario) di 0 e 1 (bit). Ciascun campione del segnale analogico viene rappresentato da una ''parola'' lunga B bit.
La capacità d'informazione I in bit/s del segnale digitale può esprimersi mediante la relazione
I=B × fc
ove fc è la frequenza di campionamento pari a fc=1/T, se T è l'intervallo temporale fra un campione e l'altro. La frequenza di campionamento fc determina la massima banda passante del sistema, secondo il teorema del campionamento, che fissa la massima frequenza utile teorica fN del segnale (frequenza di Nyquist) in base all'espressione fN=fc/2. In realtà viene sempre considerato un margine di sicurezza, per cui sono state standardizzate per le apparecchiature audio digitali tre frequenze di campionamento: 48, 44,1 e 32 kHz. La prima è utilizzata per il processo dei segnali negli studi di registrazione e nei registratori DAT; la massima frequenza riproducibile è fissata a 20 kHz. La seconda è prevista per gli apparati HI-FI; viene utilizzata tipicamente nei CD e, in sola riproduzione, nelle cassette preregistrate dei DAT. Anche in questo caso la massima frequenza riproducibile è pari a 20 kHz. La terza, ossia la frequenza di campionamento di 32 kHz, è prevista per l'audio digitale nelle radiocomunicazioni, con banda di frequenza riprodotta pari a 15 kHz.
Il numero B di bit utilizzati per rappresentare il valore numerico assunto da ciascun campione del segnale influenza in maniera determinante, assieme alla frequenza di campionamento, la qualità raggiungibile dal sistema digitale. Utilizzando B bit, il massimo numero possibile di livelli di quantizzazione è pari a 2B. Ciò significa, per es., che utilizzando quattro bit si possono discriminare 16 livelli diversi. Questi livelli di quantizzazione possono essere distribuiti in infiniti modi. Sono stati perciò proposti numerosi schemi di quantizzazione, ciascuno dei quali presenta vantaggi e svantaggi. In generale si possono distinguere due schemi fondamentali: quantizzazione uniforme (o lineare) e non uniforme (o non lineare). Nella prima i livelli del segnale rappresentabili numericamente sono uniformemente spaziati, nella seconda sono usati passi non uniformi fra un livello e l'altro.
Nelle apparecchiature audio digitali di alta qualità viene usato come standard il sistema di quantizzazione lineare con B=16. Questo tipo di codificazione è detto PCM (Pulse Code Modulation) ed è quello più largamente usato nei sistemi di registrazione del suono. Detto δ=2−B il passo di quantizzazione, la massima ampiezza di un segnale a valor medio nullo che può essere convertita dal sistema è pari a δ × 2(B−1). Al valore espresso da δ è legato anche il cosiddetto errore di quantizzazione, cioè l'errore che intercorre fra il segnale analogico e il segnale numerico a esso associato. Per un sistema PCM tale errore è compreso fra −δ/2 e δ/2. Il rapporto segnale/disturbo per un sistema PCM è esprimibile, in base alla teoria dei segnali, mediante la relazione
Perciò ogni bit utilizzato per rappresentare numericamente ciascun campione del segnale digitale fornisce un contributo di circa 6 dB in termini di rapporto segnale/disturbo. I segnali relativi al canale destro e sinistro del sistema stereofonico vengono incisi sulla stessa traccia, utilizzando una tecnica di multiplazione a divisione di tempo (s'intercalano successivamente a uno a uno i campioni del canale sinistro e destro).
Il segnale numerico viene sottoposto a ulteriori procedimenti di codifica che consentono di sincronizzare i bit relativi ai due canali e di migliorare le prestazioni del sistema in termini di rivelazione e correzione degli errori. Infine il segnale numerico viene modulato in forma appropriata per avere le massime prestazioni di densità d'immagazzinamento dati con buoni valori di rapporto segnale/rumore relativo al singolo bit registrato, eliminando la presenza di componenti continue. Per la rivelazione e la correzione degli errori si ricorre all'aggiunta di bit ridondanti rispetto al segnale puro e semplice (codici di Controllo a Ridondanza Ciclica, CRC). Inoltre viene effettuata un'operazione di spostamento temporale dei campioni adiacenti, che vengono intercalati secondo una prestabilita modalità di distribuzione (interleaving). Con questo procedimento eventuali errori in sede di lettura non colpiscono larghe zone continue del segnale, permettendo l'integrità dei codici di controllo di zone adiacenti. In questo modo eventuali errori ''a raffica'' vengono dispersi temporalmente ed è possibile ricostruire le porzioni di segnale mancante mediante procedimenti d'interpolazione.
Il controllo per il riconoscimento e la correzione degli errori nei riproduttori CD viene fatto mediante il cosiddetto sistema dei codici a blocchi. I dati vengono raggruppati in blocchi, ciascuno dei quali contiene un certo numero di bit, e la ricerca e correzione degli errori viene fatta sui dati contenuti nel blocco. L'insieme dei dati e dei bit di controllo costituisce la più piccola ''struttura completa'' (frame) di segnale. Nei Compact Disc viene usato per la codifica e la ridistribuzione temporale dei campioni il sistema denominato CIRC (Cross Interleave Reed-Solomon Code). Ogni gruppo di 16 bit proveniente dal convertitore A/D, corrispondente a un campione del segnale analogico, viene diviso in due ''simboli'' di 8 bit ciascuno. Questi simboli vengono quindi elaborati dal codificatore CIRC a gruppi di 24 (due gruppi di 12). I 24 simboli dapprima subiscono un procedimento crittografico e poi sono inviati al primo dei due codificatori Reed-Solomon, che aggiunge 4 simboli per la rivelazione e il controllo degli errori. I 28 simboli, dopo un'operazione di ridistribuzione temporale, vengono sottoposti a un secondo codificatore Reed-Solomon, che ne aggiunge altri 4. A questi 32 simboli ne viene poi aggiunto un altro (subcode) e il tutto viene inviato in un modulatore del tipo 8 a 14 EFM (Eight to Fourteen Modulation). Questo processo di modulazione trasforma, in base a un'assegnata tabella, ciascun simbolo a 8 bit in un simbolo a 14 bit, in modo tale che due ''1'' consecutivi siano separati da un numero di ''0'' compreso fra 2 e 10. Per mantenere questo schema anche fra un simbolo e l'altro vengono inseriti 3 bit di riempimento. Infine un gruppo di 24 bit viene impiegato per la sincronizzazione. La più piccola struttura completa di segnale contiene perciò 588 bit, di cui 336 (+72 di riempimento) relativi ai dati, secondo lo schema di fig. 5. In fig. 6 viene esemplificato su un solo simbolo a 8 bit il procedimento di modulazione e demodulazione EFM.
Filtraggio anti immagini. - In fase di riproduzione il disco viene esplorato da un fascio focalizzato di radiazione infrarossa prodotta dal laser a stato solido i (figg. 2 o 3). Tale fascetto viene modulato secondo le zone opache o riflettenti che incontra esplorando la traccia. Un prisma semiriflettente P permette di separare il fascio riflesso, deviandolo sul fototransistor F. Le variazioni d'intensità del fascio riflesso sono così riconvertite in impulsi elettrici. Dopo un processo di decodifica inverso a quello descritto in precedenza, che consente anche un controllo e una correzione degli errori di lettura sfruttando la ridondanza introdotta in fase di registrazione, si ottengono gli impulsi corrispondenti ai dati che, mediante un procedimento di conversione, questa volta Digitale/Analogico (D/A), permettono di riottenere il segnale originario. L'uscita del convertitore D/A produce un segnale analogico che presenta delle discontinuità a gradini tra un campione e l'altro, dovute alla quantizzazione dell'ampiezza degli impulsi costituenti i singoli campioni. Le discontinuità a gradini nel dominio del tempo corrispondono nel dominio della frequenza a immagini della banda base utile (20÷20.000 Hz) situate attorno a valori multipli della frequenza di campionamento fc (fig. 7). Per eliminare le componenti indesiderate del segnale (le immagini) occorre far seguire il convertitore D/A da un filtro anti immagine. Questo filtro deve presentare elevati valori di attenuazione in banda opaca e una pendenza elevata nella banda di transizione. Ciò provoca, se la frequenza di campionamento non è troppo discosto dal valore teorico del doppio della massima frequenza riprodotta fB, come avviene nel caso del CD in cui fc=44,1 kHz e fB=20 kHz, rilevanti distorsioni di fase per la necessità di ricorrere a filtri analogici a molti poli. Per ovviare a quest'inconveniente si può ricorrere a una tecnica di sovracampionamento (oversampling) del segnale digitale da inviare al convertitore D/A, in modo da allontanare nel dominio della frequenza la prima immagine dall'estremo superiore in frequenza della banda base (fig. 8). Il filtraggio analogico anti immagine può essere così realizzato a pendenza più dolce, mantenendo una risposta in fase pressoché lineare. Sovracampionare il segnale significa intercalare un opportuno numero di campioni fra quelli esistenti, assegnando loro valori ottenuti per interpolazione. Ciò può essere fatto, in base alla teoria dei segnali, inserendo campioni di valore nullo, sottoponendo successivamente il segnale a un procedimento di filtraggio digitale. Il vantaggio rispetto al filtro analogico anti immagine a pendenza elevata risiede nel fatto che il filtraggio digitale può essere fatto ricorrendo a procedimenti di calcolo numerico, che mantengono la linearità della risposta in fase (filtri FIR a fase lineare). L'ulteriore vantaggio della tecnica di sovracampionamento consiste in un aumento del rapporto segnale/rumore, perché viene ridotto il rumore di quantizzazione. I riproduttori CD sono ormai dotati quasi tutti di convertitori D/A sovracampionati. Il fattore di sovracampionamento più usualmente utilizzato è pari a 2, 4, 8, anche se non mancano esempi di realizzazioni con fattori di sovracampionamento pari a 16.
Registrazione digitale su nastro magnetico. - La registrazione digitale del segnale audio su nastro magnetico è basata, dal punto di vista del trattamento del segnale, sugli stessi principi esaminati precedentemente. Oltre al diverso supporto di registrazione, vi sono alcune differenze nella costituzione della più piccola unità completa di segnale, ma i procedimenti logici sono del tutto analoghi: aggiunta di bit per realizzare la voluta codifica dei dati; procedimento di disposizione alternata dei campioni (interleaving); processo di modulazione.
Le frequenze di campionamento standardizzate previste per il DAT sono tre: a) 48 kHz, per la registrazione e la riproduzione a partire da un segnale analogico; b) 44,1 kHz, per la riproduzione (soltanto) di cassette preregistrate; c) 32 kHz, per la registrazione dell'audio digitale dei programmi radiotelevisivi.
Il nastro magnetico utilizzato nel DAT è contenuto in una cassetta normalizzata di dimensioni molto contenute (circa la metà di una cassetta audio analogica). Il nastro ha una larghezza identica a quella utilizzata nelle cassette audio analogiche (3,81 mm), mentre la velocità di scorrimento è pari a 8,155 mm/s.
Nonostante la velocità di scorrimento molto bassa, è possibile registrare l'elevato flusso di informazioni richiesto facendo ricorso alla tecnologia a testine magnetiche rotanti, molto simile a quella utilizzata nella registrazione del segnale televisivo. In questo modo, la velocità relativa fra nastro e testine magnetiche, montate su un tamburo rotante ad alta velocità, è molto elevata (3,133 m/s), consentendo di ottenere una banda passante assai estesa. La larghezza di ogni traccia, disposta obliquamente (6° 22′ d'inclinazione) sul nastro è pari a 13,591 μm (fig. 9). Le testine utilizzate sono due, disposte a 180° sul tamburo rotante. Per sincronizzare ciascuna testina sulla traccia corrispondente viene aggiunto a ogni pacchetto di dati un segnale della frequenza di 130 kHz o 78 kHz. Un apposito rilevatore pilota il motore di trascinamento del nastro in modo da mantenere ciascuna testina sulla propria traccia, con un errore massimo pari a 3 μm. Questa tecnologia è denominata ATF (Auto-Track Finding). Il nastro viene estratto dalla cassetta da un opportuno meccanismo e portato a contatto con le testine rotanti (fig. 10). L'angolo di copertura del tamburo è pari a 90° (contro i 180° del sistema di registrazione video): in questo modo è possibile l'avanzamento veloce del nastro pur mantenendolo in contatto con il tamburo rotante. La ricerca veloce dei brani viene effettuata a circa 200 volte la velocità nominale.
Data l'elevata precisione meccanica richiesta, la cassetta, una volta estratta dal registratore, è completamente chiusa da antine mobili ribaltabili che garantiscono un'elevata salvaguardia da contaminazioni esterne, come per es. la polvere.
Il sistema di correzione degli errori adottato nel DAT è particolarmente sofisticato. L'impiego di una doppia codifica Reed-Solomon e di uno schema di ridistribuzione temporale, che provvede alla registrazione a tracce alterne dei campioni pari e dispari dei due canali, consente il funzionamento del DAT anche con una delle due testine fuori uso, ovvero la correzione di cancellazioni accidentali sul nastro anche relativamente ampie. Il flusso dei dati, per la disposizione delle testine e per l'uso di tracce singole non continue, è forzatamente discontinuo. È necessario perciò registrare (e leggere) i dati più velocemente di quanto corrisponde al flusso continuo dei campioni del segnale audio. Ciò richiede l'uso di una memoria tampone (buffer) di almeno 128 kbyte. Il segnale proveniente dal convertitore A/D viene inviato nella memoria, dove vengono aggiunti i dati per la sincronizzazione e la rilevazione e correzione degli errori. Infine avviene la registrazione su nastro a velocità più elevata di quella corrispondente al flusso dei dati in tempo reale. I codici usati nel DAT sono gli stessi Reed-Solomon del CD, mentre la modulazione è del tipo da 8 a 10 anziché da 8 a 14. La ridistribuzione temporale dei campioni avviene, come già accennato, su due tracce. Una traccia è composta da 196 blocchi, ciascuno di 288 bit, ed è divisa in 16 ''aree''. I dati audio PCM occupano 128 blocchi. Una struttura completa di segnale è costituita da due tracce e contiene perciò 288 × 196 × 2=112.896 bit.
Bibl.: L.R. Rabiner, B. Gold, Digital signal processing, Englewood Cliffs (New Jersey) 1975; A.V. Oppenheim, R.W. Schafer, Elaborazione numerica dei segnali, trad. it. a cura di C. Braccini e G. Gambardella, Milano 1981; S. Tomita, I videodischi e le memorie ottiche, trad. it. a cura di P.P. Muzzolon, Cinisello Balsamo (Milano) 1987; Audio Engineering Handbook, New York 1988.