INFORMAZIONE, Teoria della
La nozione di informazione, già identificantesi con quella di "comunicazione", "notizia" e simili, ha subìto negli ultimi anni un'evoluzione in virtù della quale ha acquistato il significato quantitativo che le viene dall'identificare l'i. non con la comunicazione ma col contenuto della comunicazione. Un messaggio, qualunque ne sia la natura e in qualsivoglia modo venga trasmesso, rimane allora definito, come nel seguito si chiarirà, come una successione, generalmente temporale, di grandezze fisiche misurabili, a ciascuna (o a ciascun gruppo) delle quali è associata una una quantità d'i.: dello studio statistico di tali successioni si occupa appunto la teoria dell'informazione.
Il campo d'applicazione della teoria si estende, oltre che ai dispositivi di telecomunicazione, anche a quelli di controllo automatico, nonché, più in generale, ai dispositivi cibernetici: talché teoria dell'i. e cibernetica appaiono per molti studiosi, come un tutt'uno difficilmente scindibile (v. anche cibernetica, in questa App.).
La necessità di discutere l'efficienza della trasmissione delle i. (intese queste nel significato originario del termine), allo scopo di stabilire la relazione fra i mezzi usati e il minimo mezzo, si è manifestata soltanto in tempi recenti, come conseguenza del progressivo aumento delle esigenze imposte ai collegamenti informativi. Essa si pone, ad esempio, quando si debba inoltrare su una stessa via di trasmissione, cioè su uno stesso canale, una grande quantità di i. simultanee ovvero quando la trasmissione si presenti difficoltosa per particolari caratteristiche fisiche del canale (lunghezza, rumorosità, interferenze), o ancora quando il tempo disponibile sia estremamente ridotto (trasporto dei dati numerici entro una calcolatrice automati ca).
Una teoria dell'i., destinata, in ultimo, alla definizione del minimo mezzo, prescinde, naturalmente, dalla natura fisica del "mittente" e del "destinatario": in un sistema di controllo automatico, per esempio, il mittente è un organo lettore, e il destinatario è un servomeccanismo. Qualunque sia lo scopo e la natura dell'i., la teoria la riguarda come merce che viaggi lungo il canale modificando eventualmente la sua forma fisica durante il tragitto.
Un primo fondamentale compito della teoria è la valutazione dell'attivo dell'operazione "trasmissione", cioè dell'i. consegnata. Tale valutazione prescinde dal significato soggettivo che l'i. può avere per il destinatario (per il quale può interessare più un semplice sì o no, circa a una questione personale, che una completa tabella numerica): in una formulazione obbiettiva, il valore dell'i. è commisurato all'incremento di conoscenza del destinatario, ed è nullo soltanto se questi era già a priori a conoscenza dell'i. trasmessa. A priori, cioè antecedentemente alla ricezione, il destinatario è in un certo grado di incertezza (circa quello che sarà il messaggio futuro). Scopo della trasmissione è quello di eliminare l'incertezza; poiché la trasmissione è sempre, più o meno sostanzialmente, compromessa da interferenze e disturbi, il risultato della trasmissione è quello di ridurre, e non di eliminare, l'incertezza. La misura dell'informazione è così ricondotta a quella della riduzione d'incertezza; da valutarsi, quest'ultima, sulla base di pochi e semplici criterî di principio:1) deve risultare nulla se una sola configurazione (o aspetto) del messaggio è possibile; 2) se le configurazioni sono tutte equiprobabili, l'incertezza è tanto maggiore quanto maggiore è il loro numero; 3) l'i. trasmessa da un messaggio deve essere la somma delle informazioni trasmesse dalle sue singole parti; 4) a parità di numero di configurazioni, l'incertezza diminuisce se qualche configurazione è più probabile delle altre, cioè se la distribuzione di probabilità è, più specializzata.
È a questo punto che si delinea quel significato quantitativo del termine i. accennato in principio.
Prescindendo dalla condizione 4), che è un po' meno immediata, i primi tre requisiti possono essere soddisfatti definendo l'i. come una quantità proporzionale al logaritmo del numero di configurazioni possibili; per i punti1) e 2) l'affermazione è ovvia, mentre il requisito 3) è soddisfatto per la ragione che, se una parte del messaggio può presentarsi in n1 forme diverse, e l'altra parte in n2, il numero totale di configurazioni possibili è n1 n2.
Come unità di misura dell'incertezza nei casi "equiprobabili" si assume (C. E. Shannon) il bit (contrazione di binary digit, e, al tempo stesso, espressione familiare inglese per "una piccola quantità"), pari all'incertezza della scelta fra due possibilità equiprobabili. Un messaggio che fornisca l'indicazione "sì" o "no", se le due probabilità sono uguali, trasporta l'i. di un bit.
k bit d'informazione, cioè k scelte binarie, sono necessarie per localizzare una fra N = 2k possibilità equivalenti; per individuare una posizione, occorrono infatti k successivi dimezzamenti del campo di incertezza. Usando ad esempio il simbolo 0 per "prima metà" e 1 per "seconda metà", il numero 5 può essere localizzato fra i sedici numeri 0,1,..., 15, per mezzo della "operazione" identificata dal simbolo 0101, che vale appunto 5 in aritmetica binaria. Il numero di bit impiegati, quattro, appare quindi come il numero di cifre binarie (binary digits) necessarie per scrivere uno qualsiasi dei primi sedici numeri naturali; ovvero come il logaritmo a base due del numero dei casi possibili.
log2N bit sono ancora richiesti, in media, quando N non sia una potenza di due. Un messaggio composto di un grande numero, n, di caratteri, appartenenti ad un alfabeto di N caratteri, rappresenta una fra Nn combinazioni possibili; e può perciò essere individuato per mezzo di n log2N + ε scelte binarie (in cui ε sia il complemento all'intero, necessario per rendere intero il numero di scelte fisiche). In media, perciò, l'informazione per carattere è ancora log2N, perché il termine aggiuntivo è certamente evanescente al crescere di n.
In virtù dell'ipotesi di equiprobabilità, la probabilità singola di uno degli N casi è ovviamente 1/N=p, con che l'incertezza (o l'informazione) può essere scritta come − log2p. È questa la forma che meglio si presta ad una generalizzazione al caso di probabilità non uniforme. Il solito messaggio di n caratteri, aventi ora probabilità diverse p1, p2, ..., pN, avrà in media, se n è grande, p1n, ..., pNn caratteri rispettivamente uguali al primo, ..., N-mo; la sua individuazione richiede perciò la scelta fra
possibilità diverse (vol. X, p. 913).
Per valutare il logaritmo di questo numero, i cui fattori hanno valori enormi appena n sia anche moderatamente grande, giova sostituire i fattoriali con la loro approssimazione asintotica di Stirling:
Il logaritmo del predetto numero di scelte può allora essere scritto, a meno di costanti additive che non intervengono nel calcolo della variazione dell'incertezza, nella forma −nΣipi log pi + ε; in modo che l'informazione media [per segnale] risulta:
Tale espressione, che è una media ponderata dei numeri − log pi, con pesi uguali alle rispettive probabilità, è, in linguaggio probabilistico, la speranza matematica dell'i. − log pi trasmessa da ciascun segnale: che è tanto maggiore (ma ha peso tanto minore) quanto più raro è il segnale.
Tale interpretazione consente immediatamente di scrivere nella forma
l'i. media, quando il segnale, anziché entro un alfabeto discreto, può variare entro una gamma continua con densità di probabilità p(x). Se i logaritmi sono calcolati in base due, l'i. risulta espressa in bit.
Le due espressioni hanno la forma analitica di quella quantità che nella teoria statistica dei gas viene denominata entropia di una massa di gas suscettibile di configurazioni diverse con probabilità note (v. XXXIII, pag. 580).
Nella meccanica statistica il significato di entropia non è circoscritto alla comune definizione termodinamica: l'entropia deve piuttosto essere intesa e definita come una misura del grado di indifferenziazione (come opposto di specializzazione) dell'insieme statistico suscettibile delle diverse configurazioni. Nel caso termodinamico, l'insieme statistico è quello delle diverse possibili "complessioni" (di Planck) del gas; nel caso della teoria dell'i., quello dei diversi possibili aspetti del messaggio.
Il secondo principio della termodinamica afferma che l'evoluzione spontanea procede sempre nel senso dell'indifferenziazione: due masse di gas a contatto tenderanno sempre ad uniformare le loro pressioni e temperature, con conseguente aumento dell'entropia termodinamica. L'i., riducendo o annullando l'incertezza, cioè l'indifferenziazione dei casi possibili, opera dunque in senso opposto al secondo principio: le cause passive esterne tenderanno quindi sempre a degradare l'in intesa come un processo antientropico volontario.
Adottando definitivamente, in luogo di "incertezza", il termine "entropia", definiremo dunque la quantità di informazione come la differenza fra l'entropia a priori e l'entropia a posteriori.
Una teoria dell'i., di interesse applicativo, deve mettere in grado di: a) valutare la portata (in unità di i. per unità di tempo) della sorgente che genera l'i. da trasferire; b) valutare la portata (intesa ora come capacità di trasporto) del canale, esistente o in progetto, destinato al trasferimento; c) studiare i mezzi che possono materialmente ridurre la quantità di i. di cui è indispensabile il trasferimento (codificazione); d) studiare i mezzi che possono aumentare la portata del canale (filtrazione).
Si suppone naturalmente che la potenza (media o massima) destinata alla trasmissione sia obbligata da considerazioni esterne.
Il punto a) è già in parte illustrato dalle considerazioni esposte; se l'entropia del singolo segnale è H (data da [1] o da [2]) e se è noto il numero n di segnali per secondo (come accade ad esempio nei collegamenti telegrafici o telex), la portata della sorgente è nH bit/sec. In altri casi il numero n non è direttamente definito, in quanto il segnale è una funzione continua del tempo; peraltro la massima frequenza che il canale può trasmettere pone un limite per n, superato il quale viene meno la distinguibilità di due segnali successivi (acuità temporale). È fondamentale al riguardo il teorema delle campionature (sampling theorem): una funzione del tempo che non contenga componenti di frequenza superiore a un certo valore F è completamente definita da 2F letture (campioni) per secondo, e quindi non può avere un'acuità superiore a 2F. Di conseguenza, la portata di una sorgente continua di segnali, aventi ciascuno un'entropia H, è 2FH se la frequenza massima (imposta dal canale) è F.
La discussione del punto b) conduce a nuove, interessanti questioni. Secondo le considerazioni già enunciate, l'i. netta (per segnale o per unità di tempo) è H(x) − Hy(x), se x è il segnale (o il messaggio) trasmesso, y quello ricevuto; H(x) l'entropia del segnale originario e Hy(x) l'entropia a posteriori, cioè il valore medio dell'incertezza residua, dopo ricevuto il segnale y, su quale fosse il segnale trasmesso x: nel solo caso di assenza di disturbi, la seconda incertezza sarebbe nulla, e il rendimento del canale sarebbe l'unità. Il secondo termine è assai difficilmente valutabile a priori e non è praticamente determinabile in via sperimentale; riesce perciò utile l'osservazione (teorema di Shannon) secondo la quale, nell'ipotesi che il rumore sia indipendente dal segnale e si sovrapponga semplicemente a questo, la predetta differenza può scriversi nella forma H(x + r) − H(r), ove H(r) è l'entropia del rumore e H(x + r) quella del segnale + rumore. Anche qui, ovviamente, se r = 0 l'i. si identifica con l'entropia iniziale.
Il rumore è un dato del canale: se questo già esiste, la probabilità dei valori di r è determinabile, e l'entropia è valutabile, a mezzo di determinazioni sperimentali sul canale stesso in assenza di segnale. In caso contrario, prescindendo dalle interferenze, l'entropia del rumore dovuto solamente alle fluttuazioni statistiche (rumore genuino o indispensabile) può essere calcolata in termini della potenza di rumore, che, noto il tipo di fenomeno impiegato per la trasmissione, è funzione teoricamente nota delle condizioni fisiche. L'entropia del rumore genuino risulta essere precisamente la massima compatibile con il dato valore della potenza: questo fatto è ancora una conseguenza del secondo principio della termodinamica, che postula la tendenza dei fenomeni naturali a un aumento statistico dell'entropia.
Il termine H(x + r) dipende invece anche dalla natura della sorgente: ma ai fini della determinazione della portata del canale (cioè della massima quantità di i. che può percorrerlo) si deve supporre che anche l'entropia della sorgente sia la massima compatibile con la sua potenza (che è pure un dato del canale). Si trova che tale massima entropia (che si riscontra quando la distribuzione delle probabilità è gaussiana) è data da
dove w è la potenza. Di conseguenza, se s e r indicano ora le potenze medie del segnale e del rumore rispettivamente, l'i. massima per segnale risulta 1/2 log [i + (s/r)] e la portata del canale è data da:
se F è la frequenza massima. La formula [3], che è una precisazione del primitivo enunciato di R. V. L. Hartley, esprimente la proporzionalità dell'informazione trasmessa al prodotto della banda di frequenze per il tempo, viene nella letteratura attribuita a nomi diversi: la denominazione più completa è quella di "formula di Hartley-Tuller-Wiener-Shannon".
I punti c) e d) enunciano i problemi più tipici della nuova teoria. La codificazione ha lo scopo di ridurre la portata materiale (in bit/ sec) della sorgente senza ridurne la capacità informativa. Mezzi elementari consistono nell'abolire parti non indispensabili del messaggio (linguaggio telegrafico) o parti di parole (come in stenografia): un mezzo appena più elaborato consiste nell'adozione di un codice fondato sul criterio di adottare simboli a bassa entropia per i segnali più frequenti, e viceversa. Per esempio, un codice binario (Morse) dovrà destinare i simboli unitari (punto o linea), che hanno l'entropia di un bit, ai caratteri più frequenti, e così via, in modo da tenere più basso possibile il valore dell'entropia media.
La filtrazione costituisce un problema di notevole mole: lo scopo è quello di aumentare la portata informativa, ferme restando la potenza e la frequenza massima, "filtrando" il segnale inquinato attraverso un trasduttore (operante sulla caratteristica di ampiezza, o di frequenza, o su entrambe), di natura tale da rendere più sensibile la riduzione di entropia (cioè, nei casi di validità della [3], il rapporto segnale-rumore s/r). Noto l'operatore funzionale che il trasduttore applica al segnale, la variazione della distribuzione della probabilità, e quindi dell'entropia, risulta uguale al logaritmo (in base due) della speranza matematica del determinante jacobiano della trasformazione.
Alla filtrazione appartengono anche i recenti metodi di rivelazione basati sull'esistenza dì una correlazione del segnale con se stesso o con altri segnali di natura nota; cioè sull'osservazione di qualche caratteristica di coerenza o sistematicità che il segnale possa manifestare. Il valor medio del prodotto di due variabili casuali a valor medio nullo (caso a cui ci si può sempre ricondurre riferendo le escursioni alla media) è statisticamente nullo se i due fattori non hanno alcuna correlazione fra loro, mentre è certamente positivo (e si dimostra che è allora massimo) se i due fattori si identificano. Il valor medio del prodotto x(t) • x(t + h) è quindi massimo per h = 0, sicuramente nullo per h infinitamente grande, e si mantiene non nullo per un intervallo di h più o meno esteso intorno allo zero. Il rumore ha, di regola, correlazione nulla, o "microscopica"; un segnale continuo ha certamente una correlazione più lunga: se il segnale è periodico, il valor medio suddetto (che è la funzione di autocorrelazione) raggiunge di nuovo il suo massimo quando h uguagli il periodo. Similmente, il valor medio del prodotto di un segnale per un'oscillazione generata localmente è non nullo soltanto se il segnale contiene una componente della stessa frequenza.
Il rilievo (eseguibile, di regola, soltanto su messaggi registrati) della funzione di autocorrelazione, o della correlazione mutua con opportuni segnali locali, può così consentire di isolare segnali utili aventi potenza anche molto inferiore alla potenza media del rumore.
Bibl.: H. Nyquist, Certain factors affecting telegraph speed, in Bell System Technical Journla, III (1924), p. 324; R. V. L. Hartley, Transmission of information, in Bell System TEchnical Journal, VII (1928), p. 535; N. Wiener, Cybernetics, New York e Parigi 1948; C. E. Shannon, A mathematical theory of communication, in Bell System Technical Journal, XXVII (1948), p. 535; N. Wiener, Cybernetics, New York e Parigi 1948; C.E. Shannon, A mathematical theory of communication, in Bell System Technical Journal, XXVII (1948), p. 378 e 623; id., La Cybernètique, Parigi 1951; id., Communication theory, Londra 1953; S. Goldman, Information theory, Londra 1953; P. M. Woodward, Probability and information theory with applications to radar, Londra 1955; L. Brillouin, Science and inforamtion theory, New York 1956.