informazione, teoria della
informazione, teoria della teoria matematica, elaborata da C.E. Shannon e N. Wiener, che consente di misurare la riduzione d’incertezza determinata da un segnale. In un qualunque sistema di comunicazione vi è un’informazione iniziale o input (per esempio, le parole pronunciate al telefono) che mediante la → codifica è trasformata in → segnali (per esempio, le parole pronunciate al telefono sono trasformate in onde elettriche e, nella telefonia cellulare, digitalizzate); l’informazione codificata viene trasmessa al ricevente, che la decodifica; l’informazione decodificata (output) o finale non è identica all’input iniziale, perché durante le operazioni di codificazione, trasmissione e decodificazione possono verificarsi interferenze che riducono l’intelligibilità del messaggio.
Sorta inizialmente nell’ambito della radiotelegrafia e radiotelefonia e utilizzata allo scopo pratico di calcolare con precisione la perdita d’informazione che ha luogo nel corso di una trasmissione, la teoria è stata applicata allo studio teorico del linguaggio, della percezione, dell’apprendimento e della memoria; le parole, per esempio, possono essere interpretate come messaggi che l’interlocutore deve decodificare per comprendere il loro significato.
Ogni messaggio ha un contenuto informativo in quanto è scelto tra un insieme finito di messaggi possibili e in base alla probabilità che ha di essere inviato. Un messaggio poco probabile ha un contenuto informativo maggiore di uno molto probabile. Se tutti i messaggi trasmissibili hanno uguale probabilità di essere inviati, allora la quantità di informazione H insita in un messaggio è pari a log2N (con N uguale al numero di messaggi a disposizione) ed è misurata in bit, giacché se la sorgente è di tipo binario, come di fatto lo sono quelle digitali, essa può emettere soltanto una successione di segnali binari, indicati convenzionalmente con 0 o 1. Nel caso in cui l’insieme in questione sia costituito da n di tali messaggi non equiprobabili, indicando con p1, ..., pn (tali che Σpi = 1) le probabilità di essere inviati, la misura dell’informazione è data da
Tale funzione è stata chiamata da Shannon → entropia. È importante notare come l’informazione sopra definita, rappresentando un grado di scelta tra varie alternative a disposizione, misura il grado di incertezza all’atto della selezione (non per indecisione da parte di chi sceglie, ma come conseguenza della varietà di alternative a disposizione): quanto maggiore è il numero di alternative, tanto maggiore è l’incertezza, quindi più grande è l’informazione convogliata mediante la scelta di una delle alternative.
In generale, un messaggio ha un contenuto informativo che non è specifico del simbolo, ma dipende dall’insieme dei simboli all’interno del quale è scelto e dalle sue caratteristiche di frequenza nell’insieme stesso. Tale concetto è per esempio evidente nel caso delle lettere dell’alfabeto che sono usate con frequenza molto diversa e che spesso hanno interdipendenze mutue (per esempio, nella lingua italiana, una q è quasi sempre seguita da una u). La relazione strutturale tra i simboli è quindi responsabile di una diminuzione della capacità informativa di ciascun simbolo. A tale proposito Shannon introdusse il concetto di entropia relativa Hrel definita come il rapporto tra l’entropia H di un messaggio (o di un simbolo) di un determinato insieme e l’entropia massima Hmax che esso avrebbe se tutti i messaggi (o simboli) dell’insieme fossero equiprobabili. In pratica, invece di questo rapporto, si preferisce il suo complemento a 1, detto → ridondanza, pari a
Un altro importante teorema di Shannon definisce il concetto di entropia condizionata, legato a sua volta a quello di → probabilità condizionata. Analizzando l’entropia corrispondente a due messaggi o simboli qualsiasi x o y, si dimostra che
cioè che l’entropia dell’insieme dei due messaggi è minore o uguale alla somma delle due entropie (verificandosi l’uguaglianza solo quando i messaggi sono indipendenti). L’entropia condizionata misura l’informazione contenuta nel messaggio o simbolo y quando sia noto il messaggio di x e, se i due messaggi o simboli non sono indipendenti, l’informazione prodotta da y è minore se già si conosce x.