outlier
Osservazione lontana dal grosso dei dati. Può essere causata da una distribuzione con code pesanti o più semplicemente da errori di misura. Il primo caso solleva la questione della validità di un modello o di metodi statistici basati su distribuzioni con code poco pesanti, come quella gaussiana (➔ gaussiana, distribuzione). Nel secondo caso gli o. possono essere il risultato dell’estrazione di osservazioni da una popolazione (o sottopopolazione) distribuita differentemente. Questo secondo tipo di situazioni può essere ben modellato da un modello di mistura.
Stimatori (➔ stimatore) poco sensibili alla presenza di o. sono detti robusti (➔ robustezza statistica). Per la stima della media (o del parametro di posizione), la mediana è uno stimatore robusto, mentre la media campionaria non lo è (➔ mediana). Una stima alternativa ma più robusta è la cosiddetta media troncata: si calcola la media sulle osservazioni campionarie dopo aver eliminato i valori più grandi e quelli più piccoli. Un esempio di applicazione si trova in tutti quegli sport nei quali diversi giudici danno un punteggio agli atleti: per garantire una maggiore robustezza dei risultati e minimizzare l’impatto di o. la media dei giudizi è calcolata eliminando il punteggio più alto e quello più basso.
Data la loro natura di medie ponderate, le stime dei minimi quadrati ordinari (MQO, ➔ minimi quadrati, metodo dei) dei parametri di un modello di regressione lineare (➔ regressione parametrica, modelli e stime di) non sono robuste, e quindi esse sono sensibili alla presenza di outlier. Quando gli o. sono sufficientemente frequenti, vengono meno le condizioni che permettono di ottenere le proprietà asintotiche degli stimatori MQO (➔ consistenza; asintotica, distribuzione). Il problema della sensibilità dello stimatore dei MQO agli o. ha portato alla formulazione di metodi alternativi, come, per es., il metodo della least absolute deviation o della least trimmed regression, che sono l’estensione al caso di regressione della mediana e della media troncata. Nelle stime gli o. si possono presentare sia nella variabile dipendente sia nei regressori. Nel secondo caso, si parla di effetto di leva. Un punto lontano dal grosso dei dati esercita un effetto di leva se ‘attrae a sé’ la retta di regressione stimata. Questo porta a effetti distorsivi tanto più pronunciati quanto più l’o. è ‘isolato’.
Una statistica spesso utilizzata per misurare l’influenza complessivamente esercitata da una singola osservazione sulla stima dei MQO di un modello di regressione lineare è la distanza di Cook, definita da Di=Σn=1j(Ŷj−Ŷ(i)j)2∕ks2, dove Ŷj e Ŷ(i)j sono i valori di Yj predetti utilizzando, rispettivamente, le n osservazioni campionarie e le n−1 osservazioni ottenute escludendo l’i-esima unità, k è il numero di parametri del modello, mentre s2 è la stima usuale della varianza degli errori di regressione. Punti a cui corrisponde un valore elevato della distanza di Cook possono essere o., quindi meritano un’analisi approfondita.