eteroschedasticita
eteroschedasticità Una famiglia di variabili aleatorie {Yi} si dice eteroschedastica se le sue componenti non hanno tutte la stessa varianza. Il concetto di e. si contrappone a quello di omoschedasticità (➔). Una collezione di dati può presentare e. per vari motivi. Nel caso di una serie storica di dati, la varianza potrebbe dipendere dal tempo in cui la serie è osservata o da altre variabili che cambiano con il tempo. Oppure un campione può essere divisibile in due gruppi di osservazioni omogenee, ma tali che la varianza del primo gruppo sia diversa da quella del secondo gruppo. Questo tipo di situazione si presenta, per es., nel caso in cui i dati provengano da una serie storica e tale serie sia interessata da un cambiamento strutturale della distribuzione, causato dal verificarsi di un evento particolare. In generale, trascurare la presenza di e. nei dati non crea problemi di inconsistenza in stimatori che siano funzioni lineari dei dati stessi, ma rende invece inconsistenti stimatori non lineari. Per es., sotto l’ipotesi di e., la media campionaria X̄ è uno stimatore non distorto e consistente per la media della popolazione, proprio come nel caso di omoschedasticità. Però, se i dati sono indipendenti ma eteroschedastici, non è più valida la formula classica della varianza campionaria di X̄, var(X̄)=σ2t/n, ma la formula corretta è in questo caso var(X̄)=∑ni=1σ2i/n2, dove σ2i è la varianza dell’i-esima variabile X̄i. In presenza di e. quindi è possibile continuare a stimare la media tramite X̄, purché si abbia l’accortezza di tenere conto della formula corretta per stimarne la varianza campionaria. Se ciò non viene fatto, le stime intervallari o le regioni di rifiuto per la verifica di ipotesi sulla media risultano inaffidabili anche per grandi campioni, poiché risentono dell’inconsistenza della stima della varianza campionaria di X̄. Per evitare questo rischio, si raccomanda perciò l’uso di ‘stime robuste all’e.’ per la varianza campionaria (cioè stime che restano valide anche in presenza di e. dei dati) ogniqualvolta vi siano dubbi circa l’assunzione di omoschedasticità. Un’altra conseguenza dell’e. dei dati è che la media campionaria non è più BLUE cioè non è più lo stimatore più efficiente tra gli stimatori lineari non distorti (➔ efficienza statistica). Considerazioni simili a quelle fatte per la media campionaria valgono per lo stimatore con i MQO (➔ minimi quadrati ordinari, metodo dei) dei parametri di un modello di regressione lineare con errori eteroschedastici.
La letteratura statistica offre una varietà di metodi diagnostici utili a individuare la presenza di eteroschedasticità. Questi possono essere basati su esplorazione, anche grafica, dei dati, o su test statistici: per quanto riguarda la prima, alcune tecniche si basano sul fatto che, sotto l’assunzione di omoschedasticità, gli scarti dalla media dovrebbero apparire come identicamente distribuiti con media 0 e varianza costante; per quanto concerne i secondi, di norma un test assume che l’ipotesi nulla corrisponda al caso di omoschedasticità, mentre l’ipotesi alternativa si basa su una precisa specificazione dell’e. (come nel test di Breusch-Pagan).