regressione parametrica, modelli e stime di
Modelli statistici di tipo parametrico (➔ modello statistico) mirati a fare inferenza su particolari aspetti della distribuzione condizionata di una variabile di interesse, detta dipendente, dati i valori di un insieme di esplicative, dette covariate o regressori. Assumendo che l’obiettivo dell’analisi di regressione sia una particolare funzione g(X) delle covariate, in un modello di r. p. la famiglia di funzioni che si presume approssimi bene g è indicizzata da un insieme finito di parametri, per es. {g(x)=α+βx,(α,β)∈R2}, dove a ciascuna coppia (α,β) di parametri (➔ parametro) corrisponde un’unica funzione g. Si può distinguere tra diversi tipi di modelli di r. in base alla natura della funzione di interesse, g. Il più comune, a volte identificato con il termine stesso di r., è quello per la media condizionata (➔ media). Un’altra famiglia di modelli è quella della r. mediana o, più in generale, della r. quantilica (➔ quantile).
L’obiettivo dell’analisi è in questo caso la media condizionata μ(x)=E(Y∣X=x), di Y dato il vettore X=x di regressori, la quale viene rappresentata come funzione di un numero finito di parametri. ● La r. lineare è l’esempio più semplice di r. p., nel quale si assume per semplicità un solo regressore, μ(x)=α+βx. Il modello di r. lineare viene talvolta scritto come una relazione del tipo Y=α+βX+U, dove U è un errore di r. indipendente in media da X. Più in generale, si ha un modello di r. lineare quando la funzione μ(x) è lineare nei parametri, ma non necessariamente nei regressori, come per es. la funzione μ(x)=α+β1x+β2x2, il cui grafico è una parabola. Il principale metodo di stima per modelli di r. lineare è quello dei MQO (➔ minimi quadrati, metodo dei). Quando il modello include assunzioni p. circa la distribuzione degli errori, è possibile stimare i parametri del modello anche usando il metodo della massima verosimiglianza (➔ verosimiglianza massima, metodo della). Quando gli errori del modello di r. sono eteroschedastici o serialmente correlati, la stima più efficiente (BLU) (➔ efficienza statistica) è ottenuta con il metodo GLS (minimi quadrati generalizzati), che coincide con quello dei MQO dopo un’opportuna trasformazione lineare delle osservazioni. Quando uno o più regressori sono endogeni (➔ endogeno/esogeno), cioè correlati con l’errore U, lo stimatore dei MQO non è consistente. Un metodo di stima alternativo è in questo caso quello delle variabili strumentali (➔ variabili strumentali, metodo delle), di cui lo stimatore dei MQ a due stadi (➔ minimi quadrati a due stadi, metodo dei) è un caso particolare. Il modello di r. lineare è usato comunemente anche per l’analisi delle serie storiche (➔). Un esempio classico è il modello autoregressivo (➔ autoregressivo, modello), dove il vettore X di regressori è costituito da un numero finito di ritardi della variabile Y. Infine, il modello di r. lineare è usato frequentemente anche per dati panel (➔). A differenza del modello classico di r. lineare, questo non ha un’unica intercetta ma N, ossia una per ogni osservazione del panel. Queste assumono il significato di effetti individuali, che possono essere considerati come parametri da stimare oppure come realizzazioni di una comune variabile aleatoria. Al primo caso corrisponde il modello lineare a effetti fissi, mentre al secondo corrisponde il modello a effetti casuali. ● Ci sono situazioni nelle quali un modello lineare non è adatto a rappresentare la media condizionata. Un caso importante è quando la variabile dipendente Y è una variabile categorica. Per es., se Y è binaria e assume solo valori 0 e 1, la sua media condizionata coincide con la probabilità condizionata che Y=1, cioè E(Y∣X)=P(Y=1∣X). Perciò, l’uso di un modello lineare per P(Y=1∣X) può portare, per qualche X=x, a valori predetti (➔ predittore) ^α+^βx che possono essere maggiori di 1 o negativi, valori impossibili per una probabilità (➔). In questi casi si preferisce adottare appositi modelli non lineari quali i modelli logit e probit (➔ logit, modello; probit, modello). Una loro generalizzazione per variabili categoriche corrispondenti a più di due categorie sono i modelli logit e probit multinomiali. Il modello di r. di Poisson (➔ Poisson, distribuzione di) è invece usato quando la variabile dipendente è una variabile di conteggio. ● Nel caso della r. per dati troncati o censurati il modello di riferimento è il tobit (➔ tobit, modello).
L’obiettivo dell’analisi è in questo caso la mediana (➔) condizionata di una Y dato l’insieme di regressori X o, più in generale, il suo quantile (➔) condizionato di livello p. Anche per la r. quantilica, il modello p. più usato è quello lineare. Un modello di r. lineare per il quantile di livello p può essere scritto come QY(Y∣X)=α+βX, dove QY(p∣X) è il quantile di livello p di Y condizionato a X, oppure come Y=α+βX+U, dove U è un errore che ha quantile nullo di livello p condizionatamente a X. Per p=0,5 si ha la r. mediana. Lo stimatore di riferimento per la mediana condizionata è lo stimatore LAD (Least Absolute Deviation), che minimizza la somma degli scarti assoluti: è cioè soluzione del problema di minimo minβΣi∣Yi−βXi∣. Nel caso di r. quantilica, la stima di β si ottiene invece minimizzando la deviazione assoluta asimmetrica.