regressione, modelli e stimatori di
Il termine r. fu coniato dal naturalista inglese F. Galton (1822-1911) per indicare una legge dell’ereditarietà da lui formulata per popolazioni stazionarie, secondo la quale i figli presentano caratteristiche simili a quelle dei genitori, ma tendono ad attenuare le deviazioni dalla media della popolazione. Per es., i figli di coppie la cui statura sia superiore al valore medio della popolazione sono anch’essi più alti della media, ma in misura minore rispetto a quanto lo fossero i genitori; tendono cioè a ‘regredire’ verso la media (➔). In statistica, il termine ha acquisito un significato più ampio, essendo associato alla modellazione e all’inferenza circa la relazione tra una (o più) variabili dipendenti (➔ dipendente, variabile) e un insieme di covariate o regressori. Il caso classico, usualmente identificato con il termine r., riguarda la relazione tra la media condizionata della variabile dipendente e i regressori. Un altro caso importante riguarda la relazione tra un quantile condizionato (➔ quantile) della variabile dipendente e i regressori. Tale relazione è detta anche r. quantilica. In generale la scelta di un particolare modello di r. e le assunzioni sulla distribuzione delle variabili coinvolte costituiscono fattori importanti per la selezione del metodo di stima (➔). Nella classificazione dei modelli di r., tra i principali sono: la r. intesa nel senso classico di media condizionata e la r. quantilica, di cui la r. mediana è un caso particolare.
A seconda del tipo di restrizioni imposte sulla funzione μ(x), si distinguono modelli parametrici, non parametrici e semiparametrici. Nella regressione parametrica (➔ regressione parametrica, modelli e stime di) si assume che μ(x) dipenda da un numero finito di parametri (➔ parametro). Nella r. non parametrica si assume invece che μ(x) dipenda da un numero infinito di parametri. La r. non parametrica si utilizza quando si vogliono limitare al massimo le assunzioni sulla distribuzione delle variabili oggetto di indagine. Tra i metodi non parametrici di stima più frequentemente usati ricordiamo quelli basati su splines, il metodo kernel, e il metodo degli stimatori localmente lineari. I modelli semiparametrici costituiscono un compromesso tra la flessibilità di un modello nonparametrico e la semplicità e l’efficienza nella stima di un modello parametrico. Generalmente essi sono usati per semplificare il problema della stima di μ(X1,...,Xk) riducendo il numero di argomenti in μ (➔ regressione non parametrica, modelli di).
L’obiettivo in questo caso è quello di modellare e fare inferenza circa la mediana condizionata di una variabile dipendente Y, dato un insieme di regressori X o, più in generale, circa il quantile condizionato di livello p. Anche per la regressione quantilica si può in particolare distinguere tra modelli parametrici (il principale dei quali è quello lineare) e modelli non parametrici o semiparametrici. Nel caso della r. mediana (corrispondente a p=0,5), lo stimatore più frequentemente utilizzato è quello LAD (Least Absolute Deviation), che minimizza la somma degli scarti assoluti. Analogamente al caso della r. classica, modelli e metodi non parametrici o semiparametrici possono essere utilizzati anche per la r. mediana e quantilica.