dummy, variabili
Variabili quantitative costruite per poter introdurre in un modello una variabile categorica con due o più categorie. Una variabile d. è una variabile che prende il valore 1 se una particolare caratteristica è vera, e 0 altrimenti. Per es., nel caso della variabile ‘genere’, si possono introdurre due variabili d., la variabile F, che è uguale a 1 per una femmina e a 0 per un maschio, e la variabile M=1−F, che è uguale a 1 per un maschio e 0 per una femmina.
In questo tipo di modello le variabili d. possono comparire sia come variabili dipendenti, sia come regressori. Nel primo caso, se la variabile dipendente y è binaria, la funzione di regressione è un modello per la probabilità dell’evento {y=1}. In tal caso si usano in genere modelli non lineari, come i modelli logit o probit (➔ logit, modello; probit, modello). Per quanto riguarda il secondo caso, si consideri un modello di regressione dove la variabile ‘genere’ è uno dei regressori, per semplicità l’unico. Per includere tale variabile nel modello, si può procedere in due modi diversi. Se il modello include una intercetta, si può scrivere Yi=α+βFi+Ui. In questo caso, assumendo che la variabile Y sia il reddito, si avrà che α+β rappresenta il valore medio del reddito di una lavoratrice, mentre quello di un lavoratore è α.. Se invece il modello non comprende una intercetta, si scriverà Yi=ν Fi+γ Mi+Ui. Con questa specificazione del modello, i due parametri ν e γ sono uguali al reddito medio femminile e maschile rispettivamente, per cui tra i parametri nelle due diverse specificazioni intercorre la relazione ν=α+β; γ=α . L’introduzione nel modello con intercetta di entrambe le variabili Fi e Mi porta a un problema di identificazione noto come perfetta collinearità (➔). Una variabile categorica può presentare un numero q>2 di modalità, come, per es., per le variabili ‘Paese di provenienza’ o ‘stato civile’. Come nel caso di una variabile binaria, per descrivere una variabile che può assumere q modalità, è necessario introdurre nel modello lineare un numero di variabili d. pari a q−1, se il modello include un’intercetta, q se non la include.
In un modello per dati panel a effetti fissi, gli effetti individuali sono inseriti nel modello attraverso variabili d., una per ciascuna unità. La collinearità è comunque scongiurata, perché ciascun effetto fisso rappresenta una diversa intercetta del modello di regressione, ossia il modello non presenta un’unica intercetta.