distribuzione campionaria
Insieme di probabilità di una statistica, per es. uno stimatore (➔) o una statistica test. Il termine ‘campionario’ fa riferimento al fatto che la statistica è una funzione dei dati campionari, ottenuti da una estrazione casuale da una popolazione. La variabilità, a livello di popolazione, è descritta matematicamente tramite una variabile o un vettore di variabili aleatorie (➔ variabile aleatoria), di cui le n osservazioni campionarie costituiscono n possibili realizzazioni, cioè a loro volta n variabili aleatorie (➔ campione statistico).
Ci sono alcune situazioni ideali nelle quali è possibile determinare la d. c. esatta di una statistica per qualsiasi dimensione campionaria n. Per es., si consideri lo stimatore della media della popolazione chiamato media campionaria: X‾=Ʃni=1 Xi/n. Se si assume che la popolazione possa essere modellata da una d. gaussiana (➔ gaussiana, distribuzione) a media μ e varianza σ2, dove μ è il parametro di interesse, allora la d. c. esatta di X‾ è gaussiana di media μ e di varianza uguale a σ2/n. Questo è un caso molto particolare, dovuto da una parte alla semplicità dello stimatore X‾, che è una trasformazione lineare delle n osservazioni campionarie, e dall’altra alla particolare proprietà per cui una somma di variabili aleatorie gaussiane è ancora una variabile aleatoria gaussiana. Se il modello per la popolazione è diverso da quello normale, non è sempre così semplice determinare la d. c. esatta neanche per uno stimatore ‘semplice’ come X‾. Questo perché la famiglia di d. a cui appartiene la somma di due o più variabili aleatorie identicamente distribuite può essere diversa da quella di una singola variabile.
Il calcolo delle probabilità offre uno strumento, chiamato formula di convoluzione, che consente di determinare la d. della somma di due variabili aleatorie indipendenti, note le loro distribuzioni. In linea teorica, quindi, per determinare la d. c. di X‾ per un’arbitraria popolazione, si potrebbe pensare di applicare la formula di convoluzione una prima volta per ottenere la d. di X1+X2, poi, una seconda volta per sommare X1+X2 a X3, e così via. Tuttavia questa strada non è in genere percorribile, poiché a ogni iterazione la d. si complica, fino a diventare impossibile da maneggiare.
È comunque possibile, a volte, ottenere informazioni circa alcune caratteristiche della d. c., anche senza assumere che la popolazione appartenga a una particolare famiglia di distribuzioni. Per lo stimatore X‾, per es., è possibile provare che nel caso in cui il campione provenga da campionamento casuale semplice si ha E(X‾)=μ, Var(X‾)=σ2/n, dove μ e σ2 sono rispettivamente la media e la varianza della popolazione (se tali momenti esistono). Questo risultato consente di determinare alcune caratteristiche dello stimatore X‾, come la non distorsione e la consistenza (➔). Tuttavia, per la costruzione di un intervallo di confidenza (➔) per X‾, è necessario conoscere i quantili (➔ quantile) della distribuzione campionaria.
Quando non si può, o non si vuole, invocare l’assunzione di normalità della popolazione, è possibile ricorrere all’approssimazione della d. c. di X‾, attraverso l’utilizzo di risultati asintotici legati al teorema centrale del limite (➔ limite, teoremi centrali del). Così, nel caso in esempio, qualsiasi sia la d. della popolazione, la d. di X‾ è ben approssimata da una d. gaussiana di media μ e varianza pari a σ2/n, e tale approssimazione diventa più precisa all’aumentare della dimensione del campione. Nel caso specifico di un modello gaussiano, la d. asintotica (➔ asintotica, distribuzione) e quella esatta coincidono. Considerazioni simili a quelle fatte per X‾ valgono per altri stimatori o per statistiche test. Considerando che la funzione lineare che definisce la media campionaria è particolarmente semplice, è facile immaginare quanto maggiori possano essere le difficoltà nel determinare la d. c. esatta di statistiche più complesse, come quelle dipendenti dal rapporto tra variabili o da altre trasformazioni non lineari, e quanto sia importante la possibilità di ricorrere ad approssimazioni precise. Strumenti alternativi (o complementari) all’approssimazione asintotica della d. c. sono i metodi di ricampionamento (➔ ricampionamento, metodi di), come per es. il metodo bootstrap (➔ bootstrap, metodo).