INFERENZA STATISTICA
Si ha un'inferenza statistica (v. anche statistica, App. IV, iii, p. 451) quando, sulla base dell'informazione fornita dall'osservazione di alcuni fatti e poi registrata in statistiche, si formulano supposizioni o previsioni riguardanti altri fatti rimasti incerti. È evidente lo stretto legame tra i.s. e teoria matematica della probabilità: l'incertezza riguardo ai fatti d'interesse si può infatti esprimere mediante probabilità, mentre l'acquisizione di nuova informazione corrisponde al calcolo di probabilità condizionate. Nella tradizione scientifica ormai consolidata, tuttavia, le i.s. vengono inquadrate in uno schema notevolmente più articolato e, proprio per questo, più restrittivo. Tale schema, la cui introduzione è sostanzialmente dovuta al grande statistico inglese R. A. Fisher (1890-1962), viene chiamato modello statistico e il suo impiego sistematico segna l'inizio della statistica inferenziale moderna.
Il modello prevede l'esplicitazione dell'insieme Θ delle possibili ipotesi, che sono la formalizzazione delle possibili spiegazioni alternative del fenomeno in esame (sicché una e solo una sarà quella vera) e delle leggi di probabilità Pu con cui a priori si realizzerebbero le osservazioni se fosse vera l'ipotesi θ. L'insieme dei risultati a priori possibili verrà denotato con Z. Il complesso del modello, che caratterizza in senso lato un esperimento, è quindi sintetizzabile nella terna E = (Z,Pθ,Θ). Nella terminologia originale di Fisher, introdotta già negli anni Venti, le leggi Pu costituiscono la caratterizzazione (a meno dell'elemento incognito θ) di una popolazione teorica, e il risultato z viene visto come un ''campione'' (o un insieme di campioni) ''estratto'' da essa. Benché in realtà riduttivo rispetto alle applicazioni usuali e possibili, questo linguaggio, ispirato ai più familiari e concreti problemi di estrazioni a sorte, ha favorito una larga diffusione del concetto e ha contraddistinto un profondo rinnovamento nello standard delle elaborazioni di dati empirici.
Esempio 1. − Un esempio classico di esperimento statistico è quello delle misurazioni in presenza di errori accidentali. Una grandezza di valore incognito μ viene misurata n volte, e i risultati sono affetti da errori accidentali. Più precisamente si assume che siano valide le n equazioni
yi=μ+εi (i=1,2,...,n) [1]
dove le yi sono le misure ottenute e gli εi, che sono incogniti, rappresentano gli errori accidentali. In accordo con la classica teoria degli errori, gli εi sono visti come realizzazioni di variabili aleatorie con distribuzione normale (cioè gaussiana) di media 0, varianza σ2 (brevemente: N(0, σ2)) e stocasticamente indipendenti. Se σ è noto, come assumeremo sempre anche in seguito, le ipotesi sono costituite semplicemente dai possibili valori μ (per es. i numeri reali positivi); se invece anche σ fosse incognito, le ipotesi sarebbero le coppie (μ, σ). Il generico risultato è in ogni caso espresso dal vettore z=(y1,y2,...,yn) e le leggi Pu sono distribuzioni gaussiane a n dimensioni le cui caratteristiche restano perfettamente determinate, per μ e σ dati.
Giova rilevare il carattere statistico, in contrapposizione a deterministico, dell'esperimento descritto dal modello: quale che sia l'ipotesi effettivamente operante, il risultato osservabile non è rigidamente determinato ma può anche essere uno qualunque dei punti di Z; in queste condizioni, elementi d'incertezza nella valutazione inferenziale restano ineliminabili. Nell'esempio 1 tale incertezza è provocata dall'esistenza di un errore accidentale di misura che sussiste indipendentemente dalla grandezza misurata; così, di fronte a una serie di misure, si può cercare di distinguere una variabilità accidentale, che ha carattere erratico e di puro disturbo, da una variabilità sistematica, dovuta invece a eventuali differenze strutturali, per es. al fatto che le misure sono riferite a grandezze diverse, oppure che sono ottenute con procedure sperimentali non equivalenti, ecc. Questo tipo di ricerca, mirante a isolare le variazioni sistematiche nel quadro di disturbi accidentali, è caratteristica di moltissime applicazioni della statistica inferenziale, in particolar modo nel campo sperimentale. Si tratta, in questi casi, di ricorrere a modelli statistici che sono in sostanza estensioni di quello dell'esempio 1, modelli che spesso mantengono un ruolo privilegiato alla distribuzione gaussiana.
In tali applicazioni la variabilità accidentale da tenere sotto controllo è spesso quella che differenzia individui sostanzialmente omogenei e sottoposti agli stessi trattamenti, come se l'errore di misura, ancora gaussiano, fosse un disturbo della produzione naturale (o industriale) anziché della procedura di rilevazione, la cui specifica variabilità è spesso, per questi problemi, relativamente irrilevante.
Vi sono comunque molti altri schemi probabilistici cui i modelli statistici fanno usualmente ricorso. Occorre ricordare anzitutto la molteplicità di modelli che rappresentano formalmente fenomeni detti genericamente casuali: la distribuzione di eventi nel tempo o nello spazio (schema di Poisson), tempi di attesa tra eventi in un flusso temporale (schemi esponenziali e di tipo gamma), risultati di estrazioni a sorte da insiemi finiti (schemi binomiale e ipergeometrico), per citare solo i più noti. Al limite estremo, nel senso della carenza di vere e proprie giustificazioni teoriche, si hanno i modelli che vengono costruiti sulla base della rappresentazione analitica di esperienze acquisite, cioè formalizzando in termini probabilistici distribuzioni di frequenza relative a masse di casi omogenei. Una volta costruito il modello, l'i.s. procede condizionatamente a esso, trattandolo come uno specchio fedele della realtà. A ben vedere però il modello stesso è un'ipotesi teorica, e una sua valutazione critica deve in qualche modo entrare nel processo inferenziale (v. paragrafo finale).
Aspetti generali. - Prima di affrontare gli aspetti più tecnici delle possibili procedure per l'i.s., vanno esaminati sinteticamente alcuni aspetti generali della problematica. Dato un esperimento E = (Z,PΘ,Θ) e una sua realizzazione z0, un possibile obiettivo è quello d'individuare almeno alcune caratteristiche dell'ipotesi Θ che è effettivamente operante. Si parla per questi casi di problemi strutturali o ipotetici. Una seconda categoria di importanti problemi inferenziali è costituita dai problemi di previsione, nei quali si cercano indicazioni relative a un risultato osservabile nel futuro, che può essere visto come la realizzazione di un nuovo esperimento E′, governato dalla stessa ipotesi di E. In questo caso all'incertezza circa l'ipotesi vera si aggiunge l'aleatorietà del legame tra ipotesi vera e risultato sperimentale. Dal punto di vista strettamente matematico le ipotesi possono essere scalari, vettori o perfino funzioni; quando Θ non è un sottoinsieme di uno spazio euclideo si parla di modelli non parametrici. Un'osservazione analoga si può riferire allo spazio dei risultati Z; la natura degli spazi Θ e Z può rendere più o meno complessa tecnicamente la trattazione ma lascia ovviamente invariata la problematica logica di fondo. Nel caso di problemi sia ipotetici sia previsionali si può voler stimare direttamente il ''valore'' incognito dell'ipotesi vera o del risultato futuro (problemi di stima puntuale); tali stime vengono usualmente corredate da misure di attendibilità. Un modo più diretto per risolvere il problema è di usare come stime non dei punti ma dei sottoinsiemi (di Θ o di Z′, dove quest'ultimo è lo spazio dei risultati dell'esperimento futuro E′), e ciò porta ai cosiddetti problemi di stima mediante regioni. Un altro classico problema inferenziale è quello di valutare se l'ipotesi vera o il risultato futuro appartengono o no a prefissati sottoinsiemi; in particolare nel caso strutturale si usa per questi problemi l'espressione test di ipotesi. Se per es. per due serie di misure vale il modello dell'esempio 1, con parametri incogniti rispettivamente μ1 e μ2, e vogliamo valutare l'omogeneità delle due serie, il problema può essere formulato come scelta tra gli insiemi Θ0 = {(μ1,μ2): μ1 = μ2} e Θ1 = 5(μ1,μ2): μ1 ≠ μ2}, detti in questo contesto ipotesi composte.
Principi logici alternativi. - Supponiamo che sia dato un esperimento E = (Z,Pἷ,Θ). Qualunque teoria inferenziale dovrà basarsi in definitiva su una elaborazione del risultato osservato dell'esperimento, cioè, operativamente, su una ''funzione'' t(z), zεZ. I ''valori'' assunti da tale funzione avranno una natura strettamente legata al tipo di problema affrontato. Se per es. si tratta di una stima puntuale relativa alle ipotesi, allora sarà t(z)εΘ; se si tratta di una stima mediante regioni, allora t(z) sarà un sottoinsieme di Θ; se si tratta di valutare se θεΘ0 oppure θεΘ1, dove Θ0 e Θ1 sono due insiemi in cui si è suddiviso Θ, allora t(z) varrà 0 oppure 1 a seconda che si voglia indicare la prima o la seconda alternativa. Del tutto analoga è ovviamente la situazione nel caso dei problemi di previsione. La letteratura statistica moderna ha elaborato differenti tipi di procedure inferenziali, alcune delle quali sono in contrasto logico fra loro e che, per gli aspetti principali, possono essere classificate in relazione a due questioni fondamentali: 1) ai fini della valutazione di una qualunque conclusione inferenziale t(z), quando il risultato osservato è z0, sono rilevanti i valori t(z) con z≠z0? 2) si può assegnare una probabilità a ogni evento incerto, e in particolare alle possibili ipotesi Θ? Praticamente tutte le opzioni possibili sono sostenute da scuole accreditate, ed è perciò opportuno soffermarsi sul significato e sulle profonde conseguenze anche pratiche delle scelte indicate.
Rispetto alla prima questione, il principio del campionamento ripetuto, sistematizzato negli anni Trenta dalla scuola di J. Neyman (1894-1981) e di E. S. Pearson (1895-1980), ma in qualche modo presente nel ragionamento statistico probabilistico fin dai suoi albori, assume che ogni conclusione t(z) vada valutata come funzione di z, e quindi trattata come un oggetto aleatorio avente una distribuzione di probabilità (detta usualmente distribuzione campionaria) dipendente da θ. L'espressione ''campionamento ripetuto'' esprime il fatto che questo tipo di valutazione di t(z) equivale a prendere in esame il comportamento della funzione t di fronte a un'ipotetica successione infinita di repliche dell'esperimento. Confrontando fra loro le possibili funzioni t se ne potrà determinare una, diciamo t*, che è in qualche senso ottimale. La conclusione inferenziale proposta sarà quindi esprimibile con t*(z0), cioè sarà costituita dall'applicazione della procedura ''ottima'' al risultato effettivamente osservato.
Esempio 2. − Una trattazione del problema dell'esempio 1 conforme al principio del campionamento ripetuto chiama in gioco la funzione t(y1,y2,...,yn)= ȳ, dove ȳ=Σy/n è la media aritmetica delle n misure. Si dimostra che la corrispondente variabile aleatoria, che denoteremo con Y̅, ha distribuzione campionaria di tipo N(μ, σ2/n), sicché si può dire che, qualunque sia l'ipotesi vera μ, Y̅ la eguaglia ''in media'' (proprietà di non distorsione). Inoltre è possibile dimostrare che tra tutte le possibili funzioni di (y1,y2,...,yn) aventi valore atteso μ, quella considerata ha varianza minima ed è quindi, per quanto si può prevedere a priori, la più vicina possibile a μ, qualunque sia μ. Se poi consideriamo l'intervallo aleatorio Jα(Y̅) = (Y̅-kσ/√n,Y̅+kσ/√n), che è variabile con il risultato dell'esperimento, possiamo verificare che, assumendo che μ sia l'ipotesi vera, si ha μεJα(Y̅) con probabilità costante (detta livello di confidenza) 1−α=Φ(k)−Φ(−k), dove Φ è la funzione di ripartizione della distribuzione normale standardizzata (per es. con probabilità 0,95 se k=1,96).
La stima viene fatta prendendo in considerazione la realizzazione osservata nell'intervallo aleatorio, cioè Jα(ȳ); si badi che la garanzia probabilistica si riferisce all'intervallo aleatorio, non all'intervallo osservato in quanto, in questa impostazione, all'evento μεJα(ȳ) non può essere assegnata alcuna probabilità. Volendo poi affrontare il problema della scelta tra le ipotesi composte H0: μ ≥ μ′ e H1: μ > μ′, dove μ′ è un valore preassegnato, la procedura è ovviamente del tipo ''si sceglie H0 se z C e H1 se z εC'', dove C è un sottoinsieme di Z opportunamente determinato. Osserviamo che Pμ(C), se μ ≥μ′, è la probabilità di un errore (detto di i specie) e che 1−Pμ(C), se μ>μ′, è la probabilità di un altro tipo di errore (detto di ii specie). Denotando con a l'estremo superiore di Pμ(C) per μ ≥ μ′, e limitandoci a confrontare gli insiemi C per cui il valore a non supera una soglia prefissata, si può dimostrare che esiste in questo caso un insieme C* tale che Pμ(C*)≥Pμ(C) per ogni μ>μ′ (condizione di potenza uniformemente massima). Tale insieme C*, che verrà considerato ottimale, è caratterizzato dalla condizione ȳ≥μ′+cσ/√n dove c è tale che Φ(c)=1−a.
L'alternativa radicale al principio del campionamento ripetuto è il principio della verosimiglianza, formulato esplicitamente solo da A. Birnbaum nel 1962, ma già presente nella sostanza in varie argomentazioni di R. A. Fisher, G. Barnard e altri. Per semplicità, trattiamo anzitutto il caso in cui Z è un insieme finito o numerabile, sicché tutte le leggi Pθ sono discrete. Se Pθ(z) è la probabilità del risultato z quando l'ipotesi vera è θ, e z0 è il risultato osservato, allora 〈(θ)=Pθ(z0), per θεΘ, è la cosiddetta funzione di verosimiglianza. Essa esprime quindi la probabilità con cui ogni ipotesi θ, se è vera, genera il risultato osservato. Se per es. 〈(θ1)>〈(θ2) si può dire che l'ipotesi θ1 ha ricevuto dal risultato un maggiore supporto rispetto a θ2. Si badi che i valori 〈(θ) non sono interpretabili come probabilità delle ipotesi (e per questo si usa il nome di verosimiglianza, in inglese likelihood). L'estensione al caso in cui le leggi Pθ sono dotate di funzione di densità f (z;θ) è ovvia (si pone 〈(θ)=f (z0;θ)) e con ciò sono coperte le situazioni più rilevanti dal punto di vista applicativo; per gli altri casi sarebbe necessario addentrarsi in complicazioni tecniche. Il principio della verosimiglianza afferma che se due esperimenti E1 ed E2, caratterizzati dallo stesso spazio Θ, hanno prodotto risultati z1 e z2 tali che le corrispondenti funzioni di verosimiglianza 〈1 ed 〈2 sono proporzionali, allora l'informazione ottenuta sull'ipotesi incognita è la stessa. In definitiva all'esperimento si assegna in questo modo il compito di esprimere un sistema di ''pesi'' per le singole ipotesi. Se esiste una ipotesi θ̂ con verosimiglianza massima, tale sistema è più comodamente rappresentato, come si è visto nell'esempio precedente, dalla funzione di verosimiglianza relativa ℓ̅(θ) = ℓ(θ)/ℓ( θ̂) che ha valori compresi nell'intervallo [0, 1].
Esempio 3. − Il principio della verosimiglianza richiede di guardare essenzialmente alla funzione di verosimiglianza che nel nostro caso risulta proporzionale a exp{−n(μ−ȳ)2/(2σ2)}. Alcune semplici elaborazioni aiutano l'ispezione della funzione stessa. Il punto di massimo si ha in μ=ȳ, sicché la funzione di verosimiglianza relativa coincide proprio con l'espressione sopra scritta. I valori di μ con verosimiglianza relativa non inferiore a una soglia prefissata q costituiscono gli intervalli Lq(ȳ) = (ȳ-hσ/√n,ȳ-hσ/√n), dove h= √−2logq, e, nell'impostazione considerata, sono ragionevoli insiemi di stima per il valore incognito μ. Fissato ȳ, le classi {Ja(ȳ), 0≥α≥1} e {Lq(ȳ), 0≥q≥1} risultano anzi coincidenti, anche se il rispettivo significato inferenziale è completamente diverso; ovviamente questa coincidenza non è affatto generale ma dipende dalla simmetria, in questo esempio, tra ȳ e μ. Si noti che in entrambe le impostazioni la lunghezza dell'intervallo è inversamente proporzionale a n; come è intuitivo, la numerosità delle repliche favorisce la qualità della stima. Il confronto fra ipotesi può farsi in questo caso osservando direttamente il comportamento di ℓ(μ) in corrispondenza agli insiemi Θ0 e Θ1.
Esempio 4. − Questo esempio classico mostra, in un caso concreto, il contrasto fra i due principi descritti. Consideriamo un'urna che contiene palline bianche e nere, e in cui la proporzione di palline bianche, θ, è incognita. Supponiamo di estrarre palline dall'urna, rimettendole via via al loro posto, seguendo una regola scelta tra due ben distinte. La prima (campionamento diretto) prevede di eseguire un numero prefissato n di estrazioni; il numero di palline bianche osservate è quindi aleatorio. La seconda regola (campionamento inverso) prevede invece di proseguire fino a che si sono osservate k palline bianche, con k prefissato. In questo caso è aleatorio il numero delle prove. Assumiamo ora che la sequenza delle osservazioni sia stata: bianca, nera, bianca. Ha interesse, ai fini della valutazione di θ, sapere se si è proceduto con l'una o l'altra delle due regole? La risposta a questa domanda è diversa a seconda che si accetti il principio del campionamento ripetuto oppure il principio della verosimiglianza. Se per es. cerchiamo una stima di θ con i metodi dell'esempio 2, basati sul criterio della varianza minima in condizione di non distorsione, abbiamo la formula s/n nel caso diretto e la formula (s-1)/(n-1) nel caso inverso; ciò porterebbe alle diverse stime 2/3 e 1/2. Nel quadro dell'impostazione basata sul principio di verosimiglianza, si trova invece con facili calcoli che la funzione di verosimiglianza, in entrambi i casi, è sempre proporzionale a θs(1−θ)n-s, sicché l'informazione sul tipo di campionamento risulta irrilevante. Il motivo della diversità, nell'ottica del principio del campionamento ripetuto, è che i risultati possibili e le loro probabilità sono a priori diversi, e sono questi che determinano l'espressione generale della procedura ottima, non il risultato effettivamente osservato.
Dal punto di vista del principio della verosimiglianza, invece, non hanno alcuna importanza le caratteristiche dei risultati che non si sono osservati e ha rilievo solo il fatto che, in 3 prove ripetute nelle stesse condizioni, si sono avuti 2 successi. Che le estrazioni siano cessate perché si era raggiunto il secondo successo o la terza prova o, perfino, per un qualunque altro motivo non collegato a θ, è ininfluente ai fini di ogni inferenza su θ. Si può osservare che, quando s ed n sono abbastanza grandi, anche le due stime di frequenza sono quasi coincidenti e che quindi il problema, pur rilevante da un punto di vista concettuale, può essere trascurabile da un punto di vista pratico. Questa però è una caratteristica specifica dell'esempio, non un fatto di natura generale.
L'indicazione di prendere rigorosamente in esame tutti i risultati a priori possibili, che è una delle caratteristiche salienti dell'impostazione di Neyman e Pearson, è stata fin dall'inizio criticata da R. A. Fisher, il quale ha sostenuto invece che la valutazione delle procedure va riferita solo a casi in un certo senso ''simili'' a quello osservato. Il metodo proposto per assicurare tale similarità è di condizionare le distribuzioni campionarie al valore di particolari statistiche. In alcuni celebri esempi, dovuti in particolare a D. R. Cox, si mostra in modo intuitivamente convincente come la considerazione del comportamento ''a lungo andare'' possa entrare in aperto conflitto con l'inferenza relativa al caso singolo. Se ciò rende problematico l'uso inferenziale dello schema di Neyman e Pearson, si deve tuttavia ricordare che la questione presenta ancora aspetti dibattuti, in particolare perché in molti esempi non è chiaro a quali statistiche sia opportuno condizionare.
I metodi bayesiani. - Venendo ora alla seconda questione fondamentale, se si possa assegnare una probabilità a ogni evento incerto, è evidente che ciò rimanda alla concezione che si vuole adottare per la probabilità. È ben noto che con il termine di probabilità si possono intendere concetti molto diversi nella sostanza anche se sottoposti alle stesse regole formali. In particolare, limitandoci ai casi più importanti, ci si può riferire alla probabilità soggettiva, che esprime l'informazione disponibile per un soggetto determinato (concezione legata in primo luogo al nome di B. de Finetti), o alla probabilità oggettiva, che rappresenta (in una delle sue versioni più diffuse) il valore ideale cui tenderebbe la frequenza relativa dell'evento se si potesse replicare indefinitamente l'esperimento. Nella maggioranza delle applicazioni gli eventi relativi alle ipotesi θ non sono suscettibili di avere una probabilità in senso frequentista, perché non è immaginabile una loro ripetizione indefinita. È quindi tipico per gli autori che utilizzano la concezione frequentista della probabilità introdurre come probabilizzabili esclusivamente gli eventi riferiti ai risultati sperimentali, condizionatamente alle ipotesi; per questi eventi la ripetibilità almeno teorica è infatti garantita dallo stesso modello statistico. Per chi adotta una concezione soggettivistica risulta invece non solo possibile ma naturale assegnare una legge di probabilità anche sullo spazio delle ipotesi Θ, visto che l'incertezza sulla ''vera'' ipotesi θ è uno dei cardini della problematica inferenziale. Per semplicità, usiamo la notazione adatta al caso in cui Θ sia un intervallo reale; i casi discreti o multidimensionali sono trattabili con semplici adattamenti. Supponiamo che le informazioni circa le ipotesi, disponibili prima dell'esperimento (o semplicemente nell'ignoranza del suo risultato), siano espresse da una densità π(θ), con θεΘ. Tale distribuzione viene usualmente chiamata a priori o iniziale. Se l'esperimento E produce il risultato z0εZ, l'informazione sulle ipotesi cambia e si esprime con la formula
π(θ|z0) = π(θ)ℓ(θ) / ∫π(θ)ℓ(θ)dθ [2]
che rappresenta la legge di probabilità su Θ condizionata al risultato sperimentale. La [2] è nota nel calcolo delle probabilità come teorema di Bayes (Th. Bayes, 1702-1761), e si chiamano bayesiane le impostazioni che ne fanno uso sistematico. Il teorema di Bayes rappresenta sinteticamente il processo di apprendimento dall'esperienza: il risultato sperimentale, il cui contributo informativo è concretizzato nella funzione di verosimiglianza, modifica la distribuzione iniziale π(·) nella distribuzione detta a posteriori o finale π(·|z). Se si eseguisse un nuovo esperimento, coerentemente π(·|z) vi figurerebbe come la naturale distribuzione iniziale. Una volta determinata la distribuzione finale, tutti i problemi d'inferenza ipotetica sono facilmente risolti, a meno di aspetti di natura puramente numerica. In particolare la stima puntuale è risolta, a rigore, dalla distribuzione finale nel suo complesso; sintesi più comode dal punto di vista pratico sono per es. il valor medio o la moda. Un ragionevole intervallo di stima può essere quello su cui più si concentra la distribuzione finale. La scelta tra ipotesi composte alternative si effettua ovviamente confrontando le rispettive probabilità finali. Si osservi che il metodo bayesiano rispetta automaticamente il principio della verosimiglianza, anche se l'esperimento non viene visto come l'unica fonte d'informazione.
Esempio 5. − Riprendendo l'esempio 1 ed elaborandolo in modo bayesiano, si può assumere esemplificativamente per il parametro incognito una distribuzione iniziale di tipo N(μ0,σ20). La corrispondente distribuzione finale risulta ancora normale con media μ1=(μ0/σ20+nȳ/σ2)/(1/σ20+n/σ2) e varianza σ21=(1/σ20+n/σ2). La più ovvia stima del valore vero μ è μ1, che risulta una media ponderata delle stime iniziali e campionaria μ0 e ȳ, con pesi che sono misure delle rispettive precisioni. Quando n è grande, l'informazione a priori perde influenza e μ1 si avvicina a ȳ; lo stesso accade se la distribuzione iniziale tende a diventare uniforme (σ0 grande); in tali casi le stime bayesiana e frequentista tenderebbero a coincidere. Gli intervalli di stima sono del tipo μ1±c·σ1, con c scelto in relazione alla probabilità voluta. Per le ipotesi composte μ≥μ′ e μ>μ′ basta considerare che le corrispondenti probabilità finali sono Φ((μ′−μ1)/σ1) e 1−Φ((μ′−μ1)/σ1). Un ragionamento forse più intuitivo per scegliere in pratica i cosiddetti iperparametri μ0 e σ0 è di osservare che la distribuzione predittiva iniziale per Y̅ risulta di tipo N(α, σ20+σ2); un'analisi delle aspettative circa Y̅ permetterebbe di determinare i valori corrispondenti per μ0 e σ0.
Nel caso di problemi di tipo previsionale la procedura è simile. Se con ℓ′(θ;z′) indichiamo la verosimiglianza che l'esperimento futuro E′ assegnerebbe all'ipotesi θ in corrispondenza del risultato sperimentale z′, il ruolo della formula [2] sarebbe svolto dalla formula ψ(z′|z)=∫π(θ|z)ℓ′(θ;z′)dθ, dove ψ(z′|z) indica la densità di probabilità del risultato futuro condizionata al risultato acquisito z. Le elaborazioni inferenziali possono quindi seguire le linee già indicate. Vale la pena di sottolineare che nel quadro bayesiano i problemi di previsione sono trattabili sostanzialmente allo stesso modo dei problemi ipotetici. Ciò non accade invece nell'impostazione frequentista in cui tutte le distribuzioni di probabilità s'intendono calcolate supponendo θ noto e non è quindi possibile rappresentare la dipendenza probabilistica dei risultati futuri dai risultati passati. Nella scuola di Neyman e Pearson, perciò, salvo casi particolari, i problemi di tipo previsionale vengono tendenzialmente riformulati in termini strutturali. Diversi autori sostengono anzi che il maggior peso tradizionalmente dato ai problemi di tipo ipotetico dipende più dalla difficoltà di trattare i problemi previsionali nel quadro del campionamento ripetuto che dal rispetto delle reali esigenze della ricerca applicata. Va ricordato in proposito che, volendo privilegiare l'inferenza di tipo predittivo, è possibile procedere in modoin un certo senso inverso, cioè non presupponendo la struttura di un modello statistico ma partendo direttamente dalle caratteristiche della distribuzione predittiva iniziale per individuare le caratteristiche della distribuzione predittiva finale. L'applicabilità di questo schema al caso corrispondente ai classici campioni casuali è basata su un celebre teorema (detto di rappresentazione), dovuto a B. de Finetti. Malgrado le non poche difficoltà, lo schema risulta particolarmente interessante anche dal punto di vista concettuale in quanto da assunzioni del tutto naturali si deduce addirittura l'esistenza implicita di un modello statistico. In tal modo, se da un lato il concetto riceve in un certo senso un'ulteriore giustificazione, dall'altro vengono messi bene in luce i significati più profondi delle assunzioni su cui si basa.
Viene comunemente riconosciuto che il metodo bayesiano appare ideale per generalità e semplicità; il punto considerato critico è che esso si basa sull'uso di probabilità a priori che non sono ovviamente un risultato dell'esperimento e perciò possono essere il veicolo di arbitrarietà. In proposito va tenuto presente che il risultato dell'esperimento è in ogni caso elaborato nel quadro di uno schema aprioristico e che tutte le procedure, in definitiva, richiedono scelte più o meno arbitrarie: per es., almeno nei problemi di test tra due ipotesi puntuali del tipo θ=θ′ e θ=θ″, la scelta del valore α nello schema del campionamento ripetuto è perfettamente equivalente, dal punto di vista matematico, alla scelta delle probabilità iniziali di θ′ e di θ″ nello schema bayesiano. Il problema principale sembra piuttosto la chiarezza delle assunzioni implicite e delle rispettive conseguenze. Nelle applicazioni concrete, peraltro, la scelta della distribuzione iniziale sulle ipotesi è sicuramente un momento delicato. Un notevole sforzo è stato prodotto dagli studiosi, fin dal 19° secolo, per cercare d'individuare le distribuzioni iniziali sulle ipotesi che corrispondono a una situazione d'ignoranza a priori, ma non è chiaro se e come l'assenza d'informazione possa essere formalmente rappresentata, a meno che, un po' banalmente, non la si voglia identificare con l'equiprobabilità delle alternative. Giova ricordare che proprio l'uso acritico di quest'ultima opzione ha screditato, a cavallo tra 19° e 20° secolo, lo stesso metodo bayesiano nel suo complesso. La questione è stata riformulata in modo diverso nell'ambito della scuola bayesiana-soggettivistica; L. J. Savage (1917-1971) ha in particolare osservato che, quando l'informazione sperimentale è sufficientemente consistente, la funzione di verosimiglianza nel teorema di Bayes prevale numericamente sulla distribuzione iniziale (principio della misurazione precisa), sicché la scelta di quest'ultima, pur concettualmente essenziale, è poco rilevante in molti casi pratici (come si è anche intravisto nell'esempio 5). In questo modo una distribuzione iniziale uniforme, o quasi uniforme, viene giustificata non come applicazione di un presunto principio logico, ma come un'approssimazione d'interesse pratico in situazioni che presentano opportune caratteristiche.
Altri problemi. - È possibile riformulare i più comuni problemi d'i.s. come problemi di decisione statistica (v. decisioni, Teoria delle, App. IV, i, p. 579). Allora le conclusioni inferenziali, sopra accennate, vanno sostituite da specifiche decisioni cui sono collegate perdite capaci di rappresentare numericamente l'errore commesso. L'impostazione di Neyman e Pearson, che è stata ulteriormente sviluppata proprio in questa direzione da A. Wald, ha avuto comunque fin dall'inizio un'impronta di questo tipo, in quanto richiede sempre la determinazione di una procedura ottima, sia pure entro classi opportunamente prefissate. Nell'elaborazione bayesiana, invece, le conclusioni emergono come logicamente determinate, una volta introdotti i richiesti elementi d'informazione a priori. Pertanto l'aspetto decisionale non è intrinseco allo schema bayesiano, ma è una specificazione ulteriore del modello che si può adottare quando ciò sia effettivamente adeguato alla situazione concreta. Va osservato peraltro, senza poter qui sviluppare l'argomento, che, oltre a un interesse pratico, una riformulazione in termini decisionali definisce un quadro di riferimento particolarmente adeguato proprio al confronto, di interesse anche teorico, tra le diverse impostazioni.
Il complesso della trattazione ha messo in luce il ruolo essenziale del modello statistico. È quindi opportuno approfondire brevemente la tematica della costruzione dei modelli e della verifica statistica della loro validità. Una prima considerazione è che il modello statistico può essere visto come un'ipotesi composta nel quadro di un modello più generale. Quindi è pensabile di valutarlo con le tecniche precedentemente delineate, bayesiane e non. Una seconda possibilità è di fare ricorso alla cosiddetta tecnica della significatività pura, originariamente diffusa da Fisher, ma più volte riformulata (tra gli altri da G. Pompilj che, introducendo anche il termine di conformità, ha posto particolare attenzione ad assicurare la compatibilità della tecnica con il quadro bayesiano). Con tale procedura si calcola una ''distanza'' tra i dati disponibili e il modello nel suo complesso e si scarta quest'ultimo quando la distanza supera determinati livelli convenzionali. Il classico test χ2, pubblicato da K. Pearson nel 1900, è la più celebre di queste procedure. Un altro modo per limitare gli effetti negativi di scelte inadeguate è di controllare la robustezza delle conclusioni al variare di determinati aspetti critici del modello, e naturalmente anche di altri elementi come le funzioni di perdita, le distribuzioni iniziali, ecc. Si tratta, favoriti oggi dalle maggiori facilità di calcolo, di controllare che le conclusioni restino sufficientemente stabili al variare degli elementi più opinabili, rinunciando anche all'ottimalità esatta se una quasi ottimalità è raggiungibile in un quadro meno restrittivo. Un tale tipo di controllo serve tra l'altro a impedire che le analisi inferenziali, che hanno avuto un così ampio sviluppo teorico negli ultimi decenni, si possano configurare come procedimenti estremamente raffinati ma sostanzialmente fuorvianti a causa dell'inadeguatezza dei modelli considerati.
Bibl.: B. de Finetti, Probability, induction and statistics, Londra 1972; D. V. Lindley, Bayesian statistics, Filadelfia 1972; D. R. Cox, D. V. Hinkley, Theoretical statistics, Londra 1974; V. Barnett, Comparative statistical inference, New York 1982; L. Daboni, A. Wedlin, Statistica. Un'introduzione all'impostazione neobayesiana, Torino 1982; E. L. Lehmann, Theory of point estimation, New York 1983; J. Berger, Statistical decision theory and bayesian analysis, ivi 1985; M. H. DeGroot, Probability and statistics, Reading (Mass.) 1986; E. L. Lehmann, Testing statistical hypotheses, New York 1986; G. Casella, R. Berger, Statistical inference, Belmont (California) 1990.