Probabilità e statistica
Il calcolo delle probabilità unisce il linguaggio, i modelli, la teoria matematica e i procedimenti di calcolo necessari per lo studio analitico-quantitativo e per la predizione di sistemi naturali, tecnologici o sociali il cui comportamento o esito sia per ipotesi aleatorio. La statistica, invece, si pone lo scopo di stimare i parametri che descrivono la dinamica aleatoria a partire da dati, ossia da osservazioni ripetute del sistema reale, che il modello stocastico si propone di approssimare.
La statistica è la scienza che studia modelli, metodi e algoritmi per la raccolta, l'esplorazione, l'integrazione, l'analisi, la predizione e l'interpretazione di dati. È uno degli strumenti fondamentali per il progresso scientifico, tecnologico, industriale, economico e sociale. La statistica moderna è importante per tutte le scienze, poiché si occupa dello studio della variabilità e dell'incertezza e permette di prendere decisioni basate su elementi incerti. La statistica è intrinsecamente interdisciplinare e il contesto lavorativo è più spesso un laboratorio sperimentale che una lavagna. Nonostante le sue radici siano ben conservate nell'ambito della matematica, tale disciplina è sempre più influenzata dalle altre scienze; inoltre, computer e algoritmi sono per la statistica strumenti altrettanto importanti quanto il calcolo delle probabilità, che fornisce alla statistica il linguaggio di base. Per trasformare dati in informazione, la statistica indica quali di essi si devono raccogliere e in che modo, per poter poi scegliere tra ipotesi alternative. Inoltre, ogni decisione è accompagnata da un'attenta e coerente valutazione dell'incertezza con la quale viene presa. Tale incertezza descrive come l'incompleta informazione presente nei dati (nell'inferenza bayesiana anche nelle conoscenze a priori) si rispecchia nelle decisioni e previsioni proposte. Se, da una parte, ampi intervalli di confidenza rappresentano incertezza, più in positivo essi danno a chi deve decidere un preciso spazio decisionale, entro il quale gli argomenti per una scelta piuttosto che per un'altra devono venire da altri contesti di valutazione.
Probabilità e statistica nel mondo moderno
L'interazione con altre discipline ha modellato la statistica e il calcolo delle probabilità, che sempre di più sono diventate scienze interdisciplinari e applicate. Profondi cambiamenti strutturali interessano il tipo, la quantità e la qualità di dati, visti come risorse informative. L'informazione è sempre più globale, sono sempre maggiormente presenti espressioni di rischio e riconosciute le conseguenze, per cui la comprensione quantitativa dei fenomeni è sempre più valorizzata.
Le scienze, l'industria e la società moderna possiedono la tecnologia per raccogliere, memorizzare e distribuire grandissime quantità di dati a costi molto ridotti. Sensori e meccanismi digitali, tecniche di comunicazione di dati, architetture informatiche e algoritmi innovativi hanno trasformato radicalmente in profondità e ampiezza i dati da elaborare. Il progresso scientifico e l'innovazione dipendono fondamentalmente dall'abilità di processare e analizzare dati multidimensionali.
Ormai è possibile misurare sistemi e fenomeni in grande dettaglio e da diversi punti di vista, così da fornire un'immagine molto dettagliata della realtà. La statistica deve trattare simultaneamente dati provenienti da diverse fonti, di tipo diverso e con diverse scale di grandezza. Archivi pubblici, data warehouses, registri web - dalle biobanche ai dati di finanza in tempo reale - rappresentano opportunità che metodi statistici avanzati sono in grado di cogliere e sviluppare.
La competitività è fondamentale per la crescita economica, scientifica e sociale, ma il tempo per raggiungere scoperte scientifiche e prodotti innovativi è breve e i margini stretti. La statistica deve sempre più spesso risolvere problemi incrementali che necessitano di metodi sofisticati. L'interesse è concentrato sulla soluzione della 'prossima generazione di problemi', che sono più difficili da risolvere.
Si osserva una chiara tendenza, in tutti i diversi settori, verso criteri di decisione basati sull'evidenza quantitativa. Il rispetto per la formalizzazione matematica aumenta, insieme al riconoscimento dell'importanza dell'incertezza e del rischio. Questo sviluppo assegna al calcolo delle probabilità e alla statistica un ruolo centrale.
Applicazioni
Non c'è disciplina scientifica in cui la statistica e il calcolo delle probabilità non rivestano un ruolo centrale. Anche nell'ambito umanistico, esse hanno una certa rilevanza. Fra le principali applicazioni che hanno visto un maggiore ruolo di tali discipline si citano la medicina e la biologia, l'economia e la finanza, l'astrofisica e la fisica, le scienze geologiche e ambientali, la linguistica e l'ingegneria, la chimica e l'agricoltura.
Particolare importanza riveste il software statistico, che favorisce l'ampia penetrazione della statistica nelle altre discipline. Vi sono moltissimi prodotti commerciali, con un mercato in espansione grazie a versioni di facile utilizzo, in particolare in farmaceutica, chimica e ingegneria, nelle banche e negli istituti finanziari e assicurativi. A essi si associa una grande quantità di software di dominio pubblico.
Statistica
Dalla seconda metà degli anni Novanta del 20° sec. la statistica si è andata sempre più affermando come disciplina centrale nell'ambito scientifico e alcune linee di sviluppo hanno assunto particolare rilevanza.
Dipendenze stocastiche complesse
I dati sono ormai così complessi da rendere i metodi tradizionali inefficienti. Un aspetto importante è la struttura stocastica non lineare, che va modellata con strumenti matematici adeguati. Tra questi si colloca quel capitolo della statistica moderna che prende il nome di Highly Structured Stochastic Systems (HSSS), di certo una delle innovazioni metodologiche più significative dagli anni Ottanta. L'idea fondamentale è descrivere e studiare un sistema stocastico complesso, che si tratti di uno strumento tecnologico o di un sistema biologico, modellandolo globalmente. Il punto fondamentale è che il modello globale è costruito da piccoli moduli più semplici, ognuno dipendente da poche variabili, ma capaci di esprimere le principali caratteristiche statistiche del sistema. Lo strumento fondamentale dell'HSSS è l'indipendenza stocastica condizionata; essa permette la costruzione del modello complesso mediante semplici elementi che interagiscono tra loro sulla base di una gerarchia spesso descritta mediante grafi. L'HSSS rappresenta una disciplina formale che distribuisce l'informazione contenuta nei dati su tutti i parametri incogniti, descrivendo in modo preciso e coerente la 'potenza informativa' dei dati per ogni singolo parametro. Tecniche HSSS sono state utilizzate con grande successo in molti contesti applicativi, tra i quali l'analisi di dati genomici, la descrizione di giacimenti petroliferi, l'interpretazione di immagini mediche e il calcolo del prezzo di polizze assicurative. Il contesto inferenziale tipico dell'HSSS è bayesiano, e l'inferenza è spesso basata su algoritmi stocastici per l'ottimizzazione e il campionamento.
Inferenza basata sulla simulazione
Il formalismo inferenziale bayesiano si basa sulla legge di probabilità a posteriori. Questa densità multidimensionale viene sintetizzata scegliendo una funzione di rischio (per es., lo scarto quadratico tra la stima e il valore incognito del parametro) e minimizzando il rischio atteso a posteriori. Nel caso dello scarto quadratico, si tratta della media a posteriori; altri rischi conducono alla mediana o alla moda della densità a posteriori. Spesso l'interesse si concentra su funzioni dei parametri più complicate; si tratta di stimare, per es., la probabilità che un certo effetto sia maggiore di altri effetti o che un certo parametro (per es., che descrive la qualità di un ospedale) sia tra i dieci maggiori. Il calcolo di questi elementi e della loro distribuzione a posteriori non è fattibile analiticamente ma si deve ricorrere a varie tecniche di stima numerica, tra le quali spiccano gli algoritmi Markov Chain Monte Carlo (MCMC). Un algoritmo MCMC è l'implementazione di una catena di Markov che converge alla distribuzione a posteriori. Una volta raggiunto l'equilibrio, a ogni passo l'algoritmo MCMC genera un campione estratto casualmente dalla distribuzione a posteriori. La traiettoria realizzata dall'algoritmo rappresenta dunque una serie di campioni dipendenti, identicamente distribuiti. Facendo ricorso al teorema ergodico per variabili debolmente dipendenti, si stima, per es., la media a posteriori mediante la media temporale lungo la traiettoria dell'MCMC. Gli MCMC sono importanti anche in meccanica statistica, nello studio del comportamento di particelle interagenti. La difficoltà principale per gli MCMC è lo studio della loro convergenza, cioè l'identificazione del tempo necessario per raggiungere il regime limite. Il calcolo delle probabilità fornisce tecniche precise, basate sullo studio degli autovalori della matrice di transizione. Gli algoritmi stocastici MCMC permettono di completare la stima bayesiana per modelli complessi, ma la loro convergenza è difficile da stabilire in pratica. Inoltre tale convergenza può essere molto lenta, in modo particolare per modelli con molti parametri e debolmente identificabili. Può accadere che un MCMC fornisca risultati attendibili solo dopo parecchi giorni di calcolo; in questi casi diventa difficile sperimentare con il modello, effettuare lo studio della sensitività, ma anche il semplice controllo del codice, alla ricerca di errori di programmazione non infrequenti alla presenza di migliaia di linee comando. Nonostante queste difficoltà, gli MCMC sono sufficientemente accurati e affidabili e rappresentano uno standard nell'inferenza moderna bayesiana, ma non solo. Infatti, algoritmi MCMC svolgono un ruolo centrale anche nell'inferenza classica, per la stima di massima verosimiglianza; in questo caso si tratta di massimizzare la verosimiglianza. Infine, gli MCMC sono parte integrante di strumenti statistici avanzati, incluso il clustering, l'apprendimento automatico, le reti neuronali.
Integrazione di dati
È sempre più frequente l'esigenza di integrare vari insiemi di dati inerenti un sistema osservato. Si accenna a tre esempi: nello studio statistico delle riserve petrolifere, dati sismici, perforazioni geologiche e dati storici di produzione descrivono simultaneamente strutture geologiche da stimare; in biologia marina, campionamenti effettuati da navi scientifiche, dati di cattura e ricattura, dati genetici sul pescato e dati di produzione industriale permettono insieme un'accurata descrizione spaziotemporale di specifiche specie marine e dell'interazione dinamica tra le varie specie; in medicina, l'immagine tridimensionale di un organo è composta sulla base di immagini di risonanza magnetica, raggi X, ecografie e dati clinici del paziente. L'integrazione di dati è, quindi, elemento chiave per il progresso scientifico e la crescita industriale, ed è in sostanza un problema inferenziale molto complesso. Non soltanto si tratta di integrare in un unico modello varie osservazioni del sistema di interesse, ma tali osservazioni sono effettuate con strumenti molto diversi, basati su tecnologie fisiche, biologiche, chimiche di vario tipo e rappresentano diverse scale e ordini di dettaglio. I modelli devono essere coerenti per tipo di dati, scale e dimensioni: la statistica deve estrarre da ogni insieme di dati le informazioni specifiche e addizionali sui vari parametri di interesse, così da accrescere la base campionaria senza ridurre artificialmente la varianza. Si tratta di modellizzare la dipendenza delle osservazioni in modo da evitare un'incertezza delle stime falsamente piccola. I modelli HSSS rappresentano le tecniche più adatte per l'integrazione dei dati e ipotesi di indipendenza stocastica servono per costruire un modello globale. Questo si contrappone alla prassi ancora preferita di analizzare un insieme di dati alla volta, allo scopo di confermare le scoperte effettuate sulla base di altri insiemi di dati. Questa strategia di ricerca basata sull'analisi di dati omogenei come pure sulla conferma di ciò che si è ottenuto in precedenza risulta molto conservativa, implica inoltre un enorme spreco di dati e risorse, e non permette di valutare complessivamente il rischio e l'incertezza della decisione finale.
Validazione del modello
I modelli statistici, così come ogni altro tipo di modello, sono soltanto una conveniente approssimazione della realtà, precisi a sufficienza per i particolari scopi dello studio. Un vantaggio molto importante è che i modelli statistici sono valutabili da un punto di vista quantitativo. Per poter aver fiducia nei risultati inferenziali, è necessario fare ricorso all'ampia disponibilità di strumenti per la validazione statistica dei modelli. Di fianco alle tecniche classiche (test delle ipotesi, metodi robusti, studio della sensitività), vi sono strumenti che permettono la validazione di modelli gerarchici e bayesiani, quali i residui predittivi, i fattori e i p-value bayesiani. Importanti sviluppi includono metodi per la stima accurata dei gradi di libertà effettivi, per la validazione solo della parte del modello contenente i parametri di maggior interesse. Resta la preoccupazione di sovraparametrizzazione dei modelli, che si adattano perfettamente ai dati analizzati, ma risultano insufficienti se applicati a dati leggermente diversi o futuri. La validazione predittiva di un modello si basa spesso su tecniche di cross-validation, per le quali si dividono ripetutamente i dati in una parte usata per la stima del modello e in una seconda parte che tale modello cerca di prevedere; si può così stimare un errore predittivo. In generale si preferiscono modelli parsimoniosi, che però siano abbastanza complessi da permettere un'accurata descrizione della realtà, evitando il bias, cioè il pericolo di incorrere in errori.
Confronti multipli su grande scala
Importanti applicazioni richiedono di effettuare una grandissima quantità di confronti simultanei, in particolare test di ipotesi a larga scala. In genetica, per es., vengono utilizzati da alcuni anni i microarray, che misurano simultaneamente l'attività di alcune decine di migliaia di geni. Si tratta spesso di confrontare due tessuti biologici, per es., prima e dopo un trattamento radiologico contro il cancro, per identificare quei pochi geni la cui attività sia modificata dal trattamento. Da un punto di vista statistico bisogna effettuare decine di migliaia di test, incorrendo nei tipici problemi dei test multipli. Due sono i problemi principali. Anche scegliendo un livello di significatività particolarmente basso, poiché i test sono moltissimi, si produrranno necessariamente falsi positivi, ossia si determinano alcune centinaia di geni espressi in modo differenziale solo per un effetto casuale. Per controllare il livello globale di significatività è necessario conoscere il numero di test effettivamente indipendenti. La tecnica classica di Bonferroni (e altre simili) assume che i test siano tutti indipendenti, e adegua i p-values alzandone troppo il valore e dunque producendo troppi falsi negativi (ossia geni importanti non identificati). Il numero di test indipendenti non è noto, e sono stati sviluppati metodi che in sostanza ne permettono la stima, tra cui il false discovery rate e altre tecniche empirico-bayesiane che sfruttano l'ipotesi che la soluzione (in questo caso l'identificazione dell'insieme speciale di geni) sia sparsa, a bassa dimensione nello spazio parametrico che ha decine di migliaia di dimensioni. In generale, lo studio di problemi la cui soluzione sia sparsa ha attirato molta attenzione fin dalla metà degli anni Novanta, a partire dai modelli wavelets. Per arrivare a scoprire queste soluzioni bisogna sviluppare metodi che sfruttino le conoscenze a priori sulla geometria dello spazio delle soluzioni, oppure che facciano ricorso ad altri dati esterni (covariate) che a priori permettano di modulare la probabilità dell'ipotesi nulla di ogni confronto. Lo scopo ancora non raggiunto è un metodo robusto e computazionalmente efficiente per il test di ipotesi simultanee, capace di garantire che effetti importanti vengano catturati mentre le rimanenti dimensioni di scarsa rilevanza siano scartate.
Predizione sulla base di dati ad alta dimensione
Metodi utili per predire effetti e comportamenti sono particolarmente critici quando il sistema è stato osservato in grande dettaglio, raccogliendo nel tempo moltissime serie storiche di covariate. In questi casi si ha p≥≥n, cioè il numero di parametri p da stimare è molto maggiore del numero di dati n. Per restare all'esempio precedente, in genomica si tratta di stimare decine di migliaia di parametri (uno per ogni gene) a partire al massimo da un paio di centinaia di tessuti biologici. La variabile dipendente da prevedere, che potrebbe essere la sopravvivenza dopo la terapia, è perfettamente spiegata da poche covariate (geni) che per ragioni del tutto casuali sono fortemente correlati con essa. Queste covariate falliscono però la previsione della variabile dipendente per nuovi dati (validazione esterna); la difficoltà sta nella dipendenza tra le covariate, che non è nota. Sono state sviluppate parecchie tecniche statistiche per risolvere questo tipo di problema, tra le quali metodi di penalizzazione e di scelta della variabile (ridge regression, penalised least squares, metodo lasso). Queste tecniche vengono combinate con la cross-validation, così da permettere la messa a punto di modelli predittivi in modo oggettivo e robusto. Restano difficoltà nel caso di fenomeni non lineari, per i quali si ricorre a trasformazioni iniziali.
Dati longitudinali e storia degli eventi
Nell'ambito della medicina, registri sanitari, grandi coorti mediche e biobanche danno la possibilità di seguire individui nel tempo, mantenendo dati sanitari aggiornati; in economia, dati finanziari sono raccolti quasi in tempo continuo per migliaia di prodotti finanziari; in un contesto industriale, parecchi parametri legati alla produzione sono raccolti nel tempo. Questi sono alcuni esempi di dati longitudinali mediante i quali si studiano le variazioni di comportamento o di stato (sano/malato, vivo/deceduto, in crescita/stabile e così via). I dati rappresentano la storia degli eventi del sistema osservato. La teoria della sopravvivenza e l'analisi delle serie di eventi forniscono gli strumenti classici per l'analisi e la predizione. Le curve di Kaplan-Meyer, semplici figure che descrivono il rischio di decesso nel tempo, sono ancora tra gli strumenti statistici più utilizzati, accanto ai più recenti e potenti modelli d'azzardo proporzionali di Cox. I processi stocastici di conteggio e la teoria delle martingale forniscono la base teorica del calcolo delle probabilità per l'inferenza.
Dati nello spazio e nel tempo
I processi stocastici spaziotemporali sono di uso comune nelle scienze ambientali, in biologia, nella meteorologia e nella scienza dell'atmosfera. I radar meteorologici misurano in tempo reale le precipitazioni in vastissime zone geografiche; si ottengono così serie storiche spaziali, con un valore per ogni cella territoriale, per es., di 2 km2 e per ogni 15 minuti. Applicando piccoli trasmettitori radio ad animali selvatici è possibile seguire i loro spostamenti, ottenendo serie storiche con la posizione di ogni animale. Da un punto di vista statistico si ha a che fare con campi stocastici, spesso di Markov, e con processi di punto, che generalizzano il processo spaziale di Poisson. Le principali difficoltà risiedono nel fatto che spesso i dati vengono raccolti su scale diverse, e il modello deve dunque integrarli in modo coerente. Esistono modelli coerenti multiscala che permettono lo studio di fenomeni spaziotemporali e la loro previsione, nel tempo o in spazi difficili da monitorare; si ricordano i modelli generalizzati additivi, non lineari e non parametrici, i modelli di mistura, i campi di Markov e i modelli bayesiani di tipo HSSS.
Causalità
Tradizionalmente la statistica non si occupa di causalità. E.S. Pearson e R.A. Fisher, tra i padri della statistica, affermarono che l'inferenza è ricerca di associazioni, non di relazioni causali. Ciò è paradossale, poiché l'importanza della statistica risiede proprio nella possibilità che essa fornisca un aiuto nello stabilire effetti causali. In linea con l'avvento di un profondo cambiamento, sono state sviluppate diverse teorie statistiche, per permettere di stimare relazioni di causa ed effetto. Tra le nozioni più importanti vi è quella di inferenza controfattuale (counterfactual), nella quale si ricerca l'effetto che si sarebbe avuto se un sistema si fosse comportato in modo diverso da quello in atto, per es., se un fumatore non avesse fumato. Ipotesi importante, da assumere o verificare, è l'assenza di effetti non osservati che possano confondere. Un secondo concetto importante, sviluppato in econometria e valido per eventi temporali, è la causalità di Granger (premio Nobel per l'economia nel 2003): l'idea è di studiare cause all'interno di uno schema direzionale meccanicistico.
Classificazione, data mining e apprendimento automatico
Accanto ai metodi statistici basati su un modello stocastico, molto rilevanti sono i metodi che, al contrario, non fanno alcun riferimento a un modello formale, ma si basano su principi logici e matematici o modelli cosiddetti a scatola nera. Il data mining è una raccolta di tecniche che permettono di scoprire fenomeni espressi da grandi quantità di dati, senza formalizzare una specifica ipotesi. Le tecniche di apprendimento automatico sono regole matematiche determinate sulla base di dati raccolti per individui per i quali si conosce la classificazione. La regola stimata in fase di apprendimento viene poi usata in fase di previsione per classificare nuovi individui. Le reti neurali sono modelli stocastici con moltissime variabili interagenti, che permettono la costruzione automatica di tali leggi. Queste tecniche statistiche non basate su modello svolgono un ruolo importante nel contesto commerciale e industriale e, in particolare, finanziario.
Probabilità e processi stocastici
Si danno di seguito alcuni cenni sulle aree emergenti del calcolo delle probabilità. Accanto agli aspetti probabilistici dello studio di algoritmi stocastici MCMC, la probabilità permette di studiare in modo preciso il livello di approssimazioni di algoritmi di ricerca casuale. Risulta anche molto importante lo studio della complessità attesa di algoritmi che, nel caso peggiore, sono esponenzialmente lenti (NP-completi), soprattutto per problemi di ottimizzazione combinatoria e matematica discreta.
Un settore di grandissimo sviluppo del calcolo delle probabilità è la fisica statistica. I problemi includono lo studio di fenomeni critici, quali la percolazione su un reticolo o i modelli di tipo Ising, i cammini aleatori in varie dimensioni, le dinamiche evolutive stocastiche, descritte spesso a partire dalla dinamica di particelle interattive. Il settore si estende fino alla teoria delle matrici aleatorie. L'evoluzione stocastica di Loewner (SLE), di recente invenzione, analizza la crescita di curve frattali aleatorie, permettendo lo studio dei valori critici di molti processi aleatori, tra i quali la percolazione.
Il calcolo delle probabilità studia la soluzione e la regolarità delle equazioni differenziali stocastiche. Spesso è possibile vedere tale soluzione come un processo di Markov su spazio infinito-dimensionale, e lo studio si concentra sulle proprietà ergodiche. Il calcolo numerico della soluzione si basa spesso su tale interpretazione, sulla simulazione di particelle interattive e anche su tecniche di ricampionamento. Importanti sono le applicazioni in finanza matematica, scienze attuariali e ingegneria. Centrale è anche lo studio delle proprietà fisiche di materiali altamente disomogenei: quando le disomogeneità sono aleatorie, si arriva allo studio di equazioni alle derivate parziali i cui coefficienti sono stocastici.
Un settore importante è quello dei sistemi dinamici perturbati. Un sistema a tempo discreto dinamico è descritto da un'equazione del tipo x(n−1)=f{x(n)}. La teoria descrive condizioni di esistenza e unicità della soluzione, e le sue proprietà all'equilibrio, quando lo stato di partenza è aleatorio. Il sistema è perturbato se la funzione f ha anche elementi aleatori: in tal caso si riottiene la soluzione non perturbata come limite. Il problema è legato alla comprensione di complessi fenomeni di turbolenza e caos; lo studio dei limiti idrodinamici delle equazioni aiuta a comprendere le proprietà qualitative della soluzione e i suoi comportamenti critici.
Un'altra area importante è quella delle reti stocastiche. Si tratta di insiemi di punti su un piano connessi tra loro secondo leggi aleatorie, ovvero reti deterministiche lungo le quali viaggiano particelle (o pacchetti) secondo dinamiche e con caratteristiche (per es., la lunghezza) stocastiche. Sono modelli molto utili nello studio di reti di comunicazione (fissa, mobile, Internet), in biologia, nello studio della diffusione di malattie infettive. Il calcolo delle probabilità studia sia caratteristiche globali di una rete stocastica (quali le probabilità di connessione) sia proprietà locali, analizzando la topologia stocastica della rete (per es., cercando i 'colli di bottiglia'). Eventi rari seguono spesso modelli non gaussiani con code pesanti e memoria lunga.
bibliografia
G.R. Grimmett, D.R. Stirzaker, Probability and random processes, Oxford-New York 2001.
T. Hastie, R. Tibshirani, J. H. Friedman, The elements of statistical learning, New York 2001.
Highly structured stochastic systems, ed. P.J. Green, N.L. Hjort, S. Richardson, Oxford-New York 2003.
B.K. Øksendal, Stochastic differential equations: an introduction with applications, Berlin-New York 2003.
Celebrating statistics: papers in honour of Sir David Cox on his 80th birthday, ed. A.C. Davison, Y. Dodge, N. Wermuth, New York 2005.