PROBABILITÀ, Calcolo delle (XXVIII, p. 259; App. II, 11, p. 611; III, 11, p. 485)
Il calcolo delle p., entrato con l'inizio del secolo nella sua fase moderna, ha proseguito anche negli anni più recenti il suo sviluppo, accompagnato da una presenza sempre più insostituibile nello studio dei fenomeni naturali, economici, sociali, tecnologici. Più recentemente il maggiore approfondimento si è avuto nel campo dei processi aleatori o stocastici, rivolti allo studio dell'aspetto dinamico dei fenomeni aleatori.
Altri significativi contributi sono andati allo studio dei fondamenti della p., e delle variabili aleatorie su spazi astratti. Sono state sempre più approfondite, inoltre, le strette relazioni tra calcolo delle p. e vari settori della matematica. Per quest'ultimo aspetto è di utile consultazione il secondo volume dell'opera di W. Feller ricordata nella bibliografia. Qui presentiamo una panoramica delle impostazioni per la definizione della p. (più ampiamente esposte nel 3° capitolo del libro di V. Barnett) e il cosiddetto "teorema centrale di convergenza" (trattato esaurientemente da M. Loève), utile come premessa allo studio dei processi aleatori (v. aleatori processi, in questa Appendice).
I fondamenti della probabilità. - Fin dalle origini, la p. di un evento veniva concepita, sia pure in modo non formale, come il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili, ammettendo implicitamente che i casi possibili, ammettendo implicitamente che i casi possibili dovessero essere equiprobabili. Tale definizione, detta appunto "classica", non appena precisata mostra il suo carattere tautologico e restringe inoltre l'applicazione della p. alla situazione in cui si possano individuare di "casi equiprobabili"; per tali ragioni, più che una definizione, può essere considerata il modo di valutare la p. di eventi in situazioni particolari, e come tale ha ricevuto un notevole chiarimento dal concetto di "eventi scambiabili" o "simmetrici", introdotto da B. de Finetti. Essa peraltro ha avuto il merito di permettere l'inizio dello studio della p., definendone implicitamente le regole di calcolo. D'altra parte era ben presente ai primi studiosi lo stretto legame tra p. e frequenza in una successione di prove, legame che assunto implicitamente fin dall'inizio, fu poi espresso nella "legge (o postulato) empirica del caso": "in un gran numero di prove su un evento di p. costante p la frequenza (relativa) del verificarsi dell'evento approssima p".
Una tale formulazione, forzatamente imprecisa, presenta gravi difficoltà quando se ne approfondisce l'esame; essa però rispecchia un contenuto intuitivo fortemente sentito, che ha portato a una "definizione frequentista" di p.: "la p. è il limite della frequenza al crescere del numero delle prove". Anche questa definizione appare notevolmente imprecisa, soprattutto per il concetto di convergenza di una funzione empirica come la frequenza. R. von Mises ha precisato la definizione, sostituendo alla successione empirica di prove un "collettivo" astratto; il risultato però trova molti critici. Oltre ad obiezioni al modello teorico, si critica la restrizione del concetto di p. a una situazione particolare: delle "prove ripetute".
Una definizione di portata più ampia è quella "logica", sviluppata in particolare da R. Carnap (il cui pensiero ha subìto però una lunga evoluzione, avvicinandosi alla definizione soggettiva, presentata nel seguito). Essa preferisce riferirsi a "proposizioni" invece che a eventi e definisce la p. come "grado di fiducia", o più spesso, come "misura d'implicazione", che estende la logica classica: date due proposizioni A e B, A può implicare B, o implicare la negazione di B; ma può anche implicare B "in una certa misura", che è appunto la p. di B, data A. La teoria della p. viene così vista come "la logica dell'incerto". Per formalizzare la determinazione della p. e le sue regole di calcolo sono stati fatti numerosi tentativi, basati in genere su assunzioni del tipo di equiprobabilità. L'arbitrarietà di tali assunzioni è un elemento negativo della teoria, che inoltre, abbastanza accettata dai filosofi, viene invece rifiutata da altri per l'insoddisfacente collegamento con il concetto intuitivo di p. e con le applicazioni.
Un'altra critica sostanziale a questa definizione riguarda il carattere di "costante assoluta" della p. di un evento, ancora più criticabile nella definizione frequentista, in cui è legata al concetto (poco sostenibile in assoluto) di ripetibilità delle prove. Su questa base si è avuta una definizione "soggettiva" della p. come "grado di fiducia di una persona nel verificarsi di un evento", variabile quindi con la persona e anche, per la stessa persona, con la sua situazione (per es., le informazioni disponibili). Un modo operativo per precisare tale definizione è di ricondurla a una situazione di scommessa: "la p. di un evento è il prezzo p che una persona reputa equo pagare per ottenere 1 lira di l'evento si verifica (e niente se l'evento non si verifica)". A ciò si aggiunge una "condizione di coerenza": le p. degli eventi in una prova non debbono essere fissate in modo che, combinando insieme più scommesse, si possa avere una vincita certa o una perdita certa. Dalla condizione di coerenza derivano le proprietà formali della p., per es., la proprietà additiva per eventi incompatibili.
La concezione soggettiva, già presente ai primordi, è stata presa da circa cinquant'anni, in particolare a opera di de Finetti, e trova sempre più credito. Dagli "oggettivisti" invece vengono negate la possibilità di porre alla base della definizione di p. l'arbitrarietà della valutazione personale, e l'utilità agli effetti della "comunicazione", e quindi del progresso scientifico, di valori di p. non oggettivi. I "soggettivisti" replicano, a ragione, che l'oggettività delle altre impostazioni è o apparente o puramente formale.
Occorre osservare che le regole di calcolo derivanti dalle diverse definizioni non differiscono sostanzialmente tra loro. Ciò ha incoraggiato lo sviluppo di teorie matematiche assiomatiche della probabilità. Senza approfondire questo aspetto, ci limitiamo a citare il sistema di assiomi di A. N. Kolmogorov che, o nella sua formulazione originale (basata sulla teoria della misura), o con qualche modifica (per es. di G. Pompilj) risulta ampiamente accettabile dai cultori di probabilità. Resta, ovviamente, la necessità di ricorrere a una definizione contenutistica quando dalla teoria matematica si voglia passare alle applicazioni.
Il teorema centrale di convergenza. Tale teorema ha le sue origini nello studio del fondamentale "schema di Bernoulli", in cui si considera una successione di prove indipendenti (per es., "testa") si può presentare con p. costante p.
Il numero A(n, p) di successi in n prove, cioè il numero di prove in cui l'evento considerato si verifica, è ovviamente un numero aleatorio, detto "di Bernoulli". G. Bernoulli dimostrò (teorema di Bernoulli, o legge dei grandi numeri) che
per ogni ε > o. Successivamente venne dimostrato (A. De Moivre, 1732 e P.-S. Laplace, 1801) che la variabile aleatoria
per n → ∞ tende ad avere distribuzione normale (o gaussiana). Più tardi S.-D. Poisson considerò una successione di variabili aleatorie di Bernoulli con p = pn dipendente da n, e mostrò che, se npn → μ > 0, si ha
Si ottengono così le tre più importanti distribuzioni del calcolo delle p.: "degenere", "normale", "di Poisson", le cui funzioni di ripartizione (cioè la funzione definita da F(x) = P{X 〈 x}) sono date da (a, μ reali, σ > 0, λ ≥ 0):
Distribuzione denegere:
Distribuzione normale:
Distribuzione di Poisson:
le funzioni caratteristiche (H(t) = E[exp (iXt)]) sono:
La prima di queste distribuzioni è quella, importante come "caso limite", di una variabile aleatoria che si riduce a un valore certo, e si ottiene come caso degenere dalle altre due (per σ → 0 e λ = 0). La seconda, ben nota, ha sempre avuto un ruolo centrale nel calcolo delle probabilità. La terza ha visto aumentare sempre di più la sua importanza nel calcolo delle p. e nelle applicazioni, e per certi aspetti gioca tra le distribuzioni discrete il ruolo che ha la normale tra quelle continue.
Fin dai tempi di Laplace ci si accorse che i primi due risultati erano legati in modo essenziale al fatto che le variabili aleatorie A(n, p) si presentano come somme parziali di una successione di variabili aleatorie indipendenti (i numeri di successi, ovviamente 0 0 1, nelle singole prove), e che potevano essere generalizzati, sotto condizioni molto ampie, alle somme parziali di una successione Xn di variabili aleatorie indipendenti. In particolare, la generalizzazione del secondo risultato nelle sue varie forme prese il nome di "teorema centrale di convergenza" o "teorema limite centrale", conglobando poi, negli ultimi sviluppi, anche gli altri due risultati.
Posto Sn = X1 + ... + Xn, (se i rispettivi momenti esistono finiti), si ha per la media e la varianza:
La più diretta generalizzazione si ha quando le Xi oltre a essere indipendenti sono anche "somiglianti" (hanno cioè tutte la stessa distribuzione e quindi gli stessi momenti):
1) (A. Kincin) Se E(Xr) 〈 ∞, si ha
2) (P. Levy) Se E(X²r) 〈 ∞, si ha
Come si nota, è richiesta solo l'esistenza dei momenti che intervengono nella formulazione del problema, oltre alla somiglianza delle Xn. Lasciando cadere quest'ultima ipotesi, ma mantenendo quella d'indipendenza delle Xn, e supponendo per semplicità E(Xn) = 0, vi sono numerosissime formulazioni del teorema centrale di convergenza. Citiamo:
3) (A. M. Liapunov) Se, per un ε > 0,
per n → ∞, allora
E infine:
4) (J. W. Lindeberg) Condizione sufficiente affinché
è che, per ogni ε > 0,
dove Fk(x) = P{Xk 〈 x}. Questa condizione è anche necessaria (W. Feller) se si aggiunge l'ipotesi che
per n → ∞, e appare quindi conclusiva.
Risultati analoghi si hanno per la legge dei grandi numeri. Questi studi lasciavano da parte, invece, la convergenza a P(x, λ); è stato successivamente dimostrato che tale distribuzione limite non si può ottenere (a parte casi banali) dalle somme parziali di una successione di variabili aleatorie.
L'unificazione della trattazione si ebbe quando, invece di una successione, si considerano le somme Sn = Σk Xn,k ottenute da un insieme di variabili aleatorie Xn,k, n = 1, 2, 3, ...; k = 1, 2, ..., kn, tali che, per n fissato, le Xn,k sono indipendenti. Se, data una successione {Xn}, si pone Xn,k = [Xk − E(Xk)]/n si ottiene lo schema che dà luogo alla convergenza degenere; ponendo invece Xn,k = [Xk − E(Xk)]/σ(X1 + ... + Xn), si ha il caso normale. D'altra parte la possibilità di variare in funzione di n la distribuzione degli addendi permette di ottenere, come caso particolare, il teorema di Poisson. Gli studi s'indirizzano all'individuazione di tutte le possibili distribuzioni limite delle somme Sn. Occorreva ovviamente escludere mediante una condizione restrittiva l'estrema generalità del problema (se, come caso limite, fosse Xn,k = 0 per k ≥ 2, si avrebbe Sn = Xn,1 e la distribuzione limite di Sn potrebbe essere qualsiasi). La condizione giudicata più opportuna è
Tale condizione si può esprimere dicendo che le variabili aleatorie sono, al limite per n → ∞, uniformemente trascurabili, e si ricollega a quella enunciata sopra, dopo il teorema di Lindeberg; il suo significato appare più chiaro nell'ambito dei processi aleatori.
Partendo così da un insieme di variabili aleatorie Xn,k (n = 1, 2, ...; k = 1, 2, ..., kn), indipendenti per n fissato, e soddisfacenti alla condizione di trascurabilità, si ottiene:
5) Le possibili distribuzioni limite delle Sn sono tutte e solo quelle la cui funzione caratteristica è della forma
dove α e β sono numeri reali, e G(x) una funzione non decrescente, limitata, continua nell'origine.
Questo risultato fu preceduto e facilitato dallo studio delle "distribuzioni infinitamente divisibili", o "decomponibili", introdotte da B. de Finetti, e definite come quelle distribuzioni che si possono ottenere, per ogni n intero positivo, come distribuzione della somma di n variabili aleatorie indipendenti e somiglianti; in termini di funzioni caratteristiche, cioè, esente per ogni n una funzione caratteristica Hn(t) tale che H(t) = [Hn(t)]n. P. Levy dimostrò che le distribuzioni infinitamente divisibili sono tutte e sole quelle la cui funzione caratteristica è della forma data sopra; cosicché il risultato 5) si può anche esprimere dicendo che "le possibili distribuzioni limite delle Sn sono le distribuzioni infinitamente decomponibili".
È importante osservare, dalla caratterizzazione delle distribuzioni infinitamente decomponibili, che esse si presentano come distribuzione della somma di tre variabili aleatorie indipendenti, quali la prima è degenere, la seconda normale e la terza, di forma più complessa, può essere considerata una generalizzazione della distribuzione di Poisson.
Bibl.: M. Loève, Probability theory, New York 1955; W. Feller, An introduction to probability theory and its applications, vol. I, New York e Londra 1957; vol. II, ivi 1966; G. Pompilj, Le variabili casuali, fasc. i, Roma 1967, fasc. II, ivi 1970; L. Daboni, Calcolo delle probabilità ed elementi di statistica, Torino 1970; B. de Finetti, Teoria delle probabilità, ivi 1970; A. Rènyi, Foundations of probability (trad. ingl.), San Francisco 1970; V. Barnett, Comparative statistical inference, New York e Londra 1973; Y. S. Chow, H. Teicher, Probability theory, indipendence, interchangeability, martingales, New York, Heidelberg e Berlino 1978.