Stocastica
Storicamente i processi stocastici furono introdotti nel mondo della scienza (e più tardi della matematica) sotto una forma assai diversa da quella derivante dalla definizione formale che viene oggi data. Basterà dire che, molto prima che fossero introdotti in forma matematica, i processi stocastici non erano definiti ma solamente descritti assegnando un insieme di distribuzioni opportunamente compatibili.
Dal punto di vista matematico, grazie al famoso teorema di ricostruzione di Andreij N. Kolmogorov del 1933, si provò che l'insieme di queste distribuzioni definisce in maniera unica un processo stocastico. Un matematico necessita del teorema di ricostruzione per sapere di cosa sta parlando, ma esso non è la sottigliezza matematica più profonda fra quante stanno alla base del concetto di processo stocastico. Per rendersene conto si può guardare alla teoria del moto browniano di una particella libera, limitandosi al caso unidimensionale, nella sua formulazione storica. Erano note dalla teoria di Einstein-Smoluchowski le funzioni di distribuzione congiunte della posizione di una particella dotata di moto browniano. Si vede facilmente che la condizione di compatibilità è contenuta nella relazione spesso detta equazione di Chapman-Kolmogorov e quindi si può definire il moto browniano a partire dalle funzioni di distribuzione.
Sorprendente e interessante è il fatto che il sottoinsieme delle traiettorie continue non è misurabile. Se la teoria matematica rispecchiasse la realtà fisica, tale sottoinsieme dovrebbe avere misura 1, in accordo con l'osservazione sperimentale che le traiettorie browniane sono continue. Si può rimediare a questo, come fece Joseph L. Doob, sfruttando il fatto che, benché tale insieme non sia misurabile, esso ha misura esterna eguale a 1. Esiste però una maniera molto più concreta per definire il moto browniano, che fu introdotta per la prima volta da Norbert Wiener. Restringendosi all'intervallo 0〈t〈1, Wiener mostrò che una particolare successione di traiettorie casuali continue converge uniformemente con probabilità 1 e che il limite così ottenuto ha distribuzioni congiunte identiche al moto browniano. Molte delle difficoltà ottenute per il moto browniano vengono così superate grazie alla definizione introdotta da Wiener.
Un altro esempio è dato dalla teoria delle catene di Markov. Dopo aver definito un processo markoviano con tempi discreti e con spazio degli stati finito e la matrice stocastica associata alla probabilità di transizione, si mostra come quest'ultima caratterizza il processo, e dunque la teoria delle catene di Markov con spazio degli stati finito si riduce alla teoria delle matrici stocastiche. Il carattere probabilistico di questa teoria (e di altre parti della teoria dei processi stocastici) emerge dagli esempi e dalle numerose applicazioni. Analogamente, in una situazione di tempo continuo e con spazio degli stati finito, un processo markoviano omogeneo dà origine a semigruppi di matrici; la teoria dei processi di Markov omogenei nel tempo (anche quelli a stati continui) è sotto molti punti di vista equivalente alla teoria dei semigruppi di operatori lineari.
Nella letteratura matematica le equazioni che legano questi semigruppi di matrici sono note col nome di equazioni di Kolmogorov; sono invece note ai fisici col nome di master equations.
Anche in questo caso sono gli esempi e le applicazioni che vivificano la teoria. Un processo a tempo continuo e a valori reali è di Markov se, in termini un po' imprecisi, il futuro è indipendente dal passato una volta assegnata la situazione attuale. L'esempio più noto di un processo di Markov a più componenti è la coppia posizione e momento di una particella legata armonicamente che compie un moto browniano. L'esempio storico più noto di processo di Markov a una sola componente, con un continuo di stati, è il processo di Ornstein-Uhlenbeck. Storicamente tale processo nasce come processo markoviano, stazionario e gaussiano la cui funzione di correlazione decresce esponenzialmente nel tempo. È interessante studiarne le principali proprietà e il suo stretto legame con il processo di Wiener. È altrettanto interessante analizzare i processi stocastici definiti da equazioni differenziali a partire da un metodo proposto da Paul Langevin per descrivere il moto di una particella libera in un fluido. Un altro importante esempio è dato dalla formulazione di Onsager-Machlup della termodinamica lineare lontana dall'equilibrio (termodinamica irreversibile).
Un processo stocastico x(t) è una famiglia a un parametro di variabili aleatorie. Una variabile aleatoria è, in termini puramente matematici, una funzione misurabile su uno spazio Ω sul quale è definita una misura additiva μ: dovremmo quindi scrivere x(t;ω), ω∈Ω, invece di x(t) (l'omissione abituale della variabile ω è ciò che rende la teoria della probabilità incomprensibile ai principianti).
Dati un processo stocastico a valori reali e i valori t1,t2,…,tn, definiamo le distribuzioni congiunte
[1] formula
di x(t1),x(t2),…,x(tn) mediante la relazione
[2] formula
dove P (probabilità) indica la misura μ su Ω, cioè:
[3] P(x(t1)≤α1, x(t2)≤α2,…, x(tn)≤αn) =
= μ{x(t1; ω)≤α1, x(t2; ω)≤α2, …, x(tn; ω)≤αn}.
Secondo questa definizione,
[4] x(t)=sen2π(νt+ω)
è un processo stocastico, se si sceglie, per esempio, per Ω l'intervallo (0,1) e per μ l'ordinaria misura di Lebesgue.
Storicamente i processi stocastici furono introdotti nel mondo della scienza (e più tardi della matematica) sotto una forma assai diversa da quella derivante dalla definizione formale che abbiamo dato all'inizio di questo paragrafo. Senza entrare nei dettagli storici, basterà dire che, molto prima che fossero introdotti Ω e μ, i processi stocastici non erano definiti ma solamente descritti assegnando un insieme di distribuzioni [1] soggette soltanto alla seguente condizione di compatibilità, per k=2,3,…,n:
[5] limαk→∞σ(α1, t1; …; αk, tk; …; αn, tn)=
= σ(α1, t1; …; αk−1, tk−1; αk+1, tk+1; …; αn, tn).
Nel 1933 Kolmogorov dimostrò il suo famoso teorema di ricostruzione secondo cui, assegnato un qualunque insieme di funzioni di distribuzione [1] che soddisfino la [5], è possibile costruire un insieme Ω, una misura μ e una famiglia di funzioni a un parametro x(t;ω) misurabili su Ω tali che
[6] σ(α1, t1; α2, t2; …; αn, tn)=
= μ{x(t1; ω)≤α1, x(t2; ω)≤α2, …, x(tn; ω)≤αn}.
L'astrattezza e, diciamo pure, l'oscurità di Ω e μ costruite per mezzo del teorema di ricostruzione di Kolmogorov contrastano in maniera così netta con l'intervallo (0,1) e la misura di Lebesgue, che siamo propensi a non considerare questo esempio come processo aleatorio. Ma una definizione è una definizione e un senso di disagio è il prezzo che si deve pagare per guadagnare in generalità.
Per un economista che si occupi di serie temporali, per un ingegnere che lavori su problemi di segnale e rumore, per un fisico che studi il moto browniano, un processo stocastico è definito quando tutte le funzioni di distribuzione [1] sono note. Un matematico necessita del teorema di ricostruzione per sapere di cosa sta parlando. Ma il teorema di ricostruzione non è la sottigliezza matematica più profonda fra quante stanno alla base del concetto di processo stocastico. Per illustrare l'insufficienza del teorema di ricostruzione esaminiamo brevemente la teoria del moto browniano di una particella libera, limitandoci al caso unidimensionale. Era noto dalla teoria di Einstein-Smoluchowski che le funzioni di distribuzione [1] di una particella dotata di moto browniano (per 0〈t1〈t2〈…〈tn), avendo scelto le coordinate in modo tale che per t=0 sia x=0, sono date dalla relazione
[7] formula
con
[8] formula.
Nella teoria fisica la varianza della densità gaussiana [8] è una quantità D che dipende, in maniera semplice, da certe proprietà fisiche della particella e del mezzo fisico circostante e dalla temperatura assoluta T che compare nella formula moltiplicata per la costante di Boltzmann k. È possibile determinare sperimentalmente D e dunque k e il numero di Avogadro. Benché questo sia di fondamentale importanza dal punto di vista fisico, non è affatto rilevante per lo sviluppo matematico della teoria, per cui abbiamo scelto le unità di misura in modo che risulti D=1.
Si vede facilmente che la condizione di compatibilità è contenuta nella relazione
[9] P(y; t∣x) = ∫∞−∞P(ξ; τ∣x)P(y; t−τ∣ξ)dξ
spesso detta equazione di Chapman-Kolmogorov, oppure, più giustamente, di Smoluchowski o ancora meglio di Einstein-Smoluchowski.
Il teorema di ricostruzione garantisce l'esistenza dello spazio Ω (che può essere lo spazio di tutte le funzionia valori reali x(t), 0≤t〈∞, tali che x(0)=0) e di una misura additiva μ su Ω tale che, per 0〈t1〈t2〈…〈tn, si abbia
[10] μ{x(t1)≤α1, …, x(tn)≤αn} = σ(α1, t1; …; αn, tn)
dove σ è data dalla [7].
Sorprendente e interessante è il fatto che il sottoinsieme C0 delle funzioni continue (che, come tutte le funzioni in Ω, si annullano per t=0) non è misurabile. Se la teoria matematica rispecchiasse la realtà fisica, C0 dovrebbe avere misura 1 in accordo con l'osservazione sperimentale che le traiettorie browniane sono continue. Si può rimediare a questo, come fece Doob, sfruttando il fatto che, benché C0 non sia misurabile, esso ha misura esterna eguale a 1.
Esiste una maniera molto più concreta per definire il moto browniano x(t) (x(0)=0), che fu introdotta per la prima volta da Wiener.
Restringendosi all'intervallo 0≤t≤1, Wiener mostrò che la serie
senπkt
[11] formula
dove G0,G1,G2,… sono variabili aleatorie indipendenti ciascuna con distribuzione normale (gaussiana), media nulla e varianza 1, converge uniformemente con probabilità 1. Inoltre, ponendo x(t) uguale a [11] si verifica che, per 0〈t1〈t2〈…〈tn,
[12] P{x(t1)≤α1, x(t2)≤α2, …, x(tn)≤αn} =
= σ(α1, t1; α2, t2; …; αn, tn)
dove σ è data dalla [7] e dalla [8].
In questa maniera la maggior parte delle difficoltà teoriche sulla misura spariscono e per Ω possiamo scegliere lo spazio prodotto ℝ×ℝ×… (ℝ indica la retta reale) sul quale fissiamo la misura prodotto gaussiana.
L'estensione alla semiretta 0≤t〈∞ non presenta alcuna difficoltà.
Un processo markoviano con tempi discreti e con spazio degli stati finito è una famiglia di variabili aleatorie xn=x(n), con n=1,2,…, ciascuna delle quali può assumere un numero finito di simboli (non necessariamente numerici) S1,S2,… (stati), tale che
[13] P{x(1)=Si1, x(2)=Si2, …,x(n)=Sin} =
= P(Si1)P(Si2∣Si1)P(Si3∣Si2)…P(Sin∣Sin−1).
In questa relazione P(Si) indica una distribuzione iniziale arbitraria assegnata e P(Sj∣Si)=pij indica la probabilità di transizione vincolata dalle condizioni ovvie
[14] pij ≥ 0
e
[15] n∑j=1 pij=1 per ogni i.
È facile vedere che 1 è un autovalore della matrice P=((pij)) delle probabilità di transizione e che tutti gli altri autovalori hanno modulo minore o uguale a 1. Sotto condizioni piuttosto generali, l'autovettore sinistro della matrice P (W(1),W(2),…,W(n)) ha tutte le componenti non negative e possiamo normalizzarlo imponendo che sia
[16] n∑i=1 W(i) = 1.
Se poniamo P(Si)=W(i), il processo x(n) diventa stazionario.
Dovrebbe essere ora chiaro che la matrice P caratterizza il processo x(n) e dunque la teoria delle catene di Markov con spazio degli stati finito si riduce alla teoria delle matrici che soddisfano [14] e [15] (le cosiddette matrici stocastiche). Il carattere probabilistico di questa teoria (e di altre parti della teoria dei processi stocastici) emerge dagli esempi e dalle numerose applicazioni.
Un processo markoviano con tempo continuo e con spazio degli stati finito è una famiglia a un parametro di variabili aleatorie x(t), 0≤t〈∞, ciascuna delle quali indica uno degli stati S1,S2,…,SN nei quali il sistema può trovarsi, per la quale è assegnata una famiglia di matrici stocastiche P(s,t)=((pij(s,t))), s≤t, tali che per 0≤t1〈t2〈…〈tn vale
[17] P{x(t1)=Si1, x(t2)=Si2,…, x(tn)=Sin} =
= pi1i2(t1, t2)pi2i3(t2, t3)pin−1in(tn−1, tn).
Chiaramente le matrici P(s,t) devono soddisfare la condizione di compatibilità
[18] P(s, t) = P(s, τ)P(τ, t)
per ogni τ tale che s≤τ≤t, e l'ovvia condizione iniziale
[19] P(s, s) = I (matrice unità).
La condizione di compatibilità [18] è chiaramente l'analoga della [9].
Nella maggior parte delle applicazioni si suppone che il processo sia omogeneo nel tempo, che cioè sia P(s,t)=P(t−s), s≤t; pertanto noi ci limiteremo a considerare processi di questo tipo.
La condizione di compatibilità [18] diventa
[20] P(s+t) = P(s)P(t) s, t≥0
e la condizione iniziale [19] diventa
[21] P(0) = I.
È chiaro che abbiamo a che fare con semigruppi di matrici: infatti la teoria dei processi di Markov omogenei nel tempo (anche quelli a stati continui) è sotto molti punti di vista equivalente alla teoria dei semigruppi di operatori lineari.
Se supponiamo che esista il limite definito da
[22] formula
esso è detto generatore infinitesimo e si ha
[23] P(t) = etQ.
La matrice Q=((qij)) gode evidentemente delle seguenti tre proprietà:
[24] qij ≤ 0
[25] qij ≥ 0 i≠j,
[26] N∑i=1 qij=0 per i=1, 2, 3, …, N
e, inversamente, ogni matrice che gode di queste tre proprietà è il generatore infinitesimo di un semigruppo P(t).
Dalla [23] segue
[27] formula
o, equivalentemente,
[28] formula.
Nella letteratura matematica le equazioni [28] sono note col nome di equazioni di Kolmogorov; nella forma [27] sono note ai fisici col nome di master equations. Non è necessaria praticamente alcuna modifica, almeno dal punto di vista formale, per estendere la teoria al caso N=∞, cioè al caso di un insieme numerabile di stati.
Anche in questo caso sono gli esempi e le applicazioni che vivificano la teoria. Noi ne discuteremo in dettaglio, uno tratto da una teoria molto semplificata delle reazioni chimiche, teoria che è stata discussa diffusamente in relazione all'estensione della termodinamica irreversibile a situazioni lontane dall'equilibrio.
La reazione, assolutamente irrealistica, è la seguente:
[29] formula
dove k1 e k2 indicano le velocità di reazione. Indicando con μ(t) e ν(t) le concentrazioni delle specie X e Y, rispettivamente, dalla legge dell'azione di massa segue
[30] formula
[31] formula.
Poiché μ(t)+ν(t)≡1, supponendo per semplicità k1==k2=1, abbiamo
[32] formula.
Fin qui la teoria elementare. Ora, la μ(t) rappresenta chiaramente soltanto la concentrazione media della specie X; a causa della natura atomica, e dunque discreta, del processo ci possiamo attendere fluttuazioni, ancheosservabili, attorno al valor medio. Per analizzarle si postulano modelli stocastici, detti a volte modelli di McQuarrie, del tipo dei processi di Markov.
Nel nostro caso particolare supponiamo di avere N molecole, delle quali nX(t) appartenenti alla specie X e nY(t)=N−nX(t) alla specie Y. Due tipi di reazione sono possibili: dalla collisione di una molecola X con una molecola Y si formano due molecole Y, dalla collisione di due molecole Y si formano una molecola X e una molecola Y. La natura stocastica di questo processo è contenuta nell'ipotesi che si tratti di un processo di Markov e nel postulare la matrice corrispondente al suo generatore infinitesimo Q.
Gli elementi della matrice Q sono suggeriti dalla legge dell'azione di massa e sono dati dalle equazioni
[33] formula
[34] formula
[35] formula
[36] qij=0 altrimenti.
Possiamo ora scrivere le equazioni di Kolmogorov [28] e da queste derivare un'espressione per la media E{nx(t)/N}.
Si ottiene in effetti facilmente
[37] formula
e, trascurando le fluttuazioni ovvero ponendo
[38] formula
si ottiene (identificando E{nx(t)/N} con μ(t)) l'equazione [32]. Per studiare le fluttuazioni intorno alla media introduciamo il processo
[39] formula.
Consideriamo ora la funzione caratteristica
[40] GN(ξ; t) = E{exp(iξxN(t))};
per essa dalle equazioni di Kolmogorov otteniamo
[41] formula
dove i puntini stanno per termini che sono o(1), cioè che tendono a zero per N→∞. I termini di ordine √N si elidono in virtù della [32] e, se supponiamo che GN(ξ;t) tenda a G(ξ;t) per N→∞, è chiaro che G(ξ;t) verifica formalmente l'equazione
[42] formula.
Se inoltre supponiamo che G(ξ;t) sia la trasformata di Fourier di una funzione di densità, cioè che sia
[43] formula
si vede che P(x;t) verifica formalmente la relazione
[44] formula
che è un'equazione del tipo di Fokker-Planck ma con coefficienti dipendenti dal tempo.
Nella prima parte ci limiteremo a considerare processi x(t) a valori reali e per evitare complicazioni tecniche supporremo che tutte le funzioni di distribuzione abbiano densità continue. Sarà pertanto
[45] σ(α1, t1; α2, t2; …; αn, tn)=
=∫α1−∞…∫α2−∞W(x1, t1; x2, t2; …; xn, tn)dx1…dxn
dove con W si indicano funzioni continue nelle x. Le densità condizionate sono definite nella maniera usuale, cioè
[46] formula.
Il processo è di Markov se, per t1〈t2〈…〈tn, vale
[47] P(xn, tn∣x1, t1; …; xn−1, tn−1)=P(xn, tn∣xn−1, tn−1).
Questa eventualità viene spesso descritta, imprecisamente, dicendo che il futuro è indipendente dal passato una volta assegnata la situazione attuale.
Dalla definizione [46] di probabilità condizionata segue immediatamente che per un processo di Markov si ha, per t1〈t2〈…〈tn,
[48] P(xn, tn; …; x2, t2∣x1, t1) = P(xn, tn∣xn−1, tn−1)∙
∙P(xn−1, tn−1∣xn−2, tn−2)…P(x2, t2∣x1, t1).
Questa relazione viene spesso usata come definizione di processo di Markov.
La relazione di compatibilità [9] diventa ora l'equazione di Chapman-Kolmogorov (o di Einstein-Smoluchowski)
[49] P(x2, t2∣x1, t1) = ∫∞−∞P(ξ, τ∣x1, t1)P(x2, t2∣ξ, τ)dξ
per qualsiasi τ tale che t1〈τ〈t2.
L'estensione delle definizioni precedenti a processi di Markov vettoriali è immediata; in questo caso siindicherà con xi l'insieme ordinato di numeri reali (xi(1),xi(2),…,xi(k)) e i cambiamenti necessari sono solo notazionali. Il termine processo vettoriale in realtà è improprio dal momento che la questione dell'invarianza per trasformazioni di coordinate non svolge alcun ruolo in questa teoria: più corretto sarebbe dire processo a più componenti.
L'esempio più noto di un processo di Markov a più componenti è la coppia (x(t),p(t)), dove x e p indicano rispettivamente la posizione e il momento di una particella legata armonicamente che compie un moto browniano.
L'esempio più noto di processo di Markov a una sola componente con un continuo di stati è il processo di Ornstein-Uhlenbeck, che nella sua prima formulazione storica oltre a essere di Markov è anche stazionario e gaussiano. Come abbiamo già osservato prima, un processo è stazionario se le W sono invarianti per traslazioni temporali, è gaussiano quando le W sono della forma
[50] formula
dove C indica una costante di normalizzazione e le rij sono funzioni di t1,t2,…,tn. Se un processo gaussiano è anche stazionario, le rij dipendono solamente dalle dif-ferenze tk−tl e si vede facilmente che, in termini di funzioni caratteristiche, la definizione prende la forma
[51] formula
dove, se si suppone di aver scelto la normalizzazione E{x2(t)}=1, ϱ(s−t) indica il coefficiente di correlazione e cioè
[52] ϱ(s−t)=E{x(s)x(t)}.
La ϱ è chiaramente una funzione pari:
[53] ϱ(−τ) = ϱ(τ)
e per semplicità supporremo anche che sia continua. Noti risultati di Wiener e Alexander I. Kinchin garantiscono l'esistenza di una funzione non decrescente A(a) tale che
[54] formula.
La derivata A′(ω) (che in molti casi deve essere intesa nel senso delle distribuzioni di Schwartz) è detta spettro di potenza del processo. Questi ultimi concetti (funzione di correlazione e spettro di potenza) possono essere definiti anche per processi non gaussiani, in cui la stazionarietà può essere richiesta a partire dalla [52]. Storicamente il processo di Ornstein-Uhlenbeck nasce come processo markoviano, stazionario e gaussiano, la cui funzione di correlazione [52] vale
[55] ϱ(τ) = exp(−γ∣τ∣).
I processi di Wiener e di Ornstein-Uhlenbeck sono tra loro strettamente collegati, in maniera che se x(t) è un processo di Wiener il processo
[56] y(t) = e−tx(e2t)
è il processo di Ornstein-Uhlenbeck di covarianza exp(−∣τ∣).
Langevin propose un metodo per descrivere il moto di una particella libera in un fluido. Egli tratta l'equazione presente in letteratura
[57] formula
come una equazione per il valor medio e la modifica aggiungendoci una componente aleatoria ẽ(t) per rappresentare gli effetti di bombardamento delle molecole non inclusi nel coefficiente lineare di attrito f che dipende dal mezzo (per es., in un gas denso o in un liquido, f è dato dalla formula di Stokes). Alla [57] sostituisce dunque l'equazione, che porta il suo nome,
[58] formula
e interpreta ẽ(t) come un processo stocastico stazionario con valor medio nullo. La sua covarianza singolare è data dalla formula
[59] E(ẽ(t)ẽ(s)) = 2Dδ(t−s)
nella quale D può essere ricavato e vale
[60] D=2kTf
una formula già ricavata da Albert Einstein in modo diverso. Il processo ẽ(t), detto processo puramente aleatorio o rumore bianco, chiaramente non è un oggetto matematico ben definito. E neppure è ben definito dal punto di vista fisico; infatti, a causa dell'identità formale
[61] formula,
lo spettro di potenza del processo è costante su tutto l'intervallo di frequenze (di qui il nome di rumore bianco) e questo ha come conseguenza assurda che la potenza totale è infinita.
È istruttivo paragonare i diversi modi in cui questa difficoltà è trattata dai matematici e dai fisici. In matematica si osserva che ẽ(t) è formalmente identico a √(2D)∙db/dt, dove abbiamo indicato con b(t) il processo di Wiener discusso nel paragrafo 2. Poiché quasi ogni traiettoria b(t) è ovunque non differenziabile (risultato notevole, dimostrato per la prima volta dallo stesso Wiener), il termine db/dt è privo di senso. Possiamo però riscrivere la [58] nella forma
[62] formula
dalla quale segue che
[63] formula.
La difficoltà consiste ora nel definire l'integrale di Stieltjes
[64] ∫t0F(τ)db(τ).
Bisogna procedere con cautela nell'effettuare l'integrazione per parti, poiché con probabilità uno le traiettorie b(τ) non sono a variazione limitata. Le difficoltà che si incontrano si possono illustrare esaminando l'integrale
[65] I(t) = ∫t0b(τ)db(τ).
Saremmo tentati di concludere che è
[66] formula
e dunque
[67] formula.
Tuttavia, se approssimiamo I(t) con somme del tipo
[68] In(t)=n−1∑k=0b(ξk)[b(tk+1)−b(tk)]
dove tk≤ξk≤tk+1 e tn=t, abbiamo
[69] E{In(t)} = n−1∑k=1(ξk−tk).
Questa equazione è compatibile con la precedente se si sceglie ξk=(tk+tk+1)/2, ma questa scelta è assolutamente arbitraria: ponendo per esempio ξk=tk si ottiene 0 e scegliendo ξk=tk+1 si ottiene t.
Tutto si semplifica notevolmente per gli integrali del tipo [64] se, per esempio, F(τ) è differenziabile ed è possibile sostituire la [64] con
[70] F(t)b(t)−∫t0F′(τ)b(τ)dτ.
Esiste una teoria sugli integrali stocastici atta a trattare in maniera sistematica integrali nei quali compaia db(τ).
In fisica è chiaro fin dall'inizio che vi è un taglio nello spettro delle frequenze e in molti casi esso può essere stimato a priori dalla teoria; di conseguenza la covarianza di ẽ(t) non è una funzione delta di Dirac ma è del tipo
2D 2D senΩτ
[71] formula
dove Ω è la frequenza di taglio. Tutto è perfettamente giustificato, si tratterà poi di calcolare il limite per Ω→∞ a uno stadio opportuno del calcolo. Questo punto di vista può essere riassunto nella maniera seguente: si tratta il processo aleatorio ẽ(t) come se fosse un processo ben definito e si usa l'equazione [59] per calcolare tutte le distribuzioni e le medie necessarie. Fin tanto che non vi sono divergenze i risultati sono corretti e possono essere ottenuti o sfruttando il trucco di riscrivere le equazioni differenziali nella forma [62] basandosi poi sulla teoria degli integrali stocastici, oppure introducendo un taglio che si fa poi tendere all'infinito.
Infine, discutiamo brevemente la formulazione di Onsager-Machlup della termodinamica lineare lontana dall'equilibrio (termodinamica irreversibile).
Si suppone che lo stato termodinamico di un sistema sia descritto da un insieme (completo) di n variabili estensive x1,x2,…,xn i cui valori di equilibrio x1(0),x2(0),…,xn(0) supponiamo nulli per semplificare le notazioni. Le variabili xi(t) sono funzioni del tempo e in assenza di fluttuazioni il loro decadimento verso condizioni di equilibrio sarebbe descritto dalle equazioni lineari
[72] formula.
Queste equazioni sono analoghe alla [57] e per tener conto delle fluttuazioni le sostituiamo, seguendo l'idea di Langevin, con le
[73] formula
dove le ẽ(t) sono processi puramente aleatori la cui matrice di covarianza Qij è data dalla
[74] E{ẽi(s)ẽj(t)} = 2Qijδ(t−s).
La densità stazionaria W(x1,x2,…,xn) è gaussiana:
[75] formula;
la forma quadratica a secondo membro è l'approssimazione quadratica di S/k, dove S≡S(x1,x2,…,xn) indica l'entropia come funzione di x1,x2,…,xn e k la costante di Boltzmann. La [75] è dunque l'inversione di Einsteindella famosa formula di Boltzmann S=klogW. Si tratta di una generalizzazione a più componenti del proces-so di Ornstein-Uhlenbeck. La teoria dipende da tre matrici: G (corrispondente al coefficiente di attrito f), Q (corrispondente alla costante di diffusione D) ed E(corrispondente a M/kT). Si ha quindi un'equazione matriciale, corrispondente all'equazione [60] di Einstein, che racchiude il significato fisico della termodinamica irreversibile.
Questa teoria può essere estesa al caso in cui l'indice i vari su un insieme continuo (per es. vx(r;t), la componente nella direzione x della velocità di un fluido al tempo t e nel punto r: in questo caso r corrisponde all'indice i) e si hanno importanti applicazioni nello studio delle fluttuazioni idrodinamiche.
Un processo stocastico di Markov a più componenti (x1(t),x2(t),…,xn(t)) è determinato dalla densità di transizione condizionata
[76] P{x1(t)=x1,…, xn(t)=xn∣x1(s)=x1(0),…, xn(s)=xn(0)} =
= P{x1,…, xn, t∣x1(0),…, xn(0), s} s〈t.
Come abbiamo più volte osservato, la P soddisfa l'equazione di Chapman-Kolmogorov (o di Einstein-Smoluchowski)
[77] P{x, t∣x(0), s} = ∫P{ξ, τ∣x(0), s}P{x, t∣ξ, τ}dξ
per qualunque τ compreso tra s e t; x(0), x e ξ indicano le rispettive n-ple. Ci limiteremo in questa sede a studiare uno spazio euclideo; le modifiche necessarie per trattare uno spazio curvo sono ovvie.
Una classe importante di processi stocastici comprende quelli per i quali gli spostamenti infinitesimi soddisfano le equazioni
[78] E{xi(t+Δt)−xi(t)∣x1(t)=x1 ,…, xn(t)=xn} =
= Ai(x1,…,xn)Δt+o(Δt)
[79] E{(xi(t+Δt)−xi(t))(xj(t+Δt)−xj(t))∣x1(t) =
= x1,…,xn(t)=xn}=Bij(x1,…,xn; t)Δt+o(Δt)
[80] E{∣xi(t+Δt)−xi(t)∣k∣x1(t)=x1,…,xn(t)=xn} =
= o(Δt) per k=3,4,….
Sotto queste condizioni, P soddisfa l'equazione di diffusione di Fokker-Planck
[81] formula
con le condizioni iniziali ovvie
[82] limt→0P{x(0)∣x; t} = δ(x1−x1(0))…δ(xn−xn(0)).
L'equazione [81] è detta a volte equazione forward. Se consideriamo la P come funzione delle x1(0),…,xn(0), P soddisfa l'aggiunta della [81] detta anch'essa equazione forward.
L'equazione [81] e la corrispondente equazione backward furono ottenute per la prima volta da Kolmogorov nel 1931 e nel 1933 e furono in seguito analizzate e discusse da William Feller nel 1936.
Un'indicazione della quasi completa mancanza di contatto fra matematici e fisici è data dal fatto che Hendrik A. Kramers derivò, in un importante lavoro pubblicato su "Physica" nel 1940, un caso particolare della [81] ora universalmente detto equazione di Kramers, senza essere al corrente del precedente lavoro di Kolmogorov.
Kramers considera il processo di Markov a due componenti (x(t),p(t)) generato dall'equazione di Langevin non lineare per un oscillatore non armonico, con forza di richiamo derivante da un potenziale non quadratico V(x):
[83] formula.
Le condizioni infinitesime nel lavoro di Kolmogorov appaiono leggermente costruite ad hoc, ma in quello di Kramers sono derivate dalla [83], riscritta nella forma
[84] formula
[85] formula.
Possiamo ora scrivere
[86] formula
e inoltre
[87] formula
e derivare le A e le B dalle [86] e [87] e dalle proprietà statistiche di ẽ(t). Otteniamo dunque per P(x,p;t∣x0,p0) l'equazione
[88] formula.
Se imponiamo ∂P/∂t=0, otteniamo la relazione per la distribuzione stazionaria W(x,p) che, se exp(−V(x)/kT) è integrabile, risulta essere (in modo univoco) la densità di Maxwell-Boltzmann
[89] formula.
Nel paragrafo 3 abbiamo ottenuto l'equazione [44], che per t→∞ diventa
[90] formula;
si tratta dell'equazione di Fokker-Planck associata al processo di Ornstein-Uhlenbeck (con f=1, D=1/2, m=1). Questo è un esempio, benché artificiale, del principio di Onsager-Machlup discusso alla fine del paragrafo 4; in prossimità dell'equilibrio le fiuttuazioni decadono secondo processi di Ornstein-Uhlenbeck.
Il processo di Poisson probabilmente è il processo stocastico più elementare.
Può essere comodo usare per il processo di Poisson Na(t), 0≤t〈∞, una rappresentazione in termini di somme di variabili aleatorie indipendenti. Se Y1,Y2,… sono variabili aleatorie indipendenti non negative aventi tutte la stessa legge di distribuzione e tali che
[91] P(Yi〈τ) = 1−exp[−aτ] a〈0
allora Na(t) è il numero delle somme Y1,Y1+Y2,Y1++Y2+Y3,… minori di t; in altre parole è Na(t)=k (k=0,1,2,…) se e solo se Y1+Y2+…+Yk〈t〈Y1+Y2++…+Yk+1. Per esempio, se le Y sono i tempi aleatori fra l'emissione di una particella α e la successiva allora evidentemente Na(t) rappresenta il numero totale di particelle emesse fino al tempo t.
Se H(τ) è la funzione di Heaviside, definita da
[92] formula
allora è
[93] formula
dove
[94] θk = Y1+Y2+…+Yk.
Vale la pena di osservare che il processo di Poisson può essere usato per ottenere una soluzione probabilistica dell'equazione detta del telegrafista
[95] formula
la quale è in parte di tipo parabolico e in parte di tipo ellittico. In effetti, la soluzione dell'equazione [95] con le condizioni iniziali
[96] formula
è data da
[97] formula
Non è difficile modificare la [97] per avere la soluzione per condizioni iniziali più generali.
Strettamente collegato al processo di Poisson è il processo dello shot noise, definito dalla
[98] formula
con f(t)=0 per t〈0 e con opportune condizioni di integrabilità sulla f.
L'origine fisica è la seguente. Se in un circuito elettrico l'unica sorgente di forza elettromotrice è un diodo, la tensione agli estremi di una resistenza è data dalla somma delle tensioni prodotte nel circuito dagli elettroni emessi dal catodo. Se f(t) rappresenta la tensione dovuta a un elettrone emesso al tempo t=0, allora S(t) è la tensione al tempo t purché si supponga, evidentemente, che l'emissione degli elettroni sia governata da un processo di Poisson. Questo significa che i tempi che intercorrono fra due emissioni successive sono indipendenti e seguono una legge di distribuzione esponenziale del tipo dato dall'equazione [91]. Per lo shot noise è f(t)=0 per t>Δ, dove Δ è il tempo di transito di un elettrone. È facile calcolare la funzione caratteristica di S(t): si ottiene
[99] E{exp(iξS(t))}=exp(a∫t0dτ(exp(iξf(τ))−1))
come generalizzazione della ben nota formula
[100] E{exp(iξNa(t))} = exp(a(exp(iξ)−1)).
Se f(t) tende a 0 per t→∞, e se f è integrabile (o, meglio ancora, se f(t)=0 per t>Δ come nello shot noise), abbiamo che per tempi sufficientemente grandi E{exp(iξS(t))} è indipendente da t. In realtà, si può dimostrare addirittura che S(t) può essere considerato un processo stazionario. Questo non si verifica invece per Na(t), poiché H(t) non è integrabile.
In un limite opportuno S(t) diventa un processo gaussiano stazionario la cui covarianza è un funzionale semplice di f. Il processo shot noise si incontra anche in elettrofisiologia come modello di scariche neurali.
Consideriamo un recipiente di volume V contenente N particelle colloidali indipendenti, non interagenti, in moto browniano. Sia nv(t) il numero di particelle che al tempo t si trovano in una porzione di volume v del recipiente. Per V→∞ e N→∞ e posto con v costante
[101] formula
le distribuzioni limite
[102] formula
possono essere calcolate esplicitamente. Esse definiscono un processo ideale n¯v(t) che chiameremo processo di Smoluchowski. Smoluchowski in realtà calcolò solamente
[103] formula
e
[104] P{n(t)=n∣n(0)=n0}.
Il processo tuttavia non è di Markov e sono necessarie tutte le funzioni W che compaiono nella [102]. Marian Smoluchowski introdusse questo processo per interpretare i risultati sperimentali di Theodor Svedberg, i cui dati usò poi per giustificare la conciliazione statistica dell'approccio all'equilibrio con l'inversione del tempo e con la ricorrenza periodica degli stati. In particolare, per n non troppo grande (rispetto a νv) l'espressione per il tempo medio di ricorrenza poteva essere verificata sperimentalmente (e rispecchiava la realtà in maniera eccellente) e questo rendeva più facile accettare la validità dell'espressione per valori di n molto più grandi di νv, per i quali la verifica sperimentale è impossibile. È però l'enorme tempo medio di ricorrenza in questa gamma di valori che fornisce una spiegazione di come si possano conciliare la ricorrenza e l'apparente irreversibilità.
Questa è una classe importante di processi che ha molte applicazioni in diversi campi della scienza. L'applicazione fisica più nota riguarda la moltiplicazione di neutroni nei processi di fissione nucleare.
Il più semplice processo di diramazione è N(nΔ), con N(0)=1, che rappresenta il numero totale di particelle dopo n generazioni di durata Δ, con la condizione che in ciascuna generazione ogni particella generi 0,1,2,… particelle con probabilità p0,p1,p2,… (0 significa che la particella 'madre' muore senza lasciare discendenti). Si suppone che gli eventi di riproduzione siano indipendenti da una generazione all'altra. È facile mostrare che se
[105] formula
allora si ha
[106] E{exp(zN(nΔ))}=fn(z)
dove fn(z) è l'n-esima iterata di f. Per tempo continuo vi sono delle ovvie modifiche da fare.
Accenniamo a un altro processo di diramazione, per l'interesse fisico che suscita e perché è strettamente collegato a ciò che abbiamo discusso nel paragrafo 3. L'esempio riguarda il cosiddetto modello di Furry, introdotto in relazione alla teoria degli sciami di raggi cosmici. Nella collisione con la materia una particella può dividersi in due particelle, la somma delle cui energie coincide con l'energia della particella originaria. La probabilità che nell'attraversare uno spessore dx di materia una particella di energia E si suddivida in due particelle, una delle quali con energia compresa fra u e u+du, è definita dalla formula
[107] q(u, E)dudx.
Il problema consiste nel descrivere le proprietà statistiche di N(x,E)dE, che rappresenta il numero di particelle in x con energia compresa fra E ed E+dE. Consideriamo una rappresentazione discreta del problema, come fecero Arnold Nordsieck, Willis Lamb e George E. Uhlenbeck; supponiamo cioè che le particelle possano avere solo energie discrete, ε,2ε,3ε,…; denotiamo con qijdx la probabilità che una particella di energia iε si scinda, nell'attraversare uno spessore dx di materia, in due particelle di energia jε e (i−j)ε, con j〈i; possiamo allora trattare questo problema come una catena di Markov con spazio degli stati infinito (x svolge qui il ruolo del tempo). Gli stati del sistema sono 'vettori' (n1,n2,…), dove nk denota il numero di particelle di energia kε; possiamo scrivere l'equazione di Kolmogorov per W(n1,n2,…;x), che rappresenta la probabilità che dopo aver attraversato uno spessore x vi siano n1 particelle di energia ε, n2 di energia 2ε, ecc. Nordsieck, Lamb e Uhlenbeck hanno chiamato questa equazione master equation, nome ormai familiare nella letteratura fisica.
Il più semplice fra questo processi è dato da
[108] a(t)=exp(iω0t+i∫t0x(τ)dτ)a(0)
dove x(τ) è un processo gaussiano stazionario. Esso fu introdotto da Ryogo Kubo nel 1962 e nel 1963.
Se si scrive la [108] nella forma
[109] formula
si vede facilmente che si ha a che fare con un oscillatore armonico la cui frequenza è la somma di una frequenza fissata ω0 e di una parte aleatoria x(τ), descritta da un processo gaussiano stazionario (l'oscillatore di Kubo). Più in generale, si possono avere processi moltiplicativi a valori nello spazio delle matrici,
[110] formula
dove ogni elemento della matrice M~ è la somma di un termine non aleatorio Mαβ e di un termine aleatorio ϕαβ(τ). Anche in questo caso si suppone che le ϕαβ siano processi gaussiani stazionari le cui covarianze a quattro indici sono
[111] Rαβα′β′(t−s) = E{ϕαβ(t)ϕα′β′(s)}.
I processi nello spazio delle matrici sono molto più complicati a causa della non commutatività di M~(t) e M~(s).
Chung 1967: Chung, Kai L., Markov chains with stationary transition probability, 2. ed., Berlin-New York, Springer, 1967.
Doob 1964: Doob, Joseph L., Stochastic processes, 5. ed., New York , Wiley, 1964.
Harris 1963: Harris, Theodore E., The theory of branching processes, Berlin, Springer, 1963.
Kac, Logan 1979: Kac, Mark - Logan, Jonathan, Fluctuations, "Studies in statistical mechanics", 7, 1979, pp. 3-60.
Nicolis, Prigogine 1977: Nicolis, Grégoire - Prigogine, Ilya, Self-organization in non-equilibrium systems, New York, Wiley, 1977.
Van Kampen 1976: van Kampen, Nicolaas G., Stochastic differential equations, "Physics letters C: physics reports", 24, 1976, pp. 171-228.
Wax 1954: Selected papers on noise and stochastic processes, edited by Nelson Wax, New York, Dover, 1954.