CODICE GENETICO
In biologia è così chiamato l'insieme delle regole che permettono la traduzione della informazione genetica contenuta nel DNA nella sequenza polipeptidica delle proteine: esso determina cioè le regole con cui si realizza la sintesi proteica. Il c.g. viene normalmente presentato sotto forma di una tabella di 64 caselle, che permette di assegnare un aminoacido o un segnale di controllo a ognuna delle possibili combinazioni di tre basi (v. nucleici acidi, App. IV, ii, p. 620).
La scoperta del codice genetico. − Dopo la proposta nel 1953 della struttura a doppia elica del DNA da parte di J. D. Watson e F. H. C. Crick, venne postulato che la sequenza di basi lungo la catena polinucleotidica del DNA fosse un "messaggio" contenente l'informazione ereditaria. L'informazione ereditaria si trova nella sequenza lineare delle quattro basi, sequenza che non ha alcuna necessità chimica. Le mutazioni implicano delle modificazioni di questa sequenza. Si pose quindi il problema del modo in cui questo messaggio, designato con quattro lettere dell'alfabeto (A, G, C, T), corrispondenti alle quattro basi azotate del DNA (Adenina, Guanina, Citosina, Timina), poteva essere trasferito nella sequenza di aminoacidi nelle proteine, che sono in maniera pressocché esclusiva venti. In questo modo si dava una nuova interpretazione all'enunciato "un gene - una proteina" che era stato proposto circa 10 anni prima, basandolo sul concetto di colinearità fra due sequenze: quella di basi nel gene e quella di aminoacidi nella corrispondente proteina. Si trattava ora di scoprire le ''regole di traduzione'', il c. genetico.
Una conseguenza ovvia dell'esistenza di venti aminoacidi e di solo quattro basi era che non poteva esserci una corrispondenza biunivoca, ma che ogni aminoacido doveva essere codificato da un gruppo di basi. Una analisi genetica accurata, basata soprattutto sui risultati fenotipici di mutazioni puntiformi, delezione o inserzione, mostrava che un gruppo di tre basi designava un aminoacido e inoltre era sufficiente per specificare tutti gli aminoacidi, dato che un gruppo di tre lettere permette 64 combinazioni. Altre evidenze genetiche mostravano inoltre che il messaggio veniva letto in ordine lineare, partendo da un'estremità per giungere all'altra. Durante la sintesi proteica la lettura del messaggio ereditario avviene in blocchi consecutivi di tre basi, dato che una inserzione o una delezione di una base sposta completamente il quadro di lettura, mentre l'inserzione di tre basi produce solo una variazione a livello del singolo aminoacido.
Subito dopo la pubblicazione dell'articolo di Watson e Crick, il fisico G. Gamow propose un primo schema estremamente semplice e astratto in cui gli aminoacidi si collocavano specificamente all'interno della catena del DNA. Gamow propose un codice basato su quattro lettere (le basi) e composto "come un lungo numero" scritto con un sistema a quattro cifre. L'idea di base era semplicemente stereochimica, cioè le basi formerebbero una specie di "diamante" all'interno del quale potrebbe collocarsi l'aminoacido codificato. Il numero di possibili "diamanti" è 20, il numero delle possibili combinazioni di tre basi.
Era però noto da tempo (J. Brachet, T.O. Caspersson) che l'RNA, un altro acido nucleico, era indispensabile per la sintesi proteica e si sapeva inoltre che tale sintesi avveniva nel citoplasma e non nel nucleo. Fu avanzata quindi l'ipotesi, da parte di Crick, di una famiglia di molecole intermedie, probabilmente RNA (nel quale la timina è sostituita dall'uracile), per poter avere la complementarità necessaria con il DNA. Ogni intermedio è capace di unirsi selettivamente a uno solo dei 20 aminoacidi e al tempo stesso di potersi unire a una specifica sequenza sulla catena di DNA. Si trattava evidentemente di una famiglia di molecole, in quanto ne occorrevano 20, capaci di legarsi specificamente con i 20 aminoacidi. Il DNA non ha una funzione direttamente di "stampa", come tradizionalmente si era pensato per la molecola portatrice dell'informazione ereditaria, in quanto c'è troppa diversità tra la struttura chimica degli acidi nucleici e delle proteine. Mentre il DNA specifica semplicemente un ordine, una sequenza, un "messaggio", una macchina chimica cellulare, separata dal DNA, avrà il compito di interpretare il messaggio e di costruire i necessari passi e processi biochimici, sulla base di regole precise, che costituiscono il codice. La decifrazione di questo codice fu possibile solo dopo l'introduzione nel 1960 del concetto di "RNA messaggero" (mRNA) e il suo isolamento. Infatti il DNA (costituito da A, C, G, T) viene prima trascritto in mRNA (costituito da A, C, G, U) per poi essere tradotto in proteine: quindi la decifrazione del c. doveva essere effettuata sugli RNA messaggeri. Nel 1961, grazie all'uso di "messaggeri artificiali", uniti in vitro ad altre strutture cellulari fu possibile vedere quali messaggi possono produrre le diverse combinazioni di basi. Il problema di ''decifrare'' il c. g. divenne così un obiettivo sperimentale concreto.
Questo fu possibile tecnicamente per mezzo dei polinucleotidi sintetici ad opera di L. Heppel e M. Singer, che utilizzarono l'enzima polinucleotide fosfatasi, scoperto nel 1956 da M. Grunberg-Manago e S. Ochoa. In questo modo fu possibile avere una serie di RNA noti, in particolare costituiti da una sola base (per es. poli-U) oppure da combinazioni di due basi, per es. poli-UC. M. W. Niremberg ebbe l'idea di utilizzare i polinucleotidi sintetici come "stampi" per la sintesi proteica e svolse questo programma con J.H. Matthaei, mettendo insieme un sistema sperimentale privo di cellule, capace di iniziare la sintesi proteica non appena veniva inserito un RNA messaggero. Fu verificata così la previsione che, se era presente una sola base, si sarebbe dovuta avere una catena polipeptidica composta da un solo aminoacido, nel caso del poli-U, la polifenilalanina.
Grazie a nuove tecniche biochimiche, M. W. Niremberg e G. Khorana ottennero lunghe catene di RNA con una sequenza di basi ripetitiva e nota, come ACACAC... Dall'analisi della composizione in aminoacidi delle proteine prodotte da questi messaggeri, fu possibile individuare altri codoni (tab. 1). Infine nel 1964 la dimostrazione che un singolo trinucleotide riesce a legarsi al ribosoma e a interagire con specifiche molecole di aminoacil-tRNA, fornì lo strumento per decifrare il complesso dei codoni. Nel 1966 il quadro era ormai completo. Dei diversi codoni ottenuti alcuni non avevano una corrispondenza con un determinato aminoacido (nonsense) e ricerche successive, soprattutto ancora una volta da parte di Crick in collaborazione con S. Brenner nel 1967, utilizzando delle mutazioni in queste sequenze nonsense, dimostrarono che il loro ruolo era segnalare la fine della singola catena polipeptidica. Questi codoni non sono letti da speciali tRNA, ma da proteine specifiche, i fattori di rilascio. Altri codoni avevano il ruolo di iniziatori della sintesi proteica, legandosi ad appositi "fattori di inizio". In entrambi i casi si trattava della "punteggiatura" del messaggio ereditario. Il c. decifrato è riportato nella tab. 2.
Il codice è degenerato e non casuale. − Dall'analisi della tab. 1 si vede che alcuni aminoacidi sono specificati da più di un codone (degenerazione). Inoltre alcune volte un tRNA può riconoscere più codoni (effetto di vacillamento). Nell'attribuzione del codice l'ordine sembra essere non causale. Per es. quando i due primi nucleotidi sono identici il terzo può essere sia citosina che uracile e il codone codificherà lo stesso aminoacido. Inoltre i codoni con pirimidine in seconda posizione specificano prevalentemente aminoacidi idrofobici, mentre quelli con purine nella stessa posizione specificano principalmente aminoacidi polari. Quindi una mutazione nella terza lettera porterà generalmente allo stesso aminoacido, mentre una nella seconda sostituirà aminoacidi simili. Lo stesso si può dire per la prima posizione. Il c. sembra quindi essere stato ottimizzato dall'evoluzione per minimizzare gli effetti delle mutazioni sulla struttura delle proteine.
La possibilità recente di analizzare in modo completo la sequenza di basi dei vari geni, ha permesso di mostrare che anche il modo in cui nelle diverse specie vengono utilizzati i codoni che codificano per lo stesso aminoacido sembra non essere casuale. Alcuni di questi codoni sono presenti quasi sempre, mentre altri non compaiono mai.
Il codice è ''quasi'' universale. − Subito dopo l'utilizzazione del poli-U e del poli-C per decifrare il c. g., si dimostrò che questi composti potevano stimolare la sintesi rispettivamente della polifenilalanina e della poliprolina in una grande varietà di organismi, dai batteri ai mammiferi. Questa universalità è stata recentemente confermata dall'analisi delle sequenze in basi di numerosi geni in molti organismi diversi. Il c. g. deve di conseguenza essere rimasto costante per un lungo periodo evolutivo.
Tuttavia la determinazione dell'intera sequenza di 16.569 coppie di basi del DNA mitocondriale umano ha portato alla scoperta che in questo organello subcellulare il c. g. è leggermente diverso da quello ''universale''. Soprattutto i tRNA, che sono presenti in un numero limitato rispetto a quello minimo per decodificare il codice universale, possono interagire con più di un codone alla volta e sembrano differire notevolmente nella struttura tridimensionale. Anche i mitocondri di altri organismi (il lievito per es.) possiedono del materiale genetico autonomo che funziona con un codice leggermente alterato. Per spiegare queste differenze si può ipotizzare o che i codici mitocondriali rappresentino dei ''fossili'' di un c. g. primitivo oppure che si tratti di versioni semplificate del codice universale, motivate dalla estrema economicità dell'organizzazione del genoma mitocondriale. Le differenze tra il c. ''universale'' e quello mitocondriale sono riportate in tab. 3.
Messaggi sovrapposti. − Nella maggior parte dei geni studiati il genoma si presentava in un ordine rigidamente lineare, sequenziale, con la sequenza di inizio seguita dalla regione che codifica la catena polipeptidica e poi da uno o più codoni di fine catena. Nel 1977 l'analisi del genoma del virus ΦX174 mostrò tuttavia che una data sequenza di DNA può essere multifunzionale, cioè possono coesistere sulla stessa sequenza più messaggi, che vengono letti mediante uno spostamento del modulo di lettura; un gene può quindi venire a trovarsi in parte o completamente all'interno della sequenza che specifica un altro gene. In genere la sequenza del gene principale specifica, oltre che la codifica della proteina relativa, anche il segnale per l'inizio della lettura del gene sovrapposto. Anche questo meccanismo sembra essere stato il risultato evolutivo della necessità dei virus di sfruttare al massimo il contenuto informativo del genoma.
L'origine del codice genetico. − Secondo Crick, l'origine del c. g. è quanto di più vicino vi sia all'origine della vita. L'analisi statistica delle sequenze del DNA ha permesso di avanzare alcune ipotesi relative a questa origine, in particolare sembra essere costante la posizione relativa delle purine e delle pirimidine all'interno delle regioni codificanti. Predominano in particolare le forme RNY, in cui R è una purina, Y una pirimidina e N può essere l'una o l'altra. Si è perciò ipotizzato che tutti i codoni potessero all'inizio essere di questa forma, con un contenuto di informazione minore. Viene fatto notare che gli 8 aminoacidi specificati da RNY nel codice sono quelli che potrebbero essersi formati durante la sintesi prebiotica e che si trovano spesso sui meteoriti (in particolare, glicina, isoleucina, alanina e acido aspartico)