Tecnica che permette di esaminare in parallelo l’intero genoma di un organismo o la totalità dei suoi prodotti su una singola lastrina di vetro o di silicio, un chip.
Abstract di approfondimento da Microarray di Armando Felsani (Enciclopedia della Scienza e della Tecnica)
È nozione acquisita che migliaia di geni e i prodotti da essi codificati (RNA e proteine) partecipano in maniera complessa e coordinata ai meccanismi che sono alla base della vita di ogni organismo. I biologi, pur consapevoli di questa enorme complessità degli organismi viventi, non disponevano, fino a poco tempo fa, di tecnologie di indagine adeguate per affrontarne lo studio. La biologia molecolare tradizionale operava, infatti, sulla base del criterio ‘un esperimento, un gene’, adatto per chiarire singoli processi biologici, ma assolutamente insufficiente per affrontare lo studio dello sviluppo e del funzionamento di un organismo nel suo insieme. La tecnologia dei microarray di DNA, sviluppatasi negli ultimi anni, ha suscitato un enorme interesse e promette di poter rispondere a questa sfida.
La tecnologia dei microarray di DNA per lo studio degli acidi nucleici si basa sulla proprietà di questi ultimi di ibridare, cioè di riassociarsi con la propria sequenza complementare secondo le regole di appaiamento delle basi scoperte da Watson e Crick. Questa caratteristica degli acidi nucleici è alla base di molte delle loro proprietà biologiche nonché delle tecnologie tradizionali per studiare l’espressione genica, quali il Southern e il Northern blot. Grazie a questa proprietà, un frammento di acido nucleico può funzionare da sonda specifica per il riconoscimento della sua sequenza complementare, e permette quindi di identificarla anche in una miscela complessa. Il processo di ibridazione è estremamente selettivo, specifico e sensibile. Nelle tecniche tradizionali la sonda è costituita da più molecole identiche di acido nucleico marcate generalmente con un isotopo radioattivo. Le molecole della sonda si trovano in fase liquida e solo un tipo di sonda alla volta può essere ibridata alle sequenze bersaglio dei campioni in esame, che sono invece ancorate a un supporto. Una volta che l’ibridazione è avvenuta e le molecole di sonda in eccesso sono state eliminate, sarà possibile per mezzo di autoradiografia visualizzare e quantificare il segnale emesso dalla sonda ibridata, che sarà proporzionale alla quantità di sequenza specifica contenuta nei campioni in esame. Nel caso del Southern e del Northern blot, tecnologie ormai classiche in biologia molecolare, i campioni esaminati sono sottoposti a elettroforesi in gel di agarosio prima dell’ibridazione, e quindi trasferiti su un filtro utilizzato come supporto. In tal caso, dopo l’ibridazione la sonda evidenzierà non solo la quantità di sequenza bersaglio presente in ciascun campione ma anche il suo peso molecolare.
Le tecnologie basate sui microarray ribaltano la relazione fra sonde e sequenze bersaglio. In questo caso, su uno stesso supporto sono ancorate migliaia di sonde diverse, non marcate, mentre il campione da esaminare si trova in fase liquida ed è marcato, in genere con un fluorocromo. L’ibridazione avverrà in parallelo, contemporaneamente tra tutte le sonde e le rispettive sequenze bersaglio contenute nel campione. Dopo l’ibridazione e l’eliminazione del campione che non ha reagito perché in eccesso, si visualizzerà e quantificherà il segnale fluorescente rimasto legato a ciascuna sonda: esso sarà proporzionale alla quantità di sequenza complementare riconosciuta dalla specifica sonda nel campione in esame.
Strutturalmente, i microarray sono costituiti da un supporto solido su cui sono disposte ordinatamente un numero elevato di sonde specifiche di DNA in maniera da formare una matrice di punti regolare. Ogni punto della matrice ha dimensioni tipicamente inferiori a 200 micron ed è costituito da molte copie della stessa sequenza di DNA. Esso rappresenta l’unità minima del microarray ed è chiamato feature. I microarray si classificano per il numero di features presenti sulla loro superficie, una sorta di misura della loro complessità e capacità di risoluzione. Attualmente sono in commercio microarray che dispongono di più di un milione di features. Ogni feature è costituita da più copie uguali di sequenze sonda (probe sequences), che ibrideranno con le sequenze bersaglio (target sequences) complementari marcate contenute nei campioni in esame. Dai microarray è quindi possibile ottenere un’enorme mole di dati, la cui gestione richiede lo sviluppo di adeguati strumenti informatici, dei quali va sottolineata l’importanza per l’evoluzione futura della ricerca in questo ambito.
I microarray sono usati principalmente in due ambiti tecnologici: (a) per determinare il profilo di espressione genica di un tessuto o un organismo, cioè misurare la quantità dei trascritti dei diversi geni espressi in un certo momento in un campione biologico; (b) per identificare la presenza di specifiche sequenze geniche e di alterazioni e mutazioni di geni in un campione biologico.
Attualmente è probabilmente l’applicazione dei microarray più usata nell’ambito della ricerca biologica. Il profilo di espressione genica descrive qualitativamente e quantitativamente l’insieme dei geni trascritti in un dato momento da una cellula o da un tessuto. L’assunzione implicita è che il livello di trascrizione di ciascun gene rappresenti la risposta cellulare a uno stato particolare. I microarray disponibili ora possono fornire profili di espressione genica che riflettono la risposta trascrizionale di migliaia di geni a uno stimolo farmacologico o a un cambiamento dello stato cellulare. Tipicamente lo scopo che ci si propone è identificare nuovi geni coinvolti in un processo biologico oppure nuovi marcatori diagnostici/prognostici caratteristici di uno stato patologico.
L’approccio sperimentale dei microarray permette una ricognizione a livello dell’intero genoma con un singolo saggio, senza la necessità di formulare un’ipotesi a priori sui geni coinvolti nel fenomeno studiato. I profili di espressione genica prodotti dall’esperimento con i microarray potranno poi servire da base per identificare geni candidati per un successivo studio utilizzando le tecniche d’indagine tradizionali della biologia molecolare (Northern blot, Western blot, RT-PCR, transfezione genica, ecc). L’utilità di quest’approccio sperimentale è stata dimostrata già da numerose pubblicazioni e di seguito sono elencate le principali utilizzazioni della tecnologia.
profili di espressione possono rivelare correlazioni nell’espressione dei geni che possono essere utilizzate per predire la funzione del prodotto di un gene. I geni possono essere raggruppati in blocchi (clusters) con profili di espressione simili in varie condizioni sperimentali. Quest’operazione può essere fatta manualmente o con software appositi usando metodi statistici. Ci si aspetta che i geni che mostrano un andamento simile in diverse condizioni possano essere correlati funzionalmente. In uno studio precursore e fondamentale per la diffusione della tecnica dei microarray, il gruppo di ricerca di Joseph DeRisi ha esaminato a livello dell’intero genoma l’espressione genica del microrganismo Saccharomyces cerevisiae durante il passaggio dal metabolismo fermentativo anaerobico a quello respiratorio aerobico. Per mezzo di algoritmi di clustering, gli autori hanno identificato schemi temporali di induzione e repressione ed hanno raggruppato i geni secondo la similarità dei loro profili di espressione. In molti casi questi raggruppamenti coincidevano con raggruppamenti funzionali. Per esempio, i geni correlati al citocromo C e quelli del ciclo TCA/glioxilato e dell’immagazzinamento dei carboidrati erano indotti dall’esaurimento del glucosio mentre quelli relativi alla sintesi delle proteine ribosomiali erano repressi.
In altri casi, i gruppi mostravano meccanismi di regolazione trascrizionale identici. Per esempio sette geni condividevano un’induzione precoce con un picco di espressione tardiva a 18,5 ore. Si scoprì che tutti questi sette geni possedevano a monte del punto di inizio della trascrizione una sequenza di regolazione chiamata elemento di risposta allo stress (STRE). Esaminando con attenzione altri tredici geni che mostravano lo stesso profilo di espressione, fra cui dieci allora non ancora caratterizzati, si vide che ben nove di essi possedevano sequenze STRE.
Il profilo di espressione ottenuto da un microarray può essere considerato la fotografia della risposta trascrizionale di una cellula a una situazione fisiologica o patologica. Questa risposta è in genere regolata in modo rigoroso e riproducibile in funzione dello stimolo che l’ha originata. Il profilo di espressione può quindi essere considerato una specie d’impronta digitale di una cellula o tessuto in una determinata situazione. Questa impronta molecolare potrà essere utilizzata per riconoscere lo stato metabolico di una cellula o per classificare un tipo di patologia. Per esempio, i tumori di uno stesso tipo istologico possono essere classificati anche in base ai loro profili di espressione genica. Questi profili a loro volta possono essere correlati a dati concernenti la sopravvivenza dei pazienti, la capacità del tumore primario di creare metastasi, la risposta a determinati farmaci, etc. Questo tipo di studi ha portato allo sviluppo di signatures (firme), gruppi ridotti di geni il cui profilo di espressione considerato complessivamente caratterizza o uno stato patologico preciso, o la capacità di rispondere a un farmaco, oppure la probabilità di andare incontro a recidive.
Recentemente, sono state pubblicate due signature particolarmente importanti, per la prognosi del tumore del seno linfonodo-negativo (LNN), chiamate Amsterdam 70-gene e Rotterdam 76-gene signatures, dal numero dei geni che considerano e dalla città in cui sono state sviluppate. Entrambi gli strumenti sono studiati per definire fra donne colpite da tumore LNN, quali hanno la più alta probabilità di essere curate totalmente dalla sola chirurgia e quali invece hanno un alto rischio di recidiva e di sviluppo di metastasi distanti nel corso dei successivi cinque anni. I due test hanno dimostrato di avere un’accuratezza di più del 90%. Adesso circa l’80% di queste pazienti viene trattato con chemioterapia, mentre il 60470% potrebbe essere curato efficacemente solo dalla chirurgia. L’uso di questi test potrebbe quindi avere un impatto molto importante sulle terapie da somministrare e sulla qualità di vita delle pazienti.
Dato che il processo di scoperta, sperimentazione e validazione di nuovi farmaci normalmente dura molti anni e ha un costo molto elevato, e che solo pochi dei farmaci candidati superano lo stadio della validazione, qualsiasi metodo capace di migliorare l’efficienza del processo e di aumentare le probabilità di sviluppare farmaci efficaci è ben accetto da parte dell’industria farmaceutica. I microarray sono in grado di fornire informazioni utili a tutti gli stadi del processo di sviluppo di un farmaco. L’identificazione dei potenziali bersagli dell’azione dei farmaci può essere facilitata dalla migliore comprensione dei processi metabolici che si può ottenere dallo studio dei geni co-espressi. La proteina bersaglio di un farmaco può essere identificata trovando il gene che causa gli stessi cambiamenti del farmaco qualora venga rimosso dalla cellula o dall’organismo. In seguito, una volta che i farmaci candidati siano stati identificati e selezionati, i microarray possono essere usati per definire le loro proprietà tossiche esaminando i profili di espressione genica indotti dal trattamento con i farmaci. D’altra parte, molte funzioni di farmaci sono state identificate sulla base dei cambiamenti dell’espressione genica che essi provocano.
L’identificazione di specifiche sequenze geniche, in forma normale o alterata, in un campione biologico, è il secondo tipo di applicazione per cui è usata la tecnologia dell’ibridazione su microarray. Di seguito sono elencate le principali utilizzazioni.
Ibridazione genomica comparativa basata su microarray (aCGH, Array Comparative Genomic Hybridization) È noto che riarrangiamenti cromosomici sono comunemente associati a molte situazioni patologiche, tra cui vari tipi di cancro e molte malattie genetiche dello sviluppo, tra cui la sindrome di Down e la sindrome di Mowat-Wilson. L’identificazione e l’analisi di questi riarrangiamenti sono stati essenziali per lo studio di tali malattie e attualmente rappresentano preziosi e diffusi metodi di diagnosi clinica. Finora, la tecnica più usata per identificare queste variazioni cromosomiche è stata l’ibridazione genomica comparativa convenzionale (CGH), tecnologia derivata dalla FISH (Fluorescence in-situ hybridization). Il principio della tecnica si basa sull’ibridazione competitiva a cromosomi in metafase provenienti da un soggetto sano del DNA del paziente in esame e di un DNA di riferimento, anch’esso proveniente da un soggetto sano. I due DNA sono marcati con due diversi fluorocromi, rosso e verde, rispettivamente. Dopo l’ibridazione, un software apposito riconosce i singoli cromosomi e misura le intensità relative delle fluorescenze rosso e verde sull’intera lunghezza dei diversi cromosomi, calcolandone il rapporto. Una duplicazione o una delezione di un’area del genoma in esame si riflette in una variazione del rapporto delle fluorescenze in una specifica zona di un cromosoma. È così possibile riconoscere il tipo di difetto, delezione o amplificazione genica, e localizzare la regione cromosomica coinvolta. Questa tecnica tuttavia è molto laboriosa e necessita di personale altamente addestrato e specializzato in citogenetica. Un altro limite della CGH tradizionale è la bassa risoluzione dell’analisi genomica che fornisce, rendendo possibile solo l’identificazione di grosse aberrazioni cromosomiche, più grandi di 2 Mb (1 Mb 5 1 megabase 5 1 milione di basi di DNA) per quanto riguarda le amplificazioni e di 5-10 Mb per le delezioni.
L’introduzione della CGH basata su microarray (aCGH) ha rappresentato un grande progresso per questa tecnologia. L’aCGH permette di identificare alterazioni cromosomali (delezioni, amplificazioni e micro-amplificazioni) a livello dell’intero genoma. I microarray CGH sono costituiti da feature che contengono sonde localizzate lungo tutto il genoma. La risoluzione del microarray dipende dalla spaziatura delle sonde. Se un array ha una risoluzione di 1 MB, significa che ha approssimativamente una sonda per megabase. Le sonde possono essere preparate tramite PCR da cloni di cDNA o da cloni BAC. Più recentemente sono stati introdotti aCGH array con sonde formate da lunghi oligonucleotidi sintetici. In questo caso, gli array CGH possono essere costruiti usando un insieme di frammenti di DNA che si affiancano o addirittura si sovrappongono per coprire tutto il genoma o solo parte di esso, ad altissima risoluzione.
Tecnicamente la procedura d’ibridazione è simile a quella della CGH classica. Il DNA genomico da esaminare e un DNA genomico di riferimento sono marcati, rispettivamente con un fluorocromo verde e uno rosso. Entrambi i DNA sono ibridati contemporaneamente alle feature poste sul microarray, che coprono tutto il genoma o solo una parte di esso, a una maggiore risoluzione. Al termine dell’ibridazione e dopo i lavaggi per eliminare l’eccesso di DNA che non ha reagito, i microarray sono letti con uno scanner laser a due canali. Le immagini dei segnali fluorescenti sono catturate e analizzate, ed è calcolato il rapporto del segnale verde su quello rosso. In corrispondenza di ciascuna feature, un aumento del segnale rosso indicherà la presenza di una delezione nel DNA in esame, viceversa un aumento del segnale verde indicherà un’amplificazione. Il software poi trasformerà automaticamente questi risultati in una panoramica ad alta risoluzione delle delezioni e amplificazioni, affiancata alla rappresentazione grafica dei cromosomi, con l’indicazione dei loci e dei geni coinvolti e molte altre annotazioni utili.
2.1.1 ChIP on Chip Dietro questo gioco di parole si nasconde una tecnica molto potente, che ha sempre maggiori utilizzazioni nella ricerca della biologia moderna. Il nome per esteso significa Chromatin ImmunoPrecipitation on microarray Chip, cioè immunoprecipitazione della cromatina analizzata su microarray. La cromatina è il complesso nucleoproteico formato dall’insieme del DNA genomico e le proteine che lo legano e lo organizzano, regolandone così la funzione replicativa e trascrizionale. Fra queste proteine ci sono: istoni, fattori e cofattori trascrizionali, enzimi di modificazione, di trascrizione e di replicazione del DNA, e così via.
La tecnica ChIP on Chip permette di determinare la presenza e la posizione in una specifica parte del genoma di un particolare tipo di proteina, per esempio di un fattore trascrizionale. Semplificando, la domanda cui si può rispondere utilizzando questa tecnica è quali siano i geni il cui promotore è regolato da uno specifico fattore trascrizionale in determinate condizioni fisiologiche o patologiche. La procedura consiste nel fissare e isolare la cromatina delle cellule che si vogliono esaminare. La fissazione blocca, in maniera reversibile, le proteine legate al DNA al momento dell’esperimento. La cromatina è quindi frammentata in modo regolare con ultrasuoni e sottoposta a immunoprecipitazione utilizzando un anticorpo che riconosce il fattore trascrizionale che si desidera localizzare. L’immunoprecipitazione recupererà solo i frammenti di cromatina in cui è presente il fattore trascrizionale in esame. Il DNA presente in questi frammenti quindi conterrà le sequenze genomiche riconosciute nelle condizioni sperimentali prescelte da questo fattore trascrizionale. Questo DNA è estratto, marcato con un fluorocromo e quindi ibridato a un microarray dello stesso tipo di quelli utilizzati per la tecnica aCGH. In questo caso, dopo l’ibridazione mostreranno un segnale fluorescente solo le feature corrispondenti alle regioni del genoma a cui era legato il fattore trascrizionale. Questa tecnica permette quindi di identificare con alta risoluzione le regioni genomiche importanti per i diversi processi di regolazione trascrizionale.
Identificazione dei polimorfismi a singolo nucleotide (SNP) e diagnosi I polimorfismi a singolo nucleotide (single nucleotide polymorphism, SNP), variazioni in un singolo sito nel DNA, rappresentano le alterazioni genomiche più frequenti. Per esempio, nel genoma umano si stima la presenza di 5410 milioni di SNP. Poiché gli SNP sono molto conservati nel corso dell’evoluzione e all’interno della popolazione, essi possono essere utilizzati come perfetti marcatori genotipici. Attualmente, nelle banche dati pubbliche sono registrati più di 2 milioni di SNP con frequenze alleliche note. Individuare queste variazioni è molto utile perché è possibile associarle con la suscettibilità a malattie genetiche oppure con l’efficacia della risposta a farmaci dei singoli individui. Questo tipo di studi ora è in grande espansione e, presto, analizzando i polimorfismi della popolazione, i medici potranno compiere scelte terapeutiche su misura per il singolo paziente.
Già da qualche anno esistono tecniche basate sull’uso di microarray per analizzare gli SNP, e recentemente sono stati presentati metodi per estendere tale indagine al livello dell’intero genoma. Tali metodi, estremamente complessi, sono già disponibili commercialmente e quindi il loro impiego è in rapida espansione.
L’enorme quantità di dati prodotta da un esperimento basato su microarray ha sollecitato la creazione di basi di dati di pubblico accesso destinati a raccoglierli. Infatti, molto spesso questi dati, che sono stati prodotti e analizzati in funzione di una specifica domanda scientifica, contengono ancora una grande quantità di informazioni non sfruttate. Questi stessi dati, raccolti in una base di dati e interrogati in modo adeguato, possono essere di grande utilità per altre ricerche.
Per facilitare l’archiviazione e lo scambio dei dati, nel 2001 è stato messo a punto uno standard per registrare gli esperimenti di espressione genica basati su microarray denominato MIAME (Minimum information about a microarray experiment). Le specifiche di questo standard prevedono la registrazione di tutte le informazioni necessarie a interpretare i risultati di un esperimento in modo non ambiguo e a riprodurre l’esperimento. Lo standard definisce il contenuto e la struttura delle informazioni considerate necessarie, piuttosto che il formato tecnico di archiviazione.
Sono stati creati tre archivi pubblici, in Europa, Stati Uniti e Giappone, con il compito di accettare, conservare, coordinare e distribuire i dati degli studi basati su microarray in formato compatibile con lo standard MIAME. Essi sono ArrayExpress presso l’European Bioinformatics Institute (Cambridge, UK; http:// www.ebi.ac.uk/arrayexpress/), GEO (Gene Expression Omnibus) presso il National Center for Biotechnology Information (NCBI, Bethesda, MD, USA; http://www.ncbi.nlm.nih.gov/geo/) e CIBEX (Center for Information Biology gene EXpression database) presso il DNA Data Bank of Japan (DDBJ, Mishima, Giappone; http://cibex.nig.ac.jp/index.jsp). Molte riviste scientifiche adesso esigono che, prima della pubblicazione, i dati che si riferiscono a esperimenti con microarray siano depositati in uno di questi archivi, in modo da renderli disponibili alla comunità scientifica.
Oltre a questi archivi principali, ne esistono altri creati per conservare dati relativi a specifici settori di studio. Per esempio, il caArray (Cancer Array Informatics Project) sviluppato dal Centro per la Bioinformatica del NCI (National Cancer Institute, USA), che consiste di una base di dati dedicata allo studio del cancro e di strumenti software progettati appositamente per essa (http://caarray.nci.nih.gov/). Oppure il PLEXdb (PLant EXpression DataBase), sviluppato dalla Iowa State University come risorsa pubblica specializzata nella conservazione e nell’interrogazione dei profili di espressione genica relativi alle piante e ai patogeni delle piante (http://www.plexdb.org/). O ancora, il GXD (Gene eXpression Database), presso il Jackson Laboratory (Bar Harbor, ME, USA), un archivio pubblico di informazioni di espressione genica dedicato al topo da laboratorio, che contiene in particolare dati relativi allo sviluppo, al differenziamento e all’anatomia (http://www.informatics.jax.org/mgihome/GXD/aboutGXD.shtml). Merita una menzione anche lo Stanford Microarray Database (SMD), che accoglie dati relativi a tutte le applicazioni dei microarray e dispone di strumenti software molto avanzati sviluppati appositamente dall’Università di Stanford per l’analisi dei dati (http://genome-www5.stanford.edu/).