Penso che per molti questo articolo risulterà un pò pesante ma su Instagram mi avete chiesto di parlare anche di contenuti un pò più tecnici cercando comunque di semplificare il più possibile. Molti studi e analisi che anche io ho eseguito partono proprio dal processo di sequenziamento pertanto è essenziale saperne di più, ma andiamo con ordine.

Un bioinformatico si trova spesso a lavorare con diverse molecole importanti per la vita dell’organismo ma sicuramente quella che è spesso sotto i riflettori è il DNA. L’acronimo DNA sta per Acido DesossiriboNucleico, un acido nucleico costituito da diversi mattoncini detti nucleotidi che si legano tra loro formando una catena che a sua volta si lega lateralmente ad un’altra catena nucleotidica disposta in modo antiparallelo. In definitiva la molecola di DNA appare come una struttura a doppia elica tenuta insieme da legami idrogeno tra le catene, e da legami covalenti tra i nucleotidi di una stessa catena. I nucleotidi, ovvero i mattoncini citati prima, non sono altro che delle molecole a loro volta costituite da uno zucchero, il Deossiribosio, legato al carbonio 3 da un gruppo fosfato che a sua volta lega il carbonio 5 dello zucchero del nucleotide adiacente nella catena, e legato inoltre al carbonio 1 da una base azotata che a sua volta si lega, formando dei ponti detti ad idrogeno, alle basi azotate dei nucleotidi della catena posta in modo antiparallelo.

Bisogna precisare però che esistono 4 tipi di nucleotidi differenti nella molecola del DNA, in particolare:

  • L’Adenosina, la cui base azotata è l’adenina (indicata con la lettera maiuscola A)
  • La Citidina, la cui base azotata è la citosina (C)
  • La Guanosina, la cui base azotata è la guanina (G)
  • La Timidina, la cui base azotata è la timina (T)

Le basi azotate presenti nei due filamenti di DNA inoltre si legano tra loro con uno schema ben preciso e conservato nel tempo, in particolare l’adenina si lega con due legami idrogeno alla timina e la citosina si lega con tre legami idrogeno alla guanina.

Il DNA è la sede dell’informazione genetica di un organismo, scritta in un codice detto appunto codice genetico. Questo è costituito da parole di 3 lettere dette codoni, e l’alfabeto usato è dotato di 4 lettere: dove la A sta per Adenina, la C per citosina, la G per guanina e la T per Timina. Dunque ogni lettera richiama le relative basi azotate dei nucleotidi che costituiscono la doppia elica del DNA. Le caratteristiche principale del codice genetico sono le seguenti:

  • Ogni codone richiama uno specifico amminoacido, ovvero i mattoncini che costituiscono le proteine, ma attenzione il codice genetico è ridondante, ovvero come possiamo vedere dallo schema qui sotto, ci sono alcuni codoni che richiamano, o si dice che codificano, uno stesso amminoacido. Questa ridondanza è dovuta al fatto che gli amminoacidi presenti in natura sono soltanto 20, ed i codoni sono invece molti di più, ovvero 64.
  • Di 64 codoni 61 sono detti codoni senso perchè codificano per specifici amminoacidi e 3 sono definiti codoni non senso o di stop poichè codificano per segnali di stop, ovvero segnali che stabiliscono a che punto deve interrompersi l’assemblamento delle proteine.
  • Ogni codone viene letto nello stesso modo da tutti gli esseri viventi, pertanto il codice genetico è definito universale. Ma attenzione! Ci sono delle eccezioni a questa regola. Si è scoperto infatti che esistono organismi che sono capaci di leggere in diverso modo alcuni codoni.
  • Infine il codice genetico presenta un’unica chiave di lettura, ciò vuol dire che viene letto da tutti gli esseri viventi nello stesso verso e senza interruzioni.

Con questa introduzione prolissa ho intenzione di farvi capire come sia importante conoscere il messaggio portato da una molecola di DNA, infatti conoscendone la sequenza nucleotidica è possibile facilmente capirne la funzione e la sua importanza biologica.

Una delle tecniche preliminari più importanti per lo studio del DNA è il sequenziamento, ovvero l’ottenimento, in appositi file, della successione di basi azotate che costituiscono un certo DNA. È inoltre importante sapere che allo stesso modo può essere studiato l’RNA di un organismo, infatti l’RNA può essere convertito in DNA (che per l’occasione prende il nome di cDNA) mediante un enzima detto trascrittasi inversa e successivamente sequenziato.

I passaggi fondamentali per ottenere il sequenziamento di DNA o cDNA sono due:

  1. Costruire una libreria. Per sequenziare una molecola di DNA o cDNA, o addirittura l’intero genoma o trascrittoma di un organismo è necessario frammentarla per renderla nel complesso più facile da manipolare e da sequenziare. L’insieme di frammenti di DNA ottenuti prende il nome di libreria.
  2. Dopo aver ottenuto la libreria di frammenti di DNA o cDNA si procede con il sequenziamento.

Il sequenziamento del DNA o del cDNA può essere di due tipi:

  • Sequenziamento parziale, nel caso in cui vengono sequenziate una o poche regioni del genoma (DNA) o del trascrittoma (insieme degli RNA di un organismo convertiti in cDNA). Se la regione sequenziata viene scelta in modo casuale si parla di “sequenziamento parziale random”, mentre se la porzione sequenziata è selezionata da un utente poiché è di interesse specifico per un determinato studio si parla di “sequenziamento parziale target”.
  • Sequenziamento dell’intero genoma. Nel caso in cui viene sequenziato tutto il genoma o trascrittoma di un organismo.

Il sequenziamento di una molecola di DNA o cDNA (RNA convertito in DNA mediante trascrizione inversa) può seguire due approcci differenti:

  • Sequenziamento gerarchico (detto anche clone by clone o Top Down), ovvero un
    sequenziamento che prevede la costruzione di una mappa fisica a bassa risoluzione a partire dal sequenziamento di grandi sequenze di DNA (dette contigs) e che viene usata per orientare ed assemblare le sequenze di piccoli frammenti di DNA sequenziati (dette reads) al fine di avere una mappa fisica ad alta risoluzione. è necessario precisare che questo approccio di sequenziamento è ormai obsoleto e dunque non più usato.
  • Sequenziamento shotgun, ovvero un metodo di sequenziamento che prevede direttamente la costruzione di una mappa fisica ad alta risoluzione. Infatti in questo caso vengono sequenziati solo piccoli frammenti di DNA o cDNA e successivamente le reads ottenute sono assemblate mediante appositi software bioinformatici fino a costruire delle mappe fisiche ad alta risoluzione della sequenza, del genoma o trascrittoma studiato. Questo approccio di sequenziamento è quello usato oggi giorno poiché permette di avere una mappa fisica in tempi più brevi, essendo che non richiede la costruzione di una mappa fisica a bassa risoluzione da usare come riferimento.

Arrivati a questo punto, penso abbia senso parlare dei fattori che influenzano il sequenziamento di una molecola di DNA o cDNA. Questi sono diversi ma sicuramente i fattori che influenzano maggiormente il risultato del sequenziamento sono:

  • La tecnica di sequenziamento, ovvero il metodo di sequenziamento utilizzato che influisce direttamente sulla lunghezza delle reads ottenute. Inoltre in funzione della tecnica usata è possibile ottenere il sequenziamento di una sola estremità dei frammenti della libreria oppure il sequenziamento di entrambe le estremità. Nel primo caso si parla di sequenziamentosingle endmentre nel secondo di paired end“.
Diagramma che riporta le principali tecniche di sequenziamento.
  • Rappresentatività della libreria. Una libreria deve essere rappresentativa del genoma (nel caso delle librerie genomiche) o del trascrittoma (nel caso delle librerie a cDNA) di un individuo studiato, ovvero deve contenere tutti i frammenti del genoma o del trascrittoma affinché ogni frammento abbia un’uguale possibilità di essere sequenziato e studiato. In altri termini la libreria deve essere ridondante ovvero deve avere più copie di uno stesso frammento di DNA o cDNA. Per stimare la rappresentatività di una libreria si possono usare diversi metodi in funzione della tecnica di sequenziamento usata. Nel caso del sequenziamento con tecnica Sanger la rappresentatività della libreria è rispettata se N, numero di cloni dei frammenti contenuti effettivamente nella libreria, è maggiore di n, numero di cloni teorico; per calcolare N ed n si utilizzano le relazioni matematiche sotto riportate:

Dove:
P è la probabilità che noi vogliamo avere di trovare una determinata
sequenza all’interno della libreria.

Per le tecniche di sequenziamento di seconda e terza generazione, anche dette NGS (Next Generation Sequencing), la rappresentatività di una libreria (sia a DNA che a cDNA) è data dal livello di coverage, ovvero il numero medio di volte in cui una stessa sequenza di DNA o cDNA viene sequenziata, ovviamente più alto è il coverage maggiore sarà la sicurezza di aver sequenziato tutti i frammenti della libreria.
Il livello di coverage (cl) si calcola nel seguente modo:

Per output si intende il numero di basi azotate che sono state sequenziate
in totale sulla flow cell, ovvero il supporto sul quale avviene il processo di sequenziamento del DNA. Essendo l’output specifico per ogni tipo flow cell, scegliendo il tipo di flow cell possiamo scegliere l’output e dunque il livello di coverage.
È bene precisare che quando facciamo per la prima volta il sequenziamento
completo di un genoma è necessario avere un coverage molto alto, solitamente da
40 X in su, ovvero un coverage che consente il sequenziamento di una stessa sequenza 40 o più volte. Se invece un genoma è stato già sequenziato e vogliamo solo confrontare dei genomi, per valutare la presenza di eventuali variazioni ed effettuare dunque quello che viene chiamato risequenziamento, è sufficiente avere un livello di coverage di 3-5 X.

Anche per oggi siamo giunti al termine, vi ricordo che se l’articolo è stato di vostro gradimento o se avete qualche precisazione o critica costruttiva da fare mi farebbe molto piacere saperlo, magari con un commento.

Ciao e a presto.