Negli articoli precedenti ho avuto modo di parlare di come partendo da una molecola di DNA o cDNA (ovvero RNA retrotrascritto, grazie all’enzima trascrittasi inversa, in DNA che per l’occasione prende il nome di cDNA) è possibile sequenziarla e dopo l’assemblaggio dei prodotti del sequenziamento è possibile ricostruire la sequenza dell’intero DNA o cDNA di partenza, ovvero la sequenza consenso.

Grazie al feedback ricevuto da uno di voi, ho compreso di aver creato forse un pò di confusione in un argomento secondo me cruciale per un bioinformatico. Cercherò dunque di prendervi per mano e, come se fossi una guida turistica, seguirvi nella dimostrazione di come si sequenzia ed assembla il DNA.

Per fare ciò vi chiedo di fare un piccolo sforzo di immaginazione. Entriamo tutti nella vita professionale di Ivar, un bioinformatico alle prime armi che lavora presso un centro di ricerca che si occupa di studiare diversi microrganismi. Il suo capo gli chiede di sequenziare il genoma dell’alga Chlamydomonas reinhardtii e di assemblarlo in modo da ricavarne l’intera sequenza consenso.

Vediamo come procede Ivar per esaudire il volere del capo:

  1. Per prima cosa Ivar si dedica ad una serie tecniche di laboratorio (definite anche tecniche WET) che permettono l’estrazione e il sequenziamento del genoma di Chlamydomonas reinhardtii, ovvero:
    • Estrazione del DNA dalle cellule dell’alga.
    • Quantificazione del DNA estratto da Chlamydomonas reinhardtii e valutazione della qualità del DNA.
    • Frammentazione del DNA estratto ed aggiunta di adattatori Illumina (se si sceglie ad esempio il sequenziamento di seconda generazione Illumina) per la costruzione della libreria. La libreria vi ricordo non è altro che l’insieme di tutti i frammenti del DNA da sequenziare addizionati di adattatori.
    • Amplificazione con bridge PCR i frammenti della libreria.
    • Esecuzione del sequenziamento Illumina paired end che restituisce le reads ottenute dal sequenziamento di entrambe le estremità di un frammento (in due file separati in formato fastq, i quali possono essere conservati in archivi definiti Sequence Read Archive (SRA) da cui questi possono essere recuperati.
  2. Ora Ivar ha i file fastq delle reads relative alle due estremità di ciascun frammento e dunque può procedere con le analisi bioinformatiche che permettono di assemblare le reads ottenendo la sequenza consenso dell’intero genoma sequenziato. Questo tipo di analisi vengono definite DRY. Sempre in ordine è necessario eseguire i seguenti passaggi:
    • Recuperare i file fastq grezzi delle reads in paired end dagli archivi SRA se sono stati conservati in questi.
    • Ripulire le reads dagli adattatori e filtarle sulla base dei valori di qualità con uno degli algoritmi di pulizia possibili, come l’algoritmo sliding windows.
    • Controllare con FastQC se la pulizia delle reads è avvenuta con successo.
    • Assemblare le reads pulite mediante Velvet al fine di ottenere come output i contigs in formato fasta, ma possiamo anche ottenere scaffold e superscaffold. In ogni modo i contigs sono gli output più usati. Velvet sfrutta in particolar modo un algoritmo di De Brujin Graph per l’assemblaggio.
  3. Ora Ivar deve capire se l’assemblaggio è avvenuto in modo adeguato. Per farlo usa degli algoritmi capaci di compiere dei test statistici che restituiscono dei parametri che sono indicativi della qualità degli assemblati. Esistono diversi parametri utili come si può vedere da questa pagina wikipedia, ma sicuramente tra i più considerati abbiamo il parametro N50, L50 e N90 (vedi la pagina di wikipedia per le definizioni). Per ottenere questi parametri è possibile usare quast-5.0.2.
Fig.1 Genome assembly

Nel video qui sotto ho cercato di mostrarvi i singoli passaggi dell’analisi DRY:

Spero che a questo punto abbiate capito come si ottiene l’assemblaggio di reads ricavate dal sequenziamento.

Una cosa che ho omesso negli articoli precedenti al fine di non creare troppa confusione è che il sequenziamento e l’assemblaggio successivo può essere di due tipi in funzione della presenza o meno di un genoma di riferimento di alta qualità:

  • Sequenziamento De-novo, quando non si ha un genoma di riferimento quindi l’assemblaggio risulta essere più prono ad errori. In tal caso per valutare la qualità dell’assemblaggio ottenuto viene valutato il numero di scaffold e contigs richiesti per rappresentare il genoma, la proporzione di letture che possono essere assemblate, la lunghezza assoluta di contig e scaffold e la lunghezza dei contig e degli scaffold rispetto alla dimensione del genoma. Tutti questi parametri vengono definiti mediante test statistici che hanno il compito di calcolare delle metriche che descrivono appunto la qualità dell’assemblato. Queste, come detto sopra, sono diverse e tra le più importanti troviamo ad esempio N50, il quale descrive la lunghezza del più corto contigs che si trova a coprire il 50% della lunghezza totale dei contigs. Lo so, lo so. Vi ho confusi ma forse con l’immagine qui sotto potete comprendere meglio questo parametro.
Fig.2 N50 explanation

In ogni modo, la metrica N50 potrebbe non essere così accurata, infatti, un primo assemblaggio di Ciona intestinalis aveva un N50 di 234 kilobasi mentre un assemblaggio successivo ha esteso l’N50 più di dieci volte. Ulteriori analisi hanno mostrato che a quest’ultimo assemblaggio mancavano diversi geni conservati, forse perché gli algoritmi scartavano sequenze ripetitive, e questo non è un caso isolato.

  • Risequenziamento, quando l’assemblaggio del genoma studiato avviene grazie al “mappaggio” delle reads ottenute su di un genoma di alta qualità di quello stessa specie che usiamo come riferimento. È come se qualcuno vi chiede di fare un puzzle usando come riferimento, per capire dove porre i diversi tasselli, un immagine del risultato finale che dovreste ottenere, solitamente situata sulla facciata principale della scatola.
Fig.3 Differences between de novo assembly and re-sequencing.
Fonte: https://journals.plos.org/ploscompbiol/article/figures?id=10.1371/journal.pcbi.1002821

Devo essere sincero, non ho omesso solo quanto detto sopra, diciamo che ho dipinto il processo di assemblaggio delle reads come un qualcosa di impeccabile, ma in realtà assemblare le reads per ricostruire un genoma o un trascrittoma (l’insieme degli mRNA di una cellula o un tessuto da cui questi sono estratti, tranquilli ne parleremo prima o poi) non è per niente facile, anzi gli errori e l’instabilità degli assemblatori fanno si che spesso i risultati di un assemblaggio non sono ripetibili, ecco perché potete trovare diverse versioni del genoma di un organismo.

Fig.4 Immagine recuperata dal database di genomi vegetali Pythozome v12. Le frecce rosse indicano le versioni, v3.4 e v4.03, del genoma di Solanum tuberosum (Patata) ottenuti mediante due processi di sequenziamento e assemblaggio.

Leggendo un articolo su nature methods (De novo genome assembly: what every biologist should know) ho capito infatti che l’assemblaggio del genoma è una tecnica che ha delle potenzialità enormi ma che ancora deve migliorare. Qualcosa può andare storto sia durante la fase in laboratorio, dove la scelta della libreria e del tipo di tecnica di sequenziamento usata influenzano notevolmente il risultato finale dell’assemblaggio, sia durante la fase computazionale davanti al computer. In particolare durante l’assemblaggio si possono avere:

  • Errori nello scarto delle reads.
  • Errori dovuti alla presenza di sequenze ripetute che causano la formazione di regioni con alta copertura da parte delle reads e regioni poco coperte dalle reads (gaps).
  • Errori nell’orientamento o posizionamento delle reads.
Fig.5 Errors related to genome assembly

In generale tutti questi problemi causano la perdita di informazione e quindi l’ottenimento di contigs più corti del dovuto.

Ho scritto questo articolo per fare un sunto di come avviene il sequenziamento e l’assemblaggio di una molecola di DNA o cDNA ed esporre principali criticità del caso. Quando eseguite un assemblaggio tenete conto dei limiti di questo processo nonostante la sua estrema importanza.

Come al solito vi chiedo di lasciare un “mi piace” o un commento, anche per sapere se l’articolo presenta degli errori o è stato di vostro gradimento.

Ciao e a presto.

Fonti: