In precedenti articoli ho avuto modo di parlare di come una molecola di DNA o cDNA (o RNA retro-trascritto, grazie all'enzima trascrittasi inversa in DNA che per l'occasione prende il nome di cDNA), possa essere sequenziata e dopo l'assemblaggio i prodotti di sequenziamento come è possibile ricostruire la sequenza dell'intero DNA o cDNA di partenza, ovvero la sequenza di consenso.

Grazie al feedback ricevuto da uno di voi, mi sono reso conto di aver creato un po 'di confusione su un argomento che ritengo cruciale per un bioinformatico. Cercherò quindi di prenderti per mano e, come se fossi una guida turistica, di seguirti nella dimostrazione su come il DNA viene sequenziato e assemblato.

Per fare questo vi chiedo di fare un piccolo sforzo di fantasia. Entriamo tutti nella vita professionale di Ivar, bioinformatico alle prime armi che lavora presso un centro di ricerca che si occupa di studiare vari microrganismi. Il suo capo gli chiede di sequenziare il genoma dell'alga Chlamydomonas reinhardtii e di assemblarlo in modo da ottenere l'intera sequenza di consenso.

Vediamo come Ivar procede per soddisfare la volontà del capo:

  1. Innanzitutto si dedica a una serie di tecniche di laboratorio (chiamate anche tecniche WET) che consentono l'estrazione e il sequenziamento del genoma di Chlamydomonas reinhardtii:
    • Estrazione del DNA dalle cellule di alghe.
    • Quantificazione del DNA estratto da Chlamydomonas reinhardtii e valutazione della qualità del DNA.
    • Frammentazione del DNA estratto e aggiunta di adattatori Illumina (se si sceglie, ad esempio, il sequenziamento di seconda generazione Illumina) per costruire la libreria. Ti ricordo che la libreria altro non è che l'insieme di tutti i frammenti di DNA da sequenziare con l'aggiunta di adattatori.
    • bPCR, ovvero amplificazione a ponte dei frammenti di libreria.
    • Esecuzione del Sequenziamento di Illumina paired-end che restituisce le letture ottenute sequenziando entrambe le estremità di un frammento in due file separati in formato fastq, che possono essere memorizzati in archivi chiamati Sequence Read Archive (SRA) da cui questi possono essere recuperati.
  2. Ora Ivar dispone dei file fastq delle reads relative alle due estremità di ogni frammento e quindi può procedere con le analisi bioinformatiche che permettono di assemblare le reads ottenendo la sequenza consenso dell'intero genoma sequenziato. Questo tipo di analisi si chiama DRY. Per farlo è necessario eseguire i seguenti passaggi:
    • Recupera i file fastq non elaborati delle letture paired-end dagli archivi SRA se sono stati memorizzati lì.
    • Pulisci le letture dagli adattatori e filtrale in base ai valori di qualità con uno dei possibili algoritmi di pulizia, come l'algoritmo finestre scorrevoli.
    • Verificare con FastQC se la pulizia delle letture è andata a buon fine.
    • Assemblare le letture pulite usando Velvet per ottenere contig in formato FASTA, ma possiamo anche ottenere ponteggi che collaborano con noi, attingono direttamente dalla storia e dalla tradizione veneziana superimpalcature. Tuttavia, i contig sono i più utilizzati output. Velvet utilizza in particolare a Algoritmo grafico di De Brujin per il montaggio.
  3. Ora Ivar deve capire se l'assemblaggio è stato eseguito correttamente. Per fare ciò, utilizza algoritmi in grado di eseguire test statistici che restituiscono parametri che sono indicativi della qualità degli assemblaggi. Ci sono diversi parametri utili come si può vedere qui su wikipedia wikipedia, ma sicuramente tra i più considerati abbiamo i parametri N50, L50 e N90 (vedi la pagina wikipedia per le definizioni). Per ottenere questi parametri puoi usare quasi-5.0.2.
Figura 1. Assemblaggio del genoma

Nel video qui sotto ho provato a mostrarvi i singoli passaggi dell'analisi DRY:

Spero che a questo punto tu capisca come si ottiene l'assemblaggio delle letture ottenuto dal sequenziamento.

Una cosa che ho omesso negli articoli precedenti per non creare troppa confusione è che il sequenziamento e il successivo assemblaggio possono essere di due tipi a seconda che sia presente o meno un genoma di riferimento di alta qualità:

  • Sequenziamento de-novo, quando non esiste un genoma di riferimento, in questo caso l'assemblaggio è più soggetto a errori. Il numero di scaffold necessari per rappresentare il genoma, la proporzione di reads che possono essere assemblate, la lunghezza assoluta di contig e scaffold e la lunghezza dei contigs e degli scaffold vengono valutati per valutare la qualità dell'assemblaggio ottenuto. Tutti questi parametri vengono definiti tramite test statistici che hanno il compito di calcolare metriche che descrivono la qualità dell'assemblaggio. Questi, come accennato in precedenza, sono diversi e tra i più importanti troviamo ad esempio N50, che descrive la lunghezza dei contigs più corti che coprono il 50% della lunghezza totale dei contigui. Lo so, lo so. Ti ho confuso ma forse con l'immagine qui sotto puoi capire meglio questo parametro.
Figura 2. Spiegazione di N50

Ad ogni modo, la metrica N50 potrebbe non essere così accurata, infatti, un primo assemblaggio di Ciona intestinale aveva un N50 di 234 kilobase mentre un assemblaggio successivo ha esteso l'N50 più di dieci volte. Ulteriori analisi hanno mostrato che a quest'ultimo assemblaggio mancavano diversi geni conservati, forse perché gli algoritmi scartavano sequenze ripetitive, e questo non è un caso isolato.

  • Ri-sequenziamento, quando l'assemblaggio del genoma studiato avviene grazie alla “mappatura” delle letture ottenute su un genoma di alta qualità della stessa specie che utilizziamo come riferimento. È come se qualcuno ti chiedesse di realizzare un puzzle usando come riferimento, per capire dove posizionare i diversi pezzi, un'immagine del risultato finale che dovresti ottenere, solitamente situata sul lato principale della scatola.
Figura 3. Differenze tra assemblaggio de novo e ri-sequenziamento.
Fonte: https://journals.plos.org/ploscompbiol/article/figures?id=10.1371/journal.pcbi.1002821

Devo essere onesto, non solo ho omesso quanto sopra, diciamo che ho dipinto il processo di assemblaggio delle letture come qualcosa di impeccabile, ma in realtà assemblando le letture per ricostruire un genoma o un trascrittoma (l'insieme di mRNA di una cellula o un tessuto da cui si estraggono questi, non preoccuparti ne parleremo prima o poi) non è per niente facile, anzi gli errori e l'instabilità degli assemblatori fanno sì che spesso i risultati di un assemblaggio non siano ripetibili, ecco perché puoi trovare diverse versioni del genoma di un organismo.

Figura 4. Immagine recuperata dal database del genoma vegetale di Pythozome v12. Le frecce rosse indicano le versioni, v3.4 e v4.03, di Solanum tuberosum (Patata) ottenuta mediante due processi di sequenziamento e assemblaggio.

Infatti, leggendo un articolo (Di nuovo assemblaggio del genoma: cosa dovrebbe sapere ogni biologo) Ho capito che l'assemblaggio del genoma è una tecnica che ha un enorme potenziale ma deve ancora migliorare. Qualcosa può andare storto sia durante la fase in laboratorio, dove la scelta della libreria e il tipo di tecnica di sequenziamento utilizzata influenzano notevolmente il risultato finale dell'assemblaggio, sia durante la fase computazionale davanti al computer. In particolare, durante l'assemblaggio puoi avere:

  • Errori nel rifiuto delle letture.
  • Errori dovuti alla presenza di sequenze ripetute che provocano la formazione di regioni con elevata copertura da letture e regioni con scarsa copertura da letture (gap).
  • Errori nell'orientamento o nel posizionamento delle letture.
Figura 5. Errori relativi all'assemblaggio del genoma

In generale, tutti questi problemi causano la perdita di informazioni e quindi l'ottenimento di contigui più brevi del necessario.

Ho scritto questo articolo per riassumere come avviene il sequenziamento e l'assemblaggio di una molecola di DNA o cDNA e per esporre le principali criticità del caso. Quando si esegue un assemblaggio, tenere presente i limiti di questo processo nonostante la sua estrema importanza.

Come al solito vi chiedo di lasciare un “mi piace” o un commento, anche per scoprire se l'articolo contiene errori o è stato di vostro gradimento.

Ciao a presto.

Fonte: