Una cosa che ho capito, nonostante la mia poca esperienza, è che sequenziare un DNA è relativamente semplice. In fondo basta frammentare il DNA o cDNA da sequenziare, costruire una libreria con i frammenti ottenuti e “leggere” la sequenza dei singoli frammenti, ottenendo così diverse reads. Dopo il sequenziamento si procede con l’assemblaggio delle reads ottenute al fine di ricostruire l’intera sequenza del DNA o cDNA sequenziato.

Ma prima di procedere con l’assemblaggio è necessario fare un pò di pulizia. Infatti le reads ottenute non sono proprio idonee per l’assemblaggio, è necessario infatti rimuovere gli adattatori (se presenti) e filtrare le reads sulla base di specifici criteri di qualità che sono riassunti da un valore statistico definito Phred. In genere si considerano accettabili valori di Phred superiori a 20, come si può vedere dalla tabella sotto riportata.

Il Phred è dato dalla seguente relazione:

dove P è la probabilità di errore nella chiamata delle basi azotate durante il sequenziamento.

In generale gli approcci utilizzabili per la pulizia delle reads sono tre:

  1. Fixed lenght trimming. Si basa sulla rimozione delle porzioni 3′ delle sequenze poichè solitamente nella parte terminale le reads hanno qualità più basse a causa della maggiore tendenza di accumulare errori nel chiamare le basi azotate durante il sequenziamento.
  2. Adaptative trimming, Esclude le reads che hanno una lunghezza e qualità inferiori ai valori soglia definiti dall’utente.
  3. Sliding windows trimming. In questo caso viene valutata la qualità delle reads “per finestre”, ovvero per porzioni lunghe 1/10 della lunghezza totale della read. Quindi qualora si incontra una finestra con un valore di qualità inferiore al valore soglia definita dall’utente la read viene tagliata e se rispetta un valore di lunghezza minimo, anch’esso definito dall’utente, viene conservata altrimenti viene scartata.

Ma parliamo un pò di codici. Esistono diversi strumenti bioinformatici per la pulizia delle reads ma io generalmente uso Scythe, per rimuovere gli adattatori e Sickle per filtrare le reads, il quale si basa sul principio dello sliding windows trimming. Inoltre per valutare al meglio il successo della pulizia si può usare un software che permette la visualizzazione della qualità delle reads chiamato FASTQC.

Per saperne di più riguardo a questi programmi vi consiglio di consultare i link che ho riportato sotto, alla fine dell’articolo.

Per chi fosse interessato, ho registrato inoltre un rapido tutorial, sotto riportato, sulla pulizia di alcuni dati grezzi di sequenziamento scaricati da NCBI,

Grazie per la lettura. Come al solito vi chiedo di lasciare un commento o un “mi piace” e se non volete perdere i prossimi articoli vi consiglio di iscrivervi al blog o seguirmi su Instagram.

Ciao e a presto.

Fonti:

https://github.com/najoshi/sickle

https://github.com/vsbuffalo/scythe

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/