Ciao. È da tanto che non scrivo sul blog. Purtroppo mi spettano circa sei mesi di fuoco. Infatti tra la tesi e gli ultimi esami del corso magistrale trovare il tempo per studiare e portare del materiale qui sul blog è diventato difficile. Ma non abbiate timore. Dopo Luglio noi di “bioinformaticamente” cercheremo di portare nuovo materiale con maggiore frequenza, quindi abbiate fede e continuate a seguirci, il meglio deve ancora arrivare.

Fatta questa breve premessa oggi avevo giusto un attimo di tempo per raccontarvi qualcosa. Ero indeciso se parlarvi di come si possono costruire i primer per l’amplificazione di una data sequenza oppure se raccontarvi come è possibile effettuare lo studio dei promotori di geni espressi. Ma alla fine mi sono ricordato che recentemente ho parlato in modo più approfondito dei file FASTA e non mi sembrava giusto far trascorrere tanto tempo prima di parlarvi di un’altro formato di file molto importante in bioinformatica. Ovviamente sto parlando dei file FASTQ, ovvero dei file di testo che contengono sia la sequenza, generalmente nucleotidica, che le informazioni di qualità relative a ciascun elemento di questa. In un certo senso un file FASTQ si presenta come l’unione di un file FASTA ed il suo corrispettivo file QUAL. Non a caso, il formato file FASTQ, è nato presso il Wellcome Trust Sanger Institute proprio con lo scopo di raggruppare una sequenza FASTA e i suoi dati di qualità, ma recentemente è diventato il formato standard per la memorizzazione delle sequenze ottenute come output di strumenti di sequenziamento di nuova generazione come ad esempio quelli usati nel caso del sequenziamento Illumina.

Cerchiamo ora di sviscerare la struttura dei file FASTQ. Innanzitutto questi possono essere riconosciuti grazie all’estensione .fastq o .fq. e sono costituiti complessivamente da quattro righe, dove:

  • La prima riga inizia con un carattere “@” seguito da un identificatore di sequenza (ID) e, in modo opzionale, da una serie di informazioni riguardanti questa, somiglia pertanto alla prima riga di un file FASTA.
  • La seconda riga contiene la sequenza di basi azotate ottenuta come output del sequenziamento.
  • La terza riga inizia con un carattere “+” ed è facoltativamente seguita dallo stesso identificatore di sequenza posto nelle prima riga.
  • La quarta riga contiene i valori di qualità relativi alle basi azotate della sequenza presente nella seconda riga, infatti il numero valori di qualità è pari al numero di basi azotate della sequenza.
Figura 1. Struttura di un file FASTQ. Fonte: corso “Theoretical Biology and Bioinformatics”, Utrecht University,
Bas E. Dutilh & Can Keșmir

È importante però sapere che, a differenza di quelli posti nei file QUAL, i valori di qualità che troviamo nella quarta riga dei file FASTQ non sono esclusivamente numerici ma possono essere di diverse tipologie. Questi sono rappresentati da caratteri che esprimono dei valori ASCII. Lo scopo è sempre lo stesso, il software associato alla macchina che opera il sequenziamento stima la probabilità di effettuare un errore nell’identificazione (o come si dice in gergo “nella chiamata”) di un nucleotide. Come ho avuto modo di dire nell’articolo “Fasta and Furious 2 !”, questo valore di probabilità viene calcolato per ciascuna base azotata della sequenza ed è espresso dal punteggio di Phred. Solitamente tale punteggio è compreso tra 0, ovvero una probabilità di 10^-0 che la “chiamata” del nucleotide è sbagliata, il che intende un tasso di errore del 100%, e 41, ovvero una probabilità di 10^-4.1 che il nucleotide sia sbagliato, e dunque un tasso di errore dello 0.01%. Quindi nella quarta riga dei file FASTQ troviamo rappresentati i valori di Phred di ciascun nucleotide con un codice ASCII che, in un certo senso, traduce il valore Phred in valore ASCII.

Ok, ok, penso di avervi perso. Cerchiamo di fare chiarezza con un esempio.

Prendiamo in esame una sequenza nucleotidica di circa cinquanta nucleotidi. Osservando le due immagini sotto riportate e facendo riferimento soprattutto alla tabella, si può vedere come un nucleotide con un valore Phred di 25 equivale ad un valore ASCII di 58, indicato nella quarta riga del file FASTQ dal carattere ASCII “:”.

Image
Figura 2. Struttura dettagliata di un file FASTQ.
Fonte: https://www.drive5.com/usearch/manual/fastq_files.html
Figura 3. Caratteri ASCII. Fonte: corso “Theoretical Biology and Bioinformatics”, Utrecht University di
Bas E. Dutilh & Can Keșmir

Chiaro? Bene. Penso che arrivati a questo punto la vostra domanda è: “Ma cosa diavolo serve tutto questo? Non possiamo semplicemente mettere nella quarta riga del file FASTQ i valori Phred relativi a ciascun nucleotide della sequenza proprio come nei file QUAL?”

Questa è sicuramente una giusta osservazione ma, guardate bene la tabella citata sopra. I caratteri ASCII sono molto più semplici e “snelli” dei valori numerici Phred. Vi ricordo che il file FASTQ è un file testuale e più caratteri scriviamo più questo avrà “dimensioni maggiori”. Facciamo un altro esempio:

Immaginate di avere una sequenza così fatta: AATCG. Bene ora immaginare di scrivere nella riga sotto a questa, all’interno dello stesso file, i valori Phred: 12(A), 30(A), 36(T), 23(C) e 26(G). Questi numeri hanno due cifre ciascuno pertanto due caratteri ciascuno. Riportando il tutto con dei valori ASCII invece otterremo la stessa informazione ma con meno caratteri, ovvero: -(A), ?(A), E(T), 8(C) e ;(G). Ovviamente usando una sequenza composta da cinque nucleotidi il ragionamento vi può sembrare superfluo ma immaginate di avere una sequenza composta da più di mille nucleotidi, ecco in quel caso risparmiare caratteri è sicuramente vantaggioso al fine di avere dei file “più leggeri” e poterli scaricare velocemente dai database in cui sono depositati e aprire in modo più rapido senza la necessità di avere un mostro di computer.

Prima di concludere devo fare una precisazione che potrebbe complicare ulteriormente la situazione. Prima ho detto che, solitamente, i valori di Phred di riferimento vanno da 0 a 41. In realtà ciò dipende dal criterio di qualità preso in considerazione, infatti ne esistono di diverso tipo in funzione delle tecniche di sequenziamento usate.

Figura 5. Valori di Phred ed i rispettivi valori e caratteri ASCII. Vari criteri di qualità scelti prendono in considerazione range di valori Phred diversi. Fonte: https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#

Dunque se usiamo una tecnica di sequenziamento Sanger è possibile usare come riferimento il criterio di qualità Phred+33 con range Phred di 0-40, nel caso di sequenze ottenute con le prime versioni della tecnica Illumina usiamo il criterio Phred+64 che prevede un range Phred di 0-40 o 3-40. Per rendere meglio l’idea ho riportato un ottima immagine riassuntiva qui sotto.

Figura 6. Diversi criteri di qualità’ che possiamo utilizzare per indicare i valori di qualita dei nucleotidi mediante caratteri ASCII.
Fonte: https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#

Lo so, lo so. Questa ulteriore complicazione non ci voleva proprio ma potete stare abbastanza tranquilli, infatti oggi giorno il criterio di qualità dettato dalla versione Illumina 1.8+, con un Phred+33 con range di valori di 0-41 (indicato dalla freccia rossa nell’immagine sopra) è quello universalmente usato. Lo troviamo infatti nei file FASTQ ottenuti da sequenziatori NGS come Illumina, Ion Torrent, PacBio e anche Sanger capillare.

Image
Figura 7. Caratteri ASCII universalmente più utilizzati, Phred+33.
Fonte: https://www.drive5.com/usearch/manual/quality_score.html

Eccoci arrivati alla fine di questo articolo. Spero di essere riuscito a presentarvi questo altro formato file, estremamente importate in bioinformatica, in modo chiaro. Come sempre vi chiedo di lasciare un “mi piace” o un commento, anche per avere dei chiarimenti perché no? Insomma fatevi sentire ogni vostro feedback è gradito.

Ciao e a presto.

Scritto da: Omar Almolla

Revisionato da: Luciana Gaccione

Fonti: