Ciao. Non scrivo sul blog da molto tempo. Sfortunatamente, ho circa sei mesi di fuoco. Tra la tesi e gli ultimi esami del master, infatti, trovare il tempo per studiare e portare materiale qui sul blog è diventato difficile. Ma non aver paura. Dopo luglio noi di Bioinformaticamente cercheremo di portare nuovo materiale più frequentemente, quindi abbi fede e continua a seguirci, il meglio deve ancora venire.

Fatta questa breve introduzione, oggi ho avuto solo un momento per dirti una cosa. Ero indeciso se parlarti di come si possono costruire primer per l'amplificazione di una data sequenza o se dirti come è possibile studiare i promotori di geni espressi. Ma alla fine mi sono ricordato di cui recentemente ho parlato più a fondo File FASTA e non sembrava giusto lasciar passare così tanto tempo prima di parlarti di un altro formato di file molto importante in bioinformatica. Ovviamente sto parlando di file FASTQ, cioè file di testo che contengono sia la sequenza, solitamente nucleotide, sia le informazioni di qualità relative a ciascun elemento di questa. In un certo senso, un file FASTQ assomiglia all'unione di un file FASTA e del suo file QUAL corrispondente. Non sorprende che il formato di file FASTQ sia nato in Benvenuti Trust Sanger Institute proprio con l'obiettivo di raggruppare una sequenza FASTA e i suoi dati di qualità, ma recentemente è diventato il formato standard per la memorizzazione delle sequenze ottenute come output di strumenti di sequenziamento di nuova generazione come quelli utilizzati nel caso di Sequenziamento di Illumina .

Proviamo ora a sezionare la struttura dei file FASTQ. Innanzitutto questi possono essere riconosciuti grazie all'estensione .fastq or .fq . e sono costituiti da un totale di quattro righe, dove:

  • La prima riga inizia con un carattere "@" seguito da un identificatore di sequenza (ID) e, opzionalmente, da una serie di informazioni a riguardo, quindi sembra la prima riga di un file FASTA.
  • La seconda riga contiene la sequenza di basi azotate ottenuta come output del sequenziamento.
  • La terza riga inizia con un carattere "+" ed è facoltativamente seguito dallo stesso identificatore di sequenza posto nella prima riga.
  • La quarta riga contiene i valori di qualità relativi alle basi azotate della sequenza presente nella seconda riga, infatti il ​​numero di valori di qualità è uguale al numero di basi azotate della sequenza.
Figura 1. Struttura di un file FASTQ. Fonte: corso "Biologia teorica e bioinformatica", Università di Utrecht, Bas E. Dutilh e Can Keșmir

Tuttavia è importante sapere che, a differenza di quelli posti nei file QUAL, i valori di qualità che troviamo nella quarta riga dei file FASTQ non sono esclusivamente numerici ma possono essere di diverso tipo. Questi sono rappresentati da caratteri che esprimono valori ASCII . Lo scopo è sempre lo stesso, il software associato alla macchina che opera il sequenziamento stima la probabilità di commettere un errore nell'identificazione (o come si dice in gergo “nella chiamata”) di un nucleotide. Come ho avuto modo di dire nell'articolo "Fasta e Furious 2!" , questo valore di probabilità viene calcolato per ciascuna base di azoto nella sequenza ed è espresso da Punteggio Phred. Di solito questo punteggio è compreso tra 0, che significa un tasso di errore del 100%, e 41, che è una probabilità di 10 ^ -4.1 che il nucleotide sia sbagliato, e quindi un tasso di errore dello 0.01%. Quindi nella quarta riga dei file FASTQ troviamo i valori Phred di ciascun nucleotide rappresentato con un Codice ASCII che, in un certo senso, traduce il valore Phred in un valore ASCII.

Ok, ok, penso di averti perso. Proviamo a fare chiarezza con un esempio.

Consideriamo una sequenza nucleotidica di una cinquantina di nucleotidi. Osservando le due immagini sottostanti e facendo riferimento soprattutto alla tabella, si può notare come un nucleotide con valore Phred di 25 sia equivalente ad un valore ASCII di 58, indicato nella quarta riga del file FASTQ dal carattere ASCII ":" .

Immagine
Figura 2. Struttura dettagliata di un file FASTQ.
Fonte: https://www.drive5.com/usearch/manual/fastq_files.html
Figura 3. Caratteri ASCII. Fonte: corso "Biologia Teorica e Bioinformatica", Università di Utrecht
Bas E. Dutilh e Can Keșmir

Chiaro? Bene. Penso che a questo punto la tua domanda sia: “A cosa diavolo serve tutto questo? Non possiamo semplicemente inserire nella quarta riga del file FASTQ i valori Phred per ogni nucleotide della sequenza proprio come nei file QUAL? "

Figura 4. Struttura del file FASTA e del file QUAL. Fonte: https://awbrooks19.github.io/vmi_microbiome_bootcamp/rst/3_sequences_to_composition.html

Questa è certamente un'osservazione corretta, ma dai un'occhiata alla tabella sopra menzionata. I caratteri ASCII sono molto più semplici e "snelli" dei valori numerici Phred. Ti ricordo che il file FASTQ è un file di testo e più caratteri scriviamo, più questo avrà “dimensioni maggiori”. Facciamo un altro esempio:

Immagina di avere una sequenza come questa: AATCG. Bene, ora immagina di scrivere nella riga sottostante, all'interno dello stesso file, i valori Phred: 12 (A), 30 (A), 36 (T), 23 (C) e 26 (G). Questi numeri hanno due cifre ciascuno quindi due caratteri ciascuno. Riportando tutto con valori ASCII invece avremo le stesse informazioni ma con meno caratteri, ovvero: - (A) ,? (A), E (T), 8 (C) e; (G). Ovviamente utilizzando una sequenza composta da cinque nucleotidi il ragionamento può sembrare superfluo ma immaginate di avere una sequenza composta da più di mille nucleotidi, qui in quel caso salvare i caratteri è sicuramente vantaggioso per avere file più “leggeri” e poterli scaricare rapidamente dai database in cui sono archiviati e si aprono più velocemente senza la necessità di avere un mostro di computer.

Prima di concludere, devo fare una precisazione che potrebbe complicare ulteriormente la situazione. In precedenza ho detto che, solitamente, i valori Phred di riferimento vanno da 0 a 41. In realtà questo dipende dal criterio di qualità preso in considerazione, infatti ne esistono di diverse tipologie a seconda delle tecniche di sequenziamento utilizzate.

Figura 5. Valori Phred e rispettivi valori e caratteri ASCII. Vari criteri di qualità scelti tengono conto di diversi intervalli di valori Phred. Fonte: https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#

Quindi, se usiamo una tecnica di Sanger, è possibile utilizzare il criterio di qualità come riferimento Phred + 33 con Phred range 0-40, nel caso di sequenze ottenute con le prime versioni della tecnica Illumina si utilizza il criterio Phred + 64 che fornisce un intervallo Phred di 0-40 o 3-40. Per rendere al meglio l'idea, ho mostrato qui sotto un'ottima immagine riassuntiva.

Figura 6. Diversi criteri di qualità che possiamo utilizzare per indicare i valori di qualità dei nucleotidi utilizzando caratteri ASCII.
Fonte: https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#

Lo so, lo so. Questa ulteriore complicazione non era propriamente necessaria ma potete stare tranquilli, infatti oggi il criterio di qualità dettato dalla versione Illumina 1.8+, a Phred + 33 con range di valori 0-41 (indicato dalla freccia rossa nell'immagine sopra) è quello universalmente utilizzato. Lo troviamo infatti nei file FASTQ ottenuti da sequencer NGS come Illumina, Ion Torrent, PacBio e anche Sanger.

Immagine
Figura 7. Caratteri ASCII universalmente utilizzati, Phred + 33.
Fonte: https://www.drive5.com/usearch/manual/quality_score.html

Eccoci alla fine di questo articolo. Spero di essere stato in grado di presentare questo altro formato di file, estremamente importante in bioinformatica, in modo chiaro. Come sempre vi chiedo di lasciare un “mi piace” o un commento, anche per chiarimenti, perché no? Fateci sentire il vostro feedback.

Ciao e a presto.

Fonte: