Eccoci qui, questo è il primo articolo del 2021. Spero che per tutti sia un anno migliore. Per quanto mi riguarda spero che in questo nuovo anno possa incrementare il numero di articoli su questo blog. Abbiamo diversi progetti in mente, aprire un canale YouTube, creare un podcast e molto altro, e chissà forse un giorno riusciremo a fare di questa attività di divulgazione un vero lavoro. Si avete notato bene, sto parlando al plurale, perchè? Semplicemente perchè bioinformaticamente.com tra pochi mesi sarà gestito gestito da due persone, io, Omar Almolla, la “voce” di questo blog e Luciana Gaccione, colei che gestisce la struttura e l’anima social del blog e che, avendo anche lei il mio stesso tipo di istruzione, evita che scriva troppe sciocchezze. Posso dire che abbiamo un sistema di peer review interno.

In ogni modo sono sempre io che vi parlo ma è giusto che sappiate che dietro questo progetto di divulgazione sta crescendo un team che spero possa aiutare Bioinformaticamente a crescere, a raggiungere sempre più persone e a sbarcare su nuove piattaforme. La strada da percorrere è lunga, la tenacia e la passione di chi la percorre c’è, se volete aiutarci a far crescere questo progetto potete farlo condividendo sui vostri social il blog, oppure lasciare una donazione nella sezione “Aiutami a crescere!” .

Ok, non volevo parlarvi proprio di questo, ma come al solito mi sono fatto prendere dalla voglia di scrivere.

Il motivo per cui ho deciso di scrivere oggi è per parlarvi meglio di un tipo di file molto usato in bioinformatica. Mi sto riferendo ai file FASTA. Di questo ne ho parlato rapidamente nell’articolo dal nome Fasta and Furious!”, ma devo essere sincero non sono super soddisfatto di quanto scritto. Del resto è comprensibile, il blog era nato da poco e io ancora non avevo ben chiaro a chi rivolgermi e quindi come scrivervi. Per questo sono deciso a dirvi di più riguardo ai file FASTA, quindi mettetevi comodi e leggete ciò che ho da raccontarvi.

Il file FASTA è un file di testo che contiene una sequenza nucleotidica di DNA o RNA oppure una sequenza amminoacidica di una proteina e delle informazioni relative a queste. La struttura di un file FASTA è molto semplice. In esso troviamo due righe:

  • La prima riga inizia con il simbolo di maggiore “>” e prende il nome di intestazione, la quale fornisce una serie di informazioni relative alla sequenza nucleotidica o amminoacidica posta nella seconda ed ultima riga. È possibile infatti trovare un codice identificativo della sequenza, la lunghezza di questa e molto altro ancora. Inoltre NCBI (National Center for Biotechnology Information) ha delineato un elenco di codici che permettono di etichettare in modo univoco i database dai quali la sequenza è stata prelevata. Occorre inoltre precisare che non è obbligatorio porre delle informazioni nell’intestazione, tutto ciò che è obbligatorio avere, per poter definire un file FASTA, è il simbolo di maggiore “>” all’inizio della prima riga.
Tabella 1. Elenco dei codici di NCBI che richiamo i diversi database da cui vengono scaricate le sequenze in file FASTA.
  • La seconda riga fornisce la sequenza di basi azotate, nel caso di DNA o RNA, o di amminoacidi nel caso delle proteine. Riguardo la seconda riga del file FASTA occorre fare una considerazione importante
Figura 1. Struttura di un file FASTA contenente le prime righe della sequenza del cromosoma 6 umano. In rosso viene evidenziata l’intestazione del file (guardate bene il segno > all’inizio della riga) e in blu la sequenza di DNA presente nella seconda riga.
Figura 2. Esempio di file FASTA contenente la sequenza amminoacidica dell’isoforma 4 dell’enosina umana. La sequenza è scritta con le iniziali dei 20 amminoacidi essenziali.

L’estensione di un file FASTA può essere di diverso tipo in funzione del tipo di sequenze che contiene, come si può vedere dalla tabella sottostante.

Figura 3. Estensioni dei file FASTA.

Quando si parla di file FASTA è necessario parlare di alcuni tipi di file ad essi correlati. In particolare questi sono:

  1. I file MULTI-FASTA, ovvero dei file FASTA che contengono più sequenze in formato FASTA, ovvero dotate di intestazione più sequenza nucleotidica o amminoacidica. Questi si possono ottenere mediante la concatenazione di singoli file FASTA che si può effettuare ad esempio con con il comando cat. Se sei interessato guarda il video qui sotto per vedere come lavora il comando cat:
  1. I file QUAL. Questi file forniscono delle informazioni riguardo alla qualità delle singole basi azotate o amminoacidi che compongono la sequenza presente nella seconda riga del file FASTA sotto forma di numeri interi e positivi che definiscono un punteggio di qualità definito Phred score o Q value. Questa informazione qualitativa è estremamente importante perché, come detto in articoli precedenti, quando si lavora con una sequenza, in particolare di DNA o RNA, è necessario costantemente interrogarsi sulla bontà di quest’ultima. In particolare ci sono 3 livelli di controllo della qualità di una sequenza presa in esame:
    • Controllo della qualità nella fase di sequenziamento, dove la scelta della libreria, del coverage e della tecnica di sequenziamento utilizzata è cruciale per l’ottenimento di reads ben rappresentative della DNA sequenziato di cui vogliamo ricostruire la sequenza.
    • Controllo di qualità nella fase di assemblaggio delle reads ottenute dal sequenziamento, in tal caso la scelta del corretto algoritmo di assemblaggio e la valutazione di parametri statistici è utile per trarre delle informazioni riguardo alla sequenza ottenuta dall’assemblaggio delle reads (leggi qui per saperne di più).
    • Controllo della qualità della sequenza grazie alle informazioni di qualità poste nei file QUAL nel caso specifico dei file FASTA.

Ma come fa il file QUAL nella pratica a fornire queste informazioni? Come detto, vi sono questi valori, definiti Phred score o Q value, costituiti da numeri interi e positivi associati ad ogni lettera della sequenza. I file QUAL e FASTA sono generalmente estrapolati da file SCF, ovvero dei file prodotti in seguito all’elaborazione digitale del sequenziamento Sanger. Infatti questo file SCF contiene un cromatogramma in cui è possibile osservare i picchi di fluorescenza relative alle diverse quattro basi azotate che si trovano nel codice della sequenza di DNA o cDNA sequenziata (leggi qui se ti senti un pò perso).

In particolare l’algoritmo Phred valuta l’andamento, la forma e altri criteri dei singoli picchi (e dunque nucleotidi) rispetto a dei valori di riferimento ed in funzione di questa valutazione calcola un valore per ciascun nucleotide, appunto il Q value, che descrive la probabilità che vi sia un errore nella “chiamata” del nucleotide preso in esame. Credetemi è più complicato da scrivere che da capire. Facciamo un esempio:

  • Ho una sequenza di DNA così composta => AATA
  • L’algoritmo Phred esegue base per base la seguente equazione:

Dove Q indica la probabilità espressa in logaritmo di avere un errore in quel punto preciso della sequenza e quindi nella “chiamata” di quella base azotata presa in esame.

  • Poniamo il caso di avere a livello della prima A della sequenza AATA un Q value di 30. Cosa vuol dire? Che abbiamo 0,1% di probabilità di errore nell’identificazione ( o “chiamata”) di questa A in quel punto preciso della sequenza durante la computazione della sequenza nel processo di sequenziamento:

Solitamente il Q value varia da 0 a 60 ma si considera accettabile un valore maggiore di 20. Spesso risulta essere molto utile conoscere il Q value di ogni nucleotide di una sequenza, infatti immaginiamo di voler costruire dei primers per una data sequenza di DNA, se in questa dovessimo trovare, in una certa regione, dei nucleotidi con un Q value minore di 20, possiamo decidere di scartarlo o di selezionare un altro punto della sequenza per disegnare i suddetti primers. Infatti se usassimo dei primers che sono disegnati su una sequenza con un basso punteggio di qualità potremmo anche non avere un corretto appaiamento quando usiamo ad esempio i primers per l’amplificazione della stessa sequenza per mezzo di una PCR.

Dunque, come detto, nell’articolo Fasta and Furious!” ho omesso molte informazioni utili. Quindi ricordate sempre che i file FASTA non sono nulla senza i file QUAL ad essi associati. Mi piace pensare che ogni volta che vi troverete a lavorare con uno di questi vi ricorderete di noi autori di Bioinformaticamente.

Ora devo andare. Penso di aver scritto anche troppo. Vi ricordo però di lasciare un “mi piace”, di condividere l’articolo con i vostri amici e/o colleghi e di iscrivervi al blog o su Instagram. Ricordate, ci farebbe molto piacere crescere sempre di più e con il vostro piccolo aiuto questo può diventare possibile.

Ciao e a presto.

Fonti: