Eccoci qua, questo è il primo articolo del 2021. Spero sia un anno migliore per tutti. Quanto a me, spero che in questo nuovo anno il numero di articoli su questo blog possa aumentare. Abbiamo diversi progetti in mente, aprire un canale YouTube, creare un podcast e tanto altro, e chissà magari un giorno riusciremo a rendere questa attività di divulgazione un vero e proprio lavoro. Sì, hai notato bene, parlo al plurale, perché? Semplicemente perchè Bioinformaticamente è gestito da due persone, io, Omar Almolla, la "voce" di questo blog e Luciana Gaccione, colei che gestisce la struttura e l'anima social del blog e che, pur avendo la mia educazione, mi impediscono di scrivere troppe sciocchezze. Posso dire che abbiamo un sistema interno di revisione tra pari.

In ogni caso sono sempre io a parlarti ma è giusto che tu sappia che dietro a questo progetto sta crescendo un team che spero possa aiutare la bioinformatica a crescere, a raggiungere sempre più persone e ad approdare su nuove piattaforme. C'è tanta strada da fare, la tenacia e la passione di chi la segue c'è, se vuoi aiutarci a far crescere questo progetto puoi farlo condividendo il blog sui tuoi social, oppure lasciare una donazione nella "Aiutami a crescere!" .

Ok, non volevo parlarti di questo, ma mi sono lasciato trasportare.

Il motivo per cui ho deciso di scrivere oggi è per parlarvi meglio di un tipo di file ampiamente utilizzato in bioinformatica. Mi riferisco ai file FASTA. Ne ho parlato velocemente nell'articolo chiamato Fasta e Furiosa!" , ma devo essere sincero non sono super soddisfatto di quanto scritto. Del resto è comprensibile, il blog è nato da poco e non avevo ancora le idee chiare sul pubblico a cui rivolgermi e quindi su come scrivere. Ecco perché sono determinato a dirti di più sui file FASTA, quindi siediti e leggi quello che ho da dirti.

Il file FASTA è un file di testo che contiene una sequenza nucleotidica di DNA o RNA o una sequenza di amminoacidi di una proteina e informazioni correlate. La struttura di un file FASTA è molto semplice. In esso troviamo due righe:

  • La prima riga inizia con il simbolo maggiore ">" e viene chiamata header, questa fornisce una serie di informazioni relative alla sequenza nucleotidica o amminoacidica posta nella seconda e ultima riga. È infatti possibile trovare un codice identificativo della sequenza, la sua lunghezza e molto altro ancora. Inoltre, l'NCBI (National Center for Biotechnology Information) ha delineato un elenco di codici che consentono di etichettare in modo univoco i database da cui è stata presa la sequenza. Va inoltre notato che non è obbligatorio inserire informazioni nel file header, tutto ciò che è obbligatorio avere, per definire un file FASTA, è il simbolo maggiore ">" all'inizio della prima riga.
Tabella 1. Elenco dei codici NCBI che richiamano i diversi database da cui vengono scaricate le sequenze nei file FASTA.
  • La seconda riga fornisce la sequenza delle basi azotate, nel caso del DNA o dell'RNA, o degli amminoacidi nel caso delle proteine. Per quanto riguarda la seconda riga del file FASTA, una considerazione importante deve essere fatta
Figura 1. Struttura di un file FASTA contenente le prime righe della sequenza del cromosoma 6 umano. 
Il file header è evidenziato in rosso (guarda bene il segno> all'inizio della riga) e la sequenza del DNA nella seconda riga è evidenziata in blu.
Figura 2. Esempio di un file FASTA contenente la sequenza di amminoacidi dell'isoforma umana 4 isoform. 
La sequenza è scritta con le iniziali dei 20 amminoacidi essenziali.

L'estensione di un file FASTA può essere di diversi tipi a seconda del tipo di sequenze che contiene, come si può vedere dalla tabella sottostante.

Figura 3. Estensioni di file FASTA.

Quando parliamo di file FASTA, dobbiamo parlare di alcuni tipi di file ad essi correlati. In particolare questi sono:

  1. File MULTI-FASTA, ovvero file FASTA che contiene più sequenze in formato FASTA, cioè con header più sequenza nucleotidica o amminoacidica. Questi possono essere ottenuti concatenando singoli file FASTA che possono essere eseguiti ad esempio con il comando cat. Se sei interessato, guarda il video qui sotto per vedere come funziona il comando cat:
  1. QUAL. Questi file forniscono informazioni sulla qualità delle singole basi azotate o amminoacidi che compongono la sequenza presente nella seconda riga del file FASTA sotto forma di numeri interi e positivi che definiscono un punteggio di qualità detto Punteggio Phred or Valore Q . Questa informazione qualitativa è estremamente importante perché, come accennato in articoli precedenti, quando si lavora con una sequenza, in particolare DNA o RNA, è necessario mettere costantemente in discussione la bontà di quest'ultima. In particolare, ci sono 3 livelli di controllo della qualità di una sequenza in esame:
    • Controllo di qualità nella fase di sequenziamento, dove la scelta della libreria, della copertura e della tecnica di sequenziamento utilizzata è cruciale per ottenere letture ben rappresentative del DNA sequenziato di cui si vuole ricostruire la sequenza.
    • Controllo qualità in fase di assemblaggio delle letture ottenute dal sequenziamento, in questo caso la scelta del corretto algoritmo di assemblaggio e la valutazione dei parametri statistici è utile per ottenere informazioni sulla sequenza ottenuta dall'assemblaggio delle letture (leggi qui per saperne di più).
    • Controllo della qualità della sequenza grazie alle informazioni sulla qualità inserite nel file QUAL nel caso specifico del file FASTA.

Ma in che modo il file QUAL fornisce in pratica queste informazioni? Come accennato, ci sono questi valori, definiti Punteggio Phred or Valore Q, Cioè numeri interi e positivi associati a ciascuna lettera della sequenza . I file QUAL e FASTA sono generalmente estratti da file SCF, cioè file prodotti a seguito dell'elaborazione digitale del sequenziamento Sanger. Questo file SCF contiene infatti un cromatogramma in cui è possibile osservare i picchi di fluorescenza relativi alle diverse quattro basi azotate che si trovano nel codice della sequenza di DNA o cDNA sequenziato (leggi qui se ti senti un po 'perso) .

In particolare l'algoritmo Phred valuta l'andamento, la forma e altri criteri dei singoli picchi (e quindi nucleotidi) rispetto ai valori di riferimento e in base a tale valutazione calcola un valore per ciascun nucleotide, appunto il valore Q, che descrive la probabilità che vi sia un errore nel "richiamo" del nucleotide in esame. Credimi, è più complicato scrivere che capire. Facciamo un esempio:

  • Ho una sequenza di DNA come questa => AATA
  • L'algoritmo Phred esegue la seguente equazione base per base:

Dove Q è la probabilità espressa in logaritmo di avere un errore in quel preciso punto della sequenza e quindi nel "richiamo" di quella base azotata in esame.

  • Diciamo di avere un valore Q di 30 a livello del primo A della sequenza AATA. Cosa significa questo? Che abbiamo lo 0,1% di probabilità di errore identificando (o "chiamando") questa A in quel preciso punto della sequenza quando calcoliamo la sequenza nel processo di sequenziamento:

Di solito il valore Q varia da 0 a 60 ma un valore maggiore di 20 è considerato accettabile. Spesso è molto utile conoscere il valore Q di ogni nucleotide di una sequenza, infatti immaginiamo di voler costruire primer per una data sequenza di DNA, se in una certa regione troviamo nucleotidi con un valore di Q inferiore a 20, possiamo decidere di scartarlo o di selezionare un altro punto della sequenza per disegnare i suddetti primer. Infatti, se usassimo primer disegnati su una sequenza con un punteggio di qualità basso potremmo anche non avere un accoppiamento corretto.

Quindi, come accennato, nell'articolo Fasta e Furiosa!" Ho omesso molte informazioni utili. Quindi ricorda sempre che i file FASTA non sono nulla senza i file QUAL ad essi associati. Mi piace pensare che ogni volta che ti ritroverai a lavorare con uno di questi ci ricorderai come autori di Bioinformaticamente.

Ora devo andare. Ti ricordo però di lasciare un “mi piace”, di condividere l'articolo con i tuoi amici e colleghi e di iscriverti al blog o su Instagram e Twitter. Ricorda, ci piacerebbe crescere sempre di più e con il tuo piccolo aiuto questo può diventare possibile.

Ciao e a presto.

Fonte: