Come vi ho detto in un articolo precedente, i dati sono contenuti in file e questi possono avere diverse forme, distinguibili dalle loro estensioni. L’estensione di un file è quella dicitura che comunemente troviamo alla fine del nome di questo subito dopo un punto. Magari con un esempio rendo meglio l’idea. Andate su word, scrivete un nuovo documento e salvatelo come “ciccio”, dopo di che andate a ricercarlo nel vostro computer e vedrete che il vostro file si chiama “ciccio.docx”. Oppure se cliccate con il tasto destro del mouse sul file ciccio e andate su proprietà, potrete notare nelle info relative al tipo di file l’estensione .docx. L’estensione del file è dunque quella dicitura che descrive il tipo di file; ad esempio i file word avranno l’estensione .docx, i file testo l’estensione .txt, i file power point l’estensione .pptx e così via.

Ovviamente anche in bioinformatica l’estensione dei file è molto utile perché possiamo capire che tipo di file abbiamo tra le mani con un solo colpo d’occhio. I tipi di file che un bioinformatico tratta sono davvero diversi ma alcuni sono molto frequenti e penso sia doveroso approfondirli:

  1. I file fasta, distinguibili con l’estensione .fasta, oltre che .fa e .fna . Un fasta è un file di testo che contiene la sequenza di una molecola di DNA, RNA e proteine che è stata sequenziata.

La struttura dei file fasta è la sequente:

  • Sono costituiti da due righe soltanto
  • La prima riga inizia sempre con il simbolo di maggiore (>) e costituisce l’intestazione del testo (header), dove troviamo informazioni relative alla sequenza.
  • Nella seconda riga troviamo la sequenza nucleotidica di DNA o RNA o la sequenza amminoacidica nel caso delle proteine.

Occorre fare due precisazioni riguardo ai file fasta:

  • Il file fasta può derivare dalla conversione del file.scf, che contiene il cromatogramma ottenuto come output dal sequenziamento Sanger, ovvero la tecnica di sequenziamento di prima generazione di cui parleremo nel dettaglio in uno dei prossimi articoli.
  • Il file fasta presenta solo la sequenza nucleotidica ottenuto dal sequenziamento e non le informazioni relative alla qualità della sequenza. Le informazioni qualitative della sequenza, espresse con valori numerici, sono contenute in un altro tipo di file che prende il nome di file.qual.
  1. I file sra, descritti dall’estensione .sra, sono file grezzi ottenuti come primo output dai processi di sequenziamento di nuova generazione (NGS). I file sra sono file compressi quindi per poter analizzare le sequenze contenute al loro interno devono prima essere decompressi con appositi strumenti come SRA toolkit (https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software) che forniscono come output un file fastq.
  1. I file fastq, dotati di estensione .fastq o .fq, sono file per certi aspetti simili ai fasta, infatti anche questi contengono la sequenza nucleotidica di un acido nucleico che viene sequenziato mediante le tecniche di sequenziamento di nuova generazione (NGS) ma a differenza dei file fasta presentano anche informazioni qualitative, relative alle sequenza, espresse con caratteri ASCII, ovvero mediante numeri, lettere e simboli.

La struttura dei file fastq è la seguente:

  • Possiedono quattro righe
  • Nella prima riga troviamo l’intestazione (header) con varie informazioni riguardo la sequenza nucleotidica. Questa non inizia con il simbolo >, come nei file fasta, ma con il simbolo @.
  • Nella seconda riga troviamo la sequenza.
  • La terza riga inizia con + e può presentare nuovamente l’intestazione.
  • Nella quarta e ultima riga troviamo le informazioni qualitative in caratteri ASCII sulla sequenza. La qualità della sequenza varia in funzione del tipo di tecnica di sequenziamento di nuova generazione usata.

Bene, penso che per oggi possiamo salutarci, ovviamente i file sopra descritti sono solo alcune delle tipologie di file esistenti nel mondo della bioinformatica, molti altri li incontreremo nei prossimi articoli.

Come sempre vi invito a lasciare un commento e a seguire questo blog.

Ciao e a presto.