In bioinformatica, ma più in generale nella scienza dei dati, i protagonisti sono proprio questi ultimi. Ma sapreste darmi una definizione di dato? Sembra quasi un concetto astratto ma in realtà è molto semplice. Un dato non è altro che un pacchetto di informazioni. Nel nostro caso specifico diremo che un dato biologico è un pacchetto di informazioni biologiche. Se ci pensate bene, lo stesso termine bio-informatica ci dà un’immagine dell’utilità dei dati, infatti con bio definiamo il campo di interesse, ovvero la biologia, e con informatica si intende il trasferimento di un’informazione da un utente all’altro. Il mezzo dell’informazione sono proprio i dati, un bioinformatico infatti lavora su informazioni e risultati ottenuti da analisi compiute da un ricercatore in laboratorio ed immagazzinate appunto come dati. Il lavoro fatto dal bioinformatico sui dati ricevuti permetterà a sua volta la produzione di risultati, in seguito all’analisi bioinformatica dei dati, che a loro volta costituiranno nuovi dati capaci di spiegare e risolvere uno specifico fenomeno biologico. Insomma, è una sorta di loop, ma ciò che conta è che i dati vengono analizzati e manipolati dal bioinformatico proprio attraverso dei software specifici, nel settore infatti si usa dire che si danno dei dati di inputin pasto” ad un programma e lui “sputa fuori” dei dati di output.

Uno dei motivi per cui la bioinformatica sta andando davvero forte, ed il trend non accenna ad esaurirsi, è che i dati prodotti in laboratorio sono numerosissimi, grazie alla maggiore convenienza economica e alla superiore efficienza tecnica degli strumenti usati oggigiorno in laboratorio. Dunque è facile ottenere una mole spropositata di dati, ben descritti dalla locuzione inglese big data, ma questi da soli non spiegano come un processo o un organismo funziona, occorre infatti studiare ed applicare la statistica a questi dati mediante la bioinformatica per trarre delle conclusioni oggettive.

Immagino che vi starete chiedendo dove vengono conservati questi dati. In un hard disk gigante e dotato di una capienza stratosferica? Ovviamente no. Questi dati sono fisicamente contenuti e scaricabili da chiunque in banche dati all’interno delle quali questi si trovano organizzati in database.

Un database è infatti un insieme organizzato di dati fruibili e comprensibili al fine di dare un’informazione ad un qualsiasi osservatore. I database possono essere di due tipi:

  1. Primari (detti anche Archival), ovvero database che contengono dati grezzi appena ottenuti da analisi fatte in laboratorio.
  2. Secondari (detti anche Curated), che sono database contenenti i dati ormai elaborati derivanti dall’interpretazione di quelli grezzi.

Esempi di banche dati sono:

  • GenBank, che è una banca dati di sequenze genomiche gestita dall’istituto NCBI (https://www.ncbi.nlm.nih.gov/genbank/).
  • UniProt, che è una banca dati di proteine ottenuta dalla collaborazione tra l’European Bioinformatics Institute (EBI), il Protein Information Resource (PIR) e lo Swiss Institute of Bioinformatics (SIB) (https://www.uniprot.org/).
  • KEGG (Kyoto Encyclopedia of Genes and Genomes) è un database che integra informazioni funzionali genomiche, chimiche e sistemiche (https://www.genome.jp/kegg/kegg1.html).

Inoltre, per inserire un dato biologico in una banca dati, come ad esempio una sequenza di DNA, si possono usare degli strumenti come BankIt (https://www.ncbi.nlm.nih.gov/WebSub/) e Sequin (https://www.ncbi.nlm.nih.gov/Sequin/), ovviamente prima di essere accettati questi subiranno una revisione da parte dell’istituto che gestisce la banca dati.

Infine vi ricordo che i dati bioinformatici, e non solo, sono dotati di estensioni nel nome che permettono di distinguerli nella forma, infatti possiamo avere diversi formati di dati, alcuni molto frequenti ed usati sono i .fasta, i .fastq, gli .sra, i .gff e molti altri. Per alcuni di questi molto frequenti farò un approfondimento.

Per oggi è tutto, come sempre vi esorto a lasciare un commento qui sotto nell’area commenti del blog, di iscrivervi al blog se non lo avete fatto e di lasciare un bel mi piace se lo ritenete opportuno.

Ciao e a presto.