Nella bioinformatica, ma più in generale nella scienza dei dati, i protagonisti sono i dati ma potresti darmi una definizione di dati? Sembra quasi un concetto astratto ma in realtà è molto semplice. Un dato non è altro che un pacchetto di informazioni. Nel nostro caso specifico diremo che un dato biologico è un pacchetto di informazioni biologiche. Se ci pensi, lo stesso termine bioinformatica ci dà un quadro dell'utilità dei dati, appunto con bio definiamo il campo di interesse, cioè la biologia, e con informatica significa il trasferimento di informazioni da un utente a un altro. Un bioinformatico lavora sulle informazioni e sui risultati ottenuti dalle analisi effettuate da un ricercatore in laboratorio e archiviate come dati. Il lavoro svolto dal bioinformatico sui dati ricevuti consentirà a sua volta la produzione di risultati, a seguito dell'analisi bioinformatica dei dati, che a loro volta costituiranno nuovi dati in grado di spiegare e risolvere uno specifico fenomeno biologico. Insomma, è una sorta di loop, ma ciò che conta è che i dati vengano analizzati e manipolati dal bioinformatico tramite software specifici, infatti nel settore si dice che si danno input un'immissione errata dei dati "in pasto"A un programma e lui"sputa fuori" output un'immissione errata dei dati.

Uno dei motivi per cui la bioinformatica sta andando davvero forte, e il trend non accenna ad esaurirsi, è che i dati prodotti in laboratorio sono molto numerosi, grazie alla maggiore convenienza economica e alla superiore efficienza tecnica degli strumenti utilizzati nel laboratorio oggi. Pertanto è facile ottenere una quantità di dati sproporzionata, ben descritta dal termine Big Data, ma questi da soli non spiegano come funziona un processo o un organismo, è infatti necessario studiare e applicare statistiche a questi dati per trarre conclusioni oggettive.

Immagino ti stia chiedendo dove sono archiviati questi dati. In un disco rigido gigante con una capacità stratosferica? Ovviamente no. Questi dati sono contenuti fisicamente e possono essere scaricati da chiunque in banche dati all'interno dei quali questi sono organizzati.

Un database è infatti un insieme organizzato di dati utilizzabili e comprensibili al fine di fornire informazioni a qualsiasi utente. I database possono essere di due tipi:

  1. Primario (anche detto archivio storico), ovvero database contenenti dati grezzi appena ottenuti da analisi di laboratorio.
  2. Secondario (anche detto Curated), ovvero banche dati contenenti i dati elaborati che derivano dall'interpretazione di quelli grezzi.

Esempi di database sono:

  • GenBank, che è un database di sequenze genomiche gestito dall'NCBI (https://www.ncbi.nlm.nih.gov/genbank/).
  • UniProt, che è un database di proteine ​​ottenuto dalla collaborazione tra l'European Bioinformatics Institute (EBI), il Protein Information Resource (PIR) e lo Swiss Institute of Bioinformatics (SIB) (https://www.uniprot.org/).
  • KEGG (Kyoto Encyclopedia of Genes and Genomes) è un database che integra informazioni funzionali genomiche, chimiche e sistemiche (https://www.genome.jp/kegg/kegg1.html).

Inoltre, per inserire un dato biologico in un database, come una sequenza di DNA, è possibile utilizzare strumenti come BankIt (https://www.ncbi.nlm.nih.gov/WebSub/) o  Sequin (https://www.ncbi.nlm.nih.gov/Sequin/). Ovviamente prima di essere accettate queste saranno sottoposte a revisione da parte dell'istituto che gestisce il database.

Ti ricordo infine che i dati bioinformatici, e non solo, sono dotati di estensioni nel nome che ne permettono la distinzione, infatti possiamo avere formati di dati differenti, alcuni molto frequenti e utilizzati sono .fasta, .fastq, .sra , .gff e molti altri. Per alcuni di questi molto frequenti farò un approfondimento.

Per oggi è tutto, come sempre vi invito a lasciare un commento qui sotto nell'area commenti del blog, a iscrivervi al blog se non l'avete fatto e a lasciare un bel like se lo ritenete opportuno.

Ciao e a presto.