La data science è una disciplina che ci permette di risolvere problemi di varia natura attraverso l'analisi dei dati.

Questa è una materia interdisciplinare che include diverse competenze come: l'uso della statistica e della matematica, l'uso della programmazione, la pulizia e la gestione dei dati e molto altro. Un data scientist è quindi una figura professionale in grado di rispondere a domande di interesse attraverso l'analisi dei dati. Mi piace paragonare il data scientist a un investigatore che cerca il colpevole di un crimine studiando le prove raccolte.

foto vista laterale di un uomo che fa un'ispezione
Foto di cottonbro su Pexels.com

Come di consueto, la data science è rappresentata con un diagramma di Venn che ne descrive i principali campi di interesse.

  • Competenza sostanziale: Il campo di studio. Nel caso della bioinformatica questa è costituita dalla biologia. La natura dei dati impiegati dal data scientist dipende proprio dal campo di studio in questione. Ad esempio, se il nostro campo d'azione è la genomica, è facile avere dati riguardanti informazioni relative alle sequenze di DNA.
  • Abilità di hacker: Si riferisce alle capacità di programmazione necessarie per dare istruzioni al computer affinché possa, al nostro posto, analizzare i dati e quindi risolvere i problemi posti.
  • Conoscenze matematiche e statistiche: Per rispondere alle domande poste, il data scientist deve applicare modelli statistici che, basati sulla matematica, rendano possibile analizzare e trarre conclusioni a partire dai dati disponibili.

Quando si parla di data science, è subito chiaro che i principali attori in questa disciplina sono loro... i dati. Un dato è un pacchetto di informazioni. Possono essere numeri, parole, fatti... qualsiasi tipo di informazione. Questi sono "contenuti" in file con estensione diversa a seconda del tipo di dati. Ad esempio il nome del mio cane è "Balù". Questa è un'informazione, un dato. Per farlo conoscere al computer devo inserirlo in un file, ad esempio un file di testo con estensione .txt.

Oggi siamo sommersi di dati. Lo sviluppo di processori sempre più potenti, la nascita dei social network e in generale gli enormi progressi tecnologici che stanno caratterizzando la nostra epoca hanno portato all'abbondanza di dati che si spiega con il termine "Big Data". Il concetto di big data è caratterizzato dalle cosiddette "tre V":

Volume: I dati sono molto numerosi e generalmente conservati in banche dati (raccolta dati) che aumentano continuamente il loro volume.

Velocità: I dati vengono generati e raccolti in modo estremamente rapido.

Varietà: Esistono diversi tipi di dati.

Avere molti dati a disposizione può essere molto utile ma il problema principale dei big data è che spesso i dati sono ridondanti, grezzi o poco utili per risolvere il problema specifico. Per questo uno dei compiti del data scientist è quello di far derivare dal disordine dei big data, ad esempio dopo averli puliti, i cosiddetti "dati intelligenti" che sono utili allo studio svolto.

Un altro modo interessante per definire i dati è considerarli come i valori di una variabile. Del resto, prendendo l'esempio sopra, il nome del mio cane può essere inteso come una variabile e il nome "Balù" (i dati) ne è il valore. A questo proposito, è necessario distinguere due tipi di variabili:

  • Variabili qualitative: Descrivono le caratteristiche qualitative di un elemento o di un oggetto (es. colore del fiore, sesso della popolazione in esame, ecc.). Le variabili qualitative di solito hanno valori non numerici e questi possono essere ordinabili o non ordinabili. I valori delle variabili qualitative sono raccolti principalmente a seguito di osservazioni.
  • Variabili quantitative: Descrivono i valori relativi alle caratteristiche misurabili di un elemento (es. altezza delle persone nella popolazione in esame). I valori delle variabili quantitative sono numerici e continuamente distribuiti, nonché ordinabili e derivati ​​da misurazioni.

E' estremamente utile capire i dati con cui si lavora durante un progetto ma per fare questo è necessario visualizzare e osservare tali dati, un po' come uno scultore osserva il blocco di marmo per capire cosa questo può diventare…cosa il marmo freddo vuole in qualche modo comunicare. Un modo molto semplice per rappresentare i dati è tramite tabelle o matrici come quella mostrata nell'immagine sottostante. In una tabella le colonne sono le variabili e le righe i campioni, mentre i valori nelle celle sono i valori dei campioni relativi alle variabili, i nostri dati dopotutto.

Sfortunatamente, i dati non sono così strutturati e ordinati al momento della loro generazione e raccolta, quindi il data scientist deve spesso ripulirli, formattarli nella forma corretta, ordinarli e archiviarli in modo da renderli facilmente utilizzabili. Ancora una volta dobbiamo fare ordine nel disordine. Scrivi questo concetto perché è verissimo. Una cosa che mi è subito sembrata chiara è che per diventare un data scientist e in particolare un bioinformatico bisogna essere ordinati. È necessario saper tracciare un percorso e seguirlo in modo ordinato perché è facile perdersi nel vorticoso flusso di lavoro dello studio dei dati.

Quindi qual è il flusso di lavoro di riferimento che un data scientist segue durante un progetto?

Bene, ci sono due flussi di lavoro di riferimento che possono essere seguiti e questi sono essenzialmente molto simili quindi mi limiterò a presentare lo schema di questi descritto da Chanin Nantasenamat.

In generale, ci sono cinque passaggi fondamentali che devono essere seguiti per completare uno studio sui dati.

  1. Comprendi il problema da risolvere e poniti la domanda giusta. Questo è il primo passo ma direi anche il più importante. Se la domanda a cui vogliamo rispondere non è chiara o sbagliata, l'intero studio sarà sbagliato o privo di significato. Da dove vengo, si usa un detto: "Chi parte bene è a metà" per dire quanto sia importante iniziare qualsiasi processo con le migliori condizioni per poter dare il meglio di sé. In qualche modo penso che questo detto possa essere applicato anche al nostro caso specifico. Ricorda... la domanda è essenziale.
  2. Raccogli i dati che ti servono per risolvere il problema che vogliamo risolvere. Se voglio fare una torta devo prendere: uova, farina, latte e altri ingredienti utili. Di certo non riesco a pensare di fare una torta raccogliendo intorno a formiche, biglie di vetro e altri elementi non utili allo scopo.
  3. I dati raccolti sono spesso approssimativi e imperfetti quindi è necessario ripulirli, imputarli (sostituire i valori mancanti con alcuni appositamente generati). Spesso in questa fase vengono applicati metodi statistici descrittivi che consentono di valutare la bontà e la necessaria pre-elaborazione dei dati disponibili.
  4. Gli algoritmi ei modelli necessari per lo studio e l'analisi dei dati vengono applicati al fine di risolvere il problema o rispondere alla domanda posta inizialmente.
  5. Una volta applicato il modello di problem solving, possiamo intraprendere due strade. Se i risultati ottenuti dall'analisi dei dati sono in grado di rispondere alla nostra domanda, si procede con la presentazione di questi attraverso grafici e la loro descrizione nonché la loro raccolta nel database. Se, invece, i risultati ottenuti non sono utili alla risoluzione del problema, è necessario tornare indietro. Magari raccogliere nuovi dati, ripetere la pre-elaborazione dei dati, applicare nuovi algoritmi e modelli di risoluzione, o anche porre nuove domande che prima ci sfuggivano.

Bene. Per oggi ho già detto molto. Quanto scritto in questo articolo è il risultato dello studio che ho svolto in questa prima settimana in cui ho iniziato un percorso da zero. Quasi che l'intento fosse quello di costruire un edificio partendo dalle fondamenta. Il mio obiettivo? diventare un vero bravo bioinformatico. Il viaggio è appena iniziato ma sto già imparando molto e soprattutto mi sto divertendo. Se anche a te piace questa iniziativa, mostra il tuo apprezzamento con un like o un commento qui sotto.

Ciao e a presto.

Omar Almolla

Riferimenti: