Ciao e bentornati. Nelle ultime due settimane sono stato carico di impegni. Come ho già avuto occasione di dirvi, sono alle prese con un progetto di tesi in bioinformatica rivolto all’esecuzione di un “Genome Wide Association Study” (GWAS) su una popolazione costituita da varietà diverse di piante. Un giorno dedicherò un articolo anche su questo.

Sono riuscito a ritagliarmi un pò di tempo per parlarvi di una tipologia di algoritmi estremamente utili nel campo della bioinformatica. Sto parlando ovviamente degli algoritmi di allineamento. Questi sono infatti i più usati in assoluto, ci consentono di svolgere diverse operazioni e sono impiegati in diversi tipi di analisi bioinformatiche. Prima di citare i diversi algoritmi di allineamento è necessario capire cosa si intende per “allineamento”. L’allineamento di sequenze, acidi nucleici o proteine, è quell’operazione bioinformatica che consente di confrontare due o più sequenze tra loro al fine di valutarne il grado di similarità e dunque la loro relazione evolutiva attraverso il calcolo di un punteggio di allineamento calcolato proprio dagli stessi algoritmi.

A questo punto vi starete chiedendo perché è così utile allineare le sequenze. Bene, l’allineamento di sequenze ci permette di:

  • Sapere se due o più sequenze confrontate sono simili o identiche, tenendo bene in mente che se due sequenze sono identiche possiamo assumere che sono la stessa sequenza. Inoltre se due sequenze sono simili, nel caso in cui condividono parte dei residui o hanno residui con la stessa funzione, possiamo definirle ortologhe (sequenze presenti in genotipi diversi in seguito ad eventi di speciazione e che nel tempo hanno accumulato differenze ma generalmente hanno la stessa funzione) oppure paraloghe (sequenze presenti nello stesso genotipo ottenute per duplicazione e differenziatesi nel tempo per effetto delle mutazioni e che generalmente hanno acquisito funzioni diverse). In generale due sequenze sono simili, o omologhe, se condividono un valore pari o maggiore dell’80% dei loro residui.
  • Stimare i rapporti evolutivi tra le sequenze allineate e dunque usarle per la costruzione di alberi filogenetici.
  • Capire quali regioni di una sequenza sono maggiormente importanti per la sua funzione. Prendiamo come esempio la proteina amilasi, ovvero l’enzima che che permette la reazione di idrolisi dell’amido. Allineando le amilasi provenienti da diversi individui, magari anche molto distanti geneticamente tra loro, possiamo notare come alcuni residui amminoacidici sono molto conservati, dunque non cambiano, mentre altri variano tra un individuo ed un altro. Da queste osservazioni è facile intuire che le regioni più conservate sono quelle che hanno una maggiore influenza sulla funzione della proteina che è la medesima in tutti gli individui presi in esame. Le parti variabili hanno invece una minore rilevanza in tal senso.

L’allineamento di sequenze ci fornisce dunque moltissime informazioni utili ma come detto in precedenza vi sono diversi tipi di algoritmi di allineamento che per essere compresi al meglio necessitano di essere trattati individualmente, per tale ragione mi limiterò ad elencarli e ad accennare alcuni brevi concetti, ma se volete che tratti nello specifico uno di questi fatemelo sapere scrivendo un commento all’articolo.

  1. Algoritmi di allineamento per scivolamento. Sono stati i primi ma ora non sono più usati.
  2. Algoritmi di allineamento Dot Plot Matrix. Conferiscono una rappresentazione grafica dell’allineamento tra due sequenze per volta. I punti di identità o similarità tra due sequenze vengono indicate mediante un punto nello spazio, tracciando così nel complesso una retta. In tal modo è possibile visualizzare graficamente i tratti interessati da polimorfismi come inversioni, ripetizioni, inserzioni e delezioni.
  3. Algoritmi di allineamento Dinamici. Sono degli algoritmi che si servono di matrici di identità e matrici di sostituzione per allineare delle sequenze, ovvero delle matrici nelle cui celle esterne sono posti gli elementi (basi azotate per gli acidi nucleici e gli amminoacidi per le proteine) delle sequenze confrontate e nelle celle interne sono posti i valori di identità o similarità tra gli elementi confrontati a coppie. Nelle matrici di identità solo agli elementi uguali viene assegnato un punteggio (1) mentre agli elementi diversi non viene assegnato alcun punteggio (0). Nelle matrici di sostituzione invece i valori positivi indicano una maggiore similarità e dunque una maggiore probabilità che i due elementi durante un allineamento siano considerati simili mentre i valori negativi indicano bassa similarità quindi bassa probabilità che i due elementi durante un allineamento possano essere considerati simili. Le matrici di sostituzione possono essere di due tipi, matrici PAM e matrici BLOSUM; queste tipologie di matrici a loro volta possono essere di diverso tipo . Le più utilizzate sono le matrici PAM150 e le matrici BLOSUM62. Gli algoritmi dinamici inoltre possono agire globalmente (es. Algoritmo di Needleman-Wunsch) o localmente (es. Smith-Waterman).
  4. Algoritmi di allineamento Euristici. In linea di principio, questi algoritmi, sono molto simili a quelli Dinamici, infatti anche questi si servono delle matrici di sostituzione ma a differenza degli algoritmi dinamici, quelli euristici svolgono i loro allineamenti in modo più approssimativo ma più veloce, per tale ragione questi algoritmi danno un valore probabilistico della probabilità di similarità delle due sequenze confrontate ma che in genere si avvicina a quello ottimale. Anche gli algoritmi euristici si dividono in globali, come ad esempio Clustal, e locali, come l’usatissimo BLAST.
  5. Algoritmi di allineamento Multiplo. Sono degli algoritmi molto utili perché permettono di allineare più sequenze contemporaneamente. Infatti questi algoritmi effettuano un allineamento tra sequenze formando appositi cluster di questi.

Dopo questa rapida presentazione degli algoritmi di allineamento non mi resta che salutarvi e di ricordarvi che se non volete perdere i prossimi articoli potete iscrivervi al blog. Inoltre vi esorto a commentare qui sotto nella sezione commenti e a mettere un “mi piace”.

Ciao e a presto.