Ciao e bentornati. In questa settimana, colma di impegni come sempre, ho trovato un pò di tempo per rispolverare alcuni script che avevo scritto durante il mio tirocinio in bioinformatica e ho pensato allora di raccontare, ed in un certo senso condividere, le nozioni e le pratiche svolte durante il mio periodo di tirocinio. Infatti, come ho ripetuto già in altri articoli, con l’avvento delle New Generation Sequencing Techniques (NGS) la mole di dati informatici ottenuti dallo studio dei processi biologici ha richiesto, e continua a richiedere, conoscenze bioinformatiche che permettono di comprendere e analizzare le diverse informazioni biologiche acquisite.

Personalmente ritengo necessario, se non indispensabile, apprendere nozioni e metodi bioinformatici per chiunque voglia lavorare in ambito biotecnologico, per tale motivo ho deciso di svolgere il tirocinio cimentandomi in un lavoro avente lo scopo di datare la formazione di retrotransposoni di tipo LTR (Long Terminal Repeat) in diverse specie vegetali. Ovviamente prima di entrare nel merito degli strumenti bioinformatici utilizzati penso sia necessario sapere cosa sono i trasposoni.

I trasposoni sono sequenze di DNA capaci di muoversi, appunto trasporre, all’interno del genoma con due possibili meccanismi: meccanismo detto “copia-incolla” , quando il trasposone viene copiato ed è la sua copia che si muove nel genoma per essere integrata in un altro punto del genoma, diverso dal punto di origine; meccanismo detto “taglia-incolla” per il quale i trasposoni non non vengono copiati ma si muovono da un punto all’altro del genoma grazie alla loro stessa escissione e ligazione in un altro punto del genoma. I trasposoni sono molto abbondanti nel genoma degli organismi viventi, come in particolare le piante, e la causa della loro formazione non è ancora ben chiara, ma di sicuro forti stress possono favorirne la nascita. I trasposoni inoltre hanno diverse conseguenze sul genoma e sull’espressione genetica di un organismo, tra cui:

  • Aumento della taglia del genoma, causato in particolare dai trasposoni che si muovono con un meccanismo “copia-incolla”, ma anche parziale riduzione della taglia del genoma nel caso in cui alcuni transposoni vengono rimossi in seguito a diversi processi di rimozione che possono avvenire nel tempo.
  • Effetti positivi sull’espressione genica quando questi si inseriscono in prossimità di geni determinandone un aumento della trascrizione. Questi possono infatti fornire sequenze regolatrici per i geni.
  • Costruzione di nuovi geni grazie al fatto che muovendosi, soprattutto nel caso di trasposizione di tipo “taglia-incolla”, potrebbero incorporare esoni, o in generale porzioni di geni, che possono poi unirsi tra loro formando una nuova sequenza codificante.
  • Effetti negativi sull’espressione genica, infatti potrebbero inserirsi all’interno di un gene o nei pressi di questo provocando effetti svantaggiosi, ad esempio potrebbero “disattivare” un gene che ha un ruolo anche vitale per l’organismo.
Schema delle diverse tipologie di trasposoni presenti nel genoma degli organismi viventi. Fonte: Mat Razali, N., Cheah, B. H., & Nadarajah, K. (2019). Transposable Elements Adaptive Role in Genome Plasticity, Pathogenicity and Evolution in Fungal Phytopathogens. International Journal of Molecular Sciences, 20(14). https://doi.org/10.3390/ijms20143597

I trasposoni dunque hanno un ruolo importante nella biologia di un organismo ed è pertanto interessante studiarli. Pur essendo di diverso tipo (vedi schema nella figura 1), nel corso del tirocinio, ho preso in esame in particolar modo i retrotransposoni LTR, una particolare categoria di trasposoni dotati di un meccanismo di trasposizione di tipo “copia-incolla” il cui nome deriva dal fatto che presentano delle porzioni dette LTR (Long Terminal Repeat), ovvero delle sequenze ripetute costituite da 100-5000 nucleotidi presenti alle due estremità del transposone, ovvero in posizione 3’ ed in posizione 5’. Le principali famiglie di retrotrasposoni LTR sono Gypsy e Copia che differiscono tra loro in funzione della diversa disposizione dei residui interni alla sequenza.

L’obbiettivo del tirocinio era in particolare quello di datare i retrotrasposoni LTR secondo il principio per cui maggiori sono le differenze accumulate nel tempo dalle sequenze LTR di ciascun trasposone maggiore sarà l’età di questo. Infatti le differenze a livello delle sequenze ripetute fiancheggianti le due estremità dei trasposoni sono determinate da mutazioni spontanee che occorrono nel tempo.

Il progetto di tirocinio prevedeva in particolare i seguenti passaggi:

  1. Scaricamento di genomi di piante dicotiledoni e monocotiledoni dal database Phytozome v12.1. (https://phytozome.jgi.doe.gov/pz/portal.html).
  2. Individuazione e annotazione strutturale dei retrotrasposoni LTR presenti nei genomi, ovvero individuazione delle coordinate dell’elemento trasponibile nel genoma per capirne la posizione. Gli strumenti bioinformatici impiegati per l’individuazione e l’annotazione dei retrotrasposoni LTR in ciascun genoma (come LTR harvest ed LTR finder) sono racchiusi in un unico pacchetto ideato proprio con lo scopo di ottenere un’annotazione de-novo ed automatizzata di tutti i trasposoni presenti in un dato genoma. Tale pacchetto prende il nome di The Extensive de novo TE Annotator (EDTA). Il pacchetto EDTA è caratterizzato dalla capacità di costruire una vera e propria libreria di elementi trasponibili presenti nell’intero genoma, non ridondante e di alta qualità. Quindi questo non individua e colleziona solo i retrotrasposoni LTR ma anche gli altri elementi trasponibili. I trasposoni presenti nella libreria possono essere successivamente annotati ed analizzati dal pacchetto stesso.
  3. Datazione dei retrotrasposoni LTR di ciascun genoma sulla base delle differenze tra le estremità 3’ LTR e 5’ LTR di ciascun elemento trasponibile. Per fare tale datazione ho utilizzato degli script da me ideati sfruttando una pipeline fatta dal professore che mi ha seguito nel corso del tirocinio.
  4. Confronto dei density plot di ciascun genoma al fine di avere una visione più chiara della distribuzione dell’età dei transposoni LTR in pianta. Questo confronto è stato fatto mediante uno script scritto da me in R.
Schema del funzionamento di EDTA. Fonte: Ou, S., Su, W., Liao, Y., Chougule, K., Agda, J. R. A., Hellinga, A. J., … Hufford, M. B. (2019). Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline. Genome Biology, 20(1), 275. https://doi.org/10.1186/s13059-019-1905-y

Ovviamente per rendere più semplice ed intuitivo l’utilizzo dei programmi citati sopra, ho utilizzato l’interfaccia grafica messa a disposizione del software R Studio Version 1.3.1093.

Non penso sia possibile scrivere il procedimento nel dettaglio pertanto ho deciso di mettere alla fine di questo articolo un video esplicativo, per chi fosse interessato, di come procedere per individuare e datare i retrotransposoni LTR a partire dai genomi scaricati.

Bene, per oggi direi di concludere qui. Sotto sono riportate le fonti usate per la realizzazione dell’articolo ed i file degli script da me ideati che potrete usare per replicare lo studio da me effettuato, anche se vi avverto. Per avviare il pacchetto EDTA, è necessario possedere un computer con un elevata potenza di calcolo, io ho usato infatti il server dell’università per eseguire i codici. In ogni modo vi auguro buona fortuna e se l’articolo vi è piaciuto vi ricordo che mi farebbe piacere sapere le vostre opinioni, quindi commentate e mettete un “mi piace”.

Ciao e a presto.

Bibliografia:

https://github.com/oushujun/EDTA

– Plant Retrotransposons, Amar Kumar and Jeffrey L. Bennetzen. (https://www.annualreviews.org/doi/abs/10.1146/annurev.genet.33.1.479?journalCode=genet)

– The population genetic structure approach adds new insights into the evolution of plant LTR retrotransposon lineages. (https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0214542)

– Diversity, Origin, and Distribution of Retrotransposons (gypsy and copia) in Conifers. Nikolai Friesen,* Andrea Brandes,* and John Seymour (Pat) Heslop-Harrison† (https://pdfs.semanticscholar.org/391b/5f713c2f08ab5677891cacbb992114bdb955.pdf)