Ciao, come stai? Spero bene. Oggi scrivo perché volevo condividere con voi alcuni esercizi che di solito cerco di fare per esercitarmi oltre che per piacere. Ad esempio, a volte scarico una sequenza da NCBI o la recupero dal corso di bioinformatica che ho seguito durante la laurea magistrale e quasi per gioco le chiedo cosa ha da dirmi. No non sono pazzo, anzi credo che uno dei compiti fondamentali della bioinformatica sia proprio quello di estrarre informazioni dai dati biologici a sua disposizione, quindi proprio come un investigatore spreme informazioni da un soggetto interrogato, chiedo a questa sequenza cosa ha da dire. Penso che questo sia un esercizio utile per molti soprattutto per allenare la tendenza a porsi la domanda giusta di fronte a un dato biologico. Infatti, a seconda dei dati, la domanda cambia quindi per ottenere informazioni corrette è necessario fare la domanda giusta, in fondo come diceva Immanuel Kant: "Prima di valutare se una risposta è corretta, è necessario valutare se la domanda è corretta."

Ebbene, per darvi una dimostrazione di quello che ho detto, ho recuperato una sequenza del corso di bioinformatica che ho seguito circa un anno e mezzo fa. Vediamo insieme cosa ha da dirci.

>JQ745270.1_HCT)_mRNA_complete cds
GAAACAGCCCCCTCCAACCATGAAGTCCCCTCCAGGCCACCACACCAAATCCCCAACCAATCTCTCTCTC
TCTCTCTCTTCCCCCCATCGTTCTCACCTTCAGTGGGACCCACGGGTAACGATGATCATTAACGTGAAGG
CGTCCACCATGGTGCGGCCGGCGGAGGAGACGCCTCGCCGGGCGCTGTGGAACTCCAACGTCGATCTGGT
CGTTCCTAATTTTCACACGCCTAGCGTCTACTTTTACCGTCCCACCGGTGCCGCTAACTTCTTTGACGCT
GAGGTTATGAAGCAAGCTCTCGCCAAGGCTCTGGTTCCGTTCTATCCTATGGCCGGCCGGCTCCGTCGCG
ATGAGGATGGTCGTGTTGAGATTGATTGCAACGGCGAGGGTGTGCTTTTAGTCGAGGCTGAGACTATCGG
CGTGATTGACGATTTTGGTGACTTCGCTCCCACACTCGAGCTGCGGCAGCTTATTCCGGCCGTCGATTAT
TCTGGCGGAATCGAAACGTATCCATTGTTAGTGTTGCAGGTAACGTACTTTAAATGTGGGGGCGTGTCCC
TTGGTGTGGGTATGCAGCACCACGCCGCAGATGGGTTCTCGGGTCTCCACTTTATCAACACATGGTCCGA
CATGGCCCGCGGCTTTGACCTCACGCTCCCGCCCTTCATTGATCGCACTTTGCTCCGAGCGCGTGACCCG
CCTCAGCCTGTTTTTGAGCACATTGAATACAAGCCCCCTCCAACAATGAAGTCCCCTCAAAACCCGGTCC
AGTCCCCTACAAAACCCGGTTCAGACCCCAACACAGCCACCGTCTCCATCTTCAAGATGACCCGTGCCCA
ACTCAACGCCCTCAAAGCCAAGTCCAAAGAAGCTGGTAACACCGTCAACTACAGCTCCTACGAGATGCTT
GCTGGTCATGTCTGGAGAAGCACGTGCAAGGCACGTGCACTCCCTGATGATCAAGAAACCAAATTGTACA
TTGCAACTGATGGACGGTCCAGATTGCAGCCGCCCCTTCCCCCAGGTTACTTTGGGAATGTGATCTTCAC
AGCCACGCCTATGGCTGTGGCTGGTGATCTCATGTCAAAACCAACTTGGTTTGCTGCAAGCAGGATTCAT
AATGCTCTCTCAAGAATGGATAATGAGTATTTGAGATCAGCTTTGGACTTCCTAGAACTTCAACCTGATC
TCAAAGCTCTGGTCCGTGGGGCCCATACTTTTAAGTGTCCAAATCTTGGAATCACAAGTTGGGTTAGGCT
TCCAATACATGATGCTGATTTTGGATGGGGTCGGCCCATATTTATGGGTCCTGGTGGGATAGCTTATGAG
GGGCTTTCTTTTATACTTCCAAGCTCAGGTAATGATGGAAGCTTATCAGTGGCCATAGCTCTACAGCCTG
AGCATATGAAGGTGTTCAAGGAAGTTTTGTACGAGATTTGATTTGGTTGAGGAATTGAATAGAAGCATCG
GGAACGCCAAAAATGTTCTCAGGTGGTGTTTTTCTTTCTACATATGTCATTATTGAGACTCGTTTTTTTT
AACCAGAGAGACTATTATTATATGCCTCTGCAAAGTATAGTAATTCTGTAAACTTTTTAAAACGAACTTC
GGGAACAAAAGTATGACTAATTTTGGAGGACATTTGAGAAAGATTTGTTGAACAAAAAAAAAAAAAAAAA
AAAAA

La suddetta sequenza è una molecola di cDNA, che è una sequenza di DNA complementare a una data sequenza di mRNA. Questo cDNA viene prodotto attraverso il processo di trascrizione inversa dell'mRNA catalizzato dall'enzima trascrittasi inversa.

Ora facciamo alcune domande a questa sequenza:

  1. Il gene che ha prodotto questo trascritto codifica per le proteine?

Per rispondere a questa domanda è necessario effettuare una traduzione in silico del cDNA al fine di identificare la sequenza proteica più probabilmente prodotta dal trascritto e le 6 possibili ORF. Tra questi, il più lungo è quello che più probabilmente deriva dal gene. Inoltre, sarà necessario identificare la CDS del gene. Per fare ciò, puoi utilizzare due diversi strumenti:

  • Getorf, ovvero un comando che viene lanciato dal terminale per ottenere le informazioni di cui sopra. Questo ha diverse opzioni di utilizzo che possono essere richiamate con l'opzione -find.

In particolare, le opzioni hanno un codice numerico come indicato nella tabella sottostante:

Numero dell'opzioneSignificato dell'opzione
0Traduzione di regioni tra codoni di STOP
1Traduzione delle regioni tra i codoni START e STOP, che molto probabilmente è una proteina codificata dal gene.
2Sequenze nucleiche tra codoni di STOP
3Sequenze nucleiche tra i codoni START e STOP, che molto probabilmente è ORF contenuto nel gene
4Nucleotidi che fiancheggiano i codoni di START
5Nucleotidi che fiancheggiano i codoni di STOP iniziali
6Nucleotidi che fiancheggiano i codoni di STOP finali

Ovviamente, a seconda dell'opzione di ricerca utilizzata, il file output del comando sarà diverso. Un'altra opzione importante che dovrebbe essere applicata a getorf è -minsize che ci permette di indicare la dimensione minima degli orfs che l'algoritmo cercherà all'interno della sequenza interrogata. Ma come è mio solito per farti capire meglio come funziona questo comando ho pensato di fare un breve tutorial.

  • ORFfinder,è un programma che funziona da remoto ed è più intuitivo e graficamente più affascinante di getorf ma le informazioni che ne derivano sono simili a quelle fornite da getorf. Ancora una volta ho fatto un breve tutorial.
  1. Qual è il codone di inizio della traduzione della trascrizione?

Per rispondere a questa seconda domanda è necessario utilizzare i criteri di Kozak che mostrano una situazione ottimale in cui deve trovarsi un determinato codone per poter essere definito “codone di inizio traduzione”. In pratica si dice che un codone, ad esempio ATG, è l'iniziatore della traduzione se soddisfa questi due criteri:

  • Situazione forte; il codone ATG è posto in una sequenza e nell'ordine così fatto RNNATGG.
  • Situazione adeguata; il codone ATG è posto in una sequenza e nell'ordine così fatto RNNATGR.

Dove, N è una base mentre R è una purina (adenina o guanina).

In pratica, per trovare il codone che soddisfa almeno uno di questi due criteri è necessario scrivere una espressione regolare come ho mostrato nel video qui sotto.

  1. A quale organismo appartiene questa trascrizione? E qual è la funzione della proteina che codifica?

Per rispondere a questa terza e ultima domanda è necessario utilizzare l'algoritmo di allineamento BLAST. Ho avuto l'opportunità di menzionare questo algoritmo in un precedente articolo (cliccate qui per leggerla) ma intendo dedicargli un articolo più ricco di contenuti. Ora ti mostrerò solo, nel video qui sotto, come posso utilizzare questo algoritmo da remoto per rispondere alla domanda posta.

Bene. Abbiamo detto abbastanza per oggi. Spero che l'articolo sia stato di tuo gradimento (fammelo sapere lasciando un commento o un “mi piace”) ma soprattutto spero di averti fatto capire che per diventare un bravo bioinformatico devi esercitarti e come investigatori devi farlo sapendo come porre le giuste domande ai tuoi dati per ottenere le giuste risposte.

Arrivederci e a presto.