Prof. Dr. Alessandro Varani UNESP - FCAV
Anotação de Genomas (procariotos e eucariotos)
O que é Anotação ? Onde estão os genes (coordenadas) ? O que codificam (produto,
proteínas) ? Como interagem/relacionam (metabolismo) ?
DNAplotter: Carver, T. et al. 2008. Bioinformatics 25:119-120
Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2: 493-505
Onde ?
O que ?
Como ?
→ Com o sequenciamento completo de genomas é hoje possível
fazer predições quanto ao repertório total de genes de um dado
organismo sem conhecer previamente as funções por ele realizadas
ou o seu papel ecológico. É possível, por exemplo, conhecer as vias
presentes e ausentes para biossíntese de todos os aminoácidos,
vitaminas e cofatores através da presença ou ausência de genes
codificadores de enzimas associadas a essas vias.
ANOTAÇÃO
→ Anotação Manual: Realizado manualmente, sem a assintência de um programa de computador, ou seja, a pessoa identifica onde começa e termina o gene e identifica sua função usando por exemplo a ferramenta BLAST; → Anotação automática: Um programa de computador localiza os genes e funções e “monta” o provavel metabolismo do micro-organismo automágicamente; → Anotação Semi-Automática: ídem, porém permite que um anotador verifique e corrija possíveis erros de predição; → High Quality Annotation/Biocuração: Garantia da qualidade da anotação. Um “anotador” , verifica cada gene manualmente. Geralmente é resultado de combinação entre Anotação (semi)automática e manual.
Anotação, conceitos e diferenças
Definições: Conceito de Gene
→ Um gene corresponde a um segmento de DNA que é colinear a seu produto protéico. Essa relação é geralmente encontrada nos procariotos.
Procariotos
Definições: Conceito de Gene Eucariotos
Definições: Conceito de Gene Eucariotos
→ Diz-se que as sequências que antecedem o ponto de início localizam-se à montante (upstream) e as que o sucedem localizam-se à jusante (downstream);
→ A posição das bases é numerada nos dois sentidos, a partir do ponto de início, ao qual se atribui o valor +1. Os valores aumentam (valor positivo) à jusante e diminuem (valor negativo) à montante
5’ 3’
Definições e Conceitos
→ Íntrons do grupo II: São uma classe de elemento genético móvel, e estão presente em genomas de bactérias (1/4 do genomas sequenciados) e organelas (cloroplasto e mitocôndrias);
→ A bactéria fitopatógena, Xylella fastidiosa 9a5c tem um íntron do grupo II (transcriptase reversa);
Procariotos realmente não possuem Íntrons ?
http://hudsonvalleyrnaclub.org/images/hvrc_belfort_image2.shtml
Íntrons do grupo II ?
http://webapps2.ucalgary.ca/~groupii/
Hipótese
→ Originaram o íntrons do grupo I ?
→ Originaram os retrotransposons sem LTR ?
→ Genoma essencial (ou core): é o conjunto de genes que são
compartilhados por todas as linhagens de uma mesma espécie bacteriana.
→ Genoma acessório (ou dispensável): é o conjunto de genes que estão
presentes em algumas, mas não em todas, as linhagens de uma mesma espécie
bacteriana.
→ Genoma pan (‘pan’ em grego significa ‘todo’): É o repertório global de
genes de uma espécie bacteriana, ou seja, o genoma essencial mais todos os
acessórios encontrados em diferentes linhagens de uma mesma espécie.
Definições
Princípio da anotação Genoma
1) Identificar os Genes
Onde estão ?
Princípio
1) Identificando os Genes
Onde estão ?
Princípio
1) Identificando os Genes
Onde estão ?
Princípio
1) Identificando os Genes
Onde estão ?
Princípio
1) Identificando os Genes= Feito 2) Atribuíndo Função
O que codificam ?
Princípio
Princípio
Princípio
Princípio
Princípio
Princípio
Princípio
Princípio
Além de identificar os genes e atribuir
função a cada um deles…
O que mais deve ser levando em
consideração (procariotos) ?
Como os genomas procariotos estão organizados ?
THE MOBIL-’OME Arianne Toussaint
Julho 2003
-18%emEscherichiacoli;-16%emSynechocystissp;-10%emMethanobacteriumthermoautrophicum;-5%emHelicobacterpylorieDeinococusradiodurans
THE STAY-AT-’OME Peter Young Julho 2003
IlhasGenômicas
Profagos
TransposonConjugativos
Integrons
Transposons+IntegronsSequências
deInserçãoTransposoncomposto Adaptado de M. Chandler - http://www-lmgm.biotoul.fr/equipes/grpchand/
Anotação de um genoma procarioto
Duas importantes considerações e constatações
→ O genoma essencial, em via de regra está bem anotado (alguns necessitam de correções) nas bases de dados, e as ferramentas de anotação disponíveis são muito precisas ;
→ A qualidade da anotação do genoma acessorio (principalmente EGMs) ainda é um problema severo nas bases de dados. Pouco sabemos sobre a real diversidade, quantidade e impacto que EGMs desencadeiam nos genomas procariotos depositados nas bases de dados públicas. É necessário biocuração, e análise manual ! Ferramentas de anotação muito bem estabelecidas para identificação de genes Essas ferramentas ainda estão evoluíndo para identificação de EGMs, e poucos
grupos de pesquisa se atentam para esse detalhe, uma vez que o processo TEM QUE SER MANUAL.
TTCATACTTGGTTAAGACCTTTACAAGCCGACCAACGTGGTGACAGTGTCGTCCTTTACGCACCGAATCCCTTTATCATTGAATTAGTAGAAGAGCGATACTTAGGACGTCTTCGGATGGAATCTTGGTCCCGTTGCCTGGAACGTCTTGAAACTGAATTCCCGCCAGAAGATGTTCATACTTGGTTAAGACCTTTACAAGCCGACCAACGTGGTGACAGTGTCGTCCTTTACGCACCGAATCCCTTTATCATATTGAATTAGTAGAAGAGCGATACTTAGGACGTCTTCGGGAATTGTTATCCTATTTCTCAGGAATACGTGAAGTAGTCCTTGCAATTGGCTCACGACCTAAAACAACAGAACTACCCGTACCAGTAGACACTACAGGACGTTTGTCTTCAACAGTCCCATTTAACGGAAATCTCGACACACACTATAACTTTGATAATTTTGTTGAGGGACGAAGCAATCAACTCGCTCGTGCTGCAGCTTGGCAAGCGGCACAGAAACCGGGAGACCGTACTCACAACCCTCTATTGCTCTATGGTGGGACTGGTTTGGGTAAAACCCATTTAATGTTTGCTGCAGGTAACGTAATGCGGCAAGTAAACCCAACTTATAAAGTAATGTATCTTCGTTCGGAACAGTTTTTCAGCGCCATGATAAGAGCGTACAAGATAAAAGTATGGATCATAAGGGTAA
O jogo: Identificar onde Começa e Termina
As regras: Código genético
A tática: Primeiro passo Identificar os quadros abertos de leitura (ORFs)
O Jogador: ORF Finder ORF = Open reading frame
http://www.ncbi.nlm.nih.gov/projects/gorf/
ORF = Open reading frame
Principal ferramenta: NCBI ORFinder - Resultados
→ Começa-se escolhendo as maiores ORFs; →O anotador decide qual ORF tem que eliminar ou validar.
Ferramentas mais sofisticadas Prodigal
(Prokaryotic Dynamic Programming Genefinding Algorithm)
http://prodigal.ornl.gov/server.html
Prodigal (Prokaryotic Dynamic Programming Genefinding Algorithm)
→ Um dos preditores de genes mais simples e eficiente “do mercado”; → Atualmente considerado o “Gold standart”; → Download em: https://code.google.com/p/prodigal/ Versões para: Linux, Windows e MacOSX. →Não é necessário compilar (pré-compilado); → Execução por linha de comando ou web-service.
Prodigal - Linha de comando Na VM: “$ prodigal -h"
Ferramentas mais sofisticadas Prodigal
(Prokaryotic Dynamic Programming Genefinding Algorithm)
web-service
http://prodigal.ornl.gov/server.html
Ferramentas mais sofisticadas GLIMMER
http://ccb.jhu.edu/software/glimmer/index.shtml
GLIMMER (linha de comando) Na VM: “$ tigr-run-glimmer3"
Ferramentas mais sofisticadas GLIMMER (web service)
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
Ferramentas mais sofisticadas GLIMMER – Resultados (web service)
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
Ferramentas mais sofisticadas GLIMMER – Referências
SignalP Identifica peptideo sinal em sequencias de proteínas
http://www.cbs.dtu.dk/services/SignalP/
OK! ORFs identificadas Qual o próximo passo ?
Identificação de outros componentes: tRNAs, rRNAs, ncRNAs e Elementos Genéticos Móveis (EGMs);
Identificação de tRNAs
http://lowelab.ucsc.edu/tRNAscan-SE/
Identificação de tRNAs
http://mbio-serv2.mbioekol.lu.se/ARAGORN/
Identificação de rRNAs
http://www.cbs.dtu.dk/services/RNAmmer/
Identificação de rRNAs
http://www.vicbioinformatics.com/software.barrnap.shtml
Identificação de ncRNAs
http://rfam.xfam.org/
Identificação de ncRNAs
http://infernal.janelia.org/
Identificação e Anotação de
Elementos Genéticos Móveis (EGMs)
Transposons do tipo IS: Como Anotar ?
MITE
IS
tIS
MIC
+/- Gene Passageiro
+/- Transposase
+/- Transposase
Siguier e Varani et al., 2012
Profagos Melhor Software: PhiSpy
Porémdiversasferramentasdeprediçãoestãodisponíveis:→Prophinder:Lima-Mendezetal.,2008-(ACLAME)→ProphageFinder:MichaelBose,2006→PhageFinder:DerrickFouts,2006-(TIGR)→PHAST:YouZhouetal.,2011
http://sourceforge.net/projects/phispy/
Ilhas Genômicas
Atribuíndo Função (“Como?”) InterProScan
http://www.ebi.ac.uk/interpro/
http://www.ebi.ac.uk/interpro/
Atribuíndo Função (“Como?”) InterProScan: Resultado
http://www.geneontology.org
Atribuíndo Função (“Como?”) Gene Ontology
-> Componente Celular; -> Processo Biológico; -> Função Molecular.
Atribuíndo Função (“Como?”) Uniprot
http://www.uniprot.org/
http://www.genome.jp/kegg/
Atribuíndo Função (“Como?”) KEGG: Mapas Metabólicos
http://www.genome.jp/kegg/kaas/
Atribuíndo Função (“Como?”) KEGG: Mapas Metabólicos
-> Várias ferramentas e bancos de dados! -> Muitas ferramentas somente em linha de comando; NÃO TEM COMO AUTOMATIZAR, PELO MENOS UMA
PARTE DE TODO ESSE PROCESSO DE ANOTAÇÃO ??????
Conceito de Pipeline
-> Um bom programador pode integrar todas essas ferramentas em um único programa! -> A ordem seria (uma recomendação de pipeline!) Execute: 1) Prodigal (onde estão os genes ?);
2) SignalP (peptideo sinal: proteínas secretadas); 3) Aragorn (onde estão os tRNAs?); 4) Barnap (onde estão os rRNAs?); 5) Infernal (onde estão os ncRNAs?); 6) BLAST – GenBank; 7) BLAST – UNIPROT; 8) InterProScan; 9) Gene Ontology; 10) Keeg (kass);
Mas você não precisa fazer issso!!!! Alguém já pensou nisso e fez !
Anotação automática pipelines
Prokka: rapid prokaryotic genome annotation.
http://www.vicbioinformatics.com/software.prokka.shtml
Instalado em nossa máquina virtual!
Anotação automática pipelines
RAST: Rapid Annotation using Subsystem Technology
http://rast.nmpdr.org/
Anotação automática resultado
Anotação Visualização
http://www.sanger.ac.uk/resources/software/artemis/
Anotação Visualização
http://stothard.afns.ualberta.ca/cgview_server/
Anotação Visualização
E finalmente enviando o genoma para o GenBank!
http://www.ncbi.nlm.nih.gov/projects/Sequin/
Eucariotos
“There is no reason anyone would want a computer in their home.” — Ken Olson, president, chairman and founder of Digital Equipment Corp. (DEC), maker of big business mainframe computers, arguing against the PC in 1977.
“We will never make a 32 bit operating system.” — Bill Gates, 1983
Predições falham!!!
Literatura Recomendada
Dúvidas ou perguntas ?