Analisis de Secuencias

Post on 07-Jul-2016

246 views 1 download

description

ANALISIS DE SECUENCIAS GENOMICAS

transcript

ANALISIS DE SECUENCIAS

El dogma central

Proteina

RNA

DNA

transcription

traduccion

CCTGAGCCAACTATTGATGAA

PEPTIDE

CCUGAGCCAACUAUUGAUGAA

MAGNITUD DE LA INFORMACIÓN GENETICA

Si toda la secuencia del genoma humano es compilada esta ocuparia 200 guias telefonicas como las de la ciudad de Manhattan (cada una con 1000 páginas)

Tamaño de la secuencia Humana 3.4 X 109pb

ORGANISMO Genoma: compilado pb

Mosca de la Fruta: Drosophila 10 vol 15X107

Levaduras: 1 vol 15X106

Bacterias: E. coli 300 pág 4.6X106

Cromosoma 3 de levadura 14 pág 350X103

MathematicsStatistics

Computer ScienceInformatics

BiologyMolecular biology

Medicine

Chemistry

Physics

Bioinformatics

Bioinformatica

• Relacionado a Biologia Molecular: – (Estadistico) Analisis de proteinas y de estructura nucleotidica– Plegamiento de proteina– Interaccion proteina-proteina y proteina nucleotido

• Muchos metodos esenciales se se generaron antes de la era genomica– Analisis de secuencias de proteinas (alineamiento de

secuencias por pares y multiple alineamiento)– Prediccion de estructura secundaria proteica

• Estudios evolutivos – Reconstruccion filogenetica (clustering – NJ method)

BASE DE DATOS DE SECUENCIAS

• UniProt (formerly called SwissProt) (http://www.expasy.uniprot.org/)

• PIR (http://pir.georgetown.edu/home.shtml)• NCBI NR-dataset () -- all non-redundant GenBank CDS

translations+RefSeq Proteins+PDB+SwissProt+PIR+PRF

• EMBL databank (http://www.ebi.ac.uk/embl/)• trEMBL databank (http://www.ebi.ac.uk/trembl/)• GenBank

(http://www.ncbi.nlm.nih.gov/Genbank/index.html)

DNA genomico

Biblioteca de BACs

Organización por mapeo y agrupacion de clones

Secuenciacion deBAC

Subclones del BAC

Secuencia de subclones

Organización o emsamblaje de la secuencia

METODO DE PROYECTO GENOMA

Raw Genome Data:

El siguiente paso es localizar todos los genes y describir su funcion. 15-20 años mas!

TERTIARY STRUCTURE (fold)TERTIARY STRUCTURE (fold)

Genome

Expressome

Proteome

Metabolome

Functional GenomicsFrom gene to function

-AGGCTATCACCTGACCTCCAGGCCGA--TGCCC---TAG-CTATCAC--GACCGC--GGTCGATTTGCCCGAC

AGGCTATCACCTGACCTCCAGGCCGATGCCCTAGCTATCACGACCGCGGTCGATTTGCCCGAC

Secuencia: A L P S S K T G K G E S L S R I W D N

Secuencia: B L T K S A G K G A S R I D A

ALINEAMIENTO GLOBAL

gaps introducidos

L P S S K – T G K G E S L S R I W D N

| | | | | | | | |

L – – T K S A G K G A – – S R I – D A

ALINEAMIENTO LOCAL

bloques de secuencias alineados

– – – – – – – G K G – – – S R I – – –

| | | | | |

– – – – – – – G K G – – – S R I– – –

COMPARACION DE SECUENCIAS

MÉTODOS DE ALINEAMIENTO

1.Método de diagrama o Dot Matrix para comparar secuencias.2.Algoritmo de programación dinámica.3. Metodo de alineamiento estadistico

DOT MATRIX O METODO GRAFICO PARA COMPARAR SECUENCIAS

M H E G A M C A M

M 0 0

H 0

E 0

G 0

A 0 0

M 0 0 0

G 0

C 0

A 0 0

M 0 0 0

Divergencia Inserción / deleción Repeticiones internas X X X Y Y X

PROGRAMACION DINAMICA

GENERACION DE MATRICES PAM

Basada en puntos de mutación

GENERACION DE MATRICES BLOSUM

Es generada en alineamiento de bloques. La escala mas empleada es Blosum 62

ALINEAMIENTO POR METODO ESTADISTICO BAYESIANO

Los algoritmos empleando métodos estadísticos bayesianos pueden ser empleados desde la pagina web: www.wadsworth.org/res&res/bioinfo/

ALINEAMIENTO MULIPLE

  SeqA N . F L S

SeqB N . F - S

SeqC N K Y L S

SeqD N . Y L S

 

  N Y L S N K Y L S N F S N F L S

+ K - L

 

 

Y a F

 

ALINEAMIENTO MULIPLE

 PROGRAMACION DINAMICA

Para N secuencias se construye un hipercubo de N dimensiones y el número de comparaciones de de una secuencia de X aminoacidos es de Xn

B con C A con B con C

A con B

A con C

Secuencia A

Secuencia B

Secuencia C

ALINEAMIENTO MULIPLE

METODO PROGRESIVO Genera un Ancestro de las dos secuencias más proximas. Ej. Clustal, PILEUP

 

N Y L S N K Y L S N F S N F L S

N K/- Y L S N F L/- S

  N K/- Y/F L/- S 

DIRECCIONES ELECTRONICA PARA ACCEDER A PROGRAMAS DE ALINEAMIENTO DE PARES DE SECUENCIAS

PROGRAMA UBICACIÓN WEB TIPO DE ALINEAMIENTO

Laling www.ch.embnet.org/software/LALIGN_form.html Global/local

http//fasta.bioch.virginia.edu/fasta_www/plalign.html

USC www-hto.usc.edu/software/seqaln/seqaln-query.html Global/local

Alion fold.Standford.edu/alion/ Global/local

Align genome.cs.mtu.edu/alion/ Global/local

www.ebi.ac.uk/emboss/align Global/local

Blast2seqs www.ncbi.nih.gov/blast/bl2seq/bl2.html Local BLAST

web.umassmed.edu/cgi-bin/BLAST/blast2seqs

lalnview www.expasy.ch/tools/sim-pro.html Visualización

prss www.ch.embnet.org/software/PRSS_form.html Evaluación

fasta.bioch.virginia.edu/fasta/pss.htm

Bayes block aligner http://www.wadsworth.org/res&res/bioinfo Local

SIM http://www.expasy.ch/tools/sim.html Local

GAP, NAP http://genome.cs.mtu.edu/align/align.html Local

 

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS

Alineamiento global incluyendo el alineamiento progresivo

ClustalW o ClustalX FTP to ftp://ftp-igbmc.ustrasb.fr/pub/clustalW o X

DCA http://bibiserv.techfak.uni-biefield.de/dca

MSA http://www.psc.edu/

http://www.ibc.wustl.edu/ibc/msa.html

FTP to fastlink.nih.gov/pub/msa

PRALINE http://mathbio.nimr.mrc.ac.uk/jhering/praline

Iterativo y otros métodos

IterAlign http://glotto.Stanford.edu/luciano/iteralign.html

PRRP ftp://ftp.genome.ad.jp/pub/genome/saitama-cc

SAM rph@cse.ucsc.edu

HMM http://hmmer.wustl.edu/

GA czhang@watnow.uwaterloo.ca

OMA http://bibiserv.techfak.uni-biefield.de/oma

DIALIGN http:/www.gsf.de/biodv/dialign.html

http://protein.toulouse.inra.fr/multalin.html

ComAlign http:www.daimi.au.df/ocaprani

SAGA http:/ligs-server.cms-mrs.fr/cnotrd/Projects_home_page/saga_home_page.html

T-Coffee http://igs-server.cms-ms.fr/cnotred

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS

Alineamiento local de proteinas

ASSET (aligned Segment Statical Evaluation Tools)

FTP to ncbi.nml.nih.gov/pub/neuwald/asset

BLOCKS http://blocks.fhcrc.org/blocks/

eMOTIF http://dna.Stanford.EDU/emotif/

GIBB FTP to ncbi.nlm.nih.gov/pub/neuwald/gibbs9_95/

HMMER (Hidden Markov model software)

http://hmmer.wustl.edu/

MACAW FTP to ncbi.nlm.nih.gov/pub/macaw

MEME http://meme.sdsc.edu/meme/website/

UCSD http://www.sdsc.edu/project/profile/

SAM http://www.cse.ucsc.edu/research/compbio/sam.html

Filogenia Evolucion = mutaciones de secuencias

de DNA (y proteinas) Podemos definir relacion evolutiva entre

organismos comparando secuencias de DNA

PREDICCION FILOGENETICA

Método de Máxima Parsimonia

Los programas de Parsimonia en el paquete Phylip para ácidos nucleicos son:

DNAPARS que trata al “gap” como un quinto nucleótido

DNAPENNY modifica la parsimonia por ramas y enlaces. Puede analizar más secuencias (11 ó 12)

DNACOMP Emplea el criterio de compatibilidad. Este programa encuentra al árbol que mantiene el mayor numero de sitios o lugares. Este método es recomendado cuando el porcentaje de evolución varía en las regiones.

DNAMOVE interactúa la parsimonia y compatibilidad.

Para análisis de proteínas: PROTPARS contabiliza el número mínimo de mutaciones para cambiar un codon. Mutaciones silentes que no cambian aminoácidos no tienen puntuaciones y no tienen significancia evolutiva.

 

PREDICCION FILOGENETICA

Métodos de análisis de distancia evolutiva

Programas que emplean distancia evolutiva:

·    DNADIST programa contenido en el paquete Phylip calcula la distancia en ácidos nucleicos contemplando el porcentaje de transversiones y transiciones

·     PROTDIST calcula la distancia en proteínas basada en el modelo de Dayhoff PAM u otros modelos de cambios en proteínas.

·     FITCH estima un árbol empleando el método Fitch-Margoliash y no considera el reloj molecular.

·     KITSCH estima el árbol empleando el método Fitch-Margoliash pero considerando el reloj molecular.

·   NEIGHBOR estima la filogenia empleando el método Neighbor-joining no considera el reloj molecular y produce árboles sin orígenes.

PREDICCION FILOGENETICA

Método de la Máxima probabilidad (The Maximun Likelihood approach)

El método emplea los cálculos de probabilidad para ubicar el mejor árbol relacionado a las variaciones del grupo de secuencias. Es un método muy similar al de método de Máxima Parsimonia.

Requiere de tres elementos. Un modelo de evolución de las secuencias, un árbol y un dato observado.

El paquete de programas de análisis Phylip contiene dos programas que emplean este método de Máxima probabilidad:

El DNAML estima la filogenia de acuerdo a una frecuencia variable de los cuatro nucleótidos, y un desigual porcentaje de transiciones y transversiones.

El DNAMLK que estima la filogenia de la misma manera que el DNAML pero asume la existencia del reloj molecular (los genes evolucionan en una constante denominada reloj molecular).

 

PREDICCION DE SECUENCIAS DE PROTEINAS POR TRADUCCION

El principal problema es identificar una secuencia de aminoácidos que está codificada en una secuencia geonómica, para ello debemos comprender la manera en la cual los genes son especificados en el genoma o en otras palabras descifrar el código genético.

Los genes en los organismos eucariotas no se encuentran contiguos ni continuos, el genoma presenta regiones intergénicas largas y los genes son interrumpidos por intrones que en muchos genomas constituyen la mayor parte de la secuencia.

Diversas señales en las secuencias de ADN están involucradas en la especiación de genes, entre ellas tenemos a los elementos promotores, los motivos de terminación de la transcripción, los sitios donadores y aceptores de empalme (“splicing”) y los codones de inicio y terminación de la traducción

http://www.ebi.ac.uk/Tools/sequence.html

Time

Proteins and Evolution

YRMFEPKCLDAFANLRDFLARFEGLKKISAFRVAKFEIDKYANLNRWYENAKKVTPGWEE

YRVAFEPTLDAYANLRDFEGVKKITPE

YRVAKFELDAYANLRWENVKKITPE

FRVAKFELDKYANLRWENVKKITPGWE

YRVFEPDAYANLRDFLEGVKKITSE

FRVAKFELDKYANLRWYENAKKITPGWE

YRMFEPKLDAFANLRDFLREGVKKITSA

YRMFEPKLDAFANLRDFLREGVKKITSA

YRMFEPKLDAFANLRDFLAREGLKKITSA

FRVAKFE---IDKYANLNRW---YENAKKVTPGWEE.:. :: .: .::: . .:. ::.. YRM--FEPKCLDAFANLRDFLARFEGLKKISA

Time

Encontrar genes en el genoma no es facil • Cerca del 2% del genoma codifica son genes funcionales.

• Los genes estan interespaciados entre grandes regiones no codantes.

• Repeticiones, pseudo-genes, e intrones provocan confusion

• Es posible usar patrones de DNA para predecir un gen:• promotores• Codones de inicio y de stop (ORFs)• Sition de splicing• codon bias

• Tambien puede usarse la similaridad a genes conocidos /ESTs

PROGRAMAS PARA LA VISUALIZACION DE ESTRUCTURAS PROTEICAS

 

Programa Localización WEB Caracteristicas

 CHIME http:www.umass.edu/microbio/chime/ Permite manipular la estructura

dentro de la pagina WEB

 Cn3d http://www.ncbi.nlm.nih.gov/Structure/ Puede superponer imágenes para

realizar análisis de resonancia

magnética nuclear

 Mage http://Kinemage.biochem.duke/website/kinhome.html

Visualizador estandar con animación.

 Rasmol http://www.umass.edu/microbio/rasmol/ Es el mas completo de los

visualizadores

 Swiss 3D http://www.expasy.ch/spdv/mainpage.html Puede construir alineamiento

Viewer estructural, calcula ángulos

Spdbv atómicos y distancia, minimiza

la energía de la molécula e

interactua con el servidor Swiss

Model

ANALISIS DE SECUENCIAS EN EL GENBANK

Peptido A

Peptido A

Peptido B

Peptido A

Peptido B

PREDICCION DE FILOGENIA

Empleo de BIOEDIT para multiplealineamiento