Date post: | 20-Jun-2015 |
Category: |
Technology |
Upload: | cursongs |
View: | 2,378 times |
Download: | 4 times |
Introducción a la Bioinformática
Marta Cuadros, Carlos Cano
Departamento de Ciencias de la Computación e
Inteligencia Artificial
Universidad de Granada
De la Biología y la Informática a la Bioinformática……
Historia de la Informatica
Historia de la Biología Molecular
Bioinformática
De la Biología y la Informática ala Bioinformática……
¿Que es Bioinformática?
La bioinformática es un campo de la ciencia donde se
integran con la biología diferentes disciplinas como:
Source: http://ccb.wustl.edu/
…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Bioinformática
Físca-química
Biología
Molecular
Ciencias de
la Computación
Biología
estructural
EstadísticaMatemáticas
Teoría
de Control
Interdisciplinaridad y problemas decomunicación
El ADN es un polímero de
nucleótidos. Cada nucleótido está
formado por un grupo fosfato,
una desoxiribosa y una base
nitrogenada.
Los nucleótidos se diferencian
por sus bases nitrogenadas
divididas en dos grupos: dos
purínicas denominadas adenina
(A) y guanina (G) y dos
pirimidínicas denominadas
citosina (C) y timina (T).
GCCACATGTAGATAATTGAAACTGGATCCTCA
TCCCTCGCCTTGTACAAAAATCAACTCCAGAT
GGATCTAAGATTTAAATCTAACACCTGAAACC
ATAAAAATTCTAGGAGATAACACTGGCAAAGC
TATTCTAGACATTGGCTTAGGCAAAGAGTTCG
TGACCAAGAACCCAAAAGCAAATGCAACAAAA
ACAAAAATAAATAGGTGGGACCTGATTAAACT
GAAAAGCCTCTGCACAGCAAAAGAAATAATCA
GCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAA
AG
Es una cadena / “string” de
longitud variable y con un
alfabeto de cuatro
caracteres A, T, C, G
El crecimiento exponencial de datos y la era de la información
10 Enero 2011:
225,047,396,161 bases
Bioinformatica: convergencia de dos
revoluciones
Hoy en día…
...las nuevas tecnologías
en biología están
cambiando la forma de
abordar los problemas
debido a:
-la gran cantidad de datos
- y las multiples tipologías
de estos
Ninguna persona o grupo puede tiene
una visión general de todo lo conocido
Se hace necesaria la aparición de
ciencias interdisciplinares como
la Bioinformatica
Ámbito de aplicación de la Bioinformática
ADN
ARN
Proteína
Trascripción
Traducción
Replicacion
ncRNAs
Dogma Central de la Biología
Fenotipo
Modificaciones
post-transduccionales
Bioinformatica: Omas y Omicas
ADN
ARN
Proteína
Trascripción
Traducción
Replicacion
Fenotipo
Modificaciones
post-transduccionales
GenomicaSecuencias primarias (DNA, RNA)
Bases de datos (BD), algoritmos
Genomas
Estudios de evolución molecular
Transcriptomica(Genomica Funcional)Datos de expresion (Microarray data)
BDs, herramientas de analisis
ProteomicaSecuencias de proteina y estructuras
espectometría de masas, rayos-X,
cristalografia
Biologia de sistemas (metabolòmica)
flujos metabólicos Interactómicaredes de interacción
Genómica y genomas
Es el estudio de la secuencia estructura y
funcion del genoma
Año Numero de Geomas
secuenciados
1994 0
1995 1
Enero 2011 1780
Eucariotas 272 (41 mamiferos)
Bacterias 1518
Arqueobacterias 81
Especies Conocidas Evolución de los genomas
secuenciados en los últimos
años
Projecto: Genoma Humano
Projecto Internacional
Determinar la secuencia genomica humana y de
otros oganismos modelo
Tiempo y coste
han sido los factores limitantes
15 Febrero 2001
Etapas en el proyecto genoma
1991..Human Genome Project begins
1994-1996..genetic maps
1995-1998..physical maps
1998..DNA sequencing begins
2000...Rough draft DNA sequence
2003…Complete DNA sequence
2005…...Gene map complete
Evolución del Coste y tiempo
necesario para la Secuenciación
de Genomas
13
2010: 5000$, a few days?
2009: Illumina, Helicos40-50000$
Year
Lo
g1
0(p
ric
e)
201020052000
10
8
6
4
22012: 100$, <24 hrs?
2008: ABI SOLiD60.000$, 2 weeks
2007: 4541M$, 3 months
2001: Celera100M$, 3 years
2001: Human Genome Project2.7G$, 11 years
Transcriptomica
Desde la caracterización del genoma
humano, han surgido nuevas vías de
investigación sobre el análisis global
del material genético.
Es evidente que NO todo el genoma
es transcrito y traducido finalmente a
proteínas
Transcriptoma surge para
representar todo el mRNA transcrito
bajo unas circunstancias, de forma
global.
Cada organismo tiene infinidad de
transcriptomas dependiendo del tipo
tisular o las condiciones ambientales
que se estudien.
DNA chip technology
amarillo No especifico
rojo Especifico Muestra 1
verde Especifico muestra 2
Muestra 1
sano
Sintesis de
cDNA
fluorescente
RNA RNA
cDNA cDNA
DNA chip
Extracción
de ARN
Source: deRisi et al., Science 1997
Transcriptomica
Muestra 2
enfermo
Interpretación
Proteoma y Proteomica
Proteoma. Es el set completo de proteinas y otros
productos génicos producidos por el genoma.
Proteomica. Es el estudio de las interacciones entre
proteinas, incluyendo diferencias en los distintos
estados del desarrollo, tejidos y organos.
Datos y ciencias utilizadas actualmente en estudios Bioinformáticos
¿Para qué es necesaria la Bioinformática?
Establece puentes entre distintas
áreas de conocimiento
Lo cual facilita la integración
de información y una mejor
comprensión de los sistemas
Biológicos
…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Medicina Molecular
◦ Nuevos medicamentos
◦ Medicina personalizada
◦ Medicina preventiva
◦ Terapia génica
Aplicaciones genomas
microbiano
◦ Residuos de limpieza
◦ El cambio climático
◦ Fuentes alternativas de energía
◦ Biotecnología
◦ Resistencia a los antibióticos
◦ Análisis forense de los microbios
◦ Estudios evolutivos
Agricultura
◦ Cultivos
◦ Resistencia a los insectos
◦ Mejorar la calidad nutricional
◦ cultivos en suelos más pobres y que son
resistentes a la sequía
Animales
Estudios comparativos
Tipos de estudios que han utilizado la Bioinformática
Bases de Datos Biológicas
¿Qué es una base de datos?
¿Qué tipos de datos hay disponibles?
¿Qué es el esquema Genbank ?
¿Cómo es una entrada de datos en una BD biologica?
¿Cómo se usan?
¿Que es una base de datos?
Es una colección de datos que tiene que ser:
◦ estructurada
◦ buscable
◦ actualizaciones regulares
◦ links y referencias a otras colecciones de datos
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb,
ARR, AsDb, BBDB, BCGD, Beanref,
Biolmage,
BioMagResBank, BIOMDB, BLOCKS,
BovGBASE,
BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,
CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP,
DictyDb,
Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract,
ECDC,
ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL,
EMD db,
ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,
GCRDB, GDB, GENATLAS, Genbank, GeneCards,
Genline, GenLink, GENOTK, GenProtEC,
GIFTS,
Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-
R-Us,
MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-
lycBase,
OMIA, OMIM, OPD, ORDB, OWL, PAHdb,
PatBase, PDB,
PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,
PPDB, PRESAGE, PRINTS, ProDom, Prolysis,
PROSITE,
PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,
SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,
SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,
SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE,
SWISS-
MODEL Repository, SWISS-PROT, TelDB, TGN,
tmRDB,
TOPS, TRANSFAC, TRR, UniGene, URNADB, V
BASE,
VDRR, VectorDB, WDCM, WIT, WormPep, YEPD,
YPD,
YPM, etc .................. !!!!
Algunas Bases de datos Biológicas
Tipos de Bases de Datos
Database Types
Nucleotide
Sequence
RNA Sequence
Protein
Sequence
Structure
Genome (non-
human)
Pathways
Genome
(human)
Disease
Gene
Expression
Other Hay muchas BD de Genomas
La mayoria no son de secuencias
Hay muchas bases de datos especificas
Bases de datos especializadas en
enfermedades
EBI
GenBank
DDBJ
EMBL
EMBL(Europa)
Entrez
SRS
getentry
NIG (JAPON)
CIB
NCBI
NIH (USA)
•Submissions•Updates
•Submissions•Updates
•Submissions•Updates
• Actualizaciones diarias entre
los paises
• DDBJ, GenBank and EMBL.
Tipos de Bases de Datos Biologicas
Primarias (almacenamiento)
GenBank/EMBL/DDB
UniProt (proteinas)
PDB (estructuras)
Medline (PubMed) Articulos
Secondary (curadas)
RefSeq
Taxon (taxonomia)
SwissProt (proteinas curadas)
OMIM (genes-enfermedades)
Formatos frecuentes de secuencias
de ADN y Proteinas
Genbank
ASN1
FASTA
GCG
IG(Intelligenetics)
Text
>gi|1345098|gb|U30791.1|PCU30791
TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA
TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG
GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC
AA
¿Cómo averiguar si una secuencia ya existe
en una Base de datos?
¿Cómo averiguar si hay una secuencia
similar a la mia en otro genoma?
¿Cómo averiguar cual es la funcion de mi
secuencia desconocida?
La respuesta:
Busquedas de similaridad
Por homología (similaridad en la secuencia)
Una base de datos
de secuencias
donde BUSCAR
Requiere una
secuencia para
buscar
>Mi_Secuencia_desconocida
TGAATTCTAAATTTTATATT
TCTAATTGCATTTTATATTTT
TGATAATACTAGATTTATTC
CTGGAAACTTAAATTAGTT
ATTTTAAGTTATGGGATGTT
GTTTTTCTGCTACATATAAC
CAAGATACACTTCGTTCCA
A
Un Algoritmo para
buscar con mi
secuencia en la Base
de datos
BLAST (Basic Local Alignment Search Tool)
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Encuentra las regiones de similitud entre secuencias locales.
El programa compara secuencias de nucleótidos o proteínas con bases de datos de
secuencias y calcula la significancia estadística de concordancias. BLAST puede ser
usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como
ayudar a identificar a miembros de familias de genes.
BLAST
Distintos Tipos de BLAST
ProgramaTipo de Base
de datos
Secuencia
desconocida
Tipo de
Alineamiento
BLASTP Proteina Proteina Gapped
BLASTNADN
(Nucleic)
ADN
(Nucleic)Gapped
BLASTX Proteina
ADN
Traducido a
Proteina
Frame
Gapped
TBLASTN
BD de ADN
Traducida a
Proteina
ProteinFrame
Gapped
TBLASTX
BD de ADN
Traducida a
Proteina
Trans.
NucleicUngapped
Basic BLAST
Specialized BLAST
Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El
doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.
Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es
probable que ustedes se estén preguntando de donde viene nuestro ADN de
dinosaurio.
Es algo que me pasó por la cabeza, dijo Grant.
A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de
anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de
dinosaurio.
¿Con qué rendimiento?, preguntó Grant.
Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el
veinte por ciento de las proteínas es aún recuperable a través de la pulverización de
los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo
empleó para obtener proteína de marsupiales australianos extinguidos, así como
células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada
que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de
material, es decir, cincuenta mil millonésimas de gramo.
¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.
Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es
insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio
para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras
amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a
Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo
con la cabeza.
Sigo sin entenderlo , admitió Grant.
La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.
Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se
encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores
que succionaron sangre de animales más grandes.
Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere
decir «succionaron la sangre de los dinosaurios».
Con suerte, sí.
Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo
hubiera pensado! Podría funcionar.
Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios
estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar
que contenía una mosca bajo los objetivos dobles.
Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a
través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto
tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y
obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,
hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo
sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido
un proceso largo y lento, pero que rindió buenos resultados.
Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el
gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo
eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.
Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo
identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.
Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte
zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de
la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la
cintura de un hombre:
Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas
las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes
Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,
que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en
el centro de una fábrica increíblemente poderosa de productos genéticos.
Intentemos ayudar al Dr. Wu a identificar
su secuencia>LostWorld DNA
gaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac
tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt
ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc
cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa
atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc
actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc
tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag
aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa
ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa
actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta
aaaagcggcg ccccccgggggggggaaacc cctccgccac cgcgggaggg ggcgctccta tggggggagg
gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct
ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca
gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt
cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt
gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta
aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg
aattc
¿Existe una proteína similar?
Vamos a hacer un Blastx con esta secuencia
BLASTx Proteina
ADN
Traducido a
Proteina
Frame
Gapped
Copiar y pegar la
secuencia en el cuadro
Pincha en Blast
Selecciona el algoritmo adecuado
Seleccionar la Base de Datos
Resultados: ¿como interpetarlos?
Resultados: ¿cómo interpretarlos?
Resultados: ¿como interpetarlos?
Resultados: ¿como interpretarlos?
2.Haz un Blastx.
Busca proteínas usando la secuencia de nucleótidos
La secuencia publicada en el libro de Michael Crichton “El mundo
perdido” ( The Lost World) la generó Mark Boguski, el experto en
biología molecular con el que trabajo Mr. Crichton para escribir la
clonación de los dinosaurios. Mark gastó una broma cuando hizo
esta secuencia.
Si seguimos el link
¿Como conseguimos más
informacion?
¿que podemos deducir?
1- Existe una proteina
que se parece mucho a la
nuestra, pero no tiene la
misma longitud
2- La proteina es un factor
de transcripcion de
eritrocitos, es decir una
proteina que activa la
expresion del un gen para
la produccion de globulos
rojos en pollo (Gallus
gallus)
¿Y si buscamos en una base de datos de
secuencias nucleotidicas?
Vamos a hacer un Blastn con esta secuencia para buscar si hay
alguna/s secuencias de ADN similares
BLASTNADN
(Nucleic)
ADN
(Nucleic)Gapped
Copiar y pegar la
secuencia en el cuadro
Pincha en Blast
Selecciona el algoritmo adecuado
Seleccionar la Base de DatosOthers
Resultados: ¿como interpetarlos?
Gallus gallus
GATA binding protein 1
(globin transcription factor 1)
Chicken erythroid-specific
transcription factor eryf1
mRNA, complete cds
Xenopus laevis
GATA-binding protein
(XGATA-2) gene,
complete cds
Xenopus laevis
GATA binding
protein 1 (globin
transcription factor
1) (gata1-b), mRNA
Nuestra secuencia de Dinosaurio
esta compuesta de 3 secuencias
actuales
¿Que significa lo que hemos encontrado?
Nuestra secuencia desconocida
capturada en el ámbar hace
millones de años está compuesta
de 3 secuencias actuales de dos
especies distintas
1 de Gallus gallus (pollo)
2 de Xenopus laevis (la rana)
Podemos concluir que
nuestra secuencia es de
Dinosaurio
¿Qué es Ensembl?
•Es un repositorio de genomas completos e información
adicional.
•Tiene múltiples niveles de acceso con una gran
flexibilidad.
Da acceso tanto al genoma humano como a otros
50 genomas.
Permite la realización de búsquedas de homología
Permite descargarse regiones completas del
genoma, genes, proteínas, ect..
Permite extraer todas las SNPs en un gen concreto,
así como sus consecuencias.
http://www.ensembl.org
¿Existen otros navegadores genómicos?
NCBI Map Viewer
http://www.ncbi.nlm.nih.gov/mapview/
UCSC Genome Browser
http://genome.ucsc.edu
• Ensembl basa su anotación en evidencias experimentales:
mRNA y proteínas (más fiable)
• Permite realizar análisis comparativos de genes
• Permite la integración de datos procedentes de otras bases de
datos (DAS)
• Permite realizar minería de datos: BioMart (Data-mining tool)
¿Cuál es la diferencia de estos
navegadores comparados con
Ensembl?
50 especies la mayoría son vertebrados
Genomas disponibles en Ensembl
• ARNs (genes no codificadores de proteínas)
• Referencias a bases de datos externas
• Genes, proteínas, variaciones de un gen
• Otras características del genoma: elementos repetitivos,
islas CpG
• Secuencias similares y alineamientos de secuencias al
genoma completo
• Datos de regulación: promotores
• Datos de otras fuentes o usuarios(DAS)
¿Qué datos podemos encontrar?
Genoma
cDNAs alineado
y proteínas
Exon Exon Exon
Untranslated+Coding Coding Untranslated
…. demasiada información y poco interpretable
Integración de la información
con evidencia subyacente
Ensembl muestra sólo transcritos
tipo
¿Qué significa una ID en
Ensembl?
ENSG### Ensembl Gen ID
ENST### Ensembl Transcrito ID
ENSP### Ensembl Proteína ID
ENSE### Ensembl Exon ID
Para las demás especies, se añade un código de tres
letras que la representa:
MUS (Mus musculus) for mouse: ENSMUSG###
DAR (Danio rerio) for zebrafish: ENSDARG###, etc.
¿Cómo está organizada toda la
información?¿Cómo accedo?
Ensembl Views
(Website)
• BioMart „DataMining tool‟
• Vamos a obtener el resumen de datos para el gen y sus enlaces
relaccionados: (Gene Tab)
• ¿Cuántas variantes tiene el gen?
• Vamos a ver las secuencias genómicas para esas variaciones
• Vamos a encontrar secuencias con la misma función en otros
organismos
• Vamos a obtener los datos para cada transcrito: (Transcript Tab)
• ¿Cuál es la secuencia de la proteína que codifica?
• ¿Qué informaciones podemos encontrar en otras bases de
datos?
•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:
(Location Tab)
Nuestro ejemplo: el gen de la rodopsina humana (RHO)
Vamos a pasear por el genoma…
Vamos a empezar…
Ve al navegador y accede a
www.ensembl.org
Vamos a buscar con el nombre del
gen
Escribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen y
presiona el botón „Go‟ .
¿Cómo encuentro lo que busco?
Selecciona el primer
resultado
Location Tab o ¿dónde está mi gen?
Genes que
rodean a
RHO
Variaciones
conocidas del
gen Rho
Todas las visualizaciones se pueden personalizar, añadiendo o retirando información.
Para ello usa el enlace Configure a tu izquierda.
¿Qué son los enlaces en la ventana
de la izquierda?
¿Cómo veo la
secuencia en el
genoma?
Selecciona Gene Tab
Para configurar la página haz
click aquí
Selecciona: Display variations
Determina el número
de líneas: Number of lines
¿Cómo defino lo que quiero ver?
Después de investigar las ventanas: Location/Gene display,
nos gustaría conseguir la secuencia genómica en la que se
encuentra el gen RHO.
Para ello ve a “Export data option” y haz click en “Next”
¿Cómo puedo extraer la secuencia?
Genómica Comparativa: Alineamientos
genómicos
¿Cómo puedo ver los
alineamientos genómicos
que hay de esta region?
Para ver el alineamiento genómico a
nivel de nucleótidos
Selecciona “12 eutherian mammals
EPO”. EPO se refiere al flujo de
programas detrás de los alineamientos
de genomas completos
Los residuos idénticos están
marcados
• Ortólogas: Son secuencias muy parecidas que
realizan la misma función en distintos organismos.
Normalmente comparten un ancestro común y se
identifican en los árboles por eventos de especiación.
• Parálogas: Cualquier secuencia parecida que
proviene de un proceso de duplicación. Normalmente
terminan desempeñando otra función.
Tipos de secuencias Homólogas
Secuencias homólogas son secuencias muy parecidas
Haz click en Gene tree (image). Esta imagen te muestra todos los genes
parecidos a tu secuencia en el contexto de un árbol filogenético.
Este árbol sirve para identificar secuencias ortólogas y parálogas
Click en cualquier nodo para extender o reducir el árbol.
Click en
Orthologues para
ver las
secuencias
ortólogas
identificadas por
el árbol
Cómo ver secuencias Homológas en Ensembl:
Tree View
¿Qué es „1 to 1‟?
¿Qué es „1 to many‟?
one-to-one ortólogo:
En ambas especies sólo hay un ortológo.
one-to-many or many-to-many ortólogos:
en al menos una de las dos especies hay una
duplicación después de la separación de ambas
especies (especiación)
Tabla de secuencias ortólogas
Un cuadrado
rojo es un
proceso de
duplicación
(Paralogos)
Un cuadrado
azul es un
proceso de
especiación
(Orthologos)
Cómo interpretar los árboles
Vuelve al Gene Tab.
Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte
informativa).
Selecciona el transcrito más largo de la tabla (ENST00000296271).
Esto te llevará al resumen del transcrito Transcript Tab
En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres
ver.
Gene Tab: Información de un gen
Selecciona Exons en el menú de la izquierda para visualizar las secuencias de
los exones. Esta vista te muestra
(exones, intrones y las secuencias que flanquean al gen).
Configure para cambiar la vista:
enseñar las secuencias de los intrones enteras,
mostrar sólo exones, ect..
Intrones
(azul)Secuencias codificadoras de
proteínas (CDS)
(negro)
UTRs
(morado)
flancos
(verde)
Exones de un Transcrito
General identifiers
Aquí podrás ver todas las referencias
a bases de datos externas que se
conocen sobre tu secuencia.
¿Hay información sobre mi
secuencia en otras bases de datos
biológicas?
Ensembl
proteína
Motivos
mapeados a la
secuencia
Haciendo
click en
Domains &
features se
muestran
todos los
motivos
que se han
encontrado
en la
proteína.
¿Cómo es la proteína que codifica mi
gen?
• Polymorfismo: Es una variación del ADN que está presente en al
menos un 1% de la población
• El 90% de los polimorfismos son SNPs (Single Nucleotide
Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo)
en el ADN
Variaciones Genómicas: SNP
Type Description Consequence
non-synonymous SNP SNPs en el ADN altera un
aa de la proteína
Fibrosis cística(CFTR)
Hemofilia (F8)
synonymous SNP SNPs en el ADN no altera
la secuencia de la proteína
Pero puede afectar a la
correcta producción del
transcrito
regulatory SNP SNPs está en una región
reguladora de la expresión
Puede afectar el nivel de
expresión
SNPs en otras regiones Útiles como marcadores “No tiene impacto”
Mira la tabla de variaciones para RHO a partir de la Gene Tab
Tabla de Variaciones Genómica
Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito
Selecciona en
Configure
“Consequence
Type”
Selecciona sólo
Non_Synonimo
us SNPs
Imagen de Variaciones Genómica
Conceptos básicos antes de empezar
GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA
GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC
TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG
ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC
AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG
CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT
GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG
TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG
ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA
AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT
ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA
CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA
ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA
GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT
ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT
TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC
TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG
AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG
AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC
AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT
AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT
TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG
AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT
CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT
TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA
CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA
TGCCAGCAGATTCTGTGTCTGCTGAGG
¿Qué es el ADN?
Es un alfabeto de 4 caracteres
Este alfabeto de 4 caracteres contiene suficiente información para
crear organismos complejos, mediante el uso de largas palabras
Similitud con el código binario
¿Qué es el ADN?
• ADN: Deoxyribonucleic Acid (ácido dexosiribonucleíco)
• 4 nucleotidos:
– Adenosina (A)
– Citosina (C)
– Guanina (G)
– Timina (T)Azúcar
Fosfato Base nitrogenada
Nucleótido
Un Gen es un segmento de
DNA que da lugar a una
proteína
Guanina (G)
Citosina (C)
Siempre se une a
Adenina (A)
Siempre se une a
Timina (T)
A G CT A T G C
T C GA T A C G
Proteína
Ser Stop
C
Arg
G
Estructura de un gen
Esquema de la transcripción
Adenina Timina Guanina Citosina
20 aminoácidos
Código genético
Un codón tiene 3 bases
4 * 4 * 4 = 64 combinaciones posibles (codon)
Codón de inicio: AUG
Codónes de parada o Stop: UAA, UAG, UGA
61 codones codifican el resto de los 20 amino ácidos (AUG también
Metionina)
Organización del genoma humano
Distribución no uniforme de genes y repeticiones a
lo largo del GH.
5% es codificante
50% es copia única
50% DNA repetitivo
Organización del genoma humanoCariotipo normal: 46, XX
Organización del genoma humano
Ejemplo de organización de una
región del GH
Organización del genoma humano
93
IntroducciónOrganización del genoma humano
Cambios permanentes/heredables producidos durante la
replicación de DNA
Probabilidad de mutación en células humanas: 1 de cada 105
Mutación
DURANTE LA REPLICACIÓN:
-Roturas de una de las hebras de DNA (DNA polimerasa
I/DNA Ligasa)
-Inserción de un nucleótido (DNA polimerasa
(exonucleasa3’-5’, actividad correctora de errores)
POR EXPOSICIÓN A RADIACIONES EXTERNAS:
-Formación de dimeros de timina (DNA polimerasa
I/endomnucleasa 5’-3’
Mecanismos celulares de reparación
A C T G C T
A C G C
TA C G C TC
A C T G C TT
SUSTITUCION
INSERCION
DELECION
- T
+ T
TxC
Mecanismos de mutación
MUTACIÓN
C A C A A G U A U C A C
His Lys Tyr His
His Lys Tyr His
C A C A A G U A G C A C
Mutación neutra
C A C A A G U A U C A C
His Lys Tyr His
C A C A A G U A A
His Lys
TRIPLETE DE
PARADA
MUTACIÓN
Mutación sin significado
(nonsense mutation)
MUTACION
C A C A A G U A U C A C
His Lys Tyr His
C A C A A G U G U C A C
His Lys Cis His
Mutación de significado erróneo
(missense mutation)
La detección de mutaciones es esencial para la caracterización
molecular, diagnostico, prevención y tratamiento de enfermedades.
Los cambios en el DNA son responsables de fenotipos particulares
MÉTODO DE DETECCIÓN:
- SECUENCIACIÓN DIRECTA
- ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP)
- SSCP (Single-Strand Conformational Polymorphism)
- HA (Heterodúplex Analysis)
- CSGE (Conformation Sensitive Gel Electrophoresis)
Métodos de detección de
mutaciones
Qué son los SNPs?
GAGAC
GATAC
La secuencia nucleotídica de dos personas difiere
en un punto determinado de ésta
Ocurre muchas veces?
Es la variación genética más abundante en los genomas
y en especial en el Genoma Humano
Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases
Actualmente se conocen más 2.25x106 validados
Transitiones: pu/pu (A y G) py/py (T y C) (~70%)
Transversiones: py/pu
Qué son los SNPs?Allele frecuency (1%)
Frecuencia alélica o frecuencia génica es la proporción que se
observa de un alelo específico respecto al conjunto de los que
pueden ocupar un locus determinado en la población.
Qué es un alelo?
Alelo es cada una de las formas alternativas que puede tener un
gen que se diferencian en su secuencia y que se puede manifestar
en modificaciones concretas de la función de ese gen.
Qué es un locus/loci?
Locus (plural loci) es una posición fija sobre un cromosoma,
como la posición de un gen o de un biomarcador (marcador
genético).
El locus cromosómico de un gen podría ser anotado, por ejemplo,
como 22p11.2:
Haplotipos
En general, en las diferentes regiones cromosómicas se observan
pocos haplotipos
Estos pocos haplotipos representan la mayoría de variación
existente entre distintas personas de una población
Combinación de alelos en diferente loci a lo largo de un
cromosoma los cuales son transmitidos juntos de una
generación a la siguiente
C/T G/A
CG
CA
TA
TG
CG
CA
TG
TA
CG
CG
TA
TA
CA
CA
TG
TG
CG
TA
TG
CA
CA
TA
CG
TG
haplotipos diplotipos
Gen
Alelos posibles
Uno de los posibles haplotipos
o = LD
+ disease
Haplotipo de riesgo
Qué es un haplotipo
Qué son los SNPs?
• Polimorfismo: coexistencia de variante en la población sin
repercusión fenotípica.
• Presentes en un porcentaje superior al 1% de la población
general.
• Lo que hace que todo el mundo sea portador de varios
cambios respecto a sus vecinos.
• Diferentes tipos: genéticos, cromosómicos, proteínicos.
• Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....
• Responsables de la variabilidad humana.
Tipos de
Polimorfismos
SNP = single nucleotide polymorphism
Cambio simple de una base por otra
Pequeñas delecciones e inserciones
Large-scale copy-number variation/polymorphism
(LCV/CNP):
Delecciones e inserciones grandes que llevan a
variación en el número de repeticiones de una
secuencia
Alteraciones estructurales: inversiones,
translocaciones y aneuploidías
Genetic
Environmental
Disease
Cause
Mendelian diseases
Independently from genetic
input
Common multifactorial
complex diseases
Papel de los SNPs en las
enfermedades compleja
Gen A
Enfermedad monogénica
100
Riesgo genético en distintas familias
30
Riesgo genético en distintos individuos
100
Riesgo genético poblacional
100
30
Riesgo genético poblacional
Gen A
Gen B Gen C
Gen D
Enfermedad compleja
Herencia dominante, recesiva o ligada al X
Caso esporádico
Papel de los SNPs
Modelo multilocus interactuando con factores
ambientales
Gen principal Genes modificadores Ambiente
Gen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2
Fenotipo
Para qué sirven SNPs?
1. Como variación directamente asociada a fenotipo/enfermedad
SNPs causales (con función y efecto fenotípico)
Farmacogenética (enzimas con cambios funcionales en proteína o
promotor. Influyendo en la actividad o expresión y por tanto en la capacidad
de metabolizar)
SNPs que afectan la terapia contra
leucemias a | La mercaptopurina (MP) se
convierte en nucleotido tioguanina mediante
(HPRT) (metabolito activo),
Otro enzima, la TPMT convierte la MP en (MeMP),
el metabolito inactivo.
b | La frecuencia en la población de la actividad
de TPMT muestra un patrón trimodal.
--0.3% (mut/mut) for mutations in TPMT,
--10% (wt/mut) for mutations in TPMT,
-- 90% (wt/wt) TPMT.
c | TPMT genotipo esta correlacionado con el
fenotipo.
Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.1. Asociación: Casos vs Controles no relacionados
REPRESENTATIVE BREAST CANCER POPULATION
REPRESENTATIVE CONTROL POPULATION
Clinical information of tumours(histológical grade, tumor grade,
....)Patient age/ diagnostico age
Environmental data:(smoke, alcohol, diet, sport...)
........
Ej: 900 cases/900 controls
CNIO Human genetics Depart
Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.2 Búsqueda de genes implicados en enfermedades: familias
A
B
C
D
a
b
c
d
a
b
c
d
a
b
c
d
A
B
C
D
a
b
c
d
a
b
c
d
a
b
c
D
a
B
C
D
A
B
C
d
A
b
c
d
a
b
c
D
a
b
c
d
a
b
c
d
a
b
c
d
a
b
c
d
a
b
c
d
a
b
c
d
a
b
c
d
a
b
c
d
Los Haplotipos se realizan para
confirmar la posición del locus de la
enfermedad.
Seguimiento de los marcadores a traves
del pedigree observando los puntos de
reconbinación
Tradicionalmente realizados con
microsatélites en enfermedades
monogénicas,
Actualemente se pueden realizar con
SNPs (menos informativos pero mucho
más abundantes).
1 2
3 4 5 6
7 8 9 10
Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.3 Genética de poblaciones
Otras aplicaciones:
Forense: Identificación individuos y/ relaciones de parentesco
clasificación de especies/subespecies (plantas y animales)
TFS Amino acid
change
Directamente: SNPs (funcionales)
Haplotipos: mirando desequilibrio de ligamiento
Cómo trabajar con los SNPs?
LD = 0 LD = 1
Alto LD.
Pocos Haplotipos
>% de representación
Bajo LD.
Muchos Haplotipos
<% de representación
Desequilibrio de ligamiento
Tag_SNP
Genotipar tag_SNPs en un bloque con alto desequilibrio de
ligamiento da la misma información que genotipando todos los
SNPs comunes presentes.
Ventaja: económica y tiempo en obtener resultados
Re
lative
po
we
r (%
)
Average marker density (per kb)
tag SNPs
random
SNPs
~300,000 tag SNPs
needed to cover common
variation in whole genome
in CEU
Eficacia y poder
THE INTERNATIONAL HAPMAP PROJECTA community resource for disease gene discovery
Proyecto HapMap:
http://www.hapmap.org/index.html
% sequencing among partners
Japan
25%
UK
24%
Canada
10%
China
10%
USA
31%
• 270 DNAs from different populations
• 30 trios from Nigeria (Yoriba)
• 45 Han Chinese (Beijing)-
• 45 Japanese (Tokyo)
• 30 trios from CEPH:
-African_American
-European_American
chromosomes to be screened
5,11,14,15,16,17,19
1,6,10,13,20
2,4p 3,8p,21
8q,9,18q,22,X,4q,7,18,Y,12
Proyecto HapMap
• Desarrollo tecnológico: plataformas/herramientas
análisis
• Definir patrones de variación genética a lo largo del
genoma humano
• Guiar la selección de SNPs eficientemente hacia
variantes comunes “tags”
• Acceso público de todos los datos (ensayos, genotipos,
ld, bloques, tags) via página web.
Phase I: 1.3 M markers in 270 people
Phase II: +2.8 M markers in 270 people
Variabilidad Humana (Proyecto Genoma Humano)
• A raíz del proyecto Genoma Humano se vio que el 0.1%
de nuestro genoma es variable, en gran parte debido a los
SNP ó polimorfismos de una sola base.
•Los SNP son muy frecuentes (se han descrito alrededor
de 8 millones a lo largo del genoma)
• Están localizados tanto en intrones como en exones (5-
10 SNPs/gen)
• Pueden producir ligeras alteraciones en la proteína que
van a ser responsables de nuestra variabilidad.
Proyecto HapMap
Como se detectan los SNPs?
LTA
TNF
LST
Allele1 (A)Allele2 (G)
Allele2 (A)Allele1 (G)
Allele1 (A)Allele2 (C)
G (wt)
G (het)A
CSGE
SSPC
DHPLC
Desventajas: muestra, tiempo, dinero.
1 muestra – 1 SNP
Secuenciación
Técnicas clásicas de genotipado
Permite genotipar 384 muestras para un único SNP.
Ventaja: mayor número de muestras.
Taqman
Hom atgHom tgt
Het A(2nd,3rd pos)Hom tgt
Het B (1st postion)Hom tgt
Hom atg
2a. DHPLC results
Discriminates Heteroduplex fragments from homoduplexes
. Appropiated fragment melting t
. Specific ACN % according to size and GC content
NME1 promotor fragment
DHPLC
SNPlexIllumina Sequenom
+ -Capacidad de genotipado
Amplificación
Minisecuenciación
Análisis Espectrómetro
384 muestras/plexes de 8
SNPs
Extensión
Amplificación
Hibridación sondas
fluorescentes
384 muestras/plexes 48 SNPs
Highthoughput
Plataforma Illumina1536 tipos de Bead
Un solo tubo
P35’
P1
P25’
3’
P1
P2
P3
DNA Genómico
Captura en soporte sólido
Hibridación de oligos
Extensión alelo-específicay Ligación
PCR con primers Universales
Etiqueta
Etiqueta
Hibridación contra el arrayEscaneo
T/T C/CT/C
LSO
ASOs
electroforesis
NNNNNNNNN
ZipCode1
NNNNNNNNN
ZipCode2
A1A1 A2A2A1A2
SNPlex
1. Activación de los oligonucleótidos
2. Ligación de los oligonucleótidos
3. Purificación de los oligonucleótidos ligados
4. Amplificación con primers universales
5. Captura del DNA biotinilado
6. Hibridación con sondas ZipChute
7. Elución de las sondas ZipChute
8. Electroforesis capilar para la detección de las sondas ZipChute
9. Análisis de los resultados con GeneMapper
La tecnología de MassArray (Sequenom) se basa en la detección de los
productos de la reacción de discriminación alélica mediante MALDI-TOF.
El proceso de genotipado consta de dos reacciones.
• Amplificación de los fragmentos de ADN que contienen los SNPs de
interés mediante una PCR multiplex.
• Reacción de discriminación alélica, a través de una reacción de
minisecuenciación que bien terminará en la base polimórfica o bien
continuará por la región amplificada de cada SNP dependiendo de la
presencia o ausencia de uno de los dos alelos.
El uso de cebadores de minisecuenciación con distintas longitudes permite
identificar los picos de los productos de cada SNP. Las reacciones tienen lugar
en placas de 384 pocillos y los productos de dichas reacciones son
transferidos de forma automatizada mediante un robot a la superficie del chip
que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips
simultáneamente..
Capacidad aproximada: 45.000 genotipos / semana
Sequenom
NEXT SEQUENCING (NGS)
Plataforma Casa comercial Técnica DNA Longitud
lectura
454 Roche Síntesis Emulsión PCR 250-400pb
SOLID Applied
Biosystem
Ligación Emulsión PCR 50pb
Helicoscope Helicos Síntesis No
amplificación
25-25pb
GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pb
Plataforma Capacidad Precio Error Errores
454 300 Mb/día 60$/Mb <1% Si hay muchas
bases iguales no
sabe cuantas
SOLID
Lee todo 2 veces
Lee en los 2 sentidos
600 Mb/día 1$/Mb <0,1% Sustituciones
Helicoscope 1200Mb/día
90Gb
1$/Mb Alto 4% NC
GenomeAnalyzer
Lee en los 2 sentidos
400 Mb/día 2$/Mb 1%/Mb Sustituciones
Plataforma Casa comercial Ventajas/Inconve
nientes
Ventajas/Inconveni
entes
454 Roche
SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces
Lee en los 2 sentidos
Helicoscope Helicos DNA directamente
GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos
NEXT SEQUENCING (NGS)
Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic
Herramientas para la
búsqueda y selección
adecuada de SNPs
Demasiada información
http://www.ncbi.nlm.nih.gov/projects/SNP/
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn
p
http://genome.ucsc.edu/
http://www.hapmap.org/index.html.en
http://pga.mbt.washington.edu
http://snpeffect.vib.b
e/
http://pupasnp.bioinfo.ochoa.fib.e
s/
http://pupasview.bioinfo.ochoa.fib.e
s/
http://bioinformatica.cegen.upf.es/public/principal/index.p
hp
Herramientas SNPs
http://www.ncbi.nlm.nih.gov
/
dbSNP
Entrez System
Herramientas SNPs NCBI
http://www.ncbi.nlm.nih.gov/projects/SNP/
http://www.ncbi.nlm.nih.gov/projects/SNP/
dbSNPs
1998
Contiene distintas fuentes de variación génica:
(1) SNPs
(2) short deletion and insertion polymorphisms (indels/DIPs),
(3) microsatellite markers or short tandem repeats (STRs)
(4) multinucleotide polymorphisms (MNPs)
(5) named variants
dbSNPs
ss o submitted SNP : Todo centro privado o público puede enviar información
acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro
se le asigna un código.
Varios ss pueden hacer referencia a un único SNP y por tanto la información
general relativa a éste se guarda en un rs o reference SNP.
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://genome.ucsc.edu
/
http://genome.ucsc.edu/
http://genome.ucsc.edu
/
http://www.hapmap.org/index.html.en
http://www.hapmap.org/index.html.en
http://pga.mbt.washington.edu
http://pga.mbt.washington.edu
http://snpeffect.vib.b
e/
Ontologías
Secuenciación de genomas Enormes cantidades de información biológica
Necesidad de extraer conocimiento de estos datos
Identificar funciones de genes
Papel fundamental de las Bio-ontologias para integraciónautomática de conocimiento.
151
Motivación
Resultados de los métodos estadísticos y algoritmos de aprendizaje
automático (clustering, clasificación):
Largas listas de genes
PROBLEMA: dar interpretación biológica a estos conjuntos de
genes (asignarles una función/rol biológico)
SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos
bioinformáticos disponibles
Anotación funcional
Para ayudar a la interpretación biológica de grandes listas de
genes:
◦ Consultar bases de datos de anotaciones como GO, KEGG,
FatiGo, PANTHER, DAVID, IPA
◦ Poner genes en contexto a partir de información extraída de
la literatura científica
◦ Identificar Pathways y Procesos enriquecidos
◦ Visualizar la red de interacciones y editarla.
◦ Estudiar si hay clases funcionales enriquecidas entre los
genes seleccionados
◦ Agrupar los genes por su similitud funcional
¿Qué es GO?
GENE ONTOLOGY (GO) http://www.geneontology.org/
Ontología: un vocabulario estructurado y riguroso
Función: describir los roles de los genes y sus productos.
Utiliza: 3 ontologías independientes: Biological process, molecular function y cellular component.
Los términos (nodos) de la ontología tienen relaciones entre sí (es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).
Genes y términos GO
Términos más generales cuanto más cerca de la raiz
Los genes se anotan en el nivel más específico posible, pero
comparten los atributos de todos los nodos ancestros.
Redes genéticasPoner en contexto nuestras listas de genes
PANTHER
DAVID
FATIGO
KEGG
Ingenuity Pathway Analysis ®(IPA)
Database for Annotation, Visualization
and Integrated Discovery (DAVID)
Protein ANalysis THrough Evolutionary
Relationships (PANTHER)
FATIGO
Caso práctico: estudio de arrays
de Cancer de Recto
IL1 signalling
Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was
generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and
angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.
Cancer y
pirimidinas
Caso práctico de ontologías
PANTHER
http://www.pantherdb.org/
Interpretación lista de genes
Interpretación lista de genes
Interpretación lista de genes
Interpretación lista de genes
Pathways
Pathways
Biological process
Molecular function
Go cellular component