modelo espacio estado lineal inferencia...

Post on 23-Mar-2020

1 views 0 download

transcript

Desarrollo de un modelo de espacio-estado

lineal y su aplicación en la inferencia de

redes de regulación génica

Marzo 23, 2010

Claudia Rangel Escareño

Departamento de Genómica Computacional

Colaboradores

David L. Wild, Systems Biology Centre

Warwick University, U.K.

John Angus, Dean School of Mathematical Sciences

Claremont graduate University, CA U.S.A

Francesco Falciani, Professor

University of Birmingham, U.K

Zoubin Ghahramani, Professor

Univ. of cambridge, U.K.

Sobre mi …

� Lic. Matemáticas UAM –I

� M.Sc. Mathematics CGU

� Ph.D Mathematics CGU

� Postdoctoral fellow Computational Molecular Biology and Bioinformatics

� Investigador Genómica Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

� Biología de Sistemas

� Biología de Sistemas Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

Estudios poblacionales, epidemiología, pocas variables muchas muestras

� Biología de Sistemas

� Biología de Sistemas Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

Bases de datos, almacenamiento y manipulación de datos, software

� Biología de Sistemas

� Biología de Sistemas Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

Genes, genoma, estadística Bayesiana, nuevos algoritmos, gráficos y escribir código

� Biología de Sistemas

� Biología de Sistemas Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

Biología en gral. estadística frec. Bayesiana, nuevos algoritmos, gráficos y escribir código

� Biología de Sistemas

� Biología de Sistemas Computacional

Sobre el área de investigación

� Bioestadística

� Bioinformática

� Genómica Computacional

� Biología Molecular Computacional

� Biología de Sistemas

� Biología de Sistemas Computacional

Matemáticas, Modelos, Machine Learning, Sistemas inteligentes: Algoritmos y mucho código

Motivación

� Las preguntas más frecuentes que la gente se cuestiona cuando se realiza un proyecto con microarreglos� Qué genes están diferencialmente expresados en control vs

tratamiento?

� Existen agrupamientos de genes? Tienen funciones en común?

� No tan frecuentemente nos planteamos lo que podemos entender sobre interacciones regulatorias entre genes y proteínas. Entender a mas detalle las redes transcripcionales

Reverse-engineering biological networks (top-down modelling) Pedro Mendes Computational Systems Biology, University of Manchester. and P.I. at the

Virginia Bioinformatics Institute.

Motivation

� Aplicar ingeniería reversa a redes biológicas

� Data-driven approaches

� El modelo que elejimos para este trabajo es un sistema � El modelo que elejimos para este trabajo es un sistema dinámico lineal (LDS) también conocido como modelo de espacio-estado (SSM) que es una subclase de DBN Redes Bayesianas Dinámicas

En términos mas generales

LDS / SSM

SSM / LDS ���� Dynamic Bayesian Networks

� Proveen una metodología para tratar problemas diseñados en series de tiempo

� El caso multivariado es desarrollado como una simple extensión de la teoría univariada

� Asumen la existencia de variables de estado “latentes¨que evolucionan con una dinámica Markovianadinámica Markoviana� Estas variables latentes pueden estar modelando por ejemplo

� Los efectos de genes que no fueron incluídos en el experimento� Niveles de proteínas regulatorias o factores de transcripción no medibles en el

microarreglo� Los efectos de degradación de mRNA o de proteínas

� Variables continuas

� La forma en que se estudia y desarrolla esta clase de modelos es basado en un análisis estructural del problema (Graphical models)

Modelo General

Modelo lineal de Espacio-Estado con inputs

ht ht+1

B

Exogenous on states

xt xt+1

yt yt+1

ut+1ut

A

C

D

É

É

States

Observations

Exogenous on observations

Modelo lineal de Espacio-Estado con inputs

xt xt+1

yt yt+1

ht

ut+1ut

ht+1

A

C

B

D

É

É

States

Observations

Exogenous on states

Exogenous on observations

xt xt+1

yt yt+1

ht

ut+1ut

ht+1

A

C

B

D

É

É

States

Observations

Exogenous on states

Exogenous on observations

xt+1 = Axt +Byt+ wt

yt = Cxt + Dyt-1 + vt

xt+1 = Axt +Byt+ wt

yt = Cxt + Dyt-1 + vt

Definición de la Estructura del Modelo

xt-1 xt

yt-1 yt

A

CB

D

É

É

States

Observations

xt+1 = Axt + Bht + wt

yt = Cxt + Dut + vt

Gene expression data

}{}{ , ),0(~}{

),0(~}{

ttt

t

vwRW�v

QW�w

⊥Assumptions:

Biological SystemBiological System

Data AcquisitionData Acquisition

Data NormalizationData Normalization

LDS model, Hidden states,Parameter Estimation

Use EM-Algorithm (Kalman Filter, Smother,etc.)

Pre-processing

Identify Possible Sub modelsBootstrap

FinishFinish

DiagnosticsDiagnosticsRe-estimate Candidate

Models with ConstraintsRe-estimate Candidate

Models with Constraints

Biology / Expert OpinionBiology / Expert OpinionConstraints

(future) (current)

T cell Activation

The central event in the generation of an immune response is the activation of T cells.

peptide

TCR

Signaling pathway

T cell

APC

CytokinesInfected cell

T cell recognizes complex of viral peptide and kills infected ce ll. T cell activation is initiated by the interaction between the T cell receptor (TCR) and the antigen peptide presented on the surface of an antigen -presenting cell. This event triggers a cascade of events that couple the stimulatory signal received form TCR to gene transcription events in the nucleus.

T cellCytokines

Modelo de activación en células T

Basado en la estimulación con

* calcium ionophore ionomicin

* PKC activator phorbol ester PMA

lymphoblast cell line

bypasses TCR

Activates signaling Activates signaling transduction pathways

T-cell activation

Tecnología: Microarreglos

� Pueden medir la expresión de miles de genes simultánemente

� Diseño es por especie

� Análisis debe ser dentro de parámetros de muchas variables pocas muestraspocas muestras

� Uso de algoritmos matemáticos diseñados exclusivamente para datos generados con microarreglos

� Abierto a nuevas ideas de desarrollo estadístico-matemático

� Uso extenso de conocimiento computacional

http://www.weizmann.ac.il/

Estructura de los datos: Series de Tiempo

10 x 44 x 58 {0,2,4,6,8,18,24,48,72}

g1 g2 … g58

t1

t2

:

t10

----------------------------------------------------

replicate 1expression levels

----------------------------------------------------

t1

t2

:

t10replicate 2expression levels

25,520 data points

replicate 44

Data Normalization

Data Normalization

� Motivation: Common distribution of intensities across replicates.

� Algorithm: Quantile Normalization [Bolstad et al.] (Based on the Q-Q plots)

Biological SystemBiological System

Data AcquisitionData Acquisition

Data NormalizationData Normalization

LDS model, Hidden states,Parameter Estimation

Use EM-Algorithm (Kalman Filter, Smother,etc.)

Pre-processing

Identify Possible Sub modelsBootstrap

FinishFinish

DiagnosticsDiagnosticsRe-estimate Candidate

Models with ConstraintsRe-estimate Candidate

Models with Constraints

Biology / Expert OpinionBiology / Expert OpinionConstraints

(future) (current)

¿Cómo determinamos el número de variables latentes?

Test efficiency if the learning algorithm every time a hidden state is added

Bootstrap cross-validation

� 44-way cross validation experiment to find the optimal number of hidden states

� In general in a R-fold cross-validation experiment, the data set is randomly divided into R mutually exclusive subsets of equal size. Data is trained R times, each time leaving out one of the subsets from training, but using only the omitted subset to compute the likelihood.

Training setLDS

Validation set(likelihood)

Parámetros del Modelo

xt-1 xt

yt-1 yt

A

CB

D

É

É

States

Observations }{}{ , ),0(~}{

),0(~}{

ttt

t

vwRW�v

QW�w

xt+1 = Axt +Byt+ wt

yt = Cxt + Dyt-1 + vt

A: K x K matriz de transición (K = número de variables latentes)B: K x 58 input to state matrixC: 58 x K influencia de las variables latentes sobre la expresión génica en cada tiempoD: 58 x 58 nivel de expresión de gen a gen en tiempos consecutivos

Nota:

1. Nos interesa la matriz CB+D2. K=9 previamente estimado

Metodología

� Expectation–Maximization (EM) algorithm� The motivation for using EM algorithm is that it iteratively computes

the MLE for incomplete data sets.

� Filtering� Filtering is aimed at updating our knowledge of the system as each

observation yt comes int

� Smoothing� Smoothing enables us to base our estimates of quantities of interest

on the entire sample y1,…,yT.

� Bootstrapping� Bootstrap methods can be used for estimating confidence bounds for

network outputs

EM Algorithm

E-step

� Use

M-step

� Use tt Px ,ö

RQDCBAPx ,,,,,,, 00

To Re-estimate

xt+1 = Axt +Byt+ wt wt ~ �(0,Q)

yt = Cxt + Dyt-1 + vt vt ~ �(0,R)

� Compute the expected log likelihood given the data

Kalman

FilterSmoother

To Re-estimate

RQDCBAPx ö,ö,ö,ö,ö,ö,, 00tt Px ,ö

By maximizing the log likelihood

Kalman Filtering & Smoothing

� The likelihood can be calculated by a routine application of the Kalman filter, considered the optimal linear estimator.

� The Kalman filter estimates the current value of our variables incorporating all information available.� Knowledge of the system

The statistical description of any uncertainty of the dynamics of the � The statistical description of any uncertainty of the dynamics of the model

� Noises and measurement errors� Initial conditions

� The Smoother solves the problem of estimating the state at time t given the parameters and the observations.

Bootstrapping

Usamos resultados del Bootstrapping

Usamos resultados del Bootstrapping

Usamos resultados del Bootstrapping

Resultados en datos simulados: 40 réplicas, 10 tiempos, 5 genes

1

11110

00000

00100

01100

11110

5

4

3

2

5 y 11 genes

Sólo 11 genes (nodos)

39 Nodos

Series de tiempo artificiales no son estacionarias para pocos tiempos -> sesgo

Propiedades Estructurales del Modelo

� Stability (parameters) the state variable does not “explode” exponentially -

The Model will be stable iff the matrix

has spectral radius less than one,

� Controllability (inputs) ability to move the state from any given initial value to a predetermined final value by manipulation of the noise - The model will be

+=

DCBCA

BAA0

1 2 3 4 5 6 7 8 9 10-3

-2

-1

0

1

2

3

1 2 3 4 5 6 7 8 9 10-800

-600

-400

-200

0

200

400

600

predetermined final value by manipulation of the noise - The model will be controllable iff the matrix

is full rank,

� Observability (outputs) ability to determine the initial state from a sequence of noiseless observations – The model will be observable iff the matrix

is full rank.

],...,,,[ 1

0

2

00

−KAAAI

[ ]TKHAHAHAH 1

0

2

00

−L

)~dim( txK =

)~dim( txK =

Diagnósticos en el modelo encontrado

• Common Methods•Examination of standardized innovations for lack of correlation / pattern

• Check that estimates of A, B, C, D are in the observable, controllable, stable region of the parameter space:stable region of the parameter space:

Resultados en Datos Experimentales

Il-2

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Resultados en Datos Experimentales

Il-2

IL-2Rϒ, IL-4Rα, IL-3Rα Proliferation gene: Cyclin A2

Main cellular functions modulated during T cell activation

(3)

Activación (1)

Proliferación (2)

Resultados en Datos Experimentales

Il-2

IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Resultados en Datos Experimentales

Il-2

IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering Early T-cell activation marker: CD69

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Resultados en Datos Experimentales

Il-2

IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering Early T-cell activation marker: CD69

TF involved in T-cell antigen reg: GATA

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Resultados en Datos Experimentales

Il-2

Ausente en el microarreglo, considerada como “variable latente” y pertenece a ACTIVACIÓN

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Resultados en Datos Experimentales

Il-2

TCRNFKB

Gen blanco de NFKB es IL-2

Main cellular functions modulated during T cell activation

Activación (1)Proliferación (2)

Qué ha seguido?

• VBSSM – Variational Bayesian State-Space Model

• Synthetic Data – Genome Research Dirk Husmeier

• Constraints • Constraints – Learning and Inference in Computational Biology MIT press

- 2010