Geoestadistica- FCFM Xavier Emery 2011.pdf

8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

1/149

Geoestadstica

Profesor: Xavier Emery2011


2/149

ndice

Captulo 1. Introduccin...................................................................................................... 11. Nocin de variable regionalizada ................................................................................... 1

2. Nocin de soporte ........................................................................................................... 23. Datos y modelos ............................................................................................................. 3

4. Los problemas de estimacin ......................................................................................... 4

5. Algunas notaciones ......................................................................................................... 5

Captulo 2. Estudio exploratorio de datos.......................................................................... 61. Despliegue de datos (mapas) .......................................................................................... 72. Distribucin estadstica de valores ................................................................................. 8

2.1. Histograma .............................................................................................................. 8

2.2. Estadsticas elementales .......................................................................................... 9

2.3. Desagrupamiento ................................................................................................... 102.4. Diagrama de caja ................................................................................................... 12

2.5. Histograma acumulado .......................................................................................... 12

2.6. Grfico de probabilidad ......................................................................................... 133. Anlisis multivariable ................................................................................................... 14

3.1. Grfico cuantil contra cuantil ................................................................................ 14

3.2. Nube de dispersin o de correlacin...................................................................... 153.3. Matriz de correlacin ............................................................................................. 15

3.4. Anlisis en componentes principales ..................................................................... 16

4. Comportamiento espacial ............................................................................................. 19

4.1. Nube direccional .................................................................................................... 194.2. Nube de correlacin diferida ................................................................................. 19

Captulo 3. Conceptos generales sobre el modelamiento geoestadstico de datos........ 211. Lmites de la estadstica clsica .................................................................................... 21

2. Nocin de funcin aleatoria .......................................................................................... 22

3. Caracterizacin de una funcin aleatoria...................................................................... 233.1. Distribucin espacial ............................................................................................. 23

3.2. Distribuciones univariable y bivariables ............................................................... 24

3.3. Momentos .............................................................................................................. 253.4. Inferencia estadstica Hiptesis de estacionaridad ............................................. 26

3.5. Relaciones entre momentos ................................................................................... 28

Captulo 4. Anlisis variogrfico: 1. Variograma experimental.................................... 291. El variograma experimental tradicional ....................................................................... 29

1.1. Definicin e interpretacin .................................................................................... 29

1.2. Ejemplo .................................................................................................................. 301.3. Tolerancias en los parmetros de clculo .............................................................. 30

1.4. Propiedades del variograma experimental ............................................................. 32

1.5. Nube variogrfica .................................................................................................. 331.6. Mapa variogrfico.................................................................................................. 34


3/149

2. Consideraciones prcticas ............................................................................................ 35

3. Complemento: otras herramientas para el anlisis variogrfico ................................... 37

3.1. Covarianza experimental ....................................................................................... 373.2. Covarianza no centrada ......................................................................................... 38

3.3. Correlograma experimental ................................................................................... 39

3.4. Variograma desagrupado ....................................................................................... 403.5. Otras herramientas ................................................................................................. 40

Captulo 5. Anlisis variogrfico: 2. Variograma modelado.......................................... 431. Propiedades de un variograma terico ......................................................................... 43

1.1. Propiedades matemticas ....................................................................................... 43

1.2. Comportamiento en el origen ................................................................................ 44

1.3. Comportamiento para distancias muy grandes ...................................................... 441.4. Comportamiento direccional ................................................................................. 46

1.5. Otras propiedades .................................................................................................. 46

2. Modelos elementales de variograma ............................................................................ 472.1. Efecto pepita .......................................................................................................... 47

2.2. Modelo esfrico ..................................................................................................... 48

2.3. Modelo exponencial .............................................................................................. 49

2.4. Modelo Gaussiano ................................................................................................. 492.5. Modelo seno cardinal ............................................................................................ 50

2.6. Modelo potencia .................................................................................................... 51

3. Modelamiento de un variograma experimental ............................................................ 513.1. Modelos anidados .................................................................................................. 51

3.2. Efecto pepita .......................................................................................................... 52

3.3. Anisotropa ............................................................................................................ 533.4. Reglas de ajuste ..................................................................................................... 56

3.5. Aplicacin a los datos de contaminacin de suelo ................................................ 58

3.6. Consideraciones prcticas ..................................................................................... 58

Captulo 6. La estimacin local......................................................................................... 601. Mtodos tradicionales ................................................................................................... 60

1.1. Interpolacin por el ms cercano vecino ............................................................... 601.2. Inverso de la distancia ........................................................................................... 61

1.3. Otros mtodos ........................................................................................................ 621.4. Propiedades ............................................................................................................ 62

2. Construccin del kriging .............................................................................................. 63

2.1. Restriccin de linealidad ....................................................................................... 63

2.2. Restriccin de insesgo ........................................................................................... 64

2.3. Restriccin de optimalidad .................................................................................... 643. Plan de kriging .............................................................................................................. 65

3.1. Vecindad nica ...................................................................................................... 65

3.2. Vecindad mvil ..................................................................................................... 654. Kriging de media conocida (kriging simple) ................................................................ 67

4.1. Hiptesis ................................................................................................................ 67

4.2. Determinacin del estimador ................................................................................. 674.3. Varianza de kriging ............................................................................................... 69


4/149

5. Kriging de media desconocida (kriging ordinario)....................................................... 69

5.1. Hiptesis ................................................................................................................ 69

5.2. Determinacin del estimador ................................................................................. 695.3. Varianza de kriging ............................................................................................... 71

6. Otros tipos de kriging ................................................................................................... 72

6.1. Kriging con derivas ............................................................................................... 726.2. Kriging de bloques ................................................................................................ 72

6.3. Co-kriging .............................................................................................................. 73

6.4. Kriging no lineal .................................................................................................... 74

7. Observaciones sobre el sistema de kriging ................................................................... 748. Propiedades del kriging ................................................................................................ 77

8.1. Interpolacin exacta ............................................................................................... 77

8.2. Propiedad de suavizamiento (alisamiento) ............................................................ 779. Validacin cruzada ....................................................................................................... 78

10. Aplicacin a los datos de concentracin de cobalto ................................................... 80

10.1. Eleccin del plan de kriging ................................................................................ 8010.2. Estimacin de las concentraciones de cobalto sobre soporte puntual ................. 82

10.3. Estimacin de las concentraciones de cobalto sobre bloques ............................. 84

11. Efectos de los parmetros en los resultados del kriging ............................................. 85

11.1. Tipo de modelo .................................................................................................... 8511.2. Meseta .................................................................................................................. 87

11.3. Alcance ................................................................................................................ 88

11.4. Efecto de hoyo ..................................................................................................... 8911.5. Anisotropa .......................................................................................................... 90

11.6. Tipo de kriging: simple / ordinario ...................................................................... 90

11.7. Tipo de kriging: puntual / de bloque ................................................................... 9212. Complemento: el kriging como mtodo de interpolacin .......................................... 93

Captulo 7. Principios de simulacin geoestadstica....................................................... 951. Motivacin: la alternativa entre kriging y simulacin .................................................. 95

2. Simulacin condicional y no condicional ..................................................................... 98

2.1. Simulacin no condicional .................................................................................... 98

2.2. Simulacin condicional ......................................................................................... 983. Requisitos para realizar una simulacin ....................................................................... 99

4. Ejemplos de funciones aleatorias ............................................................................... 1015. Aspectos del problema de simulacin ........................................................................ 103

Captulo 8. Simulacin de variables continuas: modelo multi-Gaussiano.................. 1041. Transformacin Gaussiana (anamorfosis) .................................................................. 104

1.1. Observaciones ...................................................................................................... 1061.2. Complemento: determinacin prctica ................................................................ 106

2. Modelo multi-Gaussiano ............................................................................................ 108

2.1. Hiptesis .............................................................................................................. 1082.2. Validacin ............................................................................................................ 108

2.3. Propiedades caractersticas del modelo multi-Gaussiano .................................... 111

3. Simulacin condicional .............................................................................................. 1123.1. Algoritmo secuencial ........................................................................................... 112


5/149

3.2. Otros algoritmos .................................................................................................. 114

3.3. Resumen: pasos a seguir para la simulacin ....................................................... 115

4. Aplicacin a los datos de contaminacin de suelo ..................................................... 1154.1. Anamorfosis Gaussiana ....................................................................................... 116

4.2. Validacin de la hiptesis multi-Gaussiana......................................................... 117

4.3. Anlisis variogrfico de los datos Gaussianos .................................................... 1184.4. Simulacin condicional ....................................................................................... 118

4.5. Procesamiento de los resultados .......................................................................... 119

Anexo A. Geoestadstica multivariable........................................................................... 1221. Anlisis variogrfico................................................................................................... 122

1.1. Funciones de covarianza simple y cruzada.......................................................... 122

1.2. Variogramas simples y cruzados ......................................................................... 1231.3. Seudo-variograma cruzado .................................................................................. 125

1.4. Inferencia estadstica ........................................................................................... 125

1.5. Modelo lineal de corregionalizacin ................................................................... 1261.6. Otros modelos ...................................................................................................... 127

2. La estimacin local: el co-kriging .............................................................................. 127

2.1. Co-kriging simple (medias conocidas) ................................................................ 128

2.2. Co-kriging ordinario (medias desconocidas) ....................................................... 1292.3. Co-kriging co-localizado ..................................................................................... 130

2.4. Otras variantes ..................................................................................................... 131

2.5. Propiedades del co-kriging .................................................................................. 1312.6. La alternativa entre kriging y co-kriging ............................................................. 132

3. Simulacin multivariable ............................................................................................ 133

3.1. Simulacin secuencial conjunta .......................................................................... 1333.2. Simulacin secuencial jerrquica ........................................................................ 133

3.3. Otros algoritmos .................................................................................................. 134

3.4. Aplicacin a los datos de contaminacin de suelo .............................................. 134

Bibliografa........................................................................................................................ 1381. Obras generales........................................................................................................... 138

2. Variogramas, kriging y co-kriging ............................................................................. 1393. Geoestadstica no lineal .............................................................................................. 140

4. Simulacin .................................................................................................................. 1415. Aplicaciones ............................................................................................................... 142


6/149

1

Captulo 1. Introduccin

La palabra geoestadstica fue inventada por Georges Matheron en 1962.

El prefijo geo alude a las ciencias de la tierra, que ha sido histricamente la disciplina

donde la geoestadstica se ha desarrollado. Los campos de aplicacin actuales alcanzan los

dominios ms variados, como la evaluacin de recursos naturales (mineros, forestales, gas,petrleo, etc.), ciencias del suelo y medio-ambientales, topografa, oceanografa, geofsica,

agricultura y anlisis de imgenes, por nombrar algunos. El trmino estadstica se refiere

al uso de herramientas estadsticas y probabilsticas. Con respecto a la estadstica clsica, la

geoestadstica busca tomar en cuenta las dependencias entre las observaciones disponibles,considerando que ellas estn ubicadas en el espacio.

1. Nocin de variable regionalizada

La geoestadstica se define como el estudio de fenmenosregionalizados, es decir, quese extienden en el espacio y presentan una cierta continuidad. Por espacio, entenderemos

en general el espacio geogrfico, pero puede tambin tratarse del eje temporal o de espaciosms abstractos. El objeto sobre el cual trabajaremos ser una descripcin matemtica del

fenmeno regionalizado, a saber, una o varias funciones numricas llamadas variablesregionalizadas, que miden ciertas propiedades o atributos relacionados con este fenmeno.Por ejemplo:

la ley de un mineral, la potencia de una veta, la acumulacin, la densidad de la roca o larecuperacin metalrgica, describen un fenmeno de mineralizacin;

la porosidad y la permeabilidad de la roca en un reservorio de petrleo o en un acufero;

la concentracin de un elemento contaminante en la atmsfera o en el suelo;

la altitud topogrfica en un punto del espacio geogrfico;

la conductividad elctrica, el pH y la concentracin en nutrientes medidas sobre unamuestra de suelo;

el nmero de rboles y su dimetro promedio en reas de observacin de un bosque.

Del punto de vista conceptual, una variable regionalizada es una funcin determinstica.En general, esta funcin presenta dos aspectos complementarios: por una parte, tiene una

cierta continuidad espacial (zonas de altos valores / zonas de bajos valores), pero por otro

lado, vara irregularmente y escapa a toda representacin simple (Figura 1).


7/149

2

Figura 1. Variable regionalizada en un espacio unidimensional.

Por ejemplo, podra representar la concentracin de un contaminantemedida a lo largo del tiempo en una estacin de monitoreo.

Dado que un fenmeno regionalizado nunca posee una extensin infinita, estudiaremos

la variable regionalizada slo dentro de un dominio limitado D llamado campo de lavariable. Este campo puede representar una zona natural, fuera de la cual la variable no est

definida. Puede tratarse tambin de un dominio particular, donde la variable interesa, porejemplo, los sitios donde no se anula o donde es mayor que un lmite de deteccin.

2. Nocin de soporte

Una variable regionalizada puede definirse, no slo en cada punto del espacio, sino que

tambin en una superficie (2D) o en un volumen (3D). La superficie o el volumen sobre el

cual se considera la variable regionalizada se denomina soporte. En general, el soporte delas mediciones es muy pequeo (asimilado a un punto), mientras que el que interesa en laprctica puede ser ms voluminoso (por ejemplo, las unidades selectivas de explotacin en

evaluacin minera o las unidades de remediacin en contaminacin de suelo). Esta nocin

es esencial debido a la dependencia que existe entre el soporte y la distribucin estadsticade los valores, conocida como efecto de soporte: los soportes voluminosos presentan una

menor cantidad de valores extremos y una mayor cantidad de valores intermedios que los

soportes puntuales. As, la distribucin de los valores (en especial, su varianza) depende del

soporte sobre el cual est definida la variable regionalizada. Este efecto queda ilustrado enla Figura 2, que muestra la distribucin de la ley de cobre en un yacimiento medida sobre

tres soportes distintos. Se observa que la forma del histograma tiende a simetrizarse cuandoaumenta el soporte y que la varianza disminuye, aunque se mantiene constante el valor

promedio.


8/149

3

Figura 2. Histogramas de leyes de cobre medidas sobre tres soportes distintos(bloques de 1m1m, 5m5m y 25m25m).

En los problemas que involucran un cambio de soporte, es deseable que la variableregionalizada sea aditiva, es decir, que su valor en la unin de varios dominios sea igual ala media de sus valores sobre cada uno de ellos. Esta restriccin es necesaria para que el

clculo del valor promedio sobre un soporte ms grande que el soporte de las mediciones,

tenga un sentido fsico.

3. Datos y modelos

Normalmente, no se conoce la variable regionalizada en forma exhaustiva, sino quesolamente a travs de un conjunto limitado de datos(muestras de sondajes en exploracinminera, observaciones en terreno en ingeniera forestal, mediciones realizadas en estaciones

de monitoreo en contaminacin atmosfrica, etc.).

Para aprovechar la informacin disponible, ms all de un simple reporte de los datos,

ser necesario construir modelos. Pero debe tenerse presente que un modelo nunca describe

la variable regionalizada en su totalidad, sin simplificacin, ni distorsin. El modelamientoy las hiptesis que se requieren aportan mayor informacin que aquella contenida en losdatos experimentales. En consecuencia, conviene reducir al mximo la complejidad del

modelo, evitando introducir hiptesis o parmetros arbitrarios, que no se puede controlar

experimentalmente. Por el contrario, es necesario encontrar el modelo menos exigente quepermite resolver el problema planteado.


9/149

4

4. Los problemas de estimacin

La prediccin o estimacin constituye un objetivo importante de la geoestadstica.Consiste en evaluar, de la manera ms precisa posible, un valor que no ha sido medido, a

partir de los datos disponibles. Una caracterstica de los mtodos geoestadsticos ser, no

slo construir estimadores, sino tambin proporcionar una medida de la precisin de laestimacin por medio de herramientas probabilsticas (por ejemplo, varianzas o intervalos

de confianza...). Distinguiremos dos tipos de estimaciones: las estimaciones globalesy lasestimaciones locales.

La estimacin globalbusca caracterizar el campo Dcompleto por un valor nico (porejemplo, la media de la variable regionalizada en estudio) o por una distribucin estadstica

(histograma). Es poco comn que una estimacin global sea suficiente; frecuentemente, serequiere completarla con estimaciones locales. Por ejemplo en un estudio de contaminacin

de suelo, no basta con evaluar la concentracin promedio en toda la zona de un elemento

contaminante, sino que es necesario distinguir los sectores fuertemente contaminados de

aquellos que no lo estn.

Por el contrario, las estimaciones localesse interesan por los diferentes sectores de lazona de estudio. En general, se busca evaluar el valor en un sitio que no ha sido muestreado

o el valor promedio de un bloque cuyo soporte es mayor que el soporte de los datos. En

este problema, debe considerarse la continuidad espacial de la variable regionalizada, lasdistancias entre el sector a estimar y los sitios con datos, as como la configuracin espacial

de los mismos sitios con datos puesto que datos agrupados suelen tener valores parecidos,

constituyndose en informacin redundante.

Otro aspecto de la estimacin local es la cuantificacin de la incertidumbre en los

valores de la variable regionalizada y la probabilidad de que estos valores superen o quedendebajo de ciertos lmites. Por ejemplo, el agrnomo est interesado en conocer los sectoresde una parcela donde el pH es demasiado bajo, para poder abonarlos con cal y mejorar la

fertilidad. El medio-ambientalista quiere cuantificar el riesgo de que la concentracin de un

elemento txico en el suelo supere un umbral crtico, de modo de poder tomar medidas deremediacin. Al ingeniero de minas le interesa saber si las leyes de mineral son mayores

que una ley de corte que asegura la rentabilidad de la explotacin minera, luego evaluar los

tonelajes y cantidades de metal que se puede extraer sobre esta ley de corte.

Los problemas de estimacin no son los nicos a los que responde la geoestadstica. El

anlisis de la dependencia espacialpermite describir la distribucin de los valores en el

espacio, cuantificar las correlacioneso redundancias de informacin entre valores medidosen sitios diferentes, determinar el tamao de la zona de influencia de una observacin, ascomo detectar anisotropas que indican que la variable regionalizada tiene direccionespreferenciales de continuidad en el espacio.


10/149

5

5. Algunas notaciones

En lo que sigue, denotaremos como:

dla dimensin del espacio de trabajo. En general, d=2 3, es decir, nos encontramos

en el espacio geogrfico R2o R3.

Del campo de la variable regionalizada, que es un dominio limitado del espacio Rd.

x= (x1,...xd) un vector de coordenadas espaciales.

z= {z(x), xD} la variable regionalizada estudiada. A menudo, z(x) R. En el caso

multivariable, se podr tomarz(x) RNo, lo que es lo mismo, trabajar conNvariablesregionalizadas reales.

nel nmero de sitios con datos.

{x, =1... n} los sitios con datos en D.


11/149

6

Captulo 2. Estudio exploratorio de datos

La geoestadstica busca estudiar una o varias variables regionalizadas conocidas vauna toma de muestra. Previo al uso de mtodos geoestadsticos propiamente tal, conviene

realizar un estudio exploratorio de los datos disponibles, el cual tiene tres objetivos:

1) Analizar (mediante herramientas estadsticas simples) la cantidad, la calidad y la

ubicacin de los datos disponibles.

2) Definir la(s) zona(s) de estudio. Una divisin del campo en varias sub-zonas puede

ser relevante si uno observa cambios abruptos en la distribucin espacial de valores,

o si la geologa del fenmeno lo indica.

3) Anticipar dificultades o problemas que puedan surgir en la fase de estimacin local

(por ejemplo, presencia de valores atpicos que se destacan de aquellos de los datos

vecinos).

Se ejemplificar los conceptos y herramientas con el estudio de una base de datos de

contaminacin de suelo. Estos datos constan de 359 muestras en las cuales se ha medidosiete variables (a saber, las concentraciones de cadmio, cobalto, cromo, cobre, nquel,

plomo y zinc). A continuacin, se da una breve descripcin de la zona de estudio (fuente:

referencia bibliogrfica [52]).


12/149

7

1. Despliegue de datos (mapas)

El despliegue de los datos permite visualizar su ubicacin en el espacio. Cuando setrabaja en el espacio tridimensional, el despliegue puede hacerse con proyecciones (plantas

y secciones) o vistas en perspectiva. Los mapas de datos pueden incluir informacin sobre

los valores medidos y as dar una idea preliminar de la distribucin y continuidad espacialde la variable en estudio, por ejemplo, utilizando smbolos de forma o tamao variable o

escalas de colores / de grises (Figura 1).

Figura 1. Mapa de datos de contaminacin de suelo. La escala de grisesse refiere a la concentracin de cobalto expresada en ppm.

Se observa que gran parte de los datos estn distribuidos segn una malla de muestreo

regular de tamao aproximado 0.25 0.25 km. Sin embargo, algunos sectores de la zona deestudio han sido reconocidos con una mayor cantidad de muestras, constituyndose algunos

agrupamientos (clusters). El diseo de la malla de muestreo se explica a continuacin (verreferencia [52]).


13/149

8

La presencia de agrupamientos de datos hace que la malla de muestreo sea irregular en

la zona de estudio. Al momento del anlisis estadstico, ser importante tomar precauciones

puesto que los sectores ms densamente muestreados podran tener demasiada importanciay distorsionar las estadsticas sobre las concentraciones de cobalto. Por ejemplo, esto sera

el caso si los agrupamientos fueran realizados en los sectores de mayores concentraciones

de cobalto (muestreo preferencial).

El mapa de los datos (Figura 1) da una primera idea de la distribucin de los valores en

la zona de estudio. As se puede distinguir sectores con valores altos (datos sealados con

colores oscuros) y sectores menos contaminados (datos sealados con colores claros).

2. Distribucin estadstica de valores

Adems de visualizar mapas de los datos, interesa conocer la distribucin estadstica desus valores. Para ello, existen varias herramientas, siendo la ms conocida el histograma.

2.1. Histograma

El histograma representa grficamente las frecuencias de ocurrencia en funcin delvalor. Consiste en dividir el rango de los valores en intervalos (generalmente, con el mismo

ancho) y visualizar la proporcin de datos que caben dentro de cada intervalo (Figura 2).

Figura 2. Histograma de las concentraciones de cobalto (en ppm).

El histograma es una herramienta til para detectar valores atpicos (outliers). Ahora,

cabe destacar que un dato atpico no es forzosamente falso y nunca debe ser eliminado sin

razn (por ejemplo, un error de trascripcin, una falla en el protocolo de medicin o un

valor ausente codificado como -99). Podra reflejar el comportamiento verdadero de lavariable regionalizada y eliminarlo impedira prever la ocurrencia de tales valores en las

zonas no muestreadas.


14/149

9

La visualizacin del histograma de los datos tambin es un primer medio de verificar su

homogeneidad. Eventualmente, una divisin del campo en varias sub-zonas ser necesaria.As, por ejemplo, un histograma multimodal puede conducir a la identificacin, entre los

datos, de varias poblaciones susceptibles de estar geogrficamente separadas. A veces, tal

separacin est impuesta por consideraciones fsicas, que impiden mezclar todos los datos:presencia de un obstculo natural (falla, ro...), particin de una zona mineralizada segn la

caracterizacin mineralgica o el tipo de roca, etc. En tales casos, un problema que puede

plantearse es la delimitacin de las sub-zonas homogneas, pues es poco frecuente que

sus fronteras puedan ser identificadas con exactitud.

2.2. Estadsticas elementales

Junto con el histograma, es conveniente calcular algunas estadsticas bsicas sobre la

distribucin de valores. Entre ellas, podemos distinguir:

Medidas de posicin

Media: promedio aritmtico de los valores.

Cuantileso percentiles: valores que dividen la poblacin en partes de igual nmero dedatos. Por ejemplo, la medianadivide la poblacin en dos partes, los cuartilesen cuatropartes (la mediana coincide con el segundo cuartil), los quintilesen cinco partes y losdecilesen diez partes. Contrariamentealamedia,loscuantilessonparmetros robustos,es decir, poco sensibles a la presencia de algunos valores muy altos o muy bajos.

Mnimoy mximo: establecen el rango en el cual se distribuyen los valores.

Medidas de dispersin

Varianza: promedio aritmtico de la desviacin cuadrtica entre cada valor y la media.Esta medida cuantifica la dispersin del histograma y se expresa en el cuadrado de la

unidad de la variable en estudio.

Desviacin estndar: raz cuadrada de la varianza; se expresa en la misma unidad que lavariable en estudio.

Coeficiente de variacin(para variables positivas): razn entre la desviacin estndar yla media; es adimensional.

Rango intercuartil: ancho del intervalo entre el primer y el tercer cuartil, que contienela mitad de los datos.


15/149

10

2.3. Desagrupamiento

Para calcular el histograma y las estadsticas elementales, es frecuente considerar unavariable de ponderacin o desagrupamiento (en ingls, declustering) de modo de corregirlos efectos provocados por las irregularidades de la malla de muestreo. La idea es asignar a

los datos espacialmente agrupados, en parte redundantes, un ponderador ms pequeo que alos datos aislados, los cuales son representativos de una porcin ms extensa del campo.

Para determinar la variable de ponderacin, se puede utilizar el llamado mtodo de lasceldas. Esta tcnica consiste en dividir la zona de estudio en celdas rectangulares idnticasy en atribuir a cada dato un ponderador inversamente proporcional al nmero de datos

presentes en la celda a la cual pertenece (Figura 3).

Figura 3. Ubicacin de datos (cruces) y ponderacin por elmtodo de las celdas. Cada celda tiene una ponderacin total de 1/16,

la cual se reparte entre los datos pertenecientes a esta celda.

La puesta en marcha del mtodo requiere definir previamente el tamao de la celda

elemental. Usualmente, se prueba varios tamaos y se examina su impacto en el valor de lamedia ponderada. La Figura 4 da un ejemplo con los datos de concentracin de cobalto,

donde se ha escogido utilizar celdas cuadradas.

Si las celdas son infinitamente pequeas, todos los datos se ubican en celdas distintas y

reciben entonces el mismo ponderador; por lo tanto, la media ponderada coincide con la

media aritmtica de los datos (9.44 ppm). Al aumentar la longitud de celda, la mediaponderada aumenta, lo que indica que los ponderadores calculados tienden a privilegiar los

valores altos en perjuicio a los valores bajos. Esto es una seal de que la malla de muestreo

es ms densa en zonas de valores bajos.


16/149

11

Figura 4. Influencia de la longitud de las celdas sobre la media ponderada

(sumatoria de las concentraciones multiplicadas por sus ponderadores)

En este caso, una opcin consiste en elegir el tamao de celda correspondiente al valor

mximo de la media, para compensar el carcter preferencial de la malla de muestreo.Ahora, dicha decisin es discutible y uno puede considerar elecciones ms neutrales. Por

ejemplo, elegir una celda correspondiente al espaciamiento promedio entre los datos o a la

malla del muestreo subyacente (o sea, en el presente caso, de 0.25 km 0.25km). Esto nosentrega un valor promedio de 9.59 ppm para la concentracin de cobalto (Figura 5). En

comparacin con el histograma de la Figura 2, se observa una disminucin importante de

las frecuencias en el rango de valores entre 3 y 5 ppm.

Figura 5. Histograma desagrupado de las concentraciones de cobalto (en ppm).La frecuencia indicada en cada intervalo corresponde a la suma

de los ponderadores de los datos asociados a este intervalo.


17/149

12

El mtodo de las celdas realiza la ponderacin de los datos segn un criterio meramente

geomtrico, es decir, que slo toma en cuenta la posicin espacial de los datos. No toma

en cuenta la continuidad espacial de los valores, aunque este criterio tambin es digno deser tomado en consideracin. Por ejemplo, si los datos tuvieran valores muy errticos (poca

continuidad espacial), existiran pocas redundancias entre datos agrupados y, por lo tanto,

no sera necesario ponderarlos. Ahora, incluir el criterio de continuidad espacial requerirautilizar mtodos geoestadsticos (kriging) que, a esta altura del estudio, no se justifican.

2.4. Diagrama de caja

A veces, se acompaa el histograma con un diagrama de caja (box plot) que presentaun solo eje en el cual se representan cinco cuantiles: los cuantiles a 2.5% y 97.5%, el primer

y el tercer cuartil y la mediana (Figura 6). Entre los dos cuantiles extremos, se observa el

95% de los datos, mientras que entre el primer cuartil y la mediana se observa el 25% de

los datos, al igual que entre la mediana y el tercer cuartil. El diagrama de caja permite

resumir algunas caractersticas de la distribucin, tal como su simetra y su dispersin.

Figura 6. Diagrama de caja para las concentraciones de cobalto.

2.5. Histograma acumulado

En lugar de visualizar la frecuencia de valores para cada intervalo, se puede visualizar

la frecuencia cumulativa, es decir, la frecuencia de los valores bajo cierto umbral como unafuncin de este umbral, lo que da el histograma acumulado. De la misma forma que para el

histograma estndar, las frecuencias se pueden calcular tomando en cuenta ponderadores de

desagrupamiento (Figura 7).

El histograma acumulado es una funcin creciente, desde 0 (para el valor ms bajo dela variable) hasta 1 (para el valor ms alto). Al contrario, el histograma acumulado inverso,que muestra la frecuencia de valores que superan un umbral en funcin de este umbral, esuna funcin decreciente (desde 1 hasta 0), conocida en geoestadstica minera como curvatonelaje-leydado que la frecuencia acumulada es proporcional al tonelaje de material cuyaley supera la ley de corte.


18/149

13

Figura 7. Histograma acumulado desagrupadode las concentraciones de cobalto (en ppm).

2.6. Grfico de probabilidad

Este grfico sirve para comparar una distribucin experimental con una distribucin de

referencia (en general, una normal o una lognormal). Consiste en cambiar la escala de los

ejes del histograma acumulado de tal modo que, si la distribucin experimental coincidecon la distribucin de referencia, se dibujara una recta. En el caso de los datos de cobalto,

la distribucin difiere de una normal (Figura 8).

Figura 8. Grfico de probabilidad normal para las concentraciones de cobalto. Note que laescala del eje de ordenada (frecuencia acumulada) ya no es aritmtica


19/149

14

3. Anlisis multivariable

3.1. Grfico cuantil contra cuantil

El grfico cuantil contra cuantil busca comparar dos distribuciones entre s, que puedenser asociadas a variables distintas (por ejemplo, las concentraciones de cobalto y nquel) o a

una misma variable medida en zonas distintas o con aparatos distintos. En este ltimo caso,la comparacin sirve para decidir si los dos grupos de datos tienen una distribucin idntica

y, por ende, provienen de la misma poblacin. El grfico consiste en visualizar los cuantilesdel primer grupo de datos contra los cuantiles correspondientes del segundo grupo (por

ejemplo, mediana contra mediana, cuartiles contra cuartiles, deciles contra deciles, etc.).

Un grfico que da una recta significa que las distribuciones de los dos grupos de datos

tienen la misma forma. Si la recta tiene una pendiente igual a 1, ambas distribuciones tienenla misma dispersin, pero posiblemente no tienen la misma media (por ejemplo, un grupo

de datos est sesgado con respecto a otro debido a un error sistemtico en su medicin). Siadems la recta coincide con la diagonal, ambas distribuciones son iguales (misma media,

misma dispersin y misma forma). Cuando el grfico no dibuja una recta, entonces los dosgrupos de datos tienen distribuciones con formas distintas; es lo que pasa al comparar las

distribuciones de las concentraciones de cobalto y nquel (Figura 9).

Figura 9. Grfico cuantil contra cuantil entre concentraciones de cobre y nquel. Lapendiente de la curva es distinta entre las bajas y las altas concentraciones.

Es importante sealar que el grfico cuantil contra cuantil no da ninguna informacin

sobre la correlacin que existe entre los dos grupos de datos. Slo permite comparar susdistribuciones (histogramas).


20/149

15

3.2. Nube de dispersin o de correlacin

Esta nube consiste en visualizar los valores de una variable en funcin de otra, lo cualrequiere que ambas variables hayan sido medidas en los mismos sitios. Sirve para ver la

relacin par a par o correlacin de ambas variables, as como detectar datos atpicos

(puntos que se alejan del resto de la nube). En el ejemplo de los datos de contaminacin desuelo, existe una buena correlacin entre las concentraciones de cobalto y nquel: cuandoaumenta una de estas dos variables, tiende a aumentar la otra, lo que corrobora la pendiente

positiva de la recta de regresin (Figura 10).

Figura 10. Nube de dispersin entre concentraciones de cobre y nquel.

3.3. Matriz de correlacin

La relacin entre dos variables puede ser resumida a travs de un coeficiente, llamado

coeficiente de correlacin lineal, que mide el grado de proporcionalidad que existe entreambas variables. Este coeficiente tiene un valor entre -1 y 1 (estos extremos corresponden

al caso en el cual las variables son exactamente proporcionales entre s, con un coeficiente

de proporcionalidad negativo o positivo, respectivamente).

Cuando existen ms de dos variables, se puede construir una matriz de correlacin. En

la interseccin de la fila icon la columnaj, se coloca el valor del coeficiente de correlacinentre las variables niy nj. En la Tabla 1, se observa correlaciones superiores a 0.7 entrelas concentraciones de nquel, cobalto y cromio, as como entre las concentraciones de

cobre y plomo. Esto sugiere un origen distinto para estos diferentes grupos de variables. Un

anlisis detallado indica que las concentraciones de cobalto y nquel estn relacionadas conla geologa de la zona y que estos contaminantes provienen en gran medida de la roca de

caja, mientras que las concentraciones de cobre y plomo son susceptibles de haber sido

provocadas por el uso de fertilizantes o abonos o por deshechos domsticos.


21/149

16

-----------------------------------------------------------------------------------------

| VARIABLE | Cd | Co | Cr | Cu | Ni | Pb | Zn |

-----------------------------------------------------------------------------------------

| Cd | 1.00| 0.26| 0.58| 0.15| 0.49| 0.22| 0.62|

| Co | 0.26| 1.00| 0.48| 0.19| 0.74| 0.16| 0.44|

| Cr | 0.58| 0.48| 1.00| 0.21| 0.71| 0.26| 0.61|

| Cu | 0.15| 0.19| 0.21| 1.00| 0.22| 0.82| 0.66|

| Ni | 0.49| 0.74| 0.71| 0.22| 1.00| 0.27| 0.59|

| Pb | 0.22| 0.16| 0.26| 0.82| 0.27| 1.00| 0.67|

| Zn | 0.62| 0.44| 0.61| 0.66| 0.59| 0.67| 1.00|

-----------------------------------------------------------------------------------------

Tabla 1. Matriz de correlacin entre concentraciones de contaminantes. Los trminosdiagonales valen 1, pues corresponden a la correlacin entre una variable y ella misma.

3.4. Anlisis en componentes principales

Supongamos que se tiene nmuestras (individuos) en los sitios {x1,... xn}, en las cualesse ha medidoNvariables {z1,...zN}. Esto se puede representar en una matriz de tamao n

N, denotada Z:

=

)()(

)()(

1

111

nNn

N

zz

zz

xx

xx

Z

L

MOM

L

.

En adelante, se supone que las variables tienen media 0 y varianza 1 (de lo contrario,

basta con restar a cada variable su valor promedio y dividirla por su desviacin estndar).

Geomtricamente, se puede representar la matriz de datos de dos maneras: ya sea npuntosen R

N (cada coordenada est asociada con una variable), o bien N puntos en Rn (cada

coordenada est asociada con unindividuo). Estas representaciones se llaman la nube de losindividuosy la nube de las variables, respectivamente. A continuacin, definiremos cmovisualizar estas nubes mediante sus proyecciones en sub-espacios de pequea dimensin.

Se busca construir nuevas variables, llamadasfactoresy denotadas {y1,...yN}, que seancombinaciones lineales de las variables iniciales y que no tengan correlacin entre s:

qpyyn

yyn

qpqp == =

si0)()(1

),(cov1

xx .

Sean Yla matriz nNque da los valores de los factores {y1,...yN} para cada una de losnindividuos yVla matrizNNde varianza covarianza de las variables:

ZZV tn

1= .

Se demuestra que Yse obtiene al plantear Y=Z Q, donde Qes la matriz de vectorespropios de V (tambin llamados ejes factoriales):


22/149

17

V =Q D Qt con Qt Q=Iy D= matriz diagonal.

El factor yp (con p = 1... N) est asociado a un valor propio de V (trmino dp en ladiagonal de D), que representa la varianza del factor. De este modo, las varianzas de losfactores descomponen la varianza total, ya que la traza de la matriz V se conserva en el

proceso de diagonalizacin:

==

===N

pp

N

ii yzNtraza

11

)var()var()(V .

Los valores propios de V indican la parte de la varianza total asociada a los distintosfactores y permiten jerarquizarlos. La razn entre la varianza del factor y la varianza total

(o sea, dp / N) es una medida sin dimensin (entre 0 y 1) de la cantidad de informacincontenida en el factor yp. De este modo, el anlisis en componentes principales permiteresumir la informacin multivariable contenida en los datos, slo reteniendo los factores de

mayores varianzas, por ejemplo aquellos cuyas varianzas suman el 80% de la varianza

total. En adelante, se supone que los valorespropios de V han sido ordenados en ordendecreciente: d1...dN, es decir, que los factores han sido numerados en orden decrecientede sus varianzas.

La nube de los individuosest definida en un espacio de dimensin Ny no se puedevisualizar cuando N>3. Para obtener una representacin sinttica de los datos, la idea esproyectar esta nube en un sub-espacio de dimensin k N (en la prctica, se suele tomark = 2), eligiendo el sub-espacio ms cercano a la nube, a saber, el que minimiza sumomento de inercia. Se demuestra que ste corresponde al sub-espacio generado por los kprimeros ejes factoriales (kprimeras columnas de la matriz Q). En particular, la proyeccinde la nube de los individuos en el primer plano factorial es el conjunto de puntos cuyas

coordenadas corresponden a las dos primeras columnas de la matriz Y. El examen de estaproyeccin permite ver la tendencia general de la nube, a veces sin buscar identificar los

individuos, ya que su nmero puede ser muy alto. En particular, es interesante detectar laszonas con alta o baja densidad de puntos, que corresponden a dispersiones no homogneas

de la poblacin.

La diagonalizacin de la matriz de varianza covarianza puede escribirse como sigue:

AAV t= con tQDA= .

El vector ai, i-sima columna de A, contiene los coeficientes de correlacin entre lavariable ziy los distintos factores. Adems, el producto escalar de los vectores ai y aj esigual al coeficiente de correlacin entre las variablesziyzj. En particular, < ai, ai> = 1, loque muestra que la longitud del vector aies igual a 1. En virtud de lo anterior, la matriz Apuede servir para representar geomtricamente la nube de las variables: la variableziestrepresentada por un punto (ai) sobre la esfera unitaria de R

N, mientras que el coseno entre ai

y aj es igual al coeficiente de correlacin entre las variables zi y zj. Para facilitar lavisualizacin, se proyecta la posicin de las variables sobre los planos creados por los


23/149

18

primeros ejes factoriales. Los grficos que se obtiene se llaman crculos de correlaciones,pues las variables estn representadas por puntos dentro de un crculo unitario (proyeccin

de la esfera). Como regla general, la proximidad o, al contrario, el alejamiento de lasproyecciones de las variables indica su mayor o menor correlacin o antagonismo. Sin

embargo, hay que tener cuidado que la proximidad dentro de un crculo no implica

necesariamente una proximidad sobre la esfera, salvo si las proyecciones se ubican cerca dela circunferencia del crculo. En caso contrario, para evitar conclusiones errneas, convieneexaminar las proyecciones de la nube de las variables sobre varios planos factoriales.

A continuacin, damos una ilustracin del anlisis en componentes principales con losdatos de contaminacin de suelo (Figura 11). La primera imagen representa la proyeccin

de la nube de los individuos en el primer plano factorial, con 9 individuos destacados en la

nube y en el mapa de los datos (segunda imagen). La tercera imagen muestra el histogramade los valores propios de la matriz de varianza covarianza (varianzas de los factores),

donde se aprecia que las varianzas de los dos primeros factores son mayores que 1 y suman

ms de 75% de la varianza total. La ltima imagen representa la nube de las variables en elprimer plano factorial, destacando dos grupos de variables (Cu-Pb y Cd-Co-Cr-Ni) con

buenas correlaciones intra-grupo y poca correlacin inter-grupo.

Figura 11. Grficos de anlisis en componentes principales


24/149

19

4. Comportamiento espacial

4.1. Nube direccional

Para hacerse una idea ms precisa de la distribucin espacial de los valores ms all deun simple despliegue (mapa), es cmodo visualizar las nubes de los valores a lo largo de las

direcciones de coordenadas (Figura 12). Estas nubes permiten ver si el comportamiento de

los datos experimenta algn cambio en cuanto a su valor promedio, su dispersin o sucontinuidad, as como detectar los datos ms atpicos (aquellos que se destacan del resto delas nubes).

Figura 12. Nubes direccionales, mostrando las concentracionesde cobalto en funcin de las coordenadas este y norte.

No se aprecian tendencias sistemticas ni datos atpicos.

4.2. Nube de correlacin diferida

Para terminar este panorama sobre herramientas de estudio exploratorio, presentaremos

la nube de correlacin diferida. Se trata de la nube de puntos (z(x),z(x + h)) dondehes unvector dado, mientras que xy x + hson sitios con datos. Los pares de datos con valoresmuy dismiles correspondern a los puntos de la nube ms alejados de la primera bisectriz.

Cuando los datos estn ubicados en una grilla regular, se toma un vector hmltiplo delespaciamiento de esta grilla. En caso contrario, se debe introducir tolerancias en la longitudy la orientacin de h, a falta de que la nube se reducira a muy pocos puntos. La Figura 13da una ilustracin, para un vector hde longitud 0.25 km (con una tolerancia de 0.01 km) sinimportar la orientacin. Los puntos ms alejados de la bisectriz han sido puestos en relieve

y los pares de datos correspondientes han sido destacados en el mapa de ubicacin: se trata

de datos cercanos cuyos valores son muy diferentes.


25/149

20

Figura 13. Nube de correlacin diferida y mapa de ubicacin de los datos.


26/149

21

Captulo 3. Conceptos generales sobre elmodelamiento geoestadstico de datos

Para poder describir y entender un fenmeno regionalizado, es necesario elaborar una

representacin matemtica o modelo. Una primera solucin consiste en utilizar un modelodeterminstico. En general, este enfoque conduce a una evaluacin precisa de la variableregionalizada a partir de un nmero limitado de observaciones, pero requiere conocer la

gnesis del fenmeno y las leyes fsicas o ecuaciones matemticas que rigen la distribucin

de la variable regionalizada. Entre otros dominios de aplicacin, citemos

la meteorologa: previsin climtica a corto plazo;

la geofsica: determinacin de la intensidad y orientacin del campo gravitacional ydel campo magntico terrestre en el espacio y el tiempo;

la teora de la seal: reconstitucin de una seal continua a partir de un conjunto demediciones, usando propiedades espectrales.

No obstante, en general, los fenmenos regionalizados en estudio son extremadamente

complejos y su comprensin puede ser tan parcial que un modelamiento determinstico es

imposible o ilusorio. Ejemplos tpicos son la evaluacin minera, la exploracin petrolfera,la caracterizacin de una zona contaminada o de una parcela agrcola, la estimacin de los

recursos forestales de una regin, o la previsin meteorolgica de largo plazo. Estamosentonces obligados a renunciar a una descripcin determinstica del fenmeno y recurrir a

un modelo probabilstico. Este proceder resulta operatorio, pues permite formalizar tantolos conocimientos como las incertidumbres que se tiene del fenmeno regionalizado.

1. Lmites de la estadstica clsica

En estadstica clsica, se considera los datos como realizaciones independientesde unamisma variable aleatoria, es decir, se supone que no tienen relaciones entre s y que siguen

la misma distribucin de probabilidad. Se busca estimar los parmetros en especial, la

esperanza y la varianza de esta distribucin, cuya forma a menudo est predeterminada(normal, lognormal, etc.). Sin embargo, cuando los datos estn ubicados en el espacio

geogrfico, las hiptesis de la estadstica clsica son raramente aceptables. En particular, si

bien simplifica los clculos estadsticos, la hiptesis de independencia de las observacionesresulta poco realista en el marco espacial. Intuitivamente, observaciones prximas tienen

valores cercanos, mientras que aquellas que estn ms alejadas entre s tienen una menor

relacin entre ellas.


27/149

22

As pues, en general, no puede considerarse modelar las variables regionalizadas por

medio de funciones determinsticas, debido a su extrema complejidad. Tampoco se puede

asimilar los datos medidos a variables aleatorias independientes. La geoestadstica entregauna representacin intermedia, a la vez aleatoria y funcional, al basarse en el concepto de

funcin aleatoria.

2. Nocin de funcin aleatoria

Los modelos geoestadsticos consideran el valorz(x) de la variable regionalizada en unsitio xdel campo Dcomo una realizacin de una variable aleatoriaZ(x)1. Cuando xrecorreD, se obtiene un conjunto de variables aleatorias Z = {Z(x), x D} que constituye unafuncin aleatoria(sinnimos: campo aleatorio,proceso aleatorioo estocstico). As pues,la variable regionalizadaz= {z(x), xD} es unarealizacin de la funcin aleatoriaZ, perouno podra imaginar otras realizaciones que presentan caractersticas similares en cuanto a

cmo se distribuyen los valores en el espacio (Figura 1). Contrariamente al modelo de la

estadstica clsica, las variables aleatorias as definidas no son independientes; por elcontrario, existen interacciones o correlaciones entre ellas, las cuales reflejan la continuidad

espacial de la variable regionalizada (Figura 2).

Figura 1. Realizaciones de dos modelos distintos de funcin aleatoria. Cadamodelo define la manera con la cual se distribuyen los valores en el espacio, lo queorigina el parentesco que se observa entre las realizaciones de un mismo modelo.

1Para distinguir las variables determinsticas de aquellas aleatorias, denotaremos las primeras con minsculay las segundas conMayscula.


28/149

23

Figura 2. Nocin de correlacin para representar la continuidad espacial.Ambos ejemplos presentan los mismos valores, pero distribuidos de forma

diferente en el espacio. Las variables aleatorias se modelarn con altas

correlaciones en el primer caso y bajas correlaciones en el segundo caso.

El recurrir al concepto de funcin aleatoria es una decisin, ni verdadera ni falsa, puesdicha funcin aleatoria es un objeto terico que no existe en la realidad. Asimismo, la

determinacin de una funcin aleatoria a partir de una variable regionalizada no es unaoperacin unvoca: varios modelos pueden resultar aceptables, en cuanto sean compatibles

con la informacin disponible sobre la variable regionalizada.

3. Caracterizacin de una funcin aleatoria

3.1. Distribucin espacial

Consideremos una funcin aleatoriaZ= {Z(x), xD} y una serie de sitios {x1,... xk}en D. El grupo de variables aleatorias {Z(x1),...Z(xk)} est caracterizado por unafuncin dedistribucinmultivariable que depende de kargumentos:

R


29/149

24

3.2. Distribuciones univariable y bivariables

Estas distribuciones corresponden a los casos particulares donde k = 1 y k = 2. Engeneral, los datos disponibles permiten inferir estas distribuciones. Es la razn por la cual ladeterminacin de un modelo de distribucin espacial suele basarse en dichas distribuciones,

aunque las distribuciones de orden superior (trivariables, quadrivariables...) del modelo nose respaldan en la informacin proporcionada por los datos.

Distribucin univariable:

})({Prob)( 1111 zZzF


30/149

25

Figura 4. Ejemplo de funcin de distribucin y densidad de probabilidad bivariable.La densidad de probabilidad se obtiene al tomar las derivadas parciales de la

funcin de distribucin con respecto a cada uno de sus argumentos.

3.3. Momentos

En muchos problemas (como el de interpolacin por kriging), se puede simplificar aun

ms la caracterizacin de la funcin aleatoria, al considerar solamente algunos parmetrosdescriptivos o momentosde las distribuciones univariables y bivariables, que resumen lainformacin ms relevante.

Estos son:

El valor esperado(esperanza, o momento de primer orden):

])([)( xx ZEm = .

En cada sitio xdado, m(x) representa la media alrededor de la cual se distribuyen losvalores tomados por las realizaciones de la funcin aleatoria.

La varianza, o varianza a priori, definida por:

22

2

2

)(])([

}])()({[

])([var)(

xxxx

xx

mZEmZE

Z

==

=

La varianza es una cantidad positiva. Su raz cuadrada se llama desviacin estndar.La varianza y la desviacin estndar constituyen medidas de la dispersin de Z(x) entorno a su valor medio m(x) y cuantifican, de esta forma, su carcter aleatorio.


31/149

26

La covarianza centrada entre dos variables aleatoriasZ(x1) yZ(x2):

)()()]()([

}])()([])()([{

])(),([cov),(

2121

2211

2121

xxxx

xxxx

xxxx

mmZZE

mZmZE

ZZC

=

=

=

La covarianza da una visin elemental del vnculo o interaccin que existe entreZ(x1)yZ(x2). La desigualdad de Cauchy-Schwarz relaciona la covarianza entreZ(x1) yZ(x2)con las varianzas deZ(x1) yZ(x2):

])([var])([var|])(),([cov| 2121 xxxx ZZZZ .

El correlograma(coeficiente de correlacin lineal) entre dos variables aleatoriasZ(x1)yZ(x2):

])([var])([var

])(),([cov

])(),([corr),(

21

21

2121

xx

xxxxxx

ZZ

ZZZZ

=

=.

Al contrario de la covarianza, el correlograma es adimensional y toma sus valores en el

intervalo [1,1]. Un coeficiente nulo indica que las variables Z(x1) yZ(x2) no estncorrelacionadas (condicin necesaria para que sean independientes), mientras que un

coeficiente igual a 1 1 indica que son proporcionales.

El semi-variogramaentre dos variables aleatoriasZ(x1) yZ(x2):

])()([var2

1),( 2121 xxxx ZZ = .

En adelante, para aliviar la escritura, se omitir sistemticamente el prefijo semi y sehablar solamente de variograma.

3.4. Inferencia estadstica Hiptesis de estacionaridad

Para poner en marcha el formalismo probabilstico, es necesario poder determinar, porlo menos parcialmente, la distribucin espacial de la funcin aleatoria a partir de los datos

disponibles sobre la variable regionalizada (etapa de inferencia estadstica). Dos razonesimpiden poder realizar la inferencia estadstica en su forma ms general: por una parte, lavariable regionalizada slo es una realizacin de la funcin aleatoria; por otra parte, estarealizacin se conoce de manera fragmentaria, en algunos sitios de muestreo.


32/149

27

Para salir de este problema algunas restricciones son necesarias. Recurren a la nocin

de estacionaridad. La idea es permitir la inferencia estadstica, reemplazando la repeticinsobre las realizaciones de la funcin aleatoria (inaccesibles, por disponer solamente de unarealizacin) por una repeticin en el espacio: se supone que los valores que se encuentran

en las diferentes regiones del campo presentan las mismas caractersticas y, por ende,

pueden considerarse como distintas realizaciones del mismo proceso aleatorio.

Del punto de vista matemtico, la hiptesis de estacionaridad consiste en postular que

la distribucin espacial de la funcin aleatoria es invariante por traslacin, es decir, que las

propiedades de un conjunto de datos no dependen de su posicin absoluta en el espacio,sino que solamente de sus posiciones relativas. Esto implica las siguientes simplificaciones:

La distribucin univariableno depende del sitio considerado

})({Prob)( 111 zZzF


33/149

28

Figura 5. Esquema sinttico de los conceptose hiptesis que sustentan el modelo geoestadstico

3.5. Relaciones entre momentos

Bajo la hiptesis de estacionaridad, se tiene las siguientes relaciones:

La varianza es igual a la funcin de covarianza evaluada para el vector h= 0:

)(2 0C=

El correlograma es igual a la covarianza dividida por la varianza:

)(/)()( 0hh CC=

El variograma es igual a la varianza menos la covarianza:

)()()( h0h CC = .

Cuando la norma del vector de separacin hse vuelve infinita, la covarianza tiende a 0y el variograma es igual a la varianza:

2)()( == 0C .

Variable regionalizada Funcin aleatoria

Distribucin espacial

distribucin univariable distribuciones bivariables distribuciones multivariables

Momentos

esperanza, varianza covarianza, variograma

Hiptesis de estacionaridad

esperanza y varianza son constantes covarianza y variograma slo dependen de la separacin entre datos

interpretacin

caracterizacin

resumen

simplificacin


34/149

29

Captulo 4. Anlisis variogrfico:1. Variograma experimental

Los valores de una variable regionalizada no son independientes, en el sentido que un

valor observado en un sitio proporciona informacin sobre los valores de los sitios vecinos.

En la interpretacin probabilstica de la variable regionalizada, esta nocin intuitiva dedependencia est descrita por la distribucin espacialde la funcin aleatoria, que modela lamanera como se relacionan los valores observados en distintos sitios por una distribucin

de probabilidad multivariable.

En muchos problemas la descripcin de la distribucin espacial se limita a los primeros

momentos. El momento de orden 1 (esperanza) hace intervenir un solo sitio a la vez y noentrega realmente informacin sobre dependencia espacial. En cambio, los momentos deorden 2 (covarianza, correlograma y variograma) estn definidos con la ayuda de dos sitios,

es decir del ms pequeo conjunto que se puede considerar para describir la interaccin

entre valores. Son estos momentos los que entregan una descripcin elemental y operatoriade la continuidad espacial de la variable regionalizada.

En este captulo, abordamos la primera etapa del anlisis variogrfico, que consiste enla inferencia del variograma, es decir, el clculo de un variograma experimental a partir de

los datos disponibles. Posteriormente (captulo siguiente), se ver cmo ajustar un modelo

de variograma en torno al variograma experimental.

1. El variograma experimental tradicional

1.1. Definicin e interpretacin

Consideremos una variable regionalizadazconocida en nsitios {x1,... xn}. El estimadortradicional del variograma para un vector de separacin hdado, se define de la siguientemanera:

=)(

2)]()([|)(|2

1)(

h

xxh

hN

zzN

donde N(h) ={ (,) tal que x x=h};|N(h)| es el nmero de pares contenidos en el conjuntoN(h).


35/149

30

Se ve que el estimador anterior consiste en reemplazar la esperanza en la expresin del

variograma terico

})]()([{2

1)( 2xhxh ZZE +=

por la media aritmtica sobre los pares de datos separados por el vector h.

El estimador as definido lleva el nombre de variograma experimental. No se trata deuna funcin propiamente tal, sino que de una serie de valores, pues slo se puede calcular

para vectores h tales que N(h) no es vaco. El variograma experimental para un vector hpuede interpretarse como el momento de inercia de la nube de correlacin diferida (nube de

los puntos (z(x),z(x) con x x=h), que mide la distancia cuadrtica promedio entre lospuntos de la nube y la lnea diagonal. Mientras ms apretada la nube de correlacin diferida

en torno a la diagonal, ms pequea su inercia.

1.2. Ejemplo

Consideremos los siguientes datos espaciados cada 100 m:

5 3 6 4 2 1 1 2 4 3 2

El variograma experimental se puede calcular para distancias mltiplos de 100m, esto

es:

5.4)3(12

1)1000(

...

06.3)02303511(82

1)300(

39.2)213113411(92

1)200(

45.1)1121012232(102

1

)100(

2

22222222

222222222

2222222222

=

=

=+++++++

=

=++++++++

=

=+++++++++=

m

m

m

m

1.3. Tolerancias en los parmetros de clculo

Si los datos estn irregularmente distribuidos en el campo D, el nmero de pares |N(h)|que interviene en el clculo de (h) para un vector hdado, es generalmente muy pequeo(incluso igual a 0 1). El variograma experimental tiene entonces un aspecto muy errtico

y resulta imposible interpretarlo y modelarlo. Para que sea ms robusto, se suele permitir

algunas tolerancias de clculo, sobre las distancias y las direcciones:


36/149

31

+

++ =

)(

2)]()([|)(|2

1)(

h

xxh

hN

zzN

donde

U )(T')'(})(Tquetal),({)(

hh

hhxxh

+ == NN ;

T(h) es una regin de tolerancia alrededor de h, de la forma [h h, h + h] en elcaso unidimensional. En el caso bi- o tridimensional, existen tolerancias tanto sobrela longitud de hcomo sobre su orientacin, tal como se ilustra en la Figura 1.

Figura 1. Regin de tolerancia T(h) alrededor del vector h(caso bidimensional)El ancho de banda limita la separacin del cono de tolerancia a una extensin mxima.

En el espacio de tres dimensiones, se introduce dos anchos de banda: uno horizontal y otro

vertical.

En resumen, los parmetros a especificar para calcular un variograma experimental son

los siguientes:

direccin de inters: acimut, inclinacin

distancias de inters, en general mltiplos de una distancia elemental llamadapaso(lag)

tolerancia en la direccin: tolerancia angular, ancho(s) de banda

tolerancia en las distancias.


37/149

32

La Figura 2 muestra un variograma experimental de las concentraciones de cobalto

procedentes de los datos de contaminacin de suelo. Este variograma ha sido calculado para

distancias mltiplos de la malla de muestreo (0.25 km), con una tolerancia en la distanciade 0.125 km y una tolerancia angular de 90, es decir, sin importar la orientacin del vector

h. En este caso, se habla de variograma omnidireccional.

Figura 2. Variograma experimental omnidireccional de las concentraciones de cobalto.Las lneas punteadas slo unen a los distintos puntos del variograma experimental.

1.4. Propiedades del variograma experimental

El variograma experimental (h) es un estimador insesgadodel variograma terico:

)()]([ hh =E .

Un indicador de la robustezde (h) es su varianza relativa

2)](/[)]([var hh .

Mientras ms elevada dicha varianza, ms susceptible es el variograma experimental de

fluctuar en torno a su valor esperado (el variograma terico (h)) y ms difcil se vuelve la

inferencia estadstica. Aunque esta varianza relativa slo puede ser expresada en algunoscasos particulares, puesto que requiere conocer la funcin aleatoria hasta sus distribuciones

quadrivariables, los principales factores que la influencian son:

La distancia considerada (norma del vector h): la varianza relativa de (h) suele tomarvalores considerables para las grandes distancias (para fijar las ideas, aquellas distancias

mayores que la mitad del dimetro del campo). Este efecto es perceptible en la Figura 2,donde se observa que las fluctuaciones aumentan cuando la distancia aumenta.


38/149

33

La irregularidad o el carcter preferencial de la malla de muestreo, que pueden provocargrandes fluctuaciones en el variograma experimental, incluso para pequeas distancias.

El nmero de pares de datos: mientras ms bajo, mayores son las fluctuaciones.

La presencia de datos extremos (outliers), los cuales tienen un impacto considerable enel clculo del variograma experimental, pues este ltimo eleva los valores al cuadrado.

1.5. Nube variogrfica

Para estudiar la estabilidad numrica del variograma experimental, es til visualizar la

nube variogrfica, es decir, la nube de las diferencias cuadrticas {[z(x) z(x)]2/ 2, con

(,) N(h)} en funcin del vector ho de su mdulo |h|. El variograma experimental seobtiene al tomar, para cada vector h, la media de los puntos correspondientes de la nube

variogrfica. El anlisis de esta nube permite localizar los pares de datos responsables delos valores altos del variograma experimental y poner en evidencia los datos notablementediferentes de sus vecinos.

En lugar de visualizar la nube entera de las diferencias cuadrticas, se puede tambinslo localizar sus extremos, su media (que no es otra cosa que el valor del variograma

experimental para el vector h) y sus cuartiles. Si la media est fuera del rango intercuartil(intervalo entre el primer y tercer cuartil), esto puede indicar que el valor del variograma

experimental para el vector considerado est fuertemente influenciado por algunos valoresextremos, luego es poco robusto.

La Figura 3 presenta la nube variogrfica (calculada de forma omnidireccional) de losdatos de concentracin de cobalto, donde se ha resaltado los puntos de la nube que exceden

un valor de 130. La lnea punteada indica la media de los puntos de la nube, o sea, el

variograma experimental. La parte derecha de la figura muestra el mapa de ubicacin de losdatos, donde se indica los pares de datos asociados a los puntos resaltados de la nube

variogrfica. Todos estos pares se originan en un mismo dato, que corresponde al dato de

mayor concentracin de cobalto (20.6 ppm).

Este dato de 20.6 ppm tiene mucho impacto en el variograma experimental. La Figura 4

muestra el variograma experimental que se obtendra si este dato no existiera (lado

izquierdo) y el variograma experimental que se obtendra si este dato tuviera un valor de 35

ppm en lugar de 20.6 ppm (lado derecho). Se aprecia que la presencia o ausencia de un solodato extremo puede afectar considerablemente el variograma experimental, en particular

para las distancias pequeas. Para paliar esta situacin, en la prctica se puede recurrir a lassiguientes aproximaciones:

Utilizar una herramienta alternativa al variograma (ver seccin siguiente). No considerar los outliers al momento de calcular el variograma. Bajar arbitrariamente el valor de los outliers (capping), por ejemplo asignando un

valor convencional de 15 ppm a todos los datos que superan este valor.


39/149

34

Transformar los datos, por ejemplo pasndolos a logaritmo. Ahora, si bien ellogaritmo atena los valores extremos y facilita el modelamiento del variograma, la

dificultad de este procedimiento radica en que, en general, se desconoce la relacin

entre el variograma de la variable original y el variograma de su logaritmo, por loque una hiptesis adicional es necesaria (ver seccin siguiente).

Figura 3. Izquierda: nube variogrfica para los datos deconcentracin de cobalto. Derecha: mapa de ubicacin.

Figura 4. Variograma experimental calculado sin el dato extremo (izquierda)y con un dato extremo de 35 ppm en lugar de 20.6 ppm (derecha).

1.6. Mapa variogrfico

El mapa variogrfico consiste en visualizar el variograma experimental en todas las

direcciones del espacio, bajo la forma de un mapa con escala de color o de grises. Ayuda a

distinguir si existe anisotropa, para luego calcular el variograma experimental a lo largode las direcciones principales de anisotropa.


40/149

35

A modo de ilustracin, el mapa variogrfico de los datos de concentracin de cobalto

(Figura 5, izquierda) dibuja una direccin de mayor continuidad con una orientacin de 60

aproximadamente desde el eje norte-sur (los colores claros indican valores pequeos para elvariograma experimental, mientras que los colores oscuros indican valores ms grandes).

Esta observacin se confirma al calcular los variogramas experimentales direccionales

(Figura 5, derecha), donde se aprecia un crecimiento ms lento en la direccin N60E y msrpido en la direccin ortogonal N30W. Para el modelamiento, se preferir utilizar estos

variogramas direccionales en lugar del variograma omnidireccional (Figura 2), puesto que

este ltimo no captura el cambio de continuidad espacial con la direccin (anisotropa).

Figura 5. Mapa variogrfico (izquierda) y variograma experimentalcalculado a lo largo de las direcciones de anisotropa reconocidas(N60E y N30W) (derecha). Los parmetros de clculo son los

siguientes: paso = 0.35 km, tolerancia en la distancia = 0.175 km,tolerancia angular = 20, ancho de banda = 1km.

2. Consideraciones prcticas

1) Lasdireccionesde clculodel variograma experimental deben considerar la anisotropade la variable regionalizada. Tal como en el ejemplo anterior, su eleccin se puedehacer al examinar el mapa variogrfico. En el caso istropo (es decir, si los variogramas

direccionales se superponen salvo por pequeas fluctuaciones estadsticas), se podr

considerar un variograma omnidireccional:

+

++ =

)(

2)]()([|)(|2

1)(

rN

zzrN

r xx

dondeN+(r) ={ (,) tal que | x x| r}.


41/149

36

2) En general, cada variograma direccional se calcula para distancias mltiplos de una

distancia elemental, llamada paso. La eleccin del paso puede tener repercusiones en

el clculo. Un paso demasiado pequeo conducir a un variograma experimentalerrtico, poco estable, mientras que un paso demasiado grande no permitir apreciar los

detalles de la continuidad espacial, en especial el comportamiento en el origen del

variograma. Cuando la malla de muestreo es regular

2

, el paso est prcticamenteimpuesto. En caso contrario, se podr utilizar la nube variogrfica para encontrar un

paso tal que el nmero de pares de datos que intervienen en el clculo del variograma

experimental sea suficiente (para fijar ideas, superior a la mitad del nmero de datos),

de manera que estos puntos sean representativos.

3) El uso de tolerancias en las distancias y ngulos busca suavizar y hacer ms robusto el

variograma experimental cuando la malla de muestreo no es regular. Ahora, convieneadvertir el usuario de la utilizacin de tolerancias excesivas, que pueden suavizar

artificialmente el variograma experimental; aunque un variograma suave es ms fcil de

modelar, esto no garantiza que sea ms representativo de los datos.

4) En general, se utiliza una tolerancia en las distancias igual a la mitad del paso: en la

direccin considerada, el i-simo punto del variograma experimental se calcula con lospares de datos cuya separacin cae en el intervalo [(i 0.5)paso, (i+ 0.5)paso]. Deesta manera, todas las distancias son utilizadas una vez y una sola. Se puede tambin

considerar una tolerancia menor, en cuyo caso las clases de distancias involucradas en

el clculo del variograma experimental ya no son contiguas y algunos pares de datos no

son tomados en cuenta. Esta situacin, aparentemente poco favorable (pues se pierdeinformacin) no es siempre la peor, sobre todo cuando se trabaja en una malla regular o

casi-regular.

5) Las tolerancias angulares tienden a disipar la eventual anisotropa del variograma (las

direcciones con mayor continuidad espacial se mezclan con direcciones de continuidad

intermedia, de manera que la anisotropa aparece menos marcada de lo que est enrealidad). Porende,hayquebuscarun justo equilibrio en la eleccin de las tolerancias.

Es recomendable completar la definicin de las tolerancias angulares por aquella de las

separaciones mximas: ancho de banda y, en el espacio de tres dimensiones, alto debanda; este ltimo parmetro resulta importante en la prctica, pues evita mezclar lasdirecciones horizontales con direcciones inclinadas, cuyo comportamiento es a menudo

bastante distinto.

6) Es conveniente tener cuidado con la representatividad del variograma experimental.

Para cada punto de este variograma, se podr determinar el nmero de pares de datos

utilizados para su clculo; un nmero de pares bajo indica un punto poco confiable.Igualmente, resulta de utilidad visualizar la nube variogrfica, para identificar los pares

de datos responsables de una inestabilidad numrica del variograma experimental.

2Por ejemplo, para una malla cuadrada de lado a, se elegir un paso de clculo igual a aen las direccionesprincipales de la malla, y a 2 en las direcciones diagonales.


42/149

37

3. Complemento: otras herramientas para el anlisis variogrfico

3.1. Covarianza experimental

Bajo la hiptesis de estacionaridad, la funcin de covarianza se define como:

}])([])([{)( mZmZEC += xhxh .

Un primer estimador de esta covarianza se obtiene al reemplazar el valor esperado mpor una media aritmtica sobre los pares de datos cuya separacin coincide con el vector h:

= )(

1 ])([])([|)(|

1)(

h

xxh

hN

zzzzN

C ,

dondeN(h) ={(,) tal que x x=h}, mientras que zes un estimador de la esperanza, asaber la media aritmtica de los ndatos disponibles:

=

=n

zn

z1

)(1

x .

El estimador 1se conoce como covarianza ergdica. Un segundo estimador, llamadocovarianza no ergdicaconsiste en plantear:

= )(

2 )]()([)]()([|)(|

1)(

h

hxhxh

hN

colacabeza zzzzN

C ,

con

=)(),(

)(|)(|

1)(

h

xh

hN

cabeza zN

z y

=)(),(

)(|)(|

1)(

h

xh

hN

cola zN

z .

Se demuestra que estos estimadores de la covarianza son ms robustos que el estimador

del variograma (los datos no estn elevados al cuadrado), pero presentan un sesgo3:

3Por ejemplo, para h=0, ambos estimadores coinciden con el estimador clsico de la varianza a prioriC(0):

=

=n

zz

n

C1

2])([

1)( x0

cuya esperanza es, bajo la hiptesis simplificadora que los datos no estn correlacionados

)()11()(1)]([ 000 Cn

Cn

nCE == .

Bajo la hiptesis de no correlacin entre los datos, se tiene un sesgo igual a C(0)/npara el estimador dela varianza a prioriC(0). En realidad, como la variable regionalizada manifiesta cierta continuidad espacial,los datos estn correlacionados y el sesgo es todava ms importante.


43/149

38

)()]([

)()]([

2

1

hh

hh

CCE

CCE

El sesgo es ms importante cuando el nmero de datos es pequeo. Proviene de haberrecurrido, en el clculo de la covarianza experimental, a una estimacin de la esperanza mpor una media aritmtica de datos. El variograma experimental no tiene este inconveniente,pues evita estimar la esperanza de la funcin aleatoria.

De la misma manera que para el variograma, se introduce tolerancias en las distancias ylos ngulos cuando la malla de muestreo es irregular.

Figura 6. Variograma omnidireccional calculado a partir del estimador

de la covarianza no ergdica, planteando )()()( 22 h0h CC = .

3.2. Covarianza no centrada

Una alternativa interesante es recurrir a la covarianza no centrada, denotada Cnc, que,bajo la hiptesis de estacionaridad, slo depende de la separacin entre datos:

2

)(])()([)( mCZZECnc +=+= hxhxh .

La covarianza no centrada est relacionada con el variograma por la relacin:

)()()( h0h ncnc CC =

y constituye, en consecuencia, una herramienta equivalente a la covarianza centrada o al

variograma. Puede estimarse sin sesgo con:


44/149

39

=)(

)()(|)(|

1)(

h

xxh

hN

nc zzN

C .

De este modo, nc(0) nc(h) constituye un estimador insesgado del variograma (h).Este estimador atena la influencia de los valores altos, en comparacin con el variogramaexperimental clsico, puesto que los valores de los datos ya no intervienen en un cuadrado.

Esto es particularmente interesante en el caso de datos cuya distribucin es muy asimtrica

y presenta algunos valores extremos que hacen inestable el variograma experimental.

3.3. Correlograma experimental

El correlograma se define como el cuociente entre la covarianza y la varianza:

)(/)(])(),([)( 0hxhxh CCZZcorr =+= .

Tal como para la covarianza, se puede definir un estimador ergdico, que utiliza todoslos datos al momento de estimar la esperanza y la varianza:

)(

)()(

1

11

0

hh

C

C= ,

y un estimador no ergdico, que slo utiliza los datos que estn apareados para el vector h:

)()(

)(

)(2

2 hh

hh colacabeza

C

= ,

con

=)(),(

2)]()([|)(|

1)(

h

hxh

hN

cabezacabeza zzN

=)(),(

2)]()([|)(|

1)(

h

hxh

hN

colacola zzN

.

Los estimadores as definidos son ms robustos que el estimador del variograma, perosesgados debido a que utilizan estimadores de la esperanza y de la varianza:

)()]([

)()]([

2

1

hh

hh

E

Date post:	02-Jun-2018
Category:	Documents
Upload:	mauricio1993
View:	241 times
Download:	0 times

Geoestadistica- FCFM Xavier Emery 2011.pdf

Documents