Analisis Estadístico de Datos...

Post on 17-Apr-2020

4 views 0 download

transcript

Analisis Estadístico de Datos Climáticos

Estadística Univariada Distribuciones empíricas y análisis exploratorio de datos

Robustez y Resistencia Medidas numéricas de localizacion, dispersión y simetría Técnicas gráficas: boxplots, histogramas, distribución de 

frecuencia acumulada Transformaciones

Finalidad: aprender algo sobre la naturaleza de los datos.

Transformaciones

A veces es útil transformar matemáticamente el conjunto inicial de datos puede revelar características escondidas de los datos. ayuda a hacer que los datos cumplan con ciertas hipótesis 

sobre la naturaleza de los datos.  Por ej. que tengan distribución guassiana.

ayuda la comparación entre diferentes variables .

Anomalías ¿Cómo se definen usualmente las anomalías en 

estudios del clima?

Las anomalías se definen con respecto al ciclo anual.

Por ejemplo, para datos medios mensuales, el ciclo annual se define como el promedio de todos los eneros, febreros, etc, del período del registro.

Código de Matlab

% Cargar los datos

pre=nv_varget('precl1949­2006.nc','rain')*0.1;  %lluvias en mm/dia

lon=nc_varget('precl1949­2006.nc','longitude');  

lat=nc_varget('precl1949­2006.nc','latitude');

size(pre)  ­ Matriz de 696x72x144 – tiempo x latitud x longitud

size(lon) – Vector (matriz) 144 x 1 

size(lat) – Vector (matriz) 72 x 1

% Crear Climatología y Anomalías

[clim,anom]=climatology(pre(1:120,:,:),lon,lat,0);

% Plotear

subplot(3,2,1:4)   %crea 3 x 2 cuadros donde plotear y usa los 4 primeros

plot(linspace(1949,1958,120),pre(1:120,23,122),'linewidth',2)

hold   %la siguiente línea dibuja encima de lo que ya está

plot(linspace(1949,1958,120),clim(1:120,23,122),'r','linewidth',2)

grid    %pone grilla

title('Precipitacion en (56W,34S) PREC­L periodo (1949­1958)')

legend('Precip','Climatol')    %leyenda

subplot(3,2,5:6)

plot(linspace(1949,1958,120),anom(:,23,122),'linewidth',2)

grid

axis tight   %arregla ejes

legend('Anom')

Anomalías estandarizadas

Las anomalías estandarizadas z se calculan restando la media y dividiendo por la desviación estandard.

Como las anomalías tienen ya media nula, basta con dividir por la desviación estandard.

z=anom(:,23,122)/std(anom(:,23,122)); %Define zplot(linspace(1949,1958,120),anom(1:120,23,122),'linewidth',2)holdplot(linspace(1949,1958,120),z,'g','linewidth',2)grid

Notar que:

Las anomalias estandarizadas no tienen unidades  Todas las variables estandarizadas tienen media nula 

y desviación estandard = 1.

Esto permite comparar diferentes variables mas facilmente.

Comparemos desviacion estandard de las lluvias en 56W,34S de acuerdo al mes

pp=anom(1:120,23,122);

%STD para c/mesfor j=1:12pps(j)=std(pp(j:12:end));end

bar(pps)

La desviación estandarden enero es 3 veces mayorque en diciembre.

O sea que una anomalia de1 mm/día en diciembre esmucho más inusual queen enero.

subplot(2,2,1)plot((1949:1958),pp(1:12:end),'r','linewidth',2)holdplot((1949:1958),pp(12:12:end),'linewidth',2)title('Anomalias')

subplot(2,2,2)plot((1949:1958),pp(1:12:end)/std(pp(1:12:end)),'r','linewidth',2)endplot((1949:1958),pp(12:12:end)/std(pp(12:12:end)),'linewidth',2)title('Anomalias estandarizadas')

Técnicas para datos apareados

Datos apareados: conjunto de datos con dos valores para el mismo tiempo. 

Scatterplots

Coeficiente de correlación de Pearson

Coeficiente de correlación de Spearman (rango)

Scatterplots

Gráfico donde la variable y se plotea en funcion de la variable x. 

(x,y) son datos para c/tiempo.  Permite a simple vista “tener idea” de la relacion 

entre datos apareados

Relación entre Anomalias de Precip y Temp en (56W,34S) durante mayo (1949-1958)

temp=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','temp');X=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','X');Y=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','Y');

[clim,anom]=climatology(temp(1:120,:,:),X,Y,0);tt=anom(:,23,122);scatter(tt(5:12:end),pp(5:12:end),30,'filled'); grid

De acuerdo a este gráficotiende a llover mas cuanto mas cálido estáel mes.

El cálculo de la correlaciónpermite asignar un valora esta relación.

Coef. de correlación de Pearson

Cociente entre la covarianza entre dos variables y el producto de sus desviaciones estandard.

Si las desviaciones estandards se meten dentro de la sumatoria la correlación también se puede escribir como

o sea, el promedio del producto de las anomalías estandarizadas.

Propiedades Cumple 

           especifica la proporción de la variabilidad de una de las dos variables que está descrita linealmente por la otra.

No es ni robusta (sólo caracteriza relaciones lineales) ni resistente (muy sensible a outliers).

−1r xy1

rxy ²

Poca resistencia a outliers

Correlación con punto rojo

r=0.34

Correlacion sin dato rojo

r=0.61

%Correlación

corr(tt(5:12:end),pp(5:12:end),'type','Pearson')

Precip=f(Temp) (56W,34S)

Coef. de correlación de Spearman

Alternativa robusta y resistente Consiste en aplicar la misma fórmula que el coef. de 

Pearson pero a los rangos de los datos. Como se usan rangos, los valores son siempre enteros del 1 a n 

(número de datos) y 

(promedio de 1...n) = (n+1)/2

(varianza de 1...n) = n(n2­1)/[12(n­1)]

Entonces

Di=rango x i−rango y i

Ejemplo 1

r_Pearson=0.877

Rango xi Rango yi Di

1 1 02 2 03 3 04 4 0

5 5 06 6 07 7 08 8 0

9 9.5 -0.510 9.5 0.5

r_rank=1- 6*0.5/(10*99)=0.997

Así como r_Pearson captura la relación lineal, r_rank captura una relación monotónica

Ejemplo 2

r_Pearson=0.61

Rango(xi) Rango(yi) Di

1 8 -7 2 4 -2 3 9 -6 4 2 2

5 5 0 6 6 0

7 3 4 8 1 7 9 7 2 10 10 0

r_rank=1 - 6(49+4+36+4+16+49+4)/(10*99)=0.018

En lengua Matlab: corr(x,y,'type','Spearman')

Autocorrelacion Es la correlación de una variable con sus propios valores 

pasados y futuros.

Si se tiene una serie temporal Xi, i=1...n, la autocorrelación 

con lag=1 se hace

    X1 X

2 X

3 X

4... X

n­2 X

n­1 X

n

         X1 X

2 X

3 X

4...  X

n­2 X

n­1 X

n                    

                    

Y se calcula

Para un lag k cualquiera se tiene

Notar que: a medida que k aumenta los segmentos de serie 

comparados son cada vez mas chicos. en general se calcula las autocorrelaciones para k<n/3.

Función de autocorrelación

Es el conjunto de autocorrelaciones calculadas para diferentes lags.

La función de autocorrelación siempre comienza con r0=1 pues 

es la correlación de una serie consigo misma.

● Típicamente, la función decrese a medida que k aumenta. Esta disminución es muchas veces exponencial y se define un tiempo de persistencia como el lag para el cual r

k=e­1.

días

Persistencia de temperatura media en invierno de 1975en Las Brujas

temp=nc_varget('TempMedia_LasBrujas_INIA_1Jan1975-31Dec1995.cdf','tempavg');[rr,lag]=xcov(temp(6*30+1:7*31),temp(6*30+1:7*31),'coeff');[rr2,lag2]=xcov(temp(7*30+1:8*31),temp(7*30+1:8*31),'coeff');plot(lag,rr); hold; plot(lag,rr,'*');plot(lag2,rr2,'r'); plot(lag2,rr2,'r*'); axis([0 12 -0.5 1])

En Julio la escala de persistencia de temperatura fue bastante mayor queen agosto, peroes siempre del órdende días.

Julio fue mas “predecible”.

¿Por que una escala de 4-5 días? Por el pasaje de frentes y masas de aire.

Autocorrelación TSM lengua fria del Pacífico

La persistencia de las anomalías de temperatura de superficie de mar es del órden de 3 meses dependiendo de la región. Eso permite pronosticar el estado del océano con cierta antelación.

6 meses!

TSM globales últimos 3 meses

Predicción de TSM:- dinamica/estadísticamente enlos trópicos- persistencia en los extratrópicos