+ All Categories
Home > Documents > EDA Analisis Exploratorio de Datos

EDA Analisis Exploratorio de Datos

Date post: 07-Jul-2018
Category:
Upload: turo-turo-turo
View: 218 times
Download: 0 times
Share this document with a friend

of 19

Transcript
  • 8/19/2019 EDA Analisis Exploratorio de Datos

    1/19

    ANALISIS GRAFICO Y ANALISISEXPLORATORIO DE LOS DATOS (AED)

    Notas

    Indice

    1. OBJETIVOS DEL TEMA 1

    2. CONCEPTOS BÁSICOS PREVIOS 1

    3. INTRODUCCIÓN 2

    4. APUNTE HISTÓRICO 3

    5. ETAPAS DEL AED 3

    6. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES UNIVARIADAS 5

    7. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES BIVARIADAS 12

    8. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES MULTIVARIADAS 13

    9. PROCEDIMIENTOS RELACIONADOS CON ANÁLISIS DE SERIES TEMPORALES 13

    10. PROCEDIMIENTOS GRÁFICOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL UNIFACTORIAL 14

    11. PROCEDIMIENTOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL MULTIFACTORIAL 17

    12. PROCEDIMIENTOS RELACIONADOS CON EL CONTROL DE LA CALIDAD 18

    13. OTROS PROCEDIMIENTOS DE ANÁLISIS EXPLORATORIO DE DATOS: EL DIAGRAMA DE TALLO Y HOJAS 18

    1. Objetivos del tema

    •  Conocer y comprender el concepto de análisis exploratorio de los datos (AED)

    •  Conocer las etapas a seguir para realizar un AED

    •  Conocer las herramientas gráficas y numéricas que constituyen el AED

    •  Saber seleccionar los procedimientos más adecuados para examinar los datos y relaciones de interés

    •  Comprobar si se verifican las hipótesis de interés

    •  Saber identificar la presencia de datos atípicos (extremos o anómalos)

    •  Saber evaluar la trascendencia de datos ausentes y su potencial impacto

    2. Conceptos básicos previos

    Distribuciones aleatorias

    Estadísticos descriptivos

    Muestreo

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    2/19

    2

    3. Introducción

    3.1. Concepto del AED

    El análisis exploratorio de los datos (AED) más que un conjunto de técnicas o herramientas gráficas y

    numéricas, es un enfoque, actitud, línea de investigación o filosofía del análisis estadístico previo a lacomprobación de hipótesis o análisis especializados para diseccionar y entender la estructura de los datos uobservaciones de la muestra y las posibles relaciones entre las variables medidas. (1, 2).

     Aunque muy a menudo se identifica “análisis gráfico” y AED no debieran confundirse. El análisis gráfico esuna colección de procedimientos estadísticos basados en gráficos enfocados a caracterizar un aspectodeterminado de los datos. AED es un concepto más ambicioso, que combina procedimientos numéricos ygráficos y se propone investigar la estructura subyacente a una base de datos sugiriendo modelos,relaciones e interpretaciones como primer paso de un estudio estadístico. El siguiente paso será el “análisisconfirmatorio”, o inferencial (3).

    Con todo no hay que olvidar que el análisis exploratorio de los datos fue diseñado en una época pre-informática, donde no existía la facilidad de componer gráficos como hoy en día.

    El AED Se compone de un conjunto de técnicas diseñadas para identificar modelos fundamentales,

    conceptualmente significativos, las relaciones entre los datos y para llamar la atención sobre aquellasobservaciones que se desvían del modelo fundamental. Entre las principales herramientas gráficas del AEDestán:

    •  Histograma

    •  Diagrama de cajas

    •  Diagrama “multivari”

    •  Diagrama continuo

    •  Diagrama de Pareto

    •  Diagrama de dispersión

    •  Gráfico de tronco y hojas

    3.2. Objetivos del AED

    El análisis exploratorio de los datos (AED), en oposición al “análisis explicativo” de los datos, tiene por finalidad general:

    •  ahondar en la estructura (normal, asimétrica, lineal, homocedástica, etc.) de los datos

    •  Descubrir estructuras subyacentes

    •  Sugerir hipótesis causales de los fenómenos observados

    •  Descubrir las relaciones o patrones sistemáticos existentes entre las variables analizadas

    •  Desarrollar modelos con el mínimo número de parámetros (parsimoniosos)

    •  Ayudar a seleccionar las herramientas estadísticas apropiadas

    •  Determinar el conjunto óptimo de factores

    •  Sintetizar y presentar la información contenida en el conjunto de datos de forma óptima

    •  Proporcionar una base para muestreos (observacionales o experimentales) subsiguientes

    3.3. Estrategia del AED

    Entre sus estrategias están:

    •  Organizar y preparar los datos para ulteriores análisis estadísticos;

    •  Detectar fallos de diseño, errores en la obtención o codificación de datos y tratamiento de datosausentes

    •  Identificar la presencia de datos atípicos (extremos o anómalos)

    •  Comprobar que las suposiciones subyacentes en las técnicas estadísticas inferenciales se cumplen

    en la muestra de datos

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    3/19

    3

    4. Apunte histórico

    John Wilder Tukey (1915-2000)

    Las numerosas contribuciones a la estadística de John W Tukey, pionero del AED (3), tuvieron un impactodefinitivo sobre el análisis estadístico de los datos. John W Tukey acuñó términos como “software”, “bit”, etc.

    5. Etapas del AED

    5.1. Preparación de los datos

    Selección del método de entrada al sistema informático:

    (a) entrada manual por teclado;

    (b) entrada a un paquete ofimático (ej.: MS Excel);

    (c) entrada a un paquete estadístico (ej.: SPSS);

    (d) importación, si procede al paquete estadístico.

    Codificación de los datos:

    (a) continuos o de intervalo;

    (b) ordinales;

    (c) nominales;

    (d) dicotómicos.

    Transformaciones y manipulaciones de los datos:

    (a) combinar o segregar conjuntos de datos;(b) ordenar datos;

    (c) agregar o suprimir datos o variables;

    (d) transformar datos (ex.: logaritmos, dicotomización);

    (e) guardar, imprimir o exportar datos.

    Establecer claves de los códigos utilizados.

    5.2. Análisis gráfico de las variables individuales

    Según la naturaleza de los datos

    (a) diagrama de datos ordenados

    (b) diagrama de dispersión en el diseño experimental (DEX)(c) diagramas de medias DEX

    (d) Interacción de efectos

    (e) diagrama de cajas

    (f) sondas DEX

    (g) efectos

    (h) diagrama seminormal

    (i) diagrama residual acumulativo

    (j) diagrama de contorno

    5.3. Análisis gráfico de las relaciones entre variables

    Diagrama de dispersión

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    4/19

    4

    5.4. Evaluación de supuestos básicos subyacentes

    Gráficos PP

    Gráficos cuantil-cuantil

    5.5. Investigación de la presencia de datos atípicosDiagrama de cajas

    5.6. Investigación de la existencia de datos ausentes

    métodos numéricosescala demedida

    métodos gráficoslocalización dispersión

    Intervalo Histograma

    Polígono de frecuencias

    Media Desviación típica

    Coeficiente de variación

    Ordinal Diagrama de cajas Mediana Rango interfractílico

    Nominal Diagrama de barrasDiagrama de líneas

    Diagrama de sectores

    Moda

    Diagrama bootstrap

    Diagrama de demora

    Diagrama de linealidad de Cox y Box

    Diagrama de probabilidad

    Diagrama de normalidad de Cox y Box

    Diagrama de probabilidad normal

    Diagrama de probabilidad del coeficiente de correlaciónDiagrama de secuencia serial

    Diagrama de Weibull

    Diagrama múltiple

    Procedimientos relacionadoscon distribuciones univariadas

    Histograma

    Diagrama de dispersión

    Diagrama 6

    Diagrama de correlación lineal

    Diagrama de interceptación lineal

    Diagrama de pendiente lineal

    Procedimientos relacionadoscon distribuciones bivariadas

    Diagrama de desviación típica residual linealDiagrama de estrellaProcedimientos relacionados

    con distribucionesmultivariadas

    Gráficos funcionales de Andrews

    Procedimientos relacionadoscon análisis de seriestemporales

    Diagrama de autocorrelación

    Bihistograma

    Diagrama de cajas

    Diagrama de desviaciones típicas

    Diagrama de dispersión

    Diagrama de medias

    Procedimientos relacionadoscon el diseño experimentalunifactorial

    Diagrama cuantil–cuantil

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    5/19

    5

    Diagrama de bloques

    Diagrama de contorno

    Diagrama de desviación típica en diseño experimental

    Diagrama de dispersión en diseño experimental

    Procedimientos relacionadoscon el diseño experimentalmultifactorial

    Diagrama de medias en diseño experimentalDiagrama de Youden

    Gráficas de control para observaciones individuales: CuSum,MA, MR, EWMA

    Gráficas de Pareto

    Gráficas de Shewhart para control de variables:  R ,  s , 2 s ,  x

    Gráficas de Shewhart para control de atributos: C ,  P  N  ,  P , U 

    Procedimientos relacionadoscon el control de la calidad

    Gráficas 2T  de Hotelling para control multivariado

    6. Procedimientos AED relacionados con distribuciones univariadas

    6.1. Diagrama “ bootstrap” 

    (ver Módulo 4: “Bootstrap”)

    6.2. Diagrama de demora

    Definición: El diagrama de demora es un gráfico de dispersión de cada observación respecto a laobservación anterior. Una demora (lag) es un desplazamiento temporal fijo. En el conjunto

    de datos { }1 2, , , n X X X …   la demora entre 8 X    y 3 X    es 8 3 5− = . Pueden dibujarsegráficos para cualquier demora, aunque quizás los más utilizados son los de demora 1. Un

    diagrama de demora 1 tiene por:(a) abscisas: 1i X i−   ∀

    1

    (b) ordenadas: i X i∀

    Sinónimo: Lag plot 

    Propósito: La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto dedatos o serie temporal; (b) la presencia de autocorrelación en una serie temporal 2; (c) lapresencia o ausencia de datos extremos (datos aberrantes, outliers); y (d) si existe unmodelo adecuado a la estructura de los datos.

    Ejemplos: (4)

     

    1 El símbolo ∀   se lee “para todo”, en este caso, i∀   significa “para todo (alternativamente, “paracualquier”), valor de i ”.

    2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadísticamente noindependientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores

    medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) yautocorrelación (las observaciones más próximas son más probablemente similares que las más alejadasen el tiempo).

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    6/19

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    7/19

    7

    Técnicas estadísticas relacionadas: Regresión lineal;

    Diagrama de normalidad de Box y Cox

    Interpretación: En el ejemplo se observa como el gráfico de los datos originales y los residuales sugiere unajuste no lineal (cuadrático, concretamente) o, alternativamente una transformación. Elcoeficiente de correlación es de –1 para 2,0λ  = . La transformación de Box Cox con éste

    valor de parámetro permite el ajuste lineal mostrado en el tercer diagrama.

    6.4. Diagrama de normalidad de Box y Cox 

    Definición:

    Sinónimo: Box-Cox normality plot 

    Propósito:

    Ejemplo: (4)

    Técnicas estadísticas relacionadas:

    Interpretación:

    6.5. Diagrama de probabilidad y de probabilidad normal 

    Definición: es un diagrama que representa la distribución acumulada de las observacionesestandarizadas. Puede incorporar una línea correspondiente a la distribución teórica (por ejemplo, la distribución normal) para enfatizar el ajuste de los datos experimentales

    (a) abscisas: resultados ordenados en forma creciente (algunas versiones utilizanlas medianas ordenadas);

    (b) ordenadas: frecuencia (es decir, probabilidad) acumulada de los resultados de lavariable dependiente escalada según la distribución que se deseacomprobar (“papel probabilístico normal” en el caso de la distribuciónnormal)3;

    Sinónimo: diagrama PP, PP plot, [normal] probability plot 

    Propósito: Evaluar la bondad de ajuste de la distribución de los datos a una distribución determinada.

    El diagrama de probabilidad normal es un caso especial del diagrama de probabilidad en elque la distribución a examen es la normal. Permite investigar si los datos se ajustan a unadeterminada distribución, por ejemplo la normal, y en caso que no sea así; cuál es la posiblerazón de este alejamiento de la normalidad (por ejemplo, el sesgo) y cuál puede ser ladistribución teórica más apropiada

     3  Por ejemplo, en el caso de la distribución normal, los valores estandarizados, resultado de latransformación:

     x z 

     s

    −=

    utilizando tablas de la distribución normal inversa o funciones implementadas en paquetes estadísticos para

    obtener el fractil de la distribución normal y representarlo en una escala decimal. No obstante, la mayor parte de paquetes estadísticos proporciona directamente el diagrama y no es necesaria estatransformación.

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    8/19

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    9/19

    9

    Propósito: estimar parámetros de localización y escala, proporcionando al mismo tiempo unaevaluación gráfica de la bondad de ajuste en aquellos problemas en que el análisisestadístico asume un cierto tipo de distribución. Es aplicable a distribuciones (como la deWeibull) que se definen mediante un parámetro de forma además de los parámetros delocalización y escala. Por esta razón no es adecuada para caracterizar distribuciones comola normal caracterizadas únicamente por parámetros de localización y escala. Unaaplicación adicional es decidir qué familia de distribuciones se ajusta mejor a los datosobservados.

    Ejemplo:

    Técnicas estadísticas relacionadas: diagrama de probabilidad.

    Interpretación: El parámetro formal es especialmente útil para orientar si una distribución posee una colamás o menos extensa e indica varias distribuciones comunes:

    1λ  Forma de la distribución

    -1 Cauchy (aproximada)

    0 Logística (exacta)

    0,14 Normal (aproximada)

    0,5 U1 Uniforme (exacta)

    6.7. Diagrama secuencial 

    (Véase el tema “Análisis de series temporales”)

    6.8. Diagrama de Weibull 

    Definición: El diagrama de Weibull es una técnica gráfica para evaluar el ajuste y obtener unaestimación de los parámetros de forma y escala de una distribución de Weibull 5. Estádefinido por:

     

    ( )

    ( )   43

    1   3 41

    2

    1 11   uu

     F u

    λ λ 

    λ λ λ 

    λ 

    − −−−

    = +

    donde:1

    λ   es un parámetro de localización;

    2λ  es un parámetro de dispersión; y

    3 4,λ λ  son dos parámetros de forma, tales que si 1 2λ λ =  la distribución es simétrica.

    5 La distribución de Weibull es una familia de distribuciones caracteriza por:

    ( )   ( )1

      X Y X e β 

      α β γ α β γ   −

      − −= −donde:   α  es el parámetro de escala;

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    10/19

    10

    (a) abscisas: el logaritmo neperiano de la respuesta ordenada; y

    (b) ordenadas: la probabilidad acumulada (en porcentaje) de la distribución deWeibull, una escala diseñada para que, de seguir tal distribución, elgráfico resultante del ajuste por mínimos cuadrados seaaproximadamente linear:

    ( )( )ln ln 1Y p= − −

    donde:  0,3

    0, 4

    i p

    n

    −=

    +; y

    i  es el orden (el ordinal) de la observación: se requiere un mínimo de7 observaciones:

    Sinónimo: Weibull plot 

    Propósito: Es una técnica gráfica para establecer si un conjunto de datos procede de una poblaciónque se ajusta razonablemente a la distribución de Weibull con dos parámetros, suponiendoque la localización es cero (8)..

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Diagrama de probabilidad de Weibull;Diagrama PPCC de Weibull;

    Diagrama de riesgo de Weibull.

    Estos dos últimos permiten a diferencia del diagrama de Weibull la existencia de datos ausentes.

    Interpretación: la misma que otros diagrama de ajuste de datos a distribuciones treóricas.

    6.9. Diagramas múltiples

    Sinónimo: 4–Plot, 6 plot 

    Propósito: Combinar en un mismo diagrama diversos gráficos (4, 6, etc.).

    Ejemplos: (4)

     

     β  es el parámetro de forma;γ  es el parámetro de localización.

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    11/19

    11

     

    6.10. Histograma

    Definición: El histograma es un gráfico que presenta frecuencias tabuladas. Viene a ser la versióngráfica de la tabla, mostrando la proporción de casos que caen dentro de determinadascategorías o clase. Formalmente el histograma puede definirse como un “mapa” que

    presenta el recuento de observaciones que pertenecen a n  categorías disjuntas o clases yel diagrama histograma es su expresión gráfica. El histograma

    ih  satisface la condición

    1

    n

    i

    i

     N h=

    = ∑

    donde:   N  es el número total de observaciones; y

    i es el índice que identifica la clase.

    Un histograma acumulativoi

     H   de un histogramai

    h  es un “mapa” que presenta el recuento

    acumulativo de observaciones que pertenecen a las i  categorías disjuntas o clases previas,definiéndose como:

    1

    i

    i j

     j

     H h=

    = ∑Un histograma estandarizado (clásico o acumulativo) es aquel en que se representanfrecuencias relativas en lugar de frecuencias absolutas.

    El número de clases n   tiene una importancia decisiva en el aspecto e interpretación delhistograma, por lo que debe seleccionarse con cuidado, a partir de reglas empíricas como:

    2

    10log

    n N 

    n N 

    n N 

    =

    =

    =

    (esta última regla requiere un número de observaciones superior a 50). O alternativamente,usando parámetros estadísticos: así, el número “óptimo” de clases es el que minimiza lasiguiente expresión

    22min

      x sn

    c

    −=  

    donde:   c es la amplitud o intervalo de la clase.

    El intervalo de clase c  puede ser estimado a partir de la regla de Freedman–Diaconis (9):1

    32 rango intercuartílicoc N −

    = × ×

    Una vez establecido el número de clases, la representación gráfica del histograma consiste

    en dibujar n  rectángulos adosados correspondientes a las clases en que se clasifican losdatos:

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    12/19

    12

    (a) abscisas: clases; y

    (b) ordenadas: densidad de frecuencia: el área de cada barra y no su altura representa lafrecuencia, por lo que sería más correcto nombrar el eje de ordenadas como “densidadde frecuencia”. Si la base de los rectángulos, es decir el intervalo de la clase, es igual, laaltura es proporcional al área y no aplica esta distinción. Cuando la altura representa la

    frecuencia, se habla de “polígono de frecuencias”Propósito: La finalidad del histograma es resumir gráficamente la distribución univariada de un conjuntode observaciones.

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Diagrama de cajas

    Diagrama de probabilidad

    Interpretación: En el histograma debe evaluarse la localización (centralización) de los datos yeventualmente la presencia de varias modas; su dispersión (escala); la existencia de sesgo;la presencia de valores extremos.

    Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html

    http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html

    http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions

    7. Procedimientos AED relacionados con distribuciones bivariadas

    7.1. Diagrama múltiple

    (Véase el apartado 6.9)

    7.2. Diagrama de dispersión

    (Véase el tema “Correlación”)

    7.3. Diagrama de correlación lineal (Véase el tema “Correlación”)

    7.4. Diagramas de interceptación y de pendiente lineales

    (Véase el tema “Regresión”)

    7.5. Diagrama de desviación residual estándar lineal 

    (Véase el tema “Regresión”)

    http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.htmlhttp://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.htmlhttp://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructionshttp://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructionshttp://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.htmlhttp://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    13/19

    13

    8. Procedimientos AED relacionados con distribuciones multivariadas

    8.1. Diagrama de estrella

    Definición: El diagrama de estrella es un método para representar datos multivariados (10), estudiando

    las variables dominantes en cada observación, las observaciones más parecidas (nubes o“clusters”) y la existencia de datos extremos (outliers). Cada “estrella” representa unaobservación individual formada por la unión de los vértice de vectores (separados por ángulos iguales) que representan las variables. Estos vectores emergen del centro de uncírculo, siendo la longitud de cada vector proporcional a la magnitud de la variable en todoslos puntos. El nombre proviene del aspecto que presenta estas observaciones.

    Ya que representan datos individuales, su principal limitación es que es válido para unnúmero limitado de observaciones. Cuando este número crece el gráfico se hace cada vezmás confuso.

    Sinónimo: star plot 

    Propósito: Este diagrama se utiliza para examinar en un mismo gráfico los valores relativos dedeterminadas variables y localizar observaciones similares.

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Gráfico de caras de Chernoff.

    Interpretación: Estos diagramas pueden interpretarse desde el punto de vista de las observacionesindividuales, buscando por ejemplo qué variables son más determinantes, o desde el puntode vista de las variables, buscando modelos de comportamiento y agrupando los casos por el aspecto similar de las “estrellas” respectivas

    9. Procedimientos relacionados con análisis de series temporales

    9.1. Diagrama de autocorrelación

    (Véase Modulo 3 “Análisis de series temporales”).

    9.2. Diagrama espectral 

    (Véase Modulo 3 “Análisis de series temporales”).

    9.3. Diagramas de desmodulación compleja de la amplitud y la fase

    (Véase Modulo 3 “Análisis de series temporales”).

    9.4. Diagrama secuencial 

    (Véase Modulo 3 “Análisis de series temporales”).

    9.5. Diagrama funcional de Andrews(Véase Modulo 3 “Análisis de series temporales”).

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    14/19

    14

    10. Procedimientos gráficos relacionados con el diseño experimental unifactorial

    10.1. Bihistograma

    Definición: El bihistograma es un gráfico basado en el histograma clásico para visualizar dos

    distribuciones simultáneamente consistente en la yuxtaposición de dos histogramas: en laparte superior la medición en el primer nivel 1 del factor y en la parte inferior la distribucióncorresponde a la medición en el segundo nivel. Está, pues restringido a examinar losefectos de factores que tienen únicamente dos niveles. Desde el punto de vista gráficopuede ser más ilustrativo que un test estadístico equivalente (como el test t  de Student) yaque pone en evidencia simultáneamente los parámetros de localización, dispersión y formay la existencia o no de datos extremos.

    Sinónimo: histograma bidimensional

    Propósito: evaluar si una modificación de nivel de un factor ha modificado la localización, variación oforma y características de una distribución

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Diagramas QQ;

    Test t  de Student;Test F  de Snedecor;

    Test de Kolmogorov–Smirnov.

    10.2. Diagrama de cajas

    Definición: El diagrama de cajas representa en una forma simple y cómoda una o varias poblaciones deobservaciones sin prejuzgar el tipo de distribución teórica subyacente. Es un gráficoesquemático que representa cuatro de las principales características de la distribución delos datos: (a) localización: media, mediana; (b) dispersión: rango, rango intercuartílico; (c)aspecto: sesgo; y (d) presencia de datos extremos.

    Tiene el aspecto de una caja central que abarca la mitad de los datos, con una línea de

    prolongación trazada a la altura de la mediana y una indicación de la media. De la cajaemergen unas líneas (“bisagras”) acotadas en el percentil 25 y 75 y a partir de estasacotaciones se indican los valores extremos.

    Sinónimos: Diagrama de cajas y bigotes; Box–and–whisker plot, candlestick chart 

    Propósito: Representar las distribuciones y sus principales características de una o varias muestrassimultáneamente

    Ejemplo: (4)

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    15/19

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    16/19

    16

    Técnicas estadísticas relacionadas: Diagrama de localización

    Diagrama de dispersión de diseño experimental

    Interpretación: Bajo la hipótesis nula de igualdad de dispersión, el diagrama proporciona una aproximaciónvisual para comprobar esta suposición.

    10.5. Diagrama de localizaciónDefinición: Los diagramas de localización (media, media truncada, mediana, etc.) se utilizan para

    averiguar si la localización o centralización varía entre diferentes grupos de observaciones,y la magnitud o el modelo de esta variación. Al igual que los gráficos de dispersión (con losque suele asociarse el gráfico de localización), los grupos o clases pueden ser naturales,definidos por el investigador o arbitrarios.

    (c) abscisas: identificador de la clase o grupo; y

    (d) ordenadas: localización (por ejemplo, media) de la clase.

    Es frecuente dibujar una línea recta, paralela a las abscisas en el punto de ordenadascorrespondiente a la media global.

    Sinónimo: Mean plot, median plot, trimmed mean plot 

    Propósito: Valorar la consistencia de una medida de localización (media, media recortada, mediana)entre grupos o subconjuntos de datos objeto de estudio, organizados según niveles de unavariable de agrupación o “factor” (por ejemplo la variable o factor “tiempo en meses” tiene 12niveles por año). Permite investigar cuál es la magnitud de los cambios en las medidas delocalización en los diferentes grupos y averiguar si existe un modelo bien definido en el casode que tales medidas de localización no sean consistentes.

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Diagrama de escalas

    Diagrama de medias en diseño experimental (DEX)

    Diagrama de cajas

    Interpretación: En el análisis experimental unifactorial o en el diseño de estudios univariados se asume quela medida de localización o centralización es constante, es decir consistente, entre todos los

    grupos. Este diagrama permite una comprobación gráfica de que se cumple este supuesto.

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    17/19

    17

    10.6. Diagrama cuantil–cuantil 

    Definición: El diagrama cuantil–cuantil es una representación gráfica de la distribución de los datosprocedentes de dos poblaciones para comprobar que proceden de una distribución común.

    (a) abscisas:1

    n +

     cuantiles6 observados en una distribución acumulada estandarizada; y

    (b) ordenadas: cuantiles observados en una segunda muestra.

    Se traza la bisectriz del cuadrante como linea de referencia,

    En cierto modo se parece al diagrama de probabilidad7, con la salvedad que no serepresentan frecuencias estandarizadas (el valor k -ésimo de una distribución de media 0 yvarianza 1) sino cuantiles. Igualmente puede utilizarse para visualizar alejamientos de ladistribución normal si la distribución esperada es la normal.

    No requiere que ambas muestras sean iguales. Si lo son, el diagrama es esencialmente unarepresentación de los datos ordenados de una muestra frente a los datos ordenados de lasegunda

    Sinónimo: QQ plot 

    Propósito: Averiguar si dos poblaciones tienen una distribución común. Además es útil para descubrir datos aberrantes o extremos.

    Ejemplo: (4)

    Técnicas estadísticas relacionadas: Bihistograma

    Test t 

    Test  F 

    Test ji–cuadrado para dos muestras

    Test de Kolmogorov–Smirnov para dos muestras

    Interpretación: Cuanto más se aleje la dispersión de puntos de la línea de pendiente 45 º, menos verosímiles que las dos distribuciones procedan de una distribución común. Permite detectar diferencias en localización, escala, forma (sesgo) y la presencia de datos extremos.

    Conclusiones:

    11. Procedimientos relacionados con el diseño experimental multifactorial

    11.1. Diagrama de bloques

    (Véase Módulo 3 “Diseño experimental”)

     6 Cuantil es la fracción (por ejemplo porcentual) de casos por debajo de un valor determinado. Así, el cuantil

    0,25 (percentil 25 %) es aquel valor que deja un por debajo suyo un 25 % de casos de la distribución, y un75 % por encima.7 Cuando n  es grande, los dos gráficos son idénticos

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    18/19

    18

    11.2. Diagrama de contorno

    (Véase Módulo 3 “Diseño experimental”)

    11.3. Diagramas de dispersión, media y desviación típica en diseño experimental 

    (Véase Módulo 3 “Diseño experimental”)

    12. Procedimientos relacionados con el control de la calidad

    Los principales gráficos asociados a la gestión de la calidad son: el hsitograma, el diagrama de Youden, eldiagrama de Pareto, los gráficos de Schewhart, el diagrama de causa efecto y el diagrama de dispersión.

    12.1. Diagrama de Youden

    (Véase Módulo 3 “Calidad”)

    12.2. Diagrama de control para observaciones individuales: CuSum, MA, MR, EWMA

    (Véase Módulo 3 “Calidad”)

    12.3. Diagrama de Pareto

    (Véase Módulo 3 “Calidad”)

    12.4. Diagrama de Shewhart para control de variables:  R ,  s , 2 s ,

    (Véase Módulo 3 “Calidad”)

    12.5. Diagrama de Shewhart para control de atributos: C , P 

     N  ,  P , U 

    (Véase Módulo 3 “Calidad”)

    12.6. Diagrama 2T  de Hotelling para control multivariado

    (Véase Módulo 3 “Calidad”)

    13. Otros procedimientos de análisis exploratorio de datos: el diagrama de tallo yhojas

    Definición: El diagrama de tallo y hojas de Tukey presenta la distribución de los valores observados enuna muestra utilizando las cifras principales como “tallo” de un árbol, y las demás cifras, a laderecha del tallo, representan las “hojas”. Si hay datos extremos se agrupan en la parte oinferior del “tallo” como “ALTOS” y “BAJOS” respectivamente.

    Sinónimo: Stem–and–leaf plot, stemplot Propósito: Representar de forma rápida una muestra de datos, manteniendo visible su valor numérico,

    y facilitar el calculo de medianas, fractiles, etc.

    Ejemplo: La siguiente información corresponde a una muestra de 150 observaciones.BAJO |96,3 96,42 96 |6 96 |778919 97 |011122234444440 97 |556666777888888899999(38) 98 |0000000000011122222222223333344444444452 98 |55566666666667777777788888888889919 99 |000001112223344

    4 99 |592 100 |0 ALTO |100,8

  • 8/19/2019 EDA Analisis Exploratorio de Datos

    19/19

    Técnicas estadísticas relacionadas: Histograma

    Calculadora “on line”: http://math.uc.edu/~pelikan/probandstat/stem.htm

    Bibliografía

    Bibliografía citada

    1. Filliben JJ. The probability plot correlation coefficient test for normality. Technometrics 1975;17(1):111-117.

    2. Smith AF, Prentice DA. Exploratory data analysis, a handbook for data analysis in the behavioralsciences: statistical issues; 1993.

    3. Tukey JW. Exploratory data analysis: Addison Wesley; 1977.

    4. NIST/SEMATECH. e-Handbook of Statistical Methods. In:: NIST,; 2003.

    5. Box GEP, Cox DR. An analysis of transformations. J R Stat Soc, Ser. B 1964;26:211-243.

    6. Box GEP, Cox DR. An analysis of transformations revisited, rebutted. J Am Stat Assoc 1982;77(377):209-210.

    7. Freimer M, Mudholkar GS, Kollia G, Lin CT. A study of the generalized Tukey lambda family. Com Stat -Theor Meth 1988;17:3547-3567.

    8. Nelson W. Applied life data analysis: Addison-Wesley; 1982.

    9. Freedman D, Diaconis P. On the histogram as a density estimator L2 theory. Prob Theor Rel Fields1981;57(4):453-476.

    10.Chambers J, Cleveland W, Kleiner B, Tukey P. Graphical methods for data analysis: Wadsworth; 1983.

    11.McGill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat 1978;32:12-16.

    12.Hintze JL, Nelson RD. Violin plots: a box plot-density trace synergism. Am Stat 1998;52(2):181-184.

    En Internet 

    http://www.5campus.com/leccion/aed

    http://ciberconta.unizar.es/LECCION/aed/ead.pdf http://www.statsoft.com/textbook/stdatmin.html

    http://www.statgraphics.com/eda.htm

    SPSS

    www.sussex.ac.uk/Users/andyf/eda.pdf 

    Excel 

    http://www.qualitydigest.com/oct97/html/excel.html

    http://math.uc.edu/~pelikan/probandstat/stem.htmhttp://www.5campus.com/leccion/aedhttp://ciberconta.unizar.es/LECCION/aed/ead.pdfhttp://www.statsoft.com/textbook/stdatmin.htmlhttp://www.statgraphics.com/eda.htmhttp://www.sussex.ac.uk/Users/andyf/eda.pdfhttp://www.qualitydigest.com/oct97/html/excel.htmlhttp://www.qualitydigest.com/oct97/html/excel.htmlhttp://www.sussex.ac.uk/Users/andyf/eda.pdfhttp://www.statgraphics.com/eda.htmhttp://www.statsoft.com/textbook/stdatmin.htmlhttp://ciberconta.unizar.es/LECCION/aed/ead.pdfhttp://www.5campus.com/leccion/aedhttp://math.uc.edu/~pelikan/probandstat/stem.htm

Recommended