Manual estadístico completo

DIVISIÓN DE ELECTRÓNICA Y AUTOMATIZACIÓN

MANUAL DE PROBABILIDAD Y

ESTADÍSTICA

ASIGNATURA: Estadística

P R E S E N T A N

LÓPEZ GONZALEZ LEONARDO

SÁNCHEZ TREJO ROBERTO CARLOS

GRUPO 7IMI1

ASESOR: M. en C. FRANCISCO JAVIER GARCÍA ZARAGOZA

Manual de probabilidad y estadística

2

Índice

Unidad 1 Conceptos básico de probabilidad ....................................................................................... 4

Estadística: ......................................................................................................................................... 4

Probabilidad: ...................................................................................................................................... 4

Eventos ................................................................................................................................................ 5

Eventos Mutuamente excluyentes ................................................................................................ 5

Eventos Mutuamente incluyentes ................................................................................................. 6

Eventos independientes:.................................................................................................................. 7

Eventos dependientes: ..................................................................................................................... 7

Ejemplos de probabilidad .................................................................................................................... 8

Teorema de Bayes ............................................................................................................................. 10

Tipos de estadística ........................................................................................................................... 14

Mediana: ........................................................................................................................................... 14

Percentiles: ...................................................................................................................................... 14

Moda ................................................................................................................................................. 14

Minitab 15 .......................................................................................................................................... 15

COMPARACIÓN DE GRUPOS .............................................................................................................. 20

Prueba t-student ................................................................................................................................ 20

Mann- whitney .................................................................................................................................. 26

Uso de Software Sigma-Stat .............................................................................................................. 30

Entorno de SigmaStat .................................................................................................................... 30

T-pareada ........................................................................................................................................... 30

Wilcoxón ............................................................................................................................................ 34

ANOVA (Análisis De Varianza) ........................................................................................................... 36

ANOVA 1 VIA ...................................................................................................................................... 36


3

ANOVA 2 VIAS .................................................................................................................................... 40

Relación ............................................................................................................................................. 46

Regresión Polynomial ........................................................................................................................ 46

Regresión Múltiple Linear .................................................................................................................. 50

Correlación de Spearman .................................................................................................................. 54

Relación Chi-Cuadrada ....................................................................................................................... 58


4

Unidad 1 Conceptos básico de probabilidad

Estadística: Es la parte de las matemáticas que se encarga de

recolectar, ordenar, analizar presentar datos.

Probabilidad: Las Probabilidades pertenecen a la rama de la

matemática que estudia ciertos experimentos llamados aleatorios, o sea

regidos por el azar, en que se conocen todos los resultados posibles, pero

no es posible tener certeza de cuál será en particular el resultado del

experimento. Por ejemplo, experimentos aleatorios cotidianos son el

lanzamiento de una moneda, el lanzamiento de un dado, extracción de

una carta de un mazo de naipes.

Todo esto se refiere a la posibilidad de que un evento suceda.

Esta a su vez consta de tres puntos clave, que son:

Experimento: es la parte de la metodología.

Resultado: es el número de posibilidades que origina el experimento.

Evento: es el conjunto de resultados con una característica en común.

La probabilidad se divide en 2 partes:

Probabilidad objetiva:

La probabilidad objetiva se divide en 2 partes:

P

Objetiva

Subjetiva

Objetiva

Empírica

Clásica 𝑃 =# 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎𝑠

# 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠

𝑃 =2

7

Ejemplo: La posibilidad de que un

dado resulte un número

par; es de 3 opciones de 3

totales.

Ejemplo: La posibilidad de que el

América gane, si ha perdido

5 partidos de 7 totales.


5

Objetiva clásica: Es el número de posibilidades que tengan las mismas

características entre el número total de posibilidades.

Objetiva Empírica: Los datos se verifican en el historial de fechas no muy

lejanas “Datos no pasados”.

Probabilidad subjetiva:

Este tipo de probabilidad depende de la subjetividad.

Eventos

Los Eventos se dividen en 2:

Eventos Mutuamente excluyentes

En este solo se puede llevar a cabo un evento a la vez (es uno o es otro, sí o

no, etc.)

Ejemplo: Blanco-Negro, Cara-Cruz

=

Y se representa de la siguiente forma representando mediante un diagrama de

benn.

Los eventos complementarios deben ser sumamente excluyentes y las sumas

de sus probabilidades deben ser igual a 1.

Problema: Es una muestra de 24 piezas, 5 fueron defectuosas. Calcular la P

de encontrar:

a) 1 pieza defectuosa

b) Encontrar 1 pieza defectuosa o 1 ok.

Para dar solución al inciso 1 se debe dividir en número de piezas defectuosas

entre el número total de piezas.

A B

“Donde los círculos no se intersectan”


6

a) =

= 21

Para responder el inciso 2 se debe realizar lo siguiente:

Paso 1: restar el número de piezas defectuosas del total

24-5= 19 piezas con la misma característica.

Paso 2: para dar solución al inciso b se divide el número de piezas con la

misma característica entre el total de piezas.

b) =

= 7

Interpretación: La probabilidad de encontrar una pieza defectuosa es menor

a seleccionar una que este en buen estado.

Comprobación de resultados

Se suman las 2 probabilidades para corroborar que los resultados son

correctos, en caso en que la suma de ambos resultados sea igual a 1 es

correcto de lo contrario está mal:

= 2 7 =

Eventos Mutuamente incluyentes

Este es cuando pasan 2 eventos a la vez.

Ejemplo: En un análisis de fallas. Se reportaron 70 fallas, 35 de la banda de

transmisión y 40 de la polea. Calcular:

a) P de que la banda falle.

b) P de que la polea falle.

c) La P de que al menos uno de los elementos falle.

En este ejemplo de diagrama de

benn, se muestra como dos

eventos suceden a la vez.


7

a) =

= b) =

= 7

*Para encontrar la P del inciso “c” se utilizó la regla de la adición, donde se

sumaron las fallas ocurridas a la banda de transmisión y las ocurridas en la

polea es decir (35+40=75) y se le resto el resultado al número de fallas

totales (75-70=5) con lo que nos da el valor de 5.

c) =

= 7

= 7 7 =

Interpretación: La probabilidad de que la polea falle es mayor debido a que

anteriormente la falla se presentó mayor número de veces. Sin en

cambio la probabilidad de que al menos uno de los 2 elementos falle es

considerablemente baja debido al desconocimiento de cuál será el que

fallara primero.

Eventos independientes: Estos son aquello que no son afectados

por otros eventos.

Ejemplo: Al aventar al aire una moneda.

Primer lanzamiento: cruz

Segundo lanzamiento :cara

El resultado del segundo evento no se vio afectado por el resultado del

primero. Es decir no porque en el primer lanzamiento haya salido cruz en el

segundo deba caer nuevamente cruz.

Eventos dependientes: Estos son aquellos donde el resultado se

afecta con el resultado de otros eventos.

Ejemplo: Sacar pelotas de una canasta y de las pelotas sacadas no

regresarlas a la canasta, disminuyendo el número de pelotas totales de la

canasta.

Numero de pelotas totales dentro de la canasta 5, 2 blancas y 3 negras.

a) La P de sacar una pelota negra.

b) La P de sacar otra pelota negra.

Interpretación:

La P de sacar una pelota negra en el primer intento es de:

Paso 1: dividir el número de pelotas negras entre el total de pelotas dentro de

la caja.


8

a) =

=

La probabilidad de sacar nuevamente una pelota negra en el segundo intento

teniendo en cuenta que el número de pelotas negras ha disminuido después

del primer intento es de:

Paso 2: dividir el número de pelotas negras entre el total de pelotas dentro de

la caja.

b) b) =

=

La Probabilidad de sacar una pelota negra después del segundo evento es de:

Paso 3: multiplicar las P de los incisos anteriores para obtener un resultado a

corto plazo.

c) 2 = 2 = =

La posibilidad de salir otra bola negra es del 30%. A esta posibilidad se le llama

posibilidad conjunta.

Ejemplos de probabilidad

Ejemplo 1. Se le pregunto a 400 diseñadores su preferencia referente al gusto

de los colores primarios las respuestas más significativas se muestran a

continuación:

¿Cuál es el experimento?

R= La encuesta

¿Cuál es el posible evento?

R= El color

= = 2

= 2

= =

= 22

= =

=

Interpretación: Se muestra que el color preferido por los diseñadores es el

rojo, la posibilidad de que un diseñador responda a la encuesta con el color

“rojo” es mayor a la de los otros colores.

¿Cuál es la probabilidad de no responder amarillo, con respecto a los colores

antes mencionados?

Color Diseñadores preferencia

Verde 92

Amarillo 91

Rojo 46


9

= =.90

La probabilidad de no responder amarillos es considerablemente alta.

Eje 2. A) En una caja de engranes hay 3 engranes defectuosos de 25.

B) En una caja de cadenas hay 2 defectuosas de 12.

Calcular P de que un ensamble coincidan engranaje y cadena defectuosa.

=

= 2 =

=

= 2 =

Interpretación: La probabilidad de seleccionar un engrane y una cadena

defectuosa es poco probable debido a que el número de elementos

defectuosos es bastante bajo con respecto de los que se encuentran Ok.

De la caja de engranes calcular:

a) La P de que se salgan 2 engranes defectuosos en forma consecutiva.

=

=2

2 =

= 2 =


10

Teorema de Bayes

El teorema de bayes se utiliza para obtener la probabilidad de un grupo donde

las características son distintas entre los miembros teniendo ya como base

algunos datos.

Formula general: =

( ) ( )

El valor de H va a ser igual a lo que estás buscando.

Ejemplo 1: Se analizaron los lotes producidos en un día en una empresa los

datos que se obtuvieron son los siguientes.

Calcular el porcentaje individual de lotes con piezas defectuosas.

Procedimiento. Encontrar el número la probabilidad de encontrar elementos

dañados en el primer lote.

Paso 1: Sustituir los valores en la formula general para encontrar la P de

encontrar elementos dañados en el primer lote (A1).

= 2

( 2 ) ( ) =

Lotes 100%

A1

A2

A3

Mal

Ok

Mal

Ok

Ok

Mal

40%

30%

2%

30%

1%

0.5%


11

Paso 2: Restar el porcentaje de elementos malos al porcentaje total del

lote A1.

%ok=100-2=98%



2 =

( 2 ) ( ) =


lote A2.

%ok=100-1=99%



=

( 2 ) ( ) =


lote A1.

%ok=100-50=50%

Interpretación: La probabilidad de que haya mayor número de productos

defectuosos es en el lote A3 debido a que solo la mitad del lote producido se

encuentra ok.


12

Ejemplo 2: En un avión con pasajeros de distintas nacionalidades (México,

Londres, Español), viaja alrededor del mundo.

Calcular la P de que alguno este enfermo en base al porcentajes de pasajeros

de la misma nacionalidad.

¿De qué nacionalidad será más probable que estén enfermos algunos de los

pasajeros?


encontrar de que nacionalidad es más probable se encuentre enfermo con los

valores de los Méx.

= 2

( 2 ) ( 7 ) =

Paso 2: Restar el porcentaje de pasajeros enfermos al porcentaje total del

pasajeros Méx.

%Sano=100-5=95%

5%

7%

0.10%

Pasajeros

100%

Méx

Lon

Esp

Enfermo

Sano

Enfermo

Sano

Sano

Enfermos

40%

25%

35%


13



valores de los de Lon.

= 7

( 2 ) ( 7 ) =


pasajeros Lon.

%ok=100-7=93%



valores de los de Esp.

=

( 2 ) ( 7 ) =


pasajeros Esp.

%ok=100-10=90%

Interpretación: La probabilidad de que este se encuentre un pasajero

con nacionalidad Española es mayor debido al porcentaje de enfermos

que van.

En la estadística existen datos de tipo:

Numéricos

Discretos: Números enteros Continuos: Números con decimales

Atributos “Categorizados”

Los datos pueden ser:

Lineales: Son objetivos, paramétricos y se fundamentan en media y en

la desviación estándar, son aquellos donde el resultado no depende del

objeto al que se esté analizando. Ejemplo. Las dimensiones.

No lineales: Son subjetivos, son aquellos que dependen de la persona

que este respondiendo, son aquellos en donde la pregunta es la misma

pero el resultado es distinto. Ejemplo. Los niveles de agrado.


14

Existen datos:

Dependientes: Son aquellos que tienen dueño y no se pueden mezclar,

y se hace de forma individual.

Independientes: Son aquellos que no tienen dueño y se pueden

mezclar, y es de forma grupal.

Tipos de estadística

Descriptiva: Es aquella que demuestra cómo es una muestra o una

población.

Población: Total de elementos que poseen una característica en

común.

Pueden ser finitas o infinitas.

Muestra: Fracción tomada de la población mediante una

metodología establecida.

Se da por el método deductivo=deducir= probabilidad.

La Esta. Descriptiva utiliza elementos de tendencia central.

La media

La mediana

La moda

La desviación estándar

Inferencial: Esta es aquella que a partir de una muestra se describe

cómo será la población.

Se da por el método inductivo=inducción=inducir=inferir=Niveles de

agrado.

Mediana: Es el dato que parte a la mitad todos los datos ordenados de mayor

a menor o viceversa.

Percentiles: Son las fracciones en las que se dividen los datos.

Moda: Es el dato que más se repite.


15

Dónde:

Método de deducción: se obtiene haciendo uso de la probabilidad

Método de inducir: se hace por niveles de confianza.

Minitab 15

Se trata de un software para realizar análisis estadísticos de datos, Minitab es

una herramienta que permite enseñar estadística e implementar el famosísimo

6 Sigma y otros proyectos de mejoramiento de la calidad. Minitab presenta

características de soporte importación y exportación de archivos, manipulación

de datos y presentación de datos como en una hoja de cálculo.

Población

Muestra

Deducir Inducir


16

Entorno de minitab 15

Ejemplos para la utilización del Minitab.

a) Calcular la P de encontrar un alumno que haya tenido 5 o más novias.

Paso 1: Abrir programa Minitab 15.

Paso 2: Introducir datos.

Este paso se lleva a cabo insertando los valores deseado dentro de las

celdas; pero sin olvidar que estas necesitan etiquetas para evitar

confusiones al momento de estar elaborando el estudio.

Recordemos que

nuestro programa es

portable por lo que

debemos saber dónde

se ubica nuestro icono

ejecutable; pero se

recomienda hacer un

acceso directo sobre

el escritorio para

evitar confusiones.


17

Introducimos los datos y las etiquetas en las celdas adecuadas:

Paso 3: En la Barra de herramientas seleccionar la pestaña con el nombre

“Calc” se desplegara el menú y seleccionar la penúltima opción con el

nombre “Distribución de probabilidad”.

Zona de colocación de las

etiquetas

Llenado de celdas de

etiquetado

Llenado de celdas con

los datos

Proceso de selección

de las opciones


18

Paso 4: en el menú que se desplego de “Distribución de probabilidad”

seleccionamos la opción de Normal....

Paso 5: Aparecerá una ventana para seleccionar los datos.

La opción de Densidad de probabilidad se utiliza para cuando buscas el

número que pides.

La opción de Probabilidad acumulada calcula el valor impuesto o el mínimo

que necesitemos.

La opción de probabilidad acumulada inversa en esta tú das la probabilidad y

el programa el número que corresponda.


19

Paso 7: sacar la media de los datos

Ya teniendo los valores solicitados, solo

es cuestión de tomar la sumatoria de los

datos y eso será la probabilidad total.


20

Comparación de grupos

Prueba t-student

Se utiliza para comparar los datos de 2 o más grupos.

Ejemplo de problema de t-student donde se busca elegir entre dos proveedores

de hilos tomado en cuanta los niveles de resistencias que estos tiene a su

ruptura.

Realización de comparaciones de grupos con la ayuda de Minitab 15.

Paso 1: Análisis de datos.

Para este tipo de eventos cuando los datos son numéricos, y de clasificación

lineal, son independientes, y como son 2 grupos utilizaremos la opción de t-

student.

Paso 2: Introducir datos al programa.

B

2.7 2.9

2.9 2.8

2.9 2.7

2.8 2.6

2.9 2.7

2.6 2.6

A

2.5 2.5

2.7 2.4

2.6 2.3

2.3 2.0

2.6 2.1

2.4 2.3

2.6 2.6


21

*Paso 3: En la barra de herramientas seleccionamos el menú estadística.

Donde se desplegara un menú y seleccionamos el primero llamado estadística

básica. También se expresa el proceso de selección del estudio de los pasos 3

y 4 mediante un diagrama.

Llenado de la casillas con los

datos obtenidos del muestreo.


22

*Paso 4: posteriormente seleccionamos la opción t de 2 muestras…

Paso 5: al dar click sobre el estudio saldrá un cuadro para introducir datos el

cual se muestra a continuación, y nos aseguramos de seleccionar muestra en

diferentes columnas.

Debemos recordar el

seleccionar Muestra de

diferentes columnas porque

al aparecer la ventana,

aparece en otra opción.


23

Pasó 6: seleccionar los datos a utilizar dando doble clic.

NOTA: La opción de Asumir varianzas iguales siempre se escoge.

Paso 7: para facilitar el entendimiento de este tipo de estudio, también hay la

opción de graficar; y para eso temémonos que dar clic en la opción de gráficas.

Paso 8: saldrá un recuadro, seleccionaremos la opción de diagrama de caja de

datos y damos click en Aceptar.

Paso 9: nos regresara al cuadro anterior le damos clic en aceptar.

Paso 10: aparecerá una ventana con los resultados; donde los valores que nos

interesan son los marcados con el recuadro rojo.


24

Donde:

T: la estadística.

GL: grados de libertad.

P: la probabilidad.

Paso 12: ahora con los datos obtenidos hay que comparar la probabilidad para

determinar si hay alguna diferencia, y contestar las preguntas de si hay alguna

diferencia entre los grupos:

P= 0.000

T=-4.97

GL=24


25

Si P>0.05 entonces son iguales.

Si P<0.05 entonces son diferentes.

¿Hay alguna diferencia? R= Si

Esta pregunta la contestamos con los siguientes datos:

Justificando por medio del valor más alto, demostrando cual es el de mayor

calidad.

R= el proveedor de hilo B vende hilo de mejor calidad, ya que es que

tiene una media a la resistencia mayor.

También comprobado por la

gráfica donde se denota

claramente las diferencias

de las medias de los dos

proveedores y demostrando

el resultado expuesto.


26

Mann- whitney

Se realizó una encuesta en un grupo de 28 donde las dividieron en 2 en

izquierda y derecha para ver cuáles eran los que resistían más el alcohol.

La prueba de Mann-Whitney se utiliza cuando no se sabe a quién se le realiza

la evaluación, es decir cuando los datos son independientes.

Pasos para la solución del ejercicio en Minitab 15.


En este caso los datos son numéricos, son No lineales por ser porcentajes, son

independientes al no especificar el dueño de los datos y son 2 grupos por lo

tanto utilizaremos la opción de “Mann-Whitney”.

Paso 2: Introducir datos al programa.

Izquierdo Derecho

.45 .27 .61 .49

.47 .35 .52 .55

.46 .34 .49 .61

.32 .36 .48 .67

.40 .32 .53 .60

.38 .40 60 .58

.36 .37 .63 .59


27

*Paso 3: En la barra de herramientas seleccionamos el menú estadística, No

paramétricos, y Mann-whitney; representado por el siguiente diagrama.


28

Paso 5: al seleccionar Mann-whitney, donde habrá que introducir los datos y

mediante la selección de las columnas contenedoras; y por ultimo damos en

Aceptar.

Paso 8: nos es arrojada la siguiente tabla de datos.

Seleccionamos las columnas de

datos y presionamos sobre el

botón de aceptar.


29

Paso 9: donde los datos a utilizar son los siguientes:

Dónde:

ETA2: la probabilidad.

Paso 10: lo consiguiente es comparar la probabilidad para determinar si hay

alguna diferencia, y contestar las preguntas:

ETA2 o P= 0.000 Si P<0.05 entonces son diferentes.

Si P>0.05 entonces son iguales.

¿Hay alguna diferencia entre los 2 grupos? R= Si

¿De qué lado son las personas que metabolizan más rápido el alcohol?

R= Derecho

Esta pregunta la contestamos con los siguientes datos:

El valor más alto es el de mayor asimilación del alcohol.

Conclusión: Si existe una diferencia la asimilación del alcohol y los del

lado derecho son aquellos a quienes digieren más rápido el alcohol.


30

Uso de Software Sigma-Stat

Software de uso estadístico con el cual se logra hacer un sinnúmero de

método, teniendo dentro de su agenda también métodos que se ven con

Minitab.

Entorno de SigmaStat

T-pareada

Ejemplo: En un estudio muestra drogas para la presión arterial, que podrían

evitarse los síntomas de pánico escénico. Para testear esta hipótesis

profesionales y estudiantes dieron 2 recitales como solistas ante una

audiencia de críticos y miembros de una universidad. 90 minutos antes de

cada recital se les suministro propanolol o un placebo. El pulso cardiaco

se le midió mediante un monitoreo electrocardiográfico remoto durante la

presentación. Si el pulso normal de reposo es de 70 p/m. Los datos

correspondientes a 8 ejecuciones son los siguientes.


31

ejecutante Droga Placebo

1 85 126

2 107 140

3 69 95

4 122 148

5 106 142

6 121 172

7 137 133

8 87 143


En este caso los datos son numéricos, son dependientes, al especificar el

dueño de los datos y son 2 grupos por lo tanto utilizaremos la opción de

“t-pareada”.

Paso 2: se introducen los datos en el programa, siguiendo la misma

mecánica que con minitab.

No se debe olvidar colocar las

etiquetas, ya que estas sirven

como referencia para el momento

de selección de las columnas.


32

Paso 3: colocar el puntero sobre la opción Statistics, se desplegara una barra

donde seleccionaremos before and after y por ultimo paired t-test…para

hacer entender los anterior se muestra el siguiente diagrama.

Paso 4: al haber presionado sobre el método, aparecerá una ventana donde

que habrá que verificar que se encuentre la opción Raw; y posteriormente

dar sobre Next.

Forma de seleccionar el

método.


33

Paso 5: en la siguiente ventana es el proceso de selección de las columnas

de datos, siguiendo la misma secuencia; y damos sobre el botón Finish.

Paso 6: esto nos arrojara la tala de resultados siguiente.

Y con base en los valores de la media se puede determinar que en verdad la

droga sirve para calmar o disminuir el ritmo cardiaco.


34

Wilcoxón


En este caso los datos son numéricos, no lineales, dependientes al

especificar el dueño de los datos y son 2 grupos por lo tanto utilizaremos

la opción de “wicolxón”.

Paso 2: se introducen los datos en el software.

Paso 3: se detalla la manera de entrar al método mediante un diagrama.

Paso 4: al entra a la ventana del método, nos aseguramos de que en la barra

de despliegue este seleccionada la opción raw, y damos click sobre el botón de

Next.


35

Paso 5: ahora solo falta seleccionar las columnas y presionar sobre el botón

finish; y de forma inmediata aparecerá una ventana de resultados del

estudio.

Paso 6: analizar los datos obtenidos, tomando como punto clave los valores

de la media de las muestras.

En este método debemos de

seleccionar la opción raw, ya que si

seleccionamos otra, posiblemente

no acepte nuestro proceso el

programa.


36

ANOVA (Análisis De Varianza)

ANOVA 1 VIA

Este método se utiliza para comparar 2 o más grupos, donde se ven

involucradas las condiciones para usarlo son las siguientes:

A. Que sean datos numéricos

B. 2 o más grupos

C. Datos lineales

D. Datos independientes

E. Un solo factor

Ejemplo:

Una planta de dicada a la venta de plásticos se manejas cuatro tipo de

plásticos. Al momento de ofrecer sus productos la planta le muestra una

tabla donde se muestran la resistencia de los plásticos, y así determinar

cuál es el que resiste más; la tabla se muestra a continuación.


37

Plástico A Plástico B Plástico C Plástico D

5.7 4.9 6.0 5.0

6.4 5.7 6.7 4.5

5.0 6.0 6.9 4.3

6.0 4.5 6.9 4.2

6.7 4.3 6.8 4.3

6.0 5.0 6.7 4.7

6.1

De acuerdo a los datos, determinar que plástico que sea mejor.

Paso 1: Para resolverlo lo primero que se debe hacer es meter los datos en

Sigmastat en 4 diferentes columnas, debe quedar como en la siguiente

imagen:

Paso 2: Ya que los datos estén en 4 columnas ir al menú Statistics, Compare

Many Groups, One Way ANOVA…, tal como se muestra en el diagrama.

Damos click en la opción y nos aparecerá una ventana como se muestra.

En éste método no

importa si los datos

por muestreo no son

los mismos respecto a

la cantidad; por lo que

no perjudica el

estudio.


38

Paso 3: Nos aseguramos de que la pestaña desplegable este en la selección

Raw, y continuamos presionando sobre Next.

Paso 4: Nos pedirá que seleccionemos las columnas como nos muestra en la

ventana del lado izquierdo, y damos click en Finish.


39

Paso 5: Si nos aparece un mensaje que diga que ha habido una falla si

queremos correr un ANOVA On Ranks, le damos en la opción No, a

menos que se trate de datos No lineales.

Paso 6: Cuando demos click en No, nos aparecerá una ventana como la

siguiente.

Paso 7: Seleccionamos Tukey y damos click en Finish, nos aparecerá una

nueva ventana con muchos datos, lo primero es identificar la tabla de

ANOVA, que es la siguiente; también haciendo ayuda de la última tabla de

comparación donde dice si hay diferencia o no la hay.

Paso 8: Dependiendo del valor de P se determina si hay diferencias, si P es

menor a 0.05 hay diferencias, si P en mayor a 0.05 no hay diferencias, en

este caso si hay diferencias entre los grupos.


40

Paso 9: Una vez determinado que si hay diferencias se analizan las medias

de cada grupo, y se determina que hay diferencias, la media más alta se

interpreta como la media del mejor plástico. Y en caso de no haber

similitud, no afecta cual se escoja de los cuatro plásticos. Las medias

están en una tabla como la siguiente.

Conclusión: Como se ve en la tabla el valor de la media (mean) más alto es

del plástico C, por lo tanto este es el mejor.

ANOVA 2 VIAS

Este método se utiliza para comparar 2 o más grupos, las condiciones para

usar este método son las siguientes:

A. Datos numéricos

B. Datos lineales

C. Datos dependientes

D. 2 Factores

Ejemplo:

Una empresa automotriz produce 3 tipos de automóvil distintos, sedan,

vagoneta y compacto, están haciendo un análisis de cual automóvil tiene

mayor promedio de reacción con una ponderación del 1 al 10, según 3

pruebas que se están realizando, con terreno con nieve (p 1), terreno

rocoso (p 2), asfalto SEDAN8.9mojado (p 3). Los datos obtenidos fueron

los siguientes4.1


41

Tipo de prueba Sedan Vagoneta Compacto

P 1 6.5 8.6

7.6 5.7

9.7 5.8

7.9 8.7

8.3 8.4

9.8 7.8

4.0 9.9

8.9 8.5

9.8 9.3

P 2 8.9 4.9

4.1 5.8

6.2 6.3

7.2 9.2

8.7 6.1

8.4 7.0

9.5 6.0

9.5 3.3

7.6 7.2

P 3 8.3 9.7

7.5 8.9

9.6 7.0

6.5 5.7

9.4 8.8

9.3 8.9

6.5 6.0

5.7 6.6

5.6 4.3

a) Determinar con qué tipo de prueba en un auto se garantiza un mayor

nivel de satisfacción para el cliente.

b) Determinar que el auto que tiene mayor promedio.

c) Determinar en qué prueba y que auto se garantiza la máxima

confiabilidad al momento de conducirlo.

Resultados

a)

Paso 1: Para resolver el inciso A, primero hay que meter los 54 datos en

Sigmastat en 3 columnas, debe quedar de la siguiente manera


42

Nota: Estos no son todos los datos, solo un ejemplo de cómo deben meterse.

Paso 2: Una vez que se tienen todos los datos en 3 columnas como en la

imagen anterior, lo siguiente es ir al menú Statistics, Compare Many

Groups, Two Ways ANOVA…, como en el siguiente diagrama.

Se debe de cuidar mucho el

orden de los datos, ya que si

se comete el error de

capturarlos de forma

incorrecta, los resultados

pueden ser erróneos.


43

Paso 3: nos aparece una ventana primero nos pedirá el Factor A (en este

caso la prueba), después el factor B (en este caso el tipo de vehículo), y

por último los resultados del estudio (el promedio), metemos los datos en

este orden y damos click en finish. Enseguida nos va a aparecer una

ventana donde en la barra desplegable hay que asegurarnos de

seleccionar la opción tukey.

Paso 5: al dar click en Finish, el software nos arrojara los resultados de la

prueba.

Paso 6: Nos aparece una hoja con muchos datos, lo primero es identificar la

tabla de ANOVA, es la siguiente.


44

Paso 7: Analizamos el valor de P, el primer inciso nos pregunta qué tipo de

pruebas tiene mayor impacto, analizamos el valor de P de “pruebas” y

vemos que es mayor a 0.05, por lo tanto no hay diferencia entre un

pruebas y otro, es decir las pruebas no afecta la el promedio.

b) Paso 1: Para resolver el inciso B ubicamos la Tabla de ANOVA, es la

siguiente.

Paso 2: Analizamos el valor de P, el inciso B nos pregunta qué tipo de

vehículo tiene mayor duración, analizamos el valor de P del “tipo de

vehículo” y vemos que es menor a 0.05, por lo tanto hay diferencias en las

promedios según el tipo de vehículo, para determinar cual tiene mayor


45

duración debemos ubicar la tabla donde están las medias del tipo de

vehículo, es la siguiente.

Paso 3: Analizamos las medias (mean) y ubicamos la mayor corresponde al

automóvil vagoneta, esto quiere decir que los autos vagoneta tienen una

mayor satisfacción durante las pruebas.

c) Paso 1: Para resolver el inciso C primero ubicamos la tabla de ANOVA, es la

siguiente.

Paso 2: Analizamos el valor de P, el inciso C nos pregunta qué tipo de

prueba y que auto nos garantizan la máxima confiabilidad, así que

analizamos el valor de P de “uso X tipo de automóvil” y vemos que es

menor a 0.05, es decir, el dependiendo del uso y tipo de monitor es la

duración del mismo, para determinar qué tipo de uso y monitor nos

garantizan la mayor duración debemos ubicar la tabla donde están las

medias de “uso X monitor”, la tabla es la siguiente.


46

Paso 3: interpretamos las medias (mean) y localizamos la mayor, la cual

corresponde al uso 3 X Plasma, esto nos dice que un monitor de plasma

que se utilice para uso doméstico nos va a garantizar la mayor duración

del monitor.

Relación

Regresión Polynomial

Este método se utiliza para determinar si hay relación entre 2 variables,

siempre y cuando se puedan identificar X y Y, estas variables se

identifican como X y Y, la X define la variable que nosotros podemos

controlar y la Y define la variable que no podemos controlar, por ejemplo

el vapor de agua que se genera cuando se pone cierta temperatura, en

este caso la temperatura seria la variable X y el vapor seria la variable Y.

Este método se utiliza para poder predecir eventos basados en la

ecuación que define el problema.

Cuando se hace este estudio en Sigmastat los valores para determinar si hay

relación se buscan en Rsqr, si el valor esta entre -1 y -0.7 hay relación o si

el valor esta entre 0.7 y 1 también hay relación.

El software nos dará la relación en 3 órdenes distintos cada se representa

mediante una representa a una gráfica:

Entre 0.7 y 1 ó -0.7 y -1 son iguales;

mientras que entre -0.7 y 0.7 son

diferentes.


47

Orden 1 Orden 2 Orden 3

Solo se toma la del valor Rsqr que este entre los mencionados anteriormente.

Ejemplo: Una empresa dedicada al envasado de leche se dio cuenta de que si envasan

la leche a diferente temperatura se genera una nata que al enfriarse se

deshace, esto provoca que los envases no estén llenos al 98%, que es lo

que se requiere, y los clientes se quejan. Se hizo un estudio y los datos

que se obtuvieron fueron los siguientes:

Temperatura ºC % de llenado

-2 96

-1 94

0 92

1 88

2 90

4 92

a) ¿Qué % de llenado habrá a 7ºC?

b) ¿Qué temperatura nos dará el mayor % de llenado?

Resultados

a) Paso1: Para resolverlo primero meteremos los datos en Sigmastat los datos

en 2 columnas de la siguiente manera


48

Paso 2: Nos vamos a Statistics, Regression y Polynomial tal como se ve en la

imagen.

Paso 3: Nos aparecerá una ventana que nos solicita X y Y, identificamos Y

porque es la que no podemos controlar o variar, en este caso es el % de

llenado y después X que es la que podemos modificar, en este caso la

temperatura, quedara como en la siguiente imagen y después

presionamos sobre la tecla Finish para continuar con el proceso.

Paso 4: enseguida nos aparecerán una serie de datos, debemos buscar el

que dice Regression Results: Incremental como se muestra en la imagen.


49

El valor Rsqr que está dentro de los límites es el de Order 2, esto significa

que la gráfica que representa a la ecuación de este problema es una

parábola.

Paso 5: Ya que identificamos que es de orden 2 buscamos en la misma hoja

de los datos la ecuación, esta se encuentra en la parte superior como en

la imagen.

Buscamos la ecuación de Orden 2 y es la que identifica el problema.

Paso 6: El inciso A nos pregunta el porcentaje de llenado a 7ºC, para esto

solo sustituimos los datos en la ecuación de orden 2 de la siguiente

manera.

% de llenado= 90.821-(1.702 * temperatura) + (0.619 * temperatura ^2)

% de llenado= 90.821-(1.702 * 7ºC) + (0.619 * 7ºC ^2)

% de llenado= 90.821 – 11.914 + 30.331=109.22

Este será el porcentaje de llenado y quiere decir que a 7 ºC se garantiza

llenar al 100%.

Paso 7: El inciso B nos pregunta que temperatura nos dará el mayor

porcentaje de llenado. Para esto calculamos la pendiente de la parábola,

esto se hace derivando la ecuación:

90.821 – 1.702T + 0.619T2

0 – 1.702 + 2(0.619T)

-1.702 + 1.238T=0


50

1.238T= 1.702

T= 1.702 1.238

T= 1.3 ºC

Regresión Múltiple Linear

Este método se utiliza para establecer si hay relación entre 2 o más variables,

en este método se ven involucradas dos variables, una es la variable Y

(variable dependiente) y varias variables X (variables independientes) y

establecer la relación entre ellas. Para determinar si existe relación entre

los elementos es necesario el razonamiento de la P; ya que si es menor a

0.05 hay relación, y si fuese mayor a 0.05 entonces no habría relación.

Otro punto que se analiza son los valores VIF, esto es para descartar las

variables X que no hay relación con la variable Y, esto se hace analizando

el valor VIf, que más se dispare comparado con los otros, es decir, si hay

valores únicamente de 1 y un valor de 10, este se elimina y después de

eliminar la variable se hace nuevamente el estudio, si todos los VIF están

dentro del mismo rango todas las variables son necesarias.

Ejemplo En una escuela se hizo un estudio acerca del total de dinero que gastan los

alumnos a la semana, se quiere saber si hay relación entre las

calificaciones, los cigarros que fuman al día, el número de novias, el

número de personas con las que viven, la distancia a la que viven de la

escuela, el número de camiones que toman para llegar a la escuela y

cuantos miembros de la familia fuman con respecto al dinero que gastan,

los datos obtenidos fueron los siguientes:

a) ¿Hay relación?

b) ¿Todas las variables son necesarias?


51

Resultados

a) Paso 1: Primero se tienen que introducir los datos en Sigmastat en las diferentes columnas, tal como se muestra a continuación.

Paso 2: entramos al menú Statistics, Regression, Multiple Linear y nos

aparecerá una ventana, donde nos pide la variable Y (variable

dependiente) y las variables X (independientes), donde en este caso Y es

el dinero gastado a la semana y todas las demás son X; y presionamos

sobre el botón Finish.

Cigarro

s

Distan

cia

$ Prome

dio

novias Pers.

Viv

e

fumad

ore

s

camino

es

3 5 200 8.5 1 4 1 1

4 8 250 8 1 5 2 2

3 6 200 9.1 1 4 0 1

6 4 300 8.9 2 3 0 3

10 4 500 7.8 2 4 3 4

5 12 350 8.4 2 2 1 2

3 3 150 7.1 1 1 1 1

9 15 450 7 4 5 2 3

10 20 500 6.9 5 4 1 4


52

Paso 3: nos aparecerán una serie de datos, lo primero que debemos ubicar es la tabla de ANOVA y en esta la P si la P es menor a 0.05 entonces hay relación, si P es mayor a 0.05 no hay relación, la tabla de ANOVA para este problema es la siguiente.

Resultado: Como P es menor a 0.05 entonces si hay relación entre las

variables.

b)

Debemos de recordar que solo

hay una variable dependiente y el

resto son independientes; por lo

que hay que saber distinguir

entre los distintos factores.

Tabla de resultados

del problema, donde

se nota el valor de p,

el cual es menor a

0.05


53

Paso 1: Para responder el inciso B, en la hoja de datos del estudio buscamos la tabla donde están los VIF, la cual se muestra a continuación.

Paso 2: Una vez ubicada la tabla buscamos el valor VIF más alto de todos y

este lo eliminamos, esto quiere decir que no es necesario o que no tiene

relación y por lo tanto no tiene caso tenerlos. En este caso el VIF más alto

es el “número de novias”, volvemos a hacer el estudio pero omitimos la

columna de número de novias. Se debe considerar variable Y el dinero y

todas la demás como X, en la imagen la columna que está marcada en

azul no debe considerarse.

Paso 3: Una vez repetido el estudio volvemos a verificar el valor de P para

comprobar si aún hay relación, y también los valores VIF, estos tendrán

cambios, volvemos a seleccionar el más alto y lo volvemos a eliminar,

donde se verán los nuevos valores VIF.

Nuevos valores VIF


54

El valor VIF más alto ahora es el de “cigarros al día”, lo eliminamos del

estudio como se menciona anteriormente al igual que el “número de novias” y

se vuelve a realizar el estudio.

Paso 4: Volvemos a checar P para ver si hay relación y los nuevos VIF, estos

son los nuevos valores VIF.

Paso 5: El valor VIF mas alto ahora es “promedio” lo eliminamos y hacemos

nuevamente el estudio.

Paso 6: Consultamos nuevamente el Valor de P para ver si hay relación y los

valores VIF, los nuevos valores VIF son estos.

Paso 9: Ahora los valores VIF están dentro del rango del valor 1, esto

significa que las variables restantes son las únicas necesarias para

predecir el dinero gastado a la semana.

Correlación de Spearman

Este método se utiliza únicamente para saber si existe relación entre las

variables, este método no predice comportamientos.

Ejemplo: Un psicólogo tiene la teoría de que dependiendo del mes en el que una

persona nazca determina su nivel de agresividad y esas dos variables

determinan el número de hijos que esta persona tiene, se hizo una

encuesta a varias personas y los datos obtenidos fueron los siguientes.

*Nivel de agresividad: escala del 1 al 10


55

Mes en que

nació

(numero

)

Nivel de

agresivi

dad

Hijos que

tiene

2 9 2

4 5 3

1 3 1

3 7 0

5 6 2

8 8 4

3 4 2

6 4 1

12 9 3

7 6 0

9 8 3

11 3 0

10 6 0

2 4 2

6 1 3

8 5 1

5 7 4

5 8 2

10 9 3

12 5 2

4 2 2

1 4 2

3 3 3


56

9 4 1

12 8 3

7 6 1

11 7 2

9 1 1

6 5 1

3 2 1

4 3 2

1 10 3

Determine que tan cierto es lo que este psicólogo dice.

Resultados

Paso 1: Lo primero es meter los datos en 3 columnas en Sigmastat de la

siguiente manera.

Llenado de celdas con los

datos, teniendo cuidado de no

equivocarse con los números,

ya que el manejo de tantos

puede resultar un poco

confuso.


57

Paso 2: Ir al menú Statistics, Correlation y Spearman Rank Order, como en la

imagen, y damos click.

Paso 3: nos aparecerá una ventana donde nos solicita las variables, seleccionamos las columnas, y damos click en Finish; debe quedar de la siguiente manera.

Paso 4: nos aparece una hoja con datos con una tabla, para este ejemplo la

tabla es la siguiente.


58

En la imagen vemos que cada grupo de datos tiene 3 valores

El primero: es el coeficiente de correlación.

El segundo: es el valor de P.

El tercero: es el número de muestras.

Los valores que nos interesan son los valores de P, es decir, el segundo

valor.

Paso 5: Analizamos los valores de, si P es menor a 0.05 entonces hay

relación, si P es mayor a 0.05 entonces no hay relación.

Paso 6: Primero analizamos la P del “mes de nacimiento VS agresividad” y

vemos que la P es mayor a 0.05, esto quiere decir que no hay relación

entre el mes de nacimiento con la agresividad.

Paso 7: Después analizamos el valor de P del “mes de nacimiento VS

número de hijos”, y vemos que la P es mayor a 0.05, esto nos dice que no

hay relación entre el mes de nacimiento y el número de hijos.

Paso 8: Ahora analizamos el valor de P de “agresividad VS número de hijos”

y vemos que la P es menor a 0.05 por lo tanto si hay relación entre la

agresividad de las personas y el número de hijos que tienen.

Conclusiones:

Relación Chi-Cuadrada

En un estudio se dice que dependiendo la edad de las persona depende su

gusto por un estilo de música.

música edad 14-17 18-25 25-35

Pop-electrónica 25 18 10

Rock-alternativa 17 30 11

Grupera-

románticas

15 13 27

Proceso de solución mediante el programa SigmaStat.


59

Paso 1: El primer paso es de colocar los valores dentro de las etiquetas

superiores, que en este caso son los rangos de edades.

Para proceder a realizar el estudio se debe de seguir el siguiente diagrama,

que representa a continuación:

Colocación de datos dentro

de las celdas; nótese que

se respeta el orden de la

tabla original.


60

Paso 2: Ya estando dentro del programa se ve de la siguiente forma.

Paso 3: Al dar click sobre esta opción se desplegara una ventana donde hay

que asegurarnos de que en la parte de la barra desplegable tenga la

opción de Tabulated Data, y después presionar sobre el botón Next.


61

Paso 4: En el siguiente paso del proceso, es el seleccionar las columnas que

queremos estudiar, que se hace de la misma manera en que se

seleccionaba en los estudios anteriores.

Selección de las

tres columnas

Y presionamos Next para

continuar.

Selección de la opción

Tabulaled Data.


62

Paso 5: Y al tener las tres columnas seleccionadas damos click sobre el

botón Finish.

Paso 6: Al dar sobre el botón terminar se lleva a cabo el estudio arrojándonos

los resultados que se muestran a continuación.

Presionamos Finish para

que se lleve a cabo

el estudio que

arroje los resultados

finales.


63

Paso 7: De esta tabla solo nos interesa el resultado de la p, la cual nos arroja

la relación entre los distintos aspectos estudiados.

La relación se define por los siguientes parámetros:

Conclusiones: Tomando en cuenta los parámetros atrás mencionados,

tomando en cuenta el resultado de la p, decidimos si los resultados tienen

relación o no hay relación.

Mayor

a…

Menor

a…

0.05

0.05

No Hay relación

Si Hay relación


64

Manual de Problemas

Estadísticos

Date post:	30-Jun-2015
Category:	Education
Upload:	roberto-carlos-sanchez-trejo
View:	451 times
Download:	0 times

Manual estadístico completo

Education