Estatistica - Considerações Gerais

Estatística

Considerações Gerais

Considerações Gerais

Importância da EstatísticaAdministraçãoEngenhariaMedicinaEconomiaTurismo...

Definição

A Estatística é uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões (TRIOLA, 1998).

Visão Sistêmica da Estatística

A partir de valores obtidos em uma amostra de uma certa população de interesse, descrevemos esta amostra e caracterizamos a população como um todo, generalizando as observações na amostra.Tirar conclusões sobre uma população com base em uma amostra de observações.

Análises Estatísticas

Estatística descritiva: parte da estatística que descreve os aspectos importantes de um conjunto de características observadas.

Probabilidade: número que indica a chance de uma determinada situação ocorrer.

Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a respeito de aspectos importantes de uma população.

Amostra

PopulaçãoEstatística descritiva

ProbabilidadeErroInferência estatística

Dedução e Indução

População é conhecida

Amostra?

População ??

Amostra é conhecida

Dedução => Probabilidade

Indução => Inferência estatística

Definições básicas iniciais

PopulaçãoColeção completa de todos os elementos a serem estudados (Ex.: todos os alunos da sala de aula)

CensoColeção de dados relativos a todos os elementos de uma população (Ex.: idade de todos os alunos da sala de aula)

AmostraColeção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos alunos da sala de aula)

• Quem determina o tamanho de uma amostra?

• Como determinar o tamanho de uma amostra?

• Como determinar se uma amostra foi adequada?

Termos: População e Amostra

Definições básicas iniciais

ParâmetroMedida numérica que descreve uma característica de uma população

(Ex.: idade média de toda a turma é um parâmetro)

EstatísticaMedida numérica que descreve uma característica de uma amostra

(Ex.: idade média da turma baseada numa amostra de 10% dos alunos

é uma estatística)

EstimativaValor resultante do cálculo de uma estatística, quando usado para se

ter uma idéia do parâmetro de interesse

Dados e Variáveis

Dado:InformaçãoAquilo que caracteriza determinada coisaResultado de uma observação ou experimentoEx.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...

Variável:A característica em siEx.: altura de indivíduos de um grupo

Natureza das Variáveis

Variáveis

Qualitativas(são atributos)

Ex.: sexo, religião, naturalidade, cor

dos olhos, etc.

Quantitativas(são numéricas)

DiscretasConjunto finito de valores –

conjunto enumerável“CONTAGEM”

(1,2,3,4...)Ex.: qtd. de estudantes em um

uma disciplina; qtd. de cômodos em uma residência

ContínuasNúmero infinito de valores possíveis – escala contínua

“MENSURAÇÃO”(Ex.: medidas de tempo: tempo de vôo entre duas

cidades; duração da bateria de um celular)

Exercício 1: Contínuo ou Discreto?

Uma marca de cigarro possui 16,13mg de alcatrãoO altímetro de um avião indica uma altitude de 21.359 pésUma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internetO radar indica uma velocidade de 81 km/hDe 1000 consumidores pesquisados, 930 reconheceram uma marca de sopaFazendo um regime, uma executiva perdeu 13,45kg

Exercício 1: Contínuo ou Discreto?

Uma marca de cigarro possui 16,13mg de alcatrãoO altímetro de um avião indica uma altitude de 21.359 pésUma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internetO radar indica uma velocidade de 81 km/hDe 1000 consumidores pesquisados, 930 reconheceram uma marca de sopaFazendo um regime, uma executiva perdeu 13,45kg

C

C

D

CD

C

Reflexão

Para comprovar que muitos conceitos em Probabilidade e Estatística são intuitivos, acabamos de falar em “população” e “amostra” e quase todos compreenderam naturalmente do que se trata!

Abusos da Estatística

Pequenas amostrasPesquisou-se 10 dentistas. “7 entre 10 dentistas preferem dentifrício X.”

Estimativas por suposição“Igreja estimou em 2 milhões os fiéis presentes em missa do padre Marcelo Rossi em São Paulo.” Fotos aéreas e cálculos baseados em grades estimaram 80.000 pessoas.

Porcentagens distorcidas“Tirei 1 na primeira prova. Tirei 2 na segunda prova. Melhorei 100%!”


Distorções deliberadas“Pesquisas feitas entre usuários de TchauFumaça mostram que 98% deixou de fumar.” Duas pesquisas feitas entre os funcionários da empresa fabricante de TchauFumaça.

Perguntas tendenciosas“Você é a favor da suspensão do pagamento da dívida externa, sobrando assim mais dinheiro para ajudar as criancinhas famintas?”“Você é a favor da proibição de fabrico e venda de armas mortíferas de fogo no Brasil?”


Gráficos enganosos

Ganho Semanal

754

520

0

100200

300

400

500600

700

800

Homens Mulheres

Ganho Semanal

754

520

500

550

600

650

700

750

800

Homens Mulheres


Pressão do pesquisador ou ambiente“Você já traiu seu(a) companheiro(a)?” Pergunta feita com o(a) companheiro(a) ao lado.

Más amostrasPesquisas feitas em sites da internet (pesquisa auto-selecionada)Não se pode concluir nada sobre a população em geral!

Medidas de Tendência Central

GeneralidadesEstatística Descritiva:

Resumo ou descrição das características importantes de um conjunto conhecido de dados populacionais

Inferência Estatística:Generalizações sobre uma população tomadas a partir da utilização de dados amostrais.

Estatística descritiva

Através da ESTATÍSTICA DESCRITIVA entendemos melhor um conjunto de dados através de suas características.As três principais características são:

Um valor representativo do conjunto de dados. Ex.: uma médiaUma medida de dispersão ou variação. A natureza ou forma da distribuição dos dados: sino, uniforme, assimétrica,...

Medidas de Tendência Central

Determina valores típicos ou representativos de um conjunto de dados

MédiaMedianaModaPonto médio

Média Aritmética ou Média

Média aritmética ou média

Centro do conjunto de dados – ponto de equilíbrioA mais importante medida de tendência centralMédia = Σ(x)/n

Eventos Altura SexoAluno 1 1,72 MAluno 2 1,60 FAluno 3 1,74 MAluno 4 1,88 MAluno 5 1,82 MAluno 6 1,75 MAluno 7 1,82 MAluno 8 1,75 MAluno 9 1,73 MAluno 10 1,75 MAluno 11 1,80 MAluno 12 1,75 MAluno 13 1,73 MAluno 14 1,84 MAluno 15 1,76 MAluno 16 1,78 MAluno 17 1,75 MAluno 18 1,69 FMédia 1,759 -------

Análise Estatística da Turma de Prob. e Estatística

osconsideradsão população da valoresos todos

amostra uma de extraída==

μx

Notação

Σ: somatório de um conjunto de valoresx: valores individuais dos dadosn: número de valores da amostraN: número de valores de uma populaçãox = Σ(x)/n: média de um conjunto de valores amostraisμ = Σ(x)/N: média de todos os valores de uma população

Mediana (x)

Valor do meio do conjunto de dados, quando os valores estão dispostos em ordem crescente ou decrescente; divide um conjunto de dados em duas partes iguais.Para calcular:

Disponha os valores em ordem (crescente ou decrescente)Se o número de valores é ímpar, a mediana é o número localizado no meio da listaSe o número é par, a mediana é a média dos dois valores do meio

Do nosso conjunto de dados...

Encontre a mediana:Liste em ordem crescente os valoresEncontre a posição da mediana: (n+1)/2Se n é ímpar, mediana é o número da posição;Se n é par, mediana é a média entre os dois números em torna da posição.

No exemplo:n=18 (par); Posição: (n+1)/2 = 9,5Mediana média entre o 9o e o 10o valor = (1,75+1,75)/2 = 1,75

Altura Sexo1,60 M1,69 F1,72 M1,73 M1,73 M1,74 M1,75 M1,75 M1,75 M1,75 M1,75 M1,76 M1,78 M1,80 M1,82 M1,82 M1,84 M1,88 F

Análise Estatística da Turma

Moda (M)É o valor que ocorre com maior freqüência.Quando dois valores ocorrem com a mesma freqüência, cada um deles é chamado de uma moda, e o conjunto se diz BIMODALSe mais de dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda e o conjunto é MULTIMODAL.Quando nenhum valor é repetido o conjunto não tem moda


Moda = 1,75Altura No.ocorrências1,60 11,69 11,72 11,73 21,74 11,75 51,76 11,78 11,80 11,82 21,84 11,88 1


Ponto Médio

Valor que está a meio caminho entre o maior e o menor valor

2rmenor valo r maior valo médio ponto +

=


Altura Sexo1,60 M1,69 F1,72 M1,73 M1,73 M1,74 M1,75 M1,75 M1,75 M1,75 M1,75 M1,76 M1,78 M1,80 M1,82 M1,82 M1,84 M1,88 F


74,12

1,601,88 médio ponto =+

=

Medidas de Posição

Seja o seguinte conjunto de valores:

5 7 8 10 12 15 20

média = 11 mediana = 10 ponto médio = 12,5

Se alterarmos significativamente o último valor:

5 7 8 10 12 15 200

média = 36,7 !! mediana = 10 ponto médio = 102,5!!

Devemos ter cuidados ao escolhermos uma medida de posição para representar um conjunto de dados, pois:

“Média” e “Ponto Médio” são muito afetados por valores extremo

Em geral, a melhor política é utilizar os dois parâmetros: “média” e “mediana”

Valores de “Média” e “Mediana” muito próximos é uma indicação que o conjunto de valores é razoavelmente simétrico em relação à posição central (média / mediana)

Medidas de Posição

Média Ponderada

Cálculo da média, atribuindo pesos diferentes para cada valor

1 1 2 2. . .

valores individuaispesos individuais

n n

n

n

x w x w x wxw

xw

+ + +=

==

∑…

ExercícioA tabela de freqüência a seguir resume os tempos gastos em estudo extra- classe por calouros em uma universidade americana. Faça uma estimativa do tempo médio de estudo deste grupo.

Horas de Estudo

Freqüência (alunos)

0 5

1-5 96

6-10 57

11-15 25

16-20 11

+ de 20 6

Exercícios

Dados os conjuntos de dados abaixo, calcule a MÉDIA, a MEDIANA, a(s) MODA(S) e o

PONTO MÉDIO.1. 15; 26; 28; 10; 292. 500; 1000; 50000; 800; 500; 6003. Altura dos alunos da sala4. Limite de Resistência de um vergalhão kgf/mm2

(55; 52; 55; 53; 56; 59; 58; 55; 56; 53; 52; 51; 54; 54; 55; 58; 57; 57; 56; 49; 54; 56)

Separatrizes

PercentisDecisQuartisEscore padronizado ou escore z

DADOS ORDENADOS

Um percentil indica que há x% de dados inferiores Ou seja, os percentis dividem o conjunto de dados em 100 partes iguais.Há, portanto, 99 percentisEx.: o P92 (92o percentil) indica que há 92% de dados inferiores.

Percentis

Dado o conjunto de valores, calcule o 25o

percentil (valores devem estar ordenados)

Calcule: L= (k/100).n• L: posição do percentil desejado no conjunto de

dados ordenado• k: percentil desejado• n: número de valores

L é um número inteiro?

72 74 75 77 78 79 82 85 86 90 93 94

Percentis

SIMo k-ézimo percentil está

a meio caminho do L- ézimo valor e o

próximo valor do conjunto de dados.

n=12 => L=3(L3 + L4 )/2 = (75+77)/2 = 76

NÃOModificar L, arredondando

seus valor para o inteiro maior mais próximo.

Ex.: se n=11 => L=2,75A posição do k-ézimo percentil será 3.Retirando o valor 77 do conjunto de dados...P25 = 75

L é número inteiro?Percentis

Calcular Percentil

Para calcular a qual percentil pertence um dado valor

100 valoresde totalnúmero

a inferiores valoresnúmero valor do percentil ⋅=xx

Seja o seguinte conjunto de “n” valores:

10 7 15 12 20 8 5 25

ORDENA-SE o conjunto de “n” valores

5 7 8 10 12 15 20 25

LP = (n-1) x p/100 + 1

L25 = (8-1) X 0,25 + 1 = 2,75 L75 = (8-1) X 0,75 + 1 = 6,25

P1 = 7 + (8-7)x0,75 = 7,75 P3 = 15 + (20-15)x0,25 = 16,25

Processo Alternativo

Dividem o conjunto de dados em 10 partes iguais de 10%.Portanto há 09 decis numa distribuição, que a divide em 10 grupos de 10% de dados.Os Decis são os percentis:

P10 , P20 , P30 , P40 P50 , P60 , P70 , P80 , P90

Decis

Decis

D1 = P10 D2 = P20 D3 = P30

D4 = P40 D5 = P50 D6 = P60

D7 = P70 D8 = P80 D9 = P90

Quartis

Os quartis dividem a distribuição em quatro partes iguais de 25%Temos assim 3 quartis numa distribuição

O 1o quartil Q1 , separa os 25% de dados inferioresO 2o quartil Q2 , separa os 50% de dados inferioresO 3o quartil Q3 , separa os 75% de dados inferiores.

QuartisOs Quartis são os percentis:

P25 , P50 , P75

Observa-se que Q2 = MEDIANA

Q1 = P25 Q2 = P50 Q3 = P75

Outras medidas descritivas

Baseado nos conceitos de Percentis, Decis e Quartis, podemos definir outras descrições estatísticas:

Intervalo interquartil Q3 – Q4

Intervalo semi-interquartil (Q3 – Q1)/2Quartil médio (Q3 + Q1)/2Amplitude de percentis

• Ex. 10-90 => P90 -P10

Medidas de Dispersão

IntroduçãoAmplitudeVariância

Desvio PadrãoCoeficiente de Variação

Introdução

• Estudo de medidas que mostram a dispersão dos dados em torno da tendência central

• Analisaremos as seguintes medidas:– Amplitude– Variância– Desvio Padrão – Coeficiente de Variação

Introdução• Por que estudar?

– Entender grandes volumes de informação (pesquisas de mercado, índices populacionais, acessos a sites)

– Qualidade de processos (CEP – Controle Estatístico de Processos)

– Previsões confiáveis (projeções financeiras e populacionais, vida útil de equipamentos)

– Planejamento (coleta de dados, definição de amostras, planos de contingência)

Amplitude• É a diferença entre a maior e a menor observação

em um conjunto de dados

• Mede a dispersão total no conjunto de dados

• É uma medida simples que não leva em consideração como os dados são efetivamente distribuídos entre os valores extremos

menormaior XXA −=

Amplitude• Exemplo: Dada a amostra abaixo, calcule a

amplitude.

OBS: A amplitude calculada não nos fornece qualquer informação sobre a tendência central e distribuição das observações

5

12

3,7

3,5

3

2

Custo de produção (em milhões)

10212 =−=A

Variância• A variância da amostra é a média aproximada das diferenças ao

quadrado entre cada uma das observações e a média aritmética da amostra

onde:n é o tamanho da amostra

1)(....)()()( 22

32

22

12

−−++−+−+−=

nXXXXXXXXS n

OBS: O tamanho da amostra é subtraído de 1 devido ao fator de correção de Bessel, que visa uma estimativa mais precisa. No cálculo de variância para toda a população, este corretor é dispensado.

Variância• A fórmula da variância de uma amostra pode ser escrita de forma

resumida

Resumindo: A variância é a soma das diferenças ao quadrado em torno da média aritmética dividida pelo tamanho da amostra menos um

1

)(1

2

2

−

−=

∑=

n

XXS

n

ii

Variância• A variância também pode ser calculada pela fórmula

a seguir, que exige um número menor de operações aritméticas

• A variância da população é representada pelo símbolo σ2, porém é mais comum e prático o cálculo da variância da amostra

S2=∑ x2−

∑ x2

nn−1

Variância➔ Exercício: Calcule a variância da amostra

Idades

18

35

22

20

4216

Variância

• Exemplo: Calcule a variância da amostra

5,25=X

ix xxi −

-7,5

9,5

-3,5

-5,5

16,5-9,5

56,2518

90,2535

12,2522

30,2520

272,254290,2516

2id

∑ = 5,5512id

3,11055,5512 ≅=S

Variância

• Propriedades1. Somando-se (ou subtraindo-se) a cada elemento de

um conjunto de valores uma constante arbitrária, a variância não se altera

2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, a variância fica multiplicada (ou dividida) pelo quadrado da constante

Desvio Padrão

• Desvio padrão é a raiz quadrada da variância da amostra

1

)(1

2

−

−=

∑=

n

XXS

n

ii

Desvio Padrão

• O desvio padrão indica o afastamento dos valores observados em relação à média aritmética da amostra estuda

• É um conceito imprescindível para análises gráficas, determinação de confiabilidade e estudos de distribuições

Desvio Padrão• Exemplo: com base na amostra utilizada no

exercício de variância, calcule o desvio padrão.

5,1055,5512 === SS

Desvio Padrão

• Propriedades1. Somando-se (ou subtraindo-se) a cada elemento de

um conjunto de valores uma constante arbitrária, o desvio padrão não se altera

3. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, desvio padrão fica multiplicado (ou dividido) pela constante

Coeficiente de Variação• Dentre as medidas de dispersão relativa, o coeficiente

de variação mais é o de Pearson (CVp)

• É expresso em porcentagem

• Útil para comparação de variabilidade de dois conjuntos de dados com unidades de medidas diferentes

• Também é útil para comparar amostras de comportamento bastante diferentes (ex: ações de uma indústria X ações de empresa de serviços aéreos)

Coeficiente de Variação• CVp é baseado no quociente entre o desvio

padrão e a média aritmética

• Quanto menor este valor, mais homogêneo será o conjunto de dados

%100

=XSCVp

Exercícios1. Para os dados usados nos exercícios de

variância e desvio padrão, calcule o coeficiente de variação

3. O desvio padrão e a variância podem ser negativos?

5. Em que situação o desvio padrão e a variância são nulos? Qual é a amplitude neste caso?

Obrigado!

Até a próxima aula.

Distribuição de Freqüência

Representação do conjunto de dados

Distribuições de freqüência

Freqüência relativaFreqüência acumulada

Representação Gráfica

Histogramas

Organização dos dados

Os métodos utilizados para organizar dados compreendem o arranjo desses dados em subconjuntos que apresentem características similares.

mesma idade (ou “faixa etária”), mesma finalidade, mesma escola, mesmo bairro, etc

Os dados agrupados podem ser resumidos em tabelas ou gráficos e, a partir desses, podemos obter as estatísticas descritivas já definidas: média, mediana, desvio, etc.

Dados organizados em grupos ou categorias/classes são usualmente designados “distribuição de freqüência”.

Distribuição de frequência

Uma distribuição de freqüência é um método de se agrupar dados em classes de modo a fornecer a quantidade (e/ou a percentagem) de dados em cada classe

Com isso, podemos resumir e visualizar um conjunto de dados sem precisar levar em conta os valores individuais.

Uma distribuição de freqüência (absoluta ou relativa) pode ser apresentada em tabelas ou gráficos

Distribuição de frequência

Uma distribuição de freqüência agrupa os

dados por classes de ocorrência, resumindo

a análise de conjunto de dados grandes.

Adotemos o conjunto de dados que represente a populaçãoOrdene em ordem crescente ou decrescente

Eventos AlturaAluno 1 1,60Aluno 2 1,69Aluno 3 1,72Aluno 4 1,73Aluno 5 1,73Aluno 6 1,74Aluno 7 1,75Aluno 8 1,75Aluno 9 1,75Aluno 10 1,75Aluno 11 1,75Aluno 12 1,76Aluno 13 1,78Aluno 14 1,80Aluno 15 1,82Aluno 16 1,82Aluno 17 1,84Aluno 18 1,88

Construindo uma distribuição de freqüência


Determine a Quantidade de classes (k)Regra de Sturges (Regra do Logaritmo)

• k = 1 + 3,3log(n)

Regra da Potência de 2• k = menor valor interiro tal que 2k ≥

n

Regra da Raiz Quadrada•

Bom senso !!!• Decida a quantidade de classes que GARANTA observar

como os valores se distribuem.

nk =

Quantidade de dados (n)

Quantidade de Classes (k)


Quantidade de Classes (k)


Quantidade M Í N IM A de C lasses (k)

Quantidade M Á XIM A de C lasses (k)

1 1 1 e 2 1 até 50 5 102 2 3 e 4 2 51 a 100 8 16

3 a 5 3 5 a 8 3 101 a 200 10 20 6 a 11 4 9 a 16 4 201 a 300 12 2412 a 23 5 17 a 32 5 301 a 500 15 3024 a 46 6 33 a 64 6 mais de 500 20 4047 a 93 7 65 a 128 7

94 a 187 8 129 a 256 8188 a 376 9 257 a 512 9377 a 756 10 513 a 1024 10

Regra de Sturges (Logaritmo) Regra da Potência de 2 Bom Senso



Calcule a amplitude das classes (h)Calcule a amplitude do conjunto de dados

• L = xmáx – xmín

Calcule a amplitude (largura) da classe• h = L / k• Arredonde convenientemente

Calcule os Limites das Classes1a classe: xmín até xmín + h2a classe: xmín + h até xmín + 2 . h........................ka classe: xmín + (k-1) . h até xmín + k . h

Limite das classesUtilize a notação:

• [x,y) – intervalo de entre x (fechado) até y (aberto)Freqüentemente temos que “arredondar” a amplitude das classes e, conseqüentemente, arredondar também os limites das classes.Como sugestão, podemos tentar, se possível, um ajuste simétrico nos limites das classes das pontas (i.e., primeira e última) nas quais, usualmente, a quantidade de dados é menor.

Ponto médio das classesxk = Linferior + ( Lsuperior – Linferior ) / 2


Determinação da freqüência das classes

Consiste em agrupar os dados em cada classe e contar os totais

Traçar o gráfico

Dividir o eixo horizontal em tantas partes quanto for o número de classes. Sugestão: deixe espaço entre o eixo vertical e a primeira classe.

Identifique a maior freqüência da classe na tabela e marque esse número (ou outro um pouco maior) na extremidade do eixo vertical; divida esse eixo em algumas partes e marque os valores correspondentes

Desenhe um retângulo, para cada classe, com largura igual à largura da classe e com altura igual à freqüência da classe


Do nosso exemplo:Ordenamos os dadosPor Sturges, temos:

• n=18 ; k=5 (número de classes)

Amplitude de classes• Amplitude do conjunto

de dados: 1,88- 1,60=0,28m

• Amplitude de classes: 0,28/5=0,056

• Arredondado h = 0,06m

Altura1,601,691,721,731,731,741,751,751,751,751,751,761,781,801,821,821,841,88

Exemplo

Construindo uma tabela de freqüência

Calcule os Limites de ClasseArredonde os Limites de Classe nos extremos

1,9-1,88=0,02Distribua o excesso:

• 1,60-0,01; 1,88+0,01Ajuste todas as classes

Altura1,601,691,721,731,731,741,751,751,751,751,751,761,781,801,821,821,841,88

Amplitude 0,06Limites

inferioresLimite

superior1,60 1,661,66 1,721,72 1,781,78 1,841,84 1,90

Aqui “sobra” 0,02m!

Freqüências absolutasDistribua os eventos ou ocorrência por suas respectivas classes

Freqüências acumuladasSome as ocorrências de dados cumulativamente às classes

Observação importante:É muito útil representar as frequências em termos percentuais ao total de amostras

0,06

Dados Classe FrequênciaFrequência Acumulada

1,60 1,59-1,65 1 11,69 1,65-1,71 1 21,72 1,71-1,77 10 121,73 1,77-1,83 4 161,73 1,83-1,89 2 181,74 Total 181,751,751,751,751,751,761,781,801,821,821,841,88

Amplitude

Construindo uma tabela de freqüência

Exercício 1

• Construa gráficos manuais que possam representar a classificação da sua turma quanto:

• Sexo;

• Estado civil;

• Quantidade de veículos;

• Cor do cabelo.

Como construir um gráfico na mão?

• X – Horizontal – Categorias;

• Y – Vertical – Valores (número de pessoas que se encaixam em cada categoria).

Representação Gráfica

HistogramaNa abscissas, distribua as classesNa ordenada da esquerda, as freqüências absolutasConstrua um gráfico de barras para as freqüênciasConstrua um gráfico de linha para a freqüência acumulada (utilize a escala da direita)

0,06

Classe Frequência Frequência Acumulada

1,59-1,65 1 11,65-1,71 1 21,71-1,77 10 121,77-1,83 4 161,83-1,89 2 18

Total 18

Amplitude

02468

1012

1,59-1,65

1,65-1,71

1,71-1,77

1,77-1,83

1,83-1,89

0

5

10

15

20

Distribuição de Freqüência: Histogramas e Polígonos de

FreqüênciaUma distribuição de freqüência representada por um gráfico de barras é denominada histograma

Outro gráfico de interesse é o chamado polígono de freqüência

O polígono de freqüência é obtido unindo-se os pontos médios da parte superior de cada retângulo do histograma com segmentos de reta

É importante notar que tanto o histograma quanto o polígono de freqüência indicam a freqüência absoluta de cada classe


FreqüênciaDigamos que temos histogramas para as alturas dos estudantes de duas turmas diferentes, traçados de acordo com as regras descritas até agora

Poderíamos sobrepor os desenhos para fazer uma análise comparativa das turmas?

Que cuidados devemos tomar?

O “problema” com esta regra de construção é que o histograma construído é específico para o conjunto em análise

Para fazermos análises comparativas de conjuntos de dados diferentes, as classes devem ser as mesmas!

Devemos, então, utilizar algum conhecimento prévio da área em estudo para definir o intervalo aceitável de variação dos dados e, a partir daí, definir as classes

Essas “classes genéricas” servirão para o estudo de quaisquer conjunto de dados e permitirão análises comparativas


Freqüência


FreqüênciaEm um histograma, as classes devem SEMPRE ter a mesma largura?

Não necessariamente!

Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais.

O exemplo típico é a classificação de pessoas por faixas etárias (infantil, juvenil, adulto, sênior, etc). Essas faixas não têm a mesma largura.

Distribuição de Freqüência: Histogramas com Classes de Larguras

DesiguaisA representação gráfica dos dados em um histograma com classes de larguras desiguais requer a transformação dos valores de freqüência absoluta em densidade de freqüência.

Isso é fundamental pois devemos manter a área dos retângulos proporcionais à freqüência da classe

A densidade de freqüência é dada por:

classedalarguraclassedafreqüênciafreqüênciadedensidade =

Distribuição de Freqüência: Histogramas com Classes de Larguras

Desiguais

Isso significa que a altura das barras (i.e., os valores na escala do eixo vertical) NÃO representam a freqüência da classe, mas sim a densidade de freqüência.

Para calcularmos a freqüência da classe devemos multiplicar a densidade (indicada no eixo vertical) pela largura respectiva

Outros Gráficos0,05

Classe Frequência Frequência Relativa (%)

1,59-1,65 1 6%1,65-1,71 1 6%1,71-1,77 10 56%1,77-1,83 4 22%1,83-1,89 2 11%

Total 18

Amplitude

Frequência Relativa (%)

22%

11% 6% 6%

55%

1,59-1,651,65-1,711,71-1,771,77-1,831,83-1,89

Gráfico de Pizza

Gráfico de Pareto

Outros GráficosClasse Frequência

Frequência Relativa(%)

Frequência Acumulada

Frequência Acumulada(%)

1,71-1,77 10 56% 10 56%1,77-1,83 4 22% 14 78%1,83-1,89 2 11% 16 89%1,65-1,71 1 6% 17 94%1,59-1,65 1 6% 18 100%

Total 18

100%94%89%

56% 78%

0%20%40%60%80%

100%120%

1,71-1,77 1,77-1,83 1,83-1,89 1,65-1,71

Classe de Altura (m) Freqüência Freq. Acumulada

1.55 [--- 1.63 2 21.63 [--- 1.71 12 141.71 [--- 1.79 22 361.79 [--- 1.87 13 491.87 [--- 1.96 2 51

Distribuição Acumulada

0102030405060

1.55 [---1.63

1.63 [---1.71

1.71 [---1.79

1.79 [---1.87

1.87 [---1.96

Classes de alturas (m)

Freq

üênc

ia

Seqüência1Seqüência2Seqüência3Seqüência4

OGIVA DE GALTON

0

10

20

30

40

50

60

1.55 [---1.63

1.63 [---1.71

1.71 [---1.79

1.79 [---1.87

1.87 [---1.96

Classes de alturas (m)

Freq

:uên

cia

acum

ulad

aSeries2Series1Series3

Outros Gráficos

Quando os dados estão resumidos em uma tabela de freqüências, podemos calcular aproximadamente a média aritmética ponderando sobre:

Pontos médios de cada intervalo – supõe-se que todos os elementos das classes ocorrem no ponto médio das respectivas classes;Exemplo: temos 7 ocorrências na faixa entre 1,75 e 1,79. Consideramos que as sete ocorrências equivalem a (1,79+1,75)/2=1,77 ponto médio da classe.

Média Ponderada: Média de uma tabela de freqüência

Média Ponderada: Média de uma tabela de freqüência

∑∑=

fxf

x).(

x = ponto médio da classef = freqüênciaΣf = n

Erros por páginas

No de paginas

0 25

1 20

2 3

3 1

4 1

nfx

ffx

x ∑∑∑ ==

..

66,05033

)1132025()14()13()32()201()250(

==++++

⋅+⋅+⋅+⋅+⋅=x

Média PonderadaA média ponderada é considerada “ponderada” quando os valores dos conjuntos tiverem pesos / freqüências diferentesNuma distribuição utilizando os valores discretos, calcula-se:

Média PonderadaQuando tivermos uma distribuição com dados agrupados por classes de valores, calculamos considerando o valor de cada classe como o ponto médio respectivo da classe.

Alturas de Pessoas

Ponto Médio (Xi)

Frequência (fi) xi.fi

1,59-1,65 1,62 1 1,621,65-1,71 1,68 1 1,681,71-1,77 1,74 10 17,41,77-1,83 1,80 4 7,21,83-1,89 1,86 2 3,72

Total 18 31,62

nfx

ffx

x ∑∑∑ ==

..

1,7618

62,31==x

Cálculo da Moda para dados Agrupados

Caso 1: dados agrupados por valores discretos moda é o valor com maior freqüência.Caso 2: dados agrupados por classes

Moda BrutaMétodo de KingMétodo de CzuberMétodo de Pearson

Cálculo da Moda para dados Agrupados: Moda Bruta

Moda BrutaTome a classe que apresenta a maior freqüência classe modalA moda será o ponto médio da classe modal: (liminf + limsup )/2

Cálculo da Moda para dados Agrupados: King

Método de King:

OndeLiminf : limite inferior da classe modalfant : freqüência da classe anterior à modalfpost : freqüência da classe posterior à modalh: amplitude da classe modal

hff

fM

postant

posto +

+= inflim

Cálculo da Mediana para dados Agrupados

Dados agrupados por classesMediana é o valor localizado a Lx =n/2Após cálculo de Lx , determina-se o valor da mediana por:

Onde:• Lx Localização (posição) da Mediana• Fant freqüência acumulada até a classe anterior à classe

da mediana• fi freqüência absoluta da classe da mediana• h amplitude de classe• Liminf Limite inferior da classe da mediana

i

ant

fFhLimX )L.( x

inf

~ −+=

Medidas de Dispersão (Dados Agrupados)

O desvio-padrão, nesse caso, faz uma ponderação da distância dos pontos médios de cada classe para a média, e a respectiva freqüência de valores:

( ) ( ))(população(amostra)

N

xf

n

xxfs

k

jjj

k

jjj ∑∑

==

−=

−

−= 1

2

1

2 ~

1

~ μσ

Desvio padrão de dados agrupados

)1()].([)].([ 22

−−

= ∑ ∑nn

xfxfns

Desvio padrão para uma tabela de freqüênciasx = ponto médio da classef = frequência da classen = tamanho da amostra (ou Σf = soma das frequências)

Interpretando Histogramas

Histograma é uma ferramenta estatística que permite resumir informações de um conjunto de dados, visualizando a forma da distribuição desses dados, a localização do valor central e a dispersão dos dados em torno do valor central

Ou seja, em análises de processos produtivos, freqüentemente obtemos informações úteis sobre a população/amostra de dados coletados pela análise da forma do histograma

O valor médio está localizado no centro do histogramaA freqüência é mais alta no meio e diminui gradualmente na direção dos extremos

Ocorre quando não existem restrições aos valores que a variável de controle pode assumir

Processo geralmente sob controle, somente causas comuns estão presentesProcesso usualmente está estável

Simétrico ou em Forma de Sino

O valor médio está localizado fora do centro do histogramaA freqüência diminui gradativamente em um dos lados e de modo um tanto abrupto do outro lado

Ocorre quando não é possível que a variável de controle assuma valores mais altos (ou mais baixos)

Processo em que o limite inferior (superior) é controlado (apenas um limite de especificação)

Por exemplo, teoricamente é impossível valores inferiores à 0% para a variável impureza

Assimétrico

O valor médio está localizado fora do centro do histograma

A freqüência diminui abruptamente de um dos lados e suavemente em direção ao outro

Processo não atende às especificações e uma inspeção 100% é realizada para eliminar produtos defeituosos

Despinhadeiro

Parte do gráfico é relativamente simétrica com o acréscimo de algumas classes mais afastadas de menores freqüências

Ocorre quando dados de outra distribuição, diferente da distribuição da maior parte das medidas, são incluídos

Processo com anormalidades, ou erro de medição e/ou registro de dados, ou inclusão de dados de um processo diferente

Ilhas Isoladas ou Pico Isolado

A freqüência é mais baixa no centro do histograma e existe um “pico” em cada lado

Ocorre quando dados de duas distribuições, com médias muito diferentes, são misturados

Os valores da variável de controle devem estar associados a duas máquinas ou dois turnos distintos, por exemplo

Bimodal ou com Dois Picos

Todas as classes possuem mais ou menos a mesma freqüência, exceto aquelas das extremidades

Ocorre quando dados de duas distribuições, com médias não muito diferentes, são misturados

Os valores da variável de controle devem estar associados a níveis distintos de algum (ou alguns) dos fatores que constituem o processo em análise

Achatado ou Platô

Atende, com folga, os limites de especificaçãoMédia no centro da faixa de especificaçãoVariabilidade aceitávelManter a situação atual

Especificação atendida sem nenhuma margem extraMédia no centro da faixa de especificaçãoVariabilidade um pouco elevadaAdotar medidas para reduzir um pouco a variabilidade

Histogramas e Limites de Especificação de Processos

Não atende os limites de especificaçãoMédia deslocada para a esquerdaVariabilidade aceitávelAdotar medidas para deslocar a média para o centro (valor nominal)

Não atende os limites de especificaçãoMédia no centro da faixa de especificaçãoVariabilidade elevadaAdotar medidas para reduzir a variabilidade

Não atende os limites de especificaçãoMédia deslocada para a esquerdaVariabilidade elevadaAdotar medidas para deslocar a média para o centro e reduzir a variabilidade

Histogramas e Limites de Especificação de Processos

Probabilidade

Definições e Conceitos

Definições

ProbabilidadeMedida das incertezas relacionadas a um eventoChances de ocorrência de um eventoAplicação em:

• Avaliação de Desempenho de Sistemas• Engenharia de Confiabilidade• Teoria dos Jogos, etc.

Exemplos:Probabilidade de jogar um dado e cair o número 2Chance de ser assaltado ao sair de casaProbabilidade de ganhar no pôquer

Definições

Observações sobre esta definiçãoSupõe-se que todos os eventos tenham a mesma chance de ocorrer (equiprováveis)s eventos de interesse que podem ocorrern eventos possíveis que podem ocorrer

Conceito Clássico de ProbabilidadeSe há “n” possibilidades igualmente prováveis, das

quais uma deve ocorrer e, destas, “s” são consideradas como um sucesso, então a probabilidade do resultado

ser um sucesso é de s/n.

Exemplo 1

Qual a probabilidade de se extrair um ás de baralho bem misturado de 52 cartas?

Bem misturado significa “qualquer carta tem a mesma chance de ser extraída”.Como temos 4 ases em 52 cartas, vem: 4/52 = 1/13s sucesso. Total de eventos de interesse: 4 asesn total de possíveis retiradas: 52 cartas

Observações: problema clássico de probabilidade, uma vez que todas as cartas tem a mesma chance de ocorrer

Exemplo 2

Qual a probabilidade de obter um 3 ou um 4 em uma jogada de um dado equilibrado?

Exemplo 2

Qual a probabilidade de obter um 3 ou um 4 em uma jogada de um dado equilibrado?

Probabilidade = 2/6 = 1/3

Observações: problema clássico de probabilidade, uma vez que o dado está “equilibrado”.s = resultado de interesse = 2 (3 ou 4)n = resultados possíveis = 6 (1,2,3,4,5,6)

Exemplo 3

Se H representa “cara” (head) e T representa “coroa” (tail), os quatro resultados possíveis de duas jogadas de uma moeda são:

HH HT TH TTAdmitindo resultados igualmente prováveis, qual a probabilidade de obtermos:

zero caras:uma cara:duas caras:

Exemplo 3

Se H representa “cara” (head) e T representa “coroa” (tail), os quatro resultados possíveis de duas jogadas de uma moeda são:

HH HT TH TTAdmitindo resultados igualmente prováveis, qual a probabilidade de obtermos:

zero caras: s=1; n=4 => s/n=1/4uma cara: s=2; n=4 => s/n=2/4=1/2duas caras: s=1; n=4 => s/n=1/4

Exemplo 4

Qual a probabilidade de obtermos 7 jogando duas vezes um dado?

s: resultados de interesse =

n: resultados possíveis =

Exemplo 4

Qual a probabilidade de obtermos 7 jogando duas vezes um dado?

s: resultados de interesse = 66-1 1-6 2-5 5-2 3-4 4-3

n: resultados possíveis = 361-1 1-2 1-3 1-4 1-5 1-62-1 2-2 2-3 2-4 2-5 2-63-1 3-2 3-3 3-4 3-5 3-64-1 4-2 4-3 4-4 4-5 4-65-1 5-2 5-3 5-4 5-5 5-66-1 6-2 6-3 6-4 6-5 6-6

Probabilidade

s/n = 6/36 = 1/6

Exemplo 5

Numa gaveta, há dez pares distintos de meias. Em um dos pares, ambos os pés estão furados. Se tiramos um pé de meia por vez, ao acaso, qual a probabilidade de tirarmos dois pés de meia, do mesmo par, NÃO furados, em duas retiradas ?

Resposta

Evento de interesse, R: "retirar 2 pés de meias, do mesmo par, não furados, em duas retiradas“.Características do problema: Ambos os pés de um mesmo par furados. Existem 18 pés bons e 2 pés furados.Número de resultados possíveis: N = Maneiras de tirarmos 2 pés de meia em duas retiradas = 20 pés da primeira vez x 19 pés da segunda vez (um já foi retirado) = 380.Número de resultados favoráveis: n(R) = O primeiro pé não furado pode ser escolhido de 18 maneiras. Na segunda retirada, só há um pé de meia que combinacom o já retirado. Então, n(R) = 18 x 1 = 18.Cálculo da probabilidade do evento de interesse:P(R) = n(R) / N = 18 / 380 = 0,0474 = 4,74%

Limitação do conceito clássico

A aplicabilidade é limitadaNão há tantas situações em que várias possibilidades, ou eventos, podem ser considerados como igualmente prováveisExemplo: Probabilidade de chover amanhã.

Eventos possíveis: n = 2Eventos de interesse: s = 1Probabilidade = ½ ???? NÃO SE PODE AFIRMAROs eventos não possuem a mesma chance de ocorrer.

Limitação do conceito clássico

Outros Exemplos:Dado viciado no número 6: a probabilidade de jogar este dado e cair o número 6 será evidentemente maior que 1/6

Moeda com peso maior do lado de cara: a probabilidade de cair “cara” será evidentemente maior que ½

Em ambos os casos, não podemos simplesmente calcular a probabilidade pela relação s/n.

Nestes casos e em diversos outros, a interpretainterpretaçção ão freqfreqüüencialencial deve ser utilizada para determinar a possibilidade de ocorrência de um evento – a PROBABILIDADE

DefiniçõesDefinição Freqüencial de Probabilidade

A freqüência relativa de ocorrência de eventos em experimentos grandes determina a probabilidade de

ocorrência futura deste mesmo evento

1 410

21

02468

1012

1,59-1,65

1,65-1,71

1,71-1,77

1,77-1,83

1,83-1,89

0510

1520

oexperiment do repetições de NúmeroA de socorrência de Número)( =AP

Exemplos

Exemplo 6Há uma probabilidade de 0,78 de um jato da linha Salvador-São Paulo chegar no horário, em vista do fato de que tais vôos chegam no horário em 78% das vezes

Exemplo 7Se o serviço meteorológico indica que há 40% de chance de chover, é porque, sob as condições de tempo previstas para o referido dia, há uma freqüência de chuva em 40% das vezes

Em ambos os casos, não podemos garantir matematicamente as ocorrências; contudo, podemos

concluir com base em dados (experimentos) passados

Exemplo 8

Os registros de aviação da companhia AlQaedaAir mostram que, durante um certo tempo, 468 dentre 600 de seus jatos da linha Bagdá-Nova Iorque chegaram no horário. Qual é a probabilidade de que um avião daquela linha chegue no horário?

Exemplo 8

Os registros de aviação da companhia AlQaedaAir mostram que, durante um certo tempo, 468 dentre 600 de seus jatos da linha Bagdá-Nova Iorque chegaram no horário. Qual é a probabilidade de que um avião daquela linha chegue no horário?

468/600 = Probabilidade de 0,78

Exemplo 9

Os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por grandes lojas de varejo exigiram reparos dentro da garantia de um ano. Qual a probabilidade de que uma dessas lavadoras não venham a exigir reparo dentro da garantia?

Exemplo 9

Os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por grandes lojas de varejo exigiram reparos dentro da garantia de um ano. Qual a probabilidade de que uma dessas lavadoras não venham a exigir reparo dentro da garantia?

813-504 = 309309/813 = Probabilidade de 0,38.

Comentário

Observa-se que a conclusão de probabilidade de eventos futuros está toda baseada em experimentos passados. Portanto, cabe a pergunta:

Que garantia temos sobre a estimativa feita?Mais adiante no curso será apresentado um método que estima a precisão do resultado.Por enquanto nos bastamos com a LEI DOS GRANDES NÚMEROS

LEI DOS GRANDES NÚMEROS

Quando maior for a repetição do experimento, maior a aproximação da probabilidade efetiva de acontecimento de um determinado evento através da freqüência relativa

Comentários

Quando usar uma ou outra regra?A definição clássica exige que os resultados tenham todos a mesma chance de ocorrer.Alguns experimentos, mesmo que tenham os resultados todos com a mesma chance de ocorrer, são muito complexos de serem resolvidos através da abordagem clássica. Utiliza-se então a regra da aproximação de freqüências relativas. Ex.: Probabilidade de ganhar no jogo de paciênciaNo caso acima há métodos de simulação para gerar experimentos a partir de poucos resultados

Comentários

Amostras aleatóriasPara gerar experimentos, os eventos devem ser escolhidos de tal maneira que toda possível amostra de “n”elementos da população tenha a mesma chance de ser escolhida, sendo um conjunto de dados representativo, imparcial e não tendencioso.

Probabilidade

Contagem

Problema da Contagem no Estudo da Probabilidade

Conforme definição clássica, podemos determinar uma probabilidade calculando a relação entre o total de eventos de sucesso e o total de eventos possíveis. Entretanto, observe:

Encontrar quantos conjuntos de Grupo Sanguíneo e Rh existem, OU quantos caminhos diferentes podemos fazer entre 3 cidades é FÁCIL...Mas, o que dizer do número de caminhos possíveis entre 7 cidades?

Em muitos casos, PRECISA-SE DE UM MEIO PRÁTICO DE CALCULAR TANTO O NÚMERO TOTAL DE POSSIBILIDADES, QUANTO DE SUCESSOS.

Multiplicação

Dados dois eventos, o primeiro dos quais pode ocorrer de m maneiras distintas e o segundo pode ocorrer de n maneiras distintas:

Então, os dois eventos conjuntamente podem ocorrer de (m x n) maneiras distintas.

Uma maneira de visualizar esta regra éutilizar diagramas em árvores para representar as seqüências de opções.

Exemplo 1

Uma pessoa pode ir da Barra até o Aeroclube por dois caminhos: orla ou Iguatemi. Do aeroclube, ela pode ir àAv. Vasco da Gama por 3 caminhos: orla, Bonocô ou Av. ACM. Quantas alternativas tem esta pessoa de sair da Barra, ir ao aeroclube e então seguir para a Vasco da Gama?

Exemplo 1

Uma pessoa pode ir da Barra até o Aeroclube por dois caminhos: orla ou Iguatemi. Do aeroclube, ela pode ir à Av. Vasco da Gama por 3 caminhos: orla, Bonocô ou Av. ACM. Quantas alternativas tem esta pessoa de sair da Barra, ir ao aeroclube e então seguir para a Vasco da Gama?

1o trecho: 2 maneiras2o trecho: 3 maneirasTotal: 2 x 3 = 6 maneiras

Exemplo 1

Podemos resolver esta questão utilizando o Diagrama de Árvore

Barra Aeroclube Vasco da Gama

1

2

123

123

1-1

1-2

1-3

2-1

2-2

3-3

Seis possibilidades

Exemplo 2

Se uma agência de viagens oferece pacotes especiais de fim de semana para 12 cidades diferentes, por avião, trem ou ônibus, de quantas maneiras diferentes pode-se programar uma viagem?

Exemplo 2

Se uma agência de viagens oferece pacotes especiais de fim de semana para 12 cidades diferentes, por avião, trem ou ônibus, de quantas maneiras diferentes pode-se programar uma viagem?

12 cidades03 maneiras de viagem diferentesProgramações: 12 x 03 = 36 programações diferentes

Exemplo 3

Se uma sorveteria oferece mini-sundaes com escolha de 20 sabores diferentes, associados a oito coberturas diferentes, de quantas maneiras um cliente pode pedir um mini-sundae?

Exemplo 3

Se uma sorveteria oferece mini-sundaescom escolha de 20 sabores diferentes, associados a oito coberturas diferentes, de quantas maneiras um cliente pode pedir um mini-sundae?

20 sabores08 coberturasTipos de mini-sundaes: 20 x 8 = 160 tipos

Multiplicação – Regra Geral

Se uma escolha consiste de k Passos, o primeiro dos quais pode ser realizado de n1 maneiras, o segundo de n2 maneiras,..., ou seja, para cada um destes, o n-ézimo passo pode ser realizado de nk maneiras, então a escolha global pode ser

feita de:

n1 * n2 *...* nk maneiras

E se tivermos mais que dois passos?

Exemplo 4

Um teste consiste de 15 questões do tipo múltipla escolha, cada uma apresentando quatro respostas possíveis. De quantas maneiras possíveis pode um estudante marcar as respostas do teste?

Exemplo 4

Um teste consiste de 15 questões do tipo múltipla escolha, cada uma apresentando quatro respostas possíveis. De quantas maneiras possíveis pode um estudante marcar as respostas do teste?

n1 = n2 = n3 = n4 .... n15 = 4415 = 1.073.741.824

Exemplo 5

Com base no exemplo 4, quantas alternativas existem para alguém errar todas as questões?

Exemplo 5

Com base no exemplo 4, quantas alternativas existem para alguém errar todas as questões?

Em cada questão há três alternativas de erro. Assim: 315 = 14.348.907 alternativas com todas as respostas errada

Unidade 6: Erro padrão da Média, Intervalo de Confiância e Assimetria

Introdução a estatística Analítica

Média amostral X Média populacional

• De maneira geral, a média amostral NUNCA será idêntica a média populacional;

• Isto acontece porque uma amostra possui muitos menos informações do que a população inteira;

• Espera-se que a amostra seja representativa da população;

• Teoricamente:

– Média da amostra = Média da população

Erro padrão da Média

• O tamanho da diferença entre a média da população e a média da amostra depende:

– Tamanho da amostra:

• ↑ Amostra - ↓ Erro

– Variabilidade dos dados:

• ↑ Variância - ↑ Erro

• Médias baseadas em um grande número de casos variam menos do que as baseadas em pequeno número!!!

Erro padrão da média

• Quando uma amostra é escolhida ao acaso e é suficientemente grande ela tem características que se aproximam bastante daquelas da população da qual foi extraída;

• Qual é o grau de certeza de que a média da amostra pode representar a média da população?

Exercício

• Olhe a população :

• Tire 3 amostras (escolha números), sendo que cada amostra deve conter 10 dados e tire sua média!

12 18 13 13 13

12 11 17 12 15

15 12 15 17 26

12 17 14 18 15

14 15 14 19 21

11 16 14 16 23

10 19 19 13 58

9 13 11 12 12

8 12 12 11 12

7 11 13 7 12

13 10 17 13 1

13 9 15 16 17

25 9 16 16 19

12 12 16 15 20

21 12 14 14 11

Exercício

• Média da POPULAÇÃO:

• Teve diferença???

𝑦

𝑥 = 14,62

Erro padrão da Média

• O erro padrão da média é uma estatística que combina exatamente a variabilidade de amostra e o seu tamanho.

• Mede a dispersão das médias de diferentes amostras de mesmo tamanho, extraída da mesma população em torno da média das médias!

Erro padrão da média

EPM = 𝐷𝑃 (𝑠)

𝑛

Aonde: DP = desvio padrão da amostra; n = número de dados da amostra

12 18 13 13 13

12 11 17 12 15

15 12 15 17 26

12 17 14 18 15

14 15 14 19 21

11 16 14 16 23

10 19 19 13 58

9 13 11 12 12

8 12 12 11 12

7 11 13 7 12

13 10 17 13 1

13 9 15 16 17

25 9 16 16 19

12 12 16 15 20

21 12 14 14 11

Intervalos de confiança

• Existem cálculo estatísticos que combinam o tamanho da amostra e a sua variabilidade (desvio-padrão) para gerar um intervalo de confiança para a média da população.

• Isto quer dizer: Dada a média da amostra, um número, existe um intervalo ao redor desse valor aonde se posicional a média da população;

Intervalos de confiança

MEDIA DA AMOSTRA

IC! A média da população tem 95% de chance de estar aqui dentro!

IC

• Intevalos de confiança geralmente são usados em 95% de probabilidade.

• Ou seja: Se foram gerados vários intervalos de confiança (95%), um para cada diferente amostra de uma população, espera-se que o IC calculado inclua a verdadeira média em 95% das vezes.

IC

• Os IC são sempre calculados assim:

IC = t * EPM – Aonde:

• t= valor da estatística t para aquele grau de liberdade.

• EPM = Erro padrão da média.

• Porém SEMPRE são expressos assim:

IC(95%) = média da amostra ± IC

Estatística t?

• Graus de liberdade = n-1

IC

• Se você obtiver:

• IC(95%) = 32,12 ± 3,23

• O que isso significa?

• Que a média populacional tem 95% de chance de ser um valor entre 3,23 da média amostral (32,12) para mais ou para menos!!!

IC

• Ou seja: Um intervalo de confiança muito grande sugere que a média da amostra encontrada é pouco representativa da média (verdadeira) da população!

• Os estatísticos desenvolveram métodos para calcular intervalos de confiança para grande parte das estatísticas!

• Ou seja, o quanto o resultado de uma análise representa a verdade!!!

12 18 13 13 13

12 11 17 12 15

15 12 15 17 26

12 17 14 18 15

14 15 14 19 21

11 16 14 16 23

10 19 19 13 58

9 13 11 12 12

8 12 12 11 12

7 11 13 7 12

13 10 17 13 1

13 9 15 16 17

25 9 16 16 19

12 12 16 15 20

21 12 14 14 11

Assimetria

• Se lembrarmos da distribuição ou curva normal!

Assimetria

• Assimetria é o grau de desvio de uma curva, no sentido horizontal, podendo ser positivo (com excesso de valores altos) ou negativo (com excesso de valores baixos).

• A assimetria é dada pela fórmula:

Unidade 7: Amostragem e Delineamento Experimental

Introdução a estatística Analítica

Amostragem

• Agora... Exercício!

• Você irá receber o seguinte mapa de uma área qualquer!

• Estabeleça critérios baseados na PAISAGEM, para perfurar 20 poços de petróleo, que sejam ALEATÓRIOS!

• Simplesmente escolher 20 áreas não é suficiente!

• Primeiro passo: Identifique os diferentes tipos de terrenos! (água, vegetação residência).

• Pense que os poços nesses locais serão diferenciados...

• Você quer testar as diferentes influências do relevo e terreno na qualidade do petróleo!

Probabilidade e Estatística

“TESTES DE HIPÓTESES”(ou Testes de Significância)

Estimação e Teste de Hipóteses

Estimação e teste de hipóteses (ou significância) são os aspectos principais da Inferência Estatística

ESTIMAÇÃOEstimar um parâmetro qualquer da população

TESTE DE HIPÓTESESDecidir se determinada afirmação sobre um parâmetro populacional é, ou não, apoiada pela evidência obtida de dados amostrais

Teste de Hipóteses

Em estatística, uma hipótese é uma alegação, ou afir-mação, sobre uma característica de uma população

Pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a 37 oC

Um novo fertilizante utilizado no cultivo de hortaliças aumenta a produtividade

Teste de Hipóteses

A dificuldade nestes casos (e daí a necessidade de métodos estatísticos) é que a característica de interesse varia em cada amostra

A temperatura média do corpo humano varia de pessoa para pessoa

A produtividade varia de planta para planta

Raciocínio Estatístico

DIRETRIZ GERAL

“Analisar uma amostra para distinguir entre resultados que podem ocorrer facilmente e os que dificilmente ocorrem”

Exemplo Prático

A empresa ProCare lançou o produto Escolha-o-Sexo. De acordo com a propaganda, o produto permitiria que os casais aumentassem em 87% a chance de terem um filho, e em 80% a chance de terem uma filha.

Suponha que se faz um experimento com 100 casais que querem ter menina, e que todos eles sigam as instruções da embalagem do respectivo produto.

Utilizando apenas o bom senso, o que se poderia concluir sobre a eficácia do Escolha-o-Sexo se das 100 crianças:a) 52 são meninas ?b) 96 são meninas ?

Teste de Hipóteses

PONTO CRUCIALA diferença entre o valor alegado de um parâmetro populacional e o valor de uma estatística amostral pode ser razoavelmente atribuído à variabilidade amostral

OUA discrepância é demasiado grande para ser encarada assim

Estudo de Caso(temperatura do corpo humano)

Estudos prévios indicam que a temperatura do corpo humano é 98,60oF. Pesquisadores médicos de Maryland coletaram dados amostrais com = 98,20oF e distribuição aproximadamente normal.

Estes dados amostrais constituem evidência suficiente para rejeitar a crença comum de que µ = 98,6 oF ???

x

Estudo de Caso(temperatura do corpo humano)

O primeiro passo consiste em formular duashipóteses sobre a afirmação.

As hipóteses são explicações potenciais que procuram levar em conta fatos observados em situações onde existem algumas incógnitas.

A incógnita em nosso caso é a verdadeira temperatura do corpo humano.

Hipótese Nula e Alternativa

A hipótese nula H0 é uma afirmação que diz que o parâmetro populacional é tal como especificado (isto é, a afirmação é correta).

H0 : µ = 98,6

A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação (isto é, o parâmetro é maior/menor/diferente que o valor alegado).

H1 : µ ≠ 98,6


A hipótese nula H0 representa o status quo, ou seja, a circunstância que está sendo testada, e o objetivo dos testes de hipóteses é sempre tentar rejeitar a hipótese nula.

A hipótese alternativa H1 representa o que se deseja provar ou estabelecer, sendo formulada para contradizer a hipótese nula.


Teste Bilateral:

H0 : µ = valor numérico

H1 : µ ≠ valor numérico

Teste Unilateral Superior: Teste Unilateral Inferior:

H0 : µ = valor numérico H0 : µ = valor numérico

H1 : µ > valor numérico H1 : µ < valor numérico

Tipos de Erro

Repare que, ao testarmos uma hipótese nula, chegamos a uma conclusão:

rejeitá-la, ou não rejeitá-la

Entretanto, devemos lembrar que tais conclusões ora são corretas, ora são incorretas (mesmo quando fazemos tudo corretamente!).

Este é o preço a ser pago por estarmos trabalhando em uma situação onde a variabilidade é inerente !!!

Tipos de Erro

Exemplo

A eficácia de certa vacina após um ano é de 25% (isto é, o efeito imunológico se prolonga por mais de um ano em apenas 25% das pessoas que a tomam). Desenvolve-se uma nova vacina, mais cara, e deseja-se saber se esta é, de fato, melhor.

Sendo “p” a proporção de imunizados por mais de uma ano com a nova vacina...

Quais hipóteses devem ser formuladas?

Que erros poderemos cometer?

Exemplo

Hipótese nula: H0 : p = 0,25

Hipótese alternativa: H1 : p > 0,25

Erro tipo I : aprovar a vacina quando, na realidade, ela não tem nenhum efeito superior ao da vacina em uso.

Erro tipo II : rejeitar a nova vacina quando ela é, de fato, melhor que a vacina em uso.

Nível de Significância

A probabilidade de se cometer um erro tipo I depende dos valores dos parâmetros da população e é designada por α (nível de significância).

Dizemos, então, que o nível de significância α de um teste é a probabilidade máxima com que desejamos correr o risco de um erro do tipo I.

O valor de α é tipicamente predeterminado; são comuns as escolhas α = 0,05 e α = 0,01.

A probabilidade de se cometer um erro do tipo II édesignada por β.

Exemplo Ilustrativo

Nosso interesse em detectar desvios não aleatórios (significativos) de determinado parâmetro pode envolver desvios em ambas as direções ou apenas numa direção.

Assim, em sucessivas jogadas de uma moeda, esta pode ser considerada não-equilibrada se aparece um número muito grande, ou muito pequeno, de caras.

Exemplo IlustrativoA hipótese nula estabelece a situação “normal”, isto é, a moeda é equilibrada.

H0 : p = 0,50A hipótese alternativa seria simplesmente “a moeda não é equilibrada”, e investigaríamos então desvios em ambas as direções.

H1: p ≠ 0,50Entretanto, se estivéssemos apostando, digamos, em caras, então nossa preocupação seria somente com um número pequeno de caras. A hipótese alternativa seria “aparecem muito poucas caras”.

H1: p < 0,50

Exemplo Ilustrativo

Essencialmente, a hipótese alternativa é usada para indicar qual o aspecto da variação não-aleatória que nos interessa.

H0 : p = 0,50

H1: p ≠ 0,50 (ambas as direções: muito OU muito pouco)

H1: p < 0,50 (desvio abaixo: muito pouco)

H1: p > 0,50 (desvio acima: muito)

Tipos de Erro

5,0:1 ≠pH

5,0:1 <pH

5,0:1 >pH

BILATERAL

UNILATERAL

UNILATERAL

R E S U M O

O processo geral consiste nos seguintes passos:

1. Formular as hipóteses nula e alternativa;

2. Escolher a distribuição amostral adequada;

3. Escolher um nível de significância α com base na gravidade do erro tipo 1 ;

4. Calcular a estatística de teste, os valores críticos e a região crítica (esboçar um gráfico é SEMPRE uma boa opção)

5. Comparar a estatística de teste com os valores críticos:

Rejeitar a hipótese nula se a estatística de testa excede o(s) valor(es) crítico(s), ou seja, está na região crítica

Não rejeitar a hipótese nula, caso contrário.

Exemplo

Uma máquina automática enche pacotes de café segundo uma distribuição normal com média μ e desvio-padrão 20g

A máquina foi regulada para μ = 500g

De meia em meia hora tiramos uma amostra de 16 pacotes para verificar se o empacotamento está sob controle, isto é, se μ = 500g

Se uma dessas amostras apresentasse x = 492g, você pararia ou não o empacotamento para verificar

se o ajuste da máquina está correto ?

Exemplo

Passo 1: Indicamos por X o peso de cada pacote, então X é uma normal com média μ e σ = 20. As hipóteses que nos interessam são:

Hipótese nula: H0 : μ = 500 g

Hipótese alternativa: H1 : μ ≠ 500 g

pois a máquina pode desregular para mais ou para menos

BILATERAL!

Exemplo

Passo 2: Escolher a distribuição amostral

Se o desvio padrão populacional é conhecido:

Distribuição NORMAL (Caso deste exemplo típico)

Se o desvio é desconhecido E a amostra é pequena (n<30):

Distribuição de STUDENT

Exemplo

Passo 3: Escolher o nível de significância

Pela situação descrita no problema, podemos fazer α = 0,01

Exemplo

Passo 4: Calcular a estatística de teste, valores e região crítica

ou

amostralãodistribuiçdapadrãodesvio

alegadamédiaamostralmédiatestedeaestatístic

−=

nxzteste /

0

σμ−

=ns

xtteste /0μ−=

Exemplo


n = número de provas

p = proporção populacional (hipótese nula)

q = 1 - p

amostralãodistribuiçdapadrãodesvio

alegadaproporçãoamostralproporçãotestedeaestatístic

−=

npq

ppzteste−

=ˆ

)(ˆ amostralproporçãonxp =

Exemplo


6,158

1620500492

−=−

=−

=−

=n

xzσ

μ

Exemplo


z = -2,575 z = 2,575

Área = 0,5 – 0,005 = 0,495Área = 0,5 – 0,005 = 0,495

Exemplo

Passo 5: A informação da amostra é que x = 492 g (o que fornece z = - 1,6)

Como x∉ Região Crítica, nossa conclusão seránão rejeitar H0

A discrepância da média da amostra para a média proposta por H0 pode ser considerada como devido apenas

ao sorteio aleatório dos pacotes

R E S U M O: Passo 5

R E S U M O: Passo 5

Probabilidade e Estatística

Correlação e Regressão Linear

Variável: características ou itens de interesse de cada elemento de uma população ou amostra

Também chamada parâmetro, posicionamento, condição...

Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra.

Exemplo: velocidade x consumo combustível

Variáveis

Correlação

Correlação entre duas variáveisQuando uma delas está, de alguma forma, relacionada com a outra.Quando a alteração no valor de uma varíavel (dita independente) provoca alterações no valor da outra variável (dita dependente)

Diagramas de Dispersão

Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos.Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.

Comumente, coloca-se no eixo x um parâmetroCada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo

FabricaçãoNúmero de peças produzidas e número de peças defeituosas

ConstruçãoNúmero de falhas em uma obra e a satisfação média dos construtoresDias de atraso de entrega x número de dias chuvosos

FinanceiroMédia de tempo de atraso de pagamento e número de erros de fatura

Vendas% de imóveis vendidos na data de entrega da obra x satisfação média dos clientes nos últimos 10 empreendimentos.

Exemplos

Exemplo - Peso x alturaPeso (kg)

Altura (m)

80 1,8085 1,8350 1,6570 1,9055 1,6077 1,8085 1,7893 1,8665 1,7060 1,65

Peso x Altura

1,551,6

1,651,7

1,751,8

1,851,9

1,95

40 50 60 70 80 90 100

Peso

Altu

ra

Exemplo – Peso x AlturaEstratificando...

Peso (kg)Altura homens

(m)

Altura Mulheres

(m)80 1,80 ---

---1,651,901,60---1,78------1,65

85 1,8350 ---70 ---55 ---77 1,8085 ---93 1,8665 1,7060 ---

Peso x Altura (por sexo)

1030507090

110

1,5 1,6 1,7 1,8 1,9 2Alturas

Peso

s

Homens

Mulheres

Dicas

Eixo ´x´Variável que é alterada por uma modificação no processo (variável independente)Geralmente uma possível causa de um problema

Eixo ´y´Variável que pode mudar de acordo com a mudança da variável em ´x´ (variável dependente) Geralmente um indicador de qualidade ou efeito gerado por uma causa.

Analisando Diagramas de Dispersão

Os aspectos abaixo são relevantes na análise dos Diagramas:

DIREÇÃO (crescente, decrescente)FORMA (linear, não-linear, aglomerados)PONTOS DISCREPANTES

Interpretando

Padrões de Dispersão

Quanto maior a correlação, mais próxima de uma reta a 45o ou 135o será a distribuição.

Interpretando

Grau de Relacionamento

Escala?...

Problemas da Análise Gráfica

A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um bom juiz da intensidade de uma relação linear.Os diagramas a seguir ilustram precisamente os mesmos dados, mas o gráfico inferior é menor em um campo mais amplo (escala diferente).

Problemas da Análise Gráfica

Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de espaço em branco em torno do aglomerado dos pontos.Deve-se, então, utilizar uma medida numérica para suplementar o gráfico.

Coeficiente de Correlação Linear (r)

Coeficiente de Correlação Linear

r mede o grau de relacionamento linear entre valores emparelhados x e y em uma amostra.Mede a intensidade e a direção da relação linear entre duas variáveis quantitativas.Chamado também de Coeficiente de Correlação de Pearson (Karl Pearson, 1857-1936).

Coeficiente de Correção Linear ou Coeficiente de Pearson

∑=

−=n

iixx xxS

1

2)(

∑=

−=n

iiyy yyS

1

2)(

∑=

−−=n

iiixy yyxxS

1))((

yyxx SSSxyr.

= -1 ≤ r ≤ 1

∑∑ −= 22 )()( iixx xxnS

∑∑ −= 22 )()( iiyy yynS

))((. ∑∑∑ −= iiiixy yxyxnS

Coeficiente de Correção Linear ou Coeficiente de Pearson

( ) ( )( )( ) ( )

11

2222

≤≤−

−⋅−

−⋅=

∑∑∑ ∑∑ ∑∑

r

yynxxn

yxyxnr

iiii

iiii

Interpretando o Coeficiente de Correlação Linear

‘r’ sempre será um valor entre

-1 ≤ r ≤ 1

Quanto mais próximo de –1: maior correlação negativa

Quanto mais próximo de 1: maior correlação positiva

Quanto mais próximo de 0: menor a correlação linear

Interpretação do Valor de r

0-1 +1

correlaçãonegativa

fraca

correlaçãonegativa

forte

correlaçãopositivafraca

correlaçãopositivaforte

ausência de

correlação

valor de r

Propriedades do Coeficiente de Correlação de Pearson

-1 ≤ r ≤ +1O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente.O valor de r não é afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.r: só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade de relacionamentos não-lineares.

Ex.: Alturas e Pesos de Ursos SiberianosComprimento (pol .) Peso ( lb.)

x y x.y x2 y253,0 80 4.240 2.809,00 6.40067,5 344 23.220 4.556,25 118.33672,0 416 29.952 5.184,00 173.05672,0 348 25.056 5.184,00 121.10473,5 262 19.257 5.402,25 68.64468,5 360 24.660 4.692,25 129.60073,0 332 24.236 5.329,00 110.22437,0 34 1.258 1.369,00 1.156

Totais 517 2.176 151.879 34.525,75 728.520

Ex.: Alturas e Pesos de Ursos Siberianos

( ) ( )( )( ) ( )

897,0184.093.175,9433

128.91)176.2()520.728(8)5,516()75,525.34(8

)176.2)(5,516()879.151(822

2222

=⋅

=

=−−

−=

∴−⋅−

−⋅=

∑∑∑ ∑∑ ∑∑

r

yynxxn

yxyxnr

iiii

iiii

Reta de Regressão Linear

Diferentes retas podem ser traçadas, a olho nu, e um diagrama de dispersão

Cada pessoa terá uma tendência diferenteNenhuma reta passará exatamente por todos os pontos (se a correlação não for máxima)Precisamos encontrar uma reta que esteja tão próxima dos pontos quanto possívelOs erros de predição para a reta são erros em y (direção vertical)

Reta de Regressão Linear

Se um diagrama de dispersão sugere uma relação linear, é de interesse representar este padrão através de uma retaUsa-se o método dos mínimos quadradospara ajustar uma reta de regressão ao conjunto de pontos do diagramaA reta de regressão descreve como uma variável resposta (dependente) y varia em relação a uma variável explanatória (independente) x

Variáveis

Variável resposta (y) (dependente)Mede um resultado em um estudo

Variável explanatória (x) (independente)Procura explicar os resultados observados

Variável independente (x) Variável dependente (y)

Temperatura do forno (oC) Resistência mecânica da cerâmica (MPa)

Quantidade de aditivo (%) Octanagem da gasolina

Renda (R$) Consumo (R$)

Memória RAM (GB) Tempo de resposta do sistema (s)

Definição

Dada uma coleção de dados amostrais emparelhados, a seguinte equação de regressão descreve a relação entre as duas variáveis

O gráfico da equação é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados)

y xα β= +

Definição

y xα β= + β: coeficiente angularα: ponto onde a reta intercepta eixo y

( ) ( )( )( ) ( )

( )( ) ( )( )( ) ( )

22

2

22

i i i i

i i

i i i i i

i i

i i

n x y x y

n x x

y x x x y

n x x

y xn

β

α

βα

−=

−

−=

−

−=

∑ ∑ ∑∑ ∑

∑ ∑ ∑ ∑∑ ∑

∑ ∑

Exemplo

Considere um experimento em que se analisa a octanagem da gasolina (Y) em função da adição de um aditivo (X). Para isto, foram realizados ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de aditivo. Os resultados seguem.

Exemplo

80,080,581,081,582,082,583,083,584,084,585,085,5

0 1 2 3 4 5 6 7

Quantidade de Aditivo (%)

Índi

ce d

e O

ctan

agem

X Y1 80,52 81,63 82,14 83,75 83,96 85,0

Exemplo

x i y i x i2 x i y i

1 80,5 1 80,52 81,6 4 163,23 82,1 9 246,34 83,7 16 334,85 83,9 25 419,56 85,0 36 510,0

Soma 21 496,8 91 1.754,3

Calculando a equação de regressão...

2

6(1754,3) (21)(496,8) 93 0,8866(91) (21) 105

496,8 (0,886)(21) 79,76

ˆ 79,7 0,886y x

β

α

−= = =

−−

= =

∴ = +

Exemplo

xy 886,07,79ˆ +=

80,080,581,081,582,082,583,083,584,084,585,085,5

0 1 2 3 4 5 6 7

Quantidade de Aditivo (%)

Índi

ce d

e O

ctan

agem

Date post:	26-Jan-2023
Category:	Documents
Upload:	independent
View:	0 times
Download:	0 times

Estatistica - Considerações Gerais

Documents