Date post: | 26-Jan-2023 |
Category: |
Documents |
Upload: | independent |
View: | 0 times |
Download: | 0 times |
Definição
A Estatística é uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões (TRIOLA, 1998).
Visão Sistêmica da Estatística
A partir de valores obtidos em uma amostra de uma certa população de interesse, descrevemos esta amostra e caracterizamos a população como um todo, generalizando as observações na amostra.Tirar conclusões sobre uma população com base em uma amostra de observações.
Análises Estatísticas
Estatística descritiva: parte da estatística que descreve os aspectos importantes de um conjunto de características observadas.
Probabilidade: número que indica a chance de uma determinada situação ocorrer.
Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a respeito de aspectos importantes de uma população.
Amostra
PopulaçãoEstatística descritiva
ProbabilidadeErroInferência estatística
Dedução e Indução
População é conhecida
Amostra?
População ??
Amostra é conhecida
Dedução => Probabilidade
Indução => Inferência estatística
Definições básicas iniciais
PopulaçãoColeção completa de todos os elementos a serem estudados (Ex.: todos os alunos da sala de aula)
CensoColeção de dados relativos a todos os elementos de uma população (Ex.: idade de todos os alunos da sala de aula)
AmostraColeção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos alunos da sala de aula)
• Quem determina o tamanho de uma amostra?
• Como determinar o tamanho de uma amostra?
• Como determinar se uma amostra foi adequada?
Definições básicas iniciais
ParâmetroMedida numérica que descreve uma característica de uma população
(Ex.: idade média de toda a turma é um parâmetro)
EstatísticaMedida numérica que descreve uma característica de uma amostra
(Ex.: idade média da turma baseada numa amostra de 10% dos alunos
é uma estatística)
EstimativaValor resultante do cálculo de uma estatística, quando usado para se
ter uma idéia do parâmetro de interesse
Dados e Variáveis
Dado:InformaçãoAquilo que caracteriza determinada coisaResultado de uma observação ou experimentoEx.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...
Variável:A característica em siEx.: altura de indivíduos de um grupo
Natureza das Variáveis
Variáveis
Qualitativas(são atributos)
Ex.: sexo, religião, naturalidade, cor
dos olhos, etc.
Quantitativas(são numéricas)
DiscretasConjunto finito de valores –
conjunto enumerável“CONTAGEM”
(1,2,3,4...)Ex.: qtd. de estudantes em um
uma disciplina; qtd. de cômodos em uma residência
ContínuasNúmero infinito de valores possíveis – escala contínua
“MENSURAÇÃO”(Ex.: medidas de tempo: tempo de vôo entre duas
cidades; duração da bateria de um celular)
Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrãoO altímetro de um avião indica uma altitude de 21.359 pésUma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internetO radar indica uma velocidade de 81 km/hDe 1000 consumidores pesquisados, 930 reconheceram uma marca de sopaFazendo um regime, uma executiva perdeu 13,45kg
Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrãoO altímetro de um avião indica uma altitude de 21.359 pésUma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internetO radar indica uma velocidade de 81 km/hDe 1000 consumidores pesquisados, 930 reconheceram uma marca de sopaFazendo um regime, uma executiva perdeu 13,45kg
C
C
D
CD
C
Reflexão
Para comprovar que muitos conceitos em Probabilidade e Estatística são intuitivos, acabamos de falar em “população” e “amostra” e quase todos compreenderam naturalmente do que se trata!
Abusos da Estatística
Pequenas amostrasPesquisou-se 10 dentistas. “7 entre 10 dentistas preferem dentifrício X.”
Estimativas por suposição“Igreja estimou em 2 milhões os fiéis presentes em missa do padre Marcelo Rossi em São Paulo.” Fotos aéreas e cálculos baseados em grades estimaram 80.000 pessoas.
Porcentagens distorcidas“Tirei 1 na primeira prova. Tirei 2 na segunda prova. Melhorei 100%!”
Abusos da Estatística
Distorções deliberadas“Pesquisas feitas entre usuários de TchauFumaça mostram que 98% deixou de fumar.” Duas pesquisas feitas entre os funcionários da empresa fabricante de TchauFumaça.
Perguntas tendenciosas“Você é a favor da suspensão do pagamento da dívida externa, sobrando assim mais dinheiro para ajudar as criancinhas famintas?”“Você é a favor da proibição de fabrico e venda de armas mortíferas de fogo no Brasil?”
Abusos da Estatística
Gráficos enganosos
Ganho Semanal
754
520
0
100200
300
400
500600
700
800
Homens Mulheres
Ganho Semanal
754
520
500
550
600
650
700
750
800
Homens Mulheres
Abusos da Estatística
Pressão do pesquisador ou ambiente“Você já traiu seu(a) companheiro(a)?” Pergunta feita com o(a) companheiro(a) ao lado.
Más amostrasPesquisas feitas em sites da internet (pesquisa auto-selecionada)Não se pode concluir nada sobre a população em geral!
GeneralidadesEstatística Descritiva:
Resumo ou descrição das características importantes de um conjunto conhecido de dados populacionais
Inferência Estatística:Generalizações sobre uma população tomadas a partir da utilização de dados amostrais.
Estatística descritiva
Através da ESTATÍSTICA DESCRITIVA entendemos melhor um conjunto de dados através de suas características.As três principais características são:
Um valor representativo do conjunto de dados. Ex.: uma médiaUma medida de dispersão ou variação. A natureza ou forma da distribuição dos dados: sino, uniforme, assimétrica,...
Medidas de Tendência Central
Determina valores típicos ou representativos de um conjunto de dados
MédiaMedianaModaPonto médio
Média Aritmética ou Média
Média aritmética ou média
Centro do conjunto de dados – ponto de equilíbrioA mais importante medida de tendência centralMédia = Σ(x)/n
Eventos Altura SexoAluno 1 1,72 MAluno 2 1,60 FAluno 3 1,74 MAluno 4 1,88 MAluno 5 1,82 MAluno 6 1,75 MAluno 7 1,82 MAluno 8 1,75 MAluno 9 1,73 MAluno 10 1,75 MAluno 11 1,80 MAluno 12 1,75 MAluno 13 1,73 MAluno 14 1,84 MAluno 15 1,76 MAluno 16 1,78 MAluno 17 1,75 MAluno 18 1,69 FMédia 1,759 -------
Análise Estatística da Turma de Prob. e Estatística
osconsideradsão população da valoresos todos
amostra uma de extraída==
μx
Notação
Σ: somatório de um conjunto de valoresx: valores individuais dos dadosn: número de valores da amostraN: número de valores de uma populaçãox = Σ(x)/n: média de um conjunto de valores amostraisμ = Σ(x)/N: média de todos os valores de uma população
Mediana (x)
Valor do meio do conjunto de dados, quando os valores estão dispostos em ordem crescente ou decrescente; divide um conjunto de dados em duas partes iguais.Para calcular:
Disponha os valores em ordem (crescente ou decrescente)Se o número de valores é ímpar, a mediana é o número localizado no meio da listaSe o número é par, a mediana é a média dos dois valores do meio
Do nosso conjunto de dados...
Encontre a mediana:Liste em ordem crescente os valoresEncontre a posição da mediana: (n+1)/2Se n é ímpar, mediana é o número da posição;Se n é par, mediana é a média entre os dois números em torna da posição.
No exemplo:n=18 (par); Posição: (n+1)/2 = 9,5Mediana média entre o 9o e o 10o valor = (1,75+1,75)/2 = 1,75
Altura Sexo1,60 M1,69 F1,72 M1,73 M1,73 M1,74 M1,75 M1,75 M1,75 M1,75 M1,75 M1,76 M1,78 M1,80 M1,82 M1,82 M1,84 M1,88 F
Análise Estatística da Turma
Moda (M)É o valor que ocorre com maior freqüência.Quando dois valores ocorrem com a mesma freqüência, cada um deles é chamado de uma moda, e o conjunto se diz BIMODALSe mais de dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda e o conjunto é MULTIMODAL.Quando nenhum valor é repetido o conjunto não tem moda
Do nosso conjunto de dados...
Moda = 1,75Altura No.ocorrências1,60 11,69 11,72 11,73 21,74 11,75 51,76 11,78 11,80 11,82 21,84 11,88 1
Análise Estatística da Turma
Ponto Médio
Valor que está a meio caminho entre o maior e o menor valor
2rmenor valo r maior valo médio ponto +
=
Do nosso conjunto de dados...
Altura Sexo1,60 M1,69 F1,72 M1,73 M1,73 M1,74 M1,75 M1,75 M1,75 M1,75 M1,75 M1,76 M1,78 M1,80 M1,82 M1,82 M1,84 M1,88 F
Análise Estatística da Turma
74,12
1,601,88 médio ponto =+
=
Medidas de Posição
Seja o seguinte conjunto de valores:
5 7 8 10 12 15 20
média = 11 mediana = 10 ponto médio = 12,5
Se alterarmos significativamente o último valor:
5 7 8 10 12 15 200
média = 36,7 !! mediana = 10 ponto médio = 102,5!!
Devemos ter cuidados ao escolhermos uma medida de posição para representar um conjunto de dados, pois:
“Média” e “Ponto Médio” são muito afetados por valores extremo
Em geral, a melhor política é utilizar os dois parâmetros: “média” e “mediana”
Valores de “Média” e “Mediana” muito próximos é uma indicação que o conjunto de valores é razoavelmente simétrico em relação à posição central (média / mediana)
Medidas de Posição
Média Ponderada
Cálculo da média, atribuindo pesos diferentes para cada valor
1 1 2 2. . .
valores individuaispesos individuais
n n
n
n
x w x w x wxw
xw
+ + +=
==
∑…
ExercícioA tabela de freqüência a seguir resume os tempos gastos em estudo extra- classe por calouros em uma universidade americana. Faça uma estimativa do tempo médio de estudo deste grupo.
Horas de Estudo
Freqüência (alunos)
0 5
1-5 96
6-10 57
11-15 25
16-20 11
+ de 20 6
Exercícios
Dados os conjuntos de dados abaixo, calcule a MÉDIA, a MEDIANA, a(s) MODA(S) e o
PONTO MÉDIO.1. 15; 26; 28; 10; 292. 500; 1000; 50000; 800; 500; 6003. Altura dos alunos da sala4. Limite de Resistência de um vergalhão kgf/mm2
(55; 52; 55; 53; 56; 59; 58; 55; 56; 53; 52; 51; 54; 54; 55; 58; 57; 57; 56; 49; 54; 56)
Um percentil indica que há x% de dados inferiores Ou seja, os percentis dividem o conjunto de dados em 100 partes iguais.Há, portanto, 99 percentisEx.: o P92 (92o percentil) indica que há 92% de dados inferiores.
Percentis
Dado o conjunto de valores, calcule o 25o
percentil (valores devem estar ordenados)
Calcule: L= (k/100).n• L: posição do percentil desejado no conjunto de
dados ordenado• k: percentil desejado• n: número de valores
L é um número inteiro?
72 74 75 77 78 79 82 85 86 90 93 94
Percentis
SIMo k-ézimo percentil está
a meio caminho do L- ézimo valor e o
próximo valor do conjunto de dados.
n=12 => L=3(L3 + L4 )/2 = (75+77)/2 = 76
NÃOModificar L, arredondando
seus valor para o inteiro maior mais próximo.
Ex.: se n=11 => L=2,75A posição do k-ézimo percentil será 3.Retirando o valor 77 do conjunto de dados...P25 = 75
L é número inteiro?Percentis
Calcular Percentil
Para calcular a qual percentil pertence um dado valor
100 valoresde totalnúmero
a inferiores valoresnúmero valor do percentil ⋅=xx
Seja o seguinte conjunto de “n” valores:
10 7 15 12 20 8 5 25
ORDENA-SE o conjunto de “n” valores
5 7 8 10 12 15 20 25
LP = (n-1) x p/100 + 1
L25 = (8-1) X 0,25 + 1 = 2,75 L75 = (8-1) X 0,75 + 1 = 6,25
P1 = 7 + (8-7)x0,75 = 7,75 P3 = 15 + (20-15)x0,25 = 16,25
Processo Alternativo
Dividem o conjunto de dados em 10 partes iguais de 10%.Portanto há 09 decis numa distribuição, que a divide em 10 grupos de 10% de dados.Os Decis são os percentis:
P10 , P20 , P30 , P40 P50 , P60 , P70 , P80 , P90
Decis
Quartis
Os quartis dividem a distribuição em quatro partes iguais de 25%Temos assim 3 quartis numa distribuição
O 1o quartil Q1 , separa os 25% de dados inferioresO 2o quartil Q2 , separa os 50% de dados inferioresO 3o quartil Q3 , separa os 75% de dados inferiores.
QuartisOs Quartis são os percentis:
P25 , P50 , P75
Observa-se que Q2 = MEDIANA
Q1 = P25 Q2 = P50 Q3 = P75
Outras medidas descritivas
Baseado nos conceitos de Percentis, Decis e Quartis, podemos definir outras descrições estatísticas:
Intervalo interquartil Q3 – Q4
Intervalo semi-interquartil (Q3 – Q1)/2Quartil médio (Q3 + Q1)/2Amplitude de percentis
• Ex. 10-90 => P90 -P10
Introdução
• Estudo de medidas que mostram a dispersão dos dados em torno da tendência central
• Analisaremos as seguintes medidas:– Amplitude– Variância– Desvio Padrão – Coeficiente de Variação
Introdução• Por que estudar?
– Entender grandes volumes de informação (pesquisas de mercado, índices populacionais, acessos a sites)
– Qualidade de processos (CEP – Controle Estatístico de Processos)
– Previsões confiáveis (projeções financeiras e populacionais, vida útil de equipamentos)
– Planejamento (coleta de dados, definição de amostras, planos de contingência)
Amplitude• É a diferença entre a maior e a menor observação
em um conjunto de dados
• Mede a dispersão total no conjunto de dados
• É uma medida simples que não leva em consideração como os dados são efetivamente distribuídos entre os valores extremos
menormaior XXA −=
Amplitude• Exemplo: Dada a amostra abaixo, calcule a
amplitude.
OBS: A amplitude calculada não nos fornece qualquer informação sobre a tendência central e distribuição das observações
5
12
3,7
3,5
3
2
Custo de produção (em milhões)
10212 =−=A
Variância• A variância da amostra é a média aproximada das diferenças ao
quadrado entre cada uma das observações e a média aritmética da amostra
onde:n é o tamanho da amostra
1)(....)()()( 22
32
22
12
−−++−+−+−=
nXXXXXXXXS n
OBS: O tamanho da amostra é subtraído de 1 devido ao fator de correção de Bessel, que visa uma estimativa mais precisa. No cálculo de variância para toda a população, este corretor é dispensado.
Variância• A fórmula da variância de uma amostra pode ser escrita de forma
resumida
Resumindo: A variância é a soma das diferenças ao quadrado em torno da média aritmética dividida pelo tamanho da amostra menos um
1
)(1
2
2
−
−=
∑=
n
XXS
n
ii
Variância• A variância também pode ser calculada pela fórmula
a seguir, que exige um número menor de operações aritméticas
• A variância da população é representada pelo símbolo σ2, porém é mais comum e prático o cálculo da variância da amostra
S2=∑ x2−
∑ x2
nn−1
Variância
• Exemplo: Calcule a variância da amostra
5,25=X
ix xxi −
-7,5
9,5
-3,5
-5,5
16,5-9,5
56,2518
90,2535
12,2522
30,2520
272,254290,2516
2id
∑ = 5,5512id
3,11055,5512 ≅=S
Variância
• Propriedades1. Somando-se (ou subtraindo-se) a cada elemento de
um conjunto de valores uma constante arbitrária, a variância não se altera
2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, a variância fica multiplicada (ou dividida) pelo quadrado da constante
Desvio Padrão
• O desvio padrão indica o afastamento dos valores observados em relação à média aritmética da amostra estuda
• É um conceito imprescindível para análises gráficas, determinação de confiabilidade e estudos de distribuições
Desvio Padrão• Exemplo: com base na amostra utilizada no
exercício de variância, calcule o desvio padrão.
5,1055,5512 === SS
Desvio Padrão
• Propriedades1. Somando-se (ou subtraindo-se) a cada elemento de
um conjunto de valores uma constante arbitrária, o desvio padrão não se altera
3. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, desvio padrão fica multiplicado (ou dividido) pela constante
Coeficiente de Variação• Dentre as medidas de dispersão relativa, o coeficiente
de variação mais é o de Pearson (CVp)
• É expresso em porcentagem
• Útil para comparação de variabilidade de dois conjuntos de dados com unidades de medidas diferentes
• Também é útil para comparar amostras de comportamento bastante diferentes (ex: ações de uma indústria X ações de empresa de serviços aéreos)
Coeficiente de Variação• CVp é baseado no quociente entre o desvio
padrão e a média aritmética
• Quanto menor este valor, mais homogêneo será o conjunto de dados
%100
=XSCVp
Exercícios1. Para os dados usados nos exercícios de
variância e desvio padrão, calcule o coeficiente de variação
3. O desvio padrão e a variância podem ser negativos?
5. Em que situação o desvio padrão e a variância são nulos? Qual é a amplitude neste caso?
Representação do conjunto de dados
Distribuições de freqüência
Freqüência relativaFreqüência acumulada
Representação Gráfica
Histogramas
Organização dos dados
Os métodos utilizados para organizar dados compreendem o arranjo desses dados em subconjuntos que apresentem características similares.
mesma idade (ou “faixa etária”), mesma finalidade, mesma escola, mesmo bairro, etc
Os dados agrupados podem ser resumidos em tabelas ou gráficos e, a partir desses, podemos obter as estatísticas descritivas já definidas: média, mediana, desvio, etc.
Dados organizados em grupos ou categorias/classes são usualmente designados “distribuição de freqüência”.
Distribuição de frequência
Uma distribuição de freqüência é um método de se agrupar dados em classes de modo a fornecer a quantidade (e/ou a percentagem) de dados em cada classe
Com isso, podemos resumir e visualizar um conjunto de dados sem precisar levar em conta os valores individuais.
Uma distribuição de freqüência (absoluta ou relativa) pode ser apresentada em tabelas ou gráficos
Distribuição de frequência
Uma distribuição de freqüência agrupa os
dados por classes de ocorrência, resumindo
a análise de conjunto de dados grandes.
Adotemos o conjunto de dados que represente a populaçãoOrdene em ordem crescente ou decrescente
Eventos AlturaAluno 1 1,60Aluno 2 1,69Aluno 3 1,72Aluno 4 1,73Aluno 5 1,73Aluno 6 1,74Aluno 7 1,75Aluno 8 1,75Aluno 9 1,75Aluno 10 1,75Aluno 11 1,75Aluno 12 1,76Aluno 13 1,78Aluno 14 1,80Aluno 15 1,82Aluno 16 1,82Aluno 17 1,84Aluno 18 1,88
Construindo uma distribuição de freqüência
Construindo uma distribuição de freqüência
Determine a Quantidade de classes (k)Regra de Sturges (Regra do Logaritmo)
• k = 1 + 3,3log(n)
Regra da Potência de 2• k = menor valor interiro tal que 2k ≥
n
Regra da Raiz Quadrada•
Bom senso !!!• Decida a quantidade de classes que GARANTA observar
como os valores se distribuem.
nk =
Quantidade de dados (n)
Quantidade de Classes (k)
Quantidade de dados (n)
Quantidade de Classes (k)
Quantidade de dados (n)
Quantidade M Í N IM A de C lasses (k)
Quantidade M Á XIM A de C lasses (k)
1 1 1 e 2 1 até 50 5 102 2 3 e 4 2 51 a 100 8 16
3 a 5 3 5 a 8 3 101 a 200 10 20 6 a 11 4 9 a 16 4 201 a 300 12 2412 a 23 5 17 a 32 5 301 a 500 15 3024 a 46 6 33 a 64 6 mais de 500 20 4047 a 93 7 65 a 128 7
94 a 187 8 129 a 256 8188 a 376 9 257 a 512 9377 a 756 10 513 a 1024 10
Regra de Sturges (Logaritmo) Regra da Potência de 2 Bom Senso
Construindo uma distribuição de freqüência
Construindo uma distribuição de freqüência
Calcule a amplitude das classes (h)Calcule a amplitude do conjunto de dados
• L = xmáx – xmín
Calcule a amplitude (largura) da classe• h = L / k• Arredonde convenientemente
Calcule os Limites das Classes1a classe: xmín até xmín + h2a classe: xmín + h até xmín + 2 . h........................ka classe: xmín + (k-1) . h até xmín + k . h
Limite das classesUtilize a notação:
• [x,y) – intervalo de entre x (fechado) até y (aberto)Freqüentemente temos que “arredondar” a amplitude das classes e, conseqüentemente, arredondar também os limites das classes.Como sugestão, podemos tentar, se possível, um ajuste simétrico nos limites das classes das pontas (i.e., primeira e última) nas quais, usualmente, a quantidade de dados é menor.
Ponto médio das classesxk = Linferior + ( Lsuperior – Linferior ) / 2
Construindo uma distribuição de freqüência
Determinação da freqüência das classes
Consiste em agrupar os dados em cada classe e contar os totais
Traçar o gráfico
Dividir o eixo horizontal em tantas partes quanto for o número de classes. Sugestão: deixe espaço entre o eixo vertical e a primeira classe.
Identifique a maior freqüência da classe na tabela e marque esse número (ou outro um pouco maior) na extremidade do eixo vertical; divida esse eixo em algumas partes e marque os valores correspondentes
Desenhe um retângulo, para cada classe, com largura igual à largura da classe e com altura igual à freqüência da classe
Construindo uma distribuição de freqüência
Do nosso exemplo:Ordenamos os dadosPor Sturges, temos:
• n=18 ; k=5 (número de classes)
Amplitude de classes• Amplitude do conjunto
de dados: 1,88- 1,60=0,28m
• Amplitude de classes: 0,28/5=0,056
• Arredondado h = 0,06m
Altura1,601,691,721,731,731,741,751,751,751,751,751,761,781,801,821,821,841,88
Exemplo
Construindo uma tabela de freqüência
Calcule os Limites de ClasseArredonde os Limites de Classe nos extremos
1,9-1,88=0,02Distribua o excesso:
• 1,60-0,01; 1,88+0,01Ajuste todas as classes
Altura1,601,691,721,731,731,741,751,751,751,751,751,761,781,801,821,821,841,88
Amplitude 0,06Limites
inferioresLimite
superior1,60 1,661,66 1,721,72 1,781,78 1,841,84 1,90
Aqui “sobra” 0,02m!
Freqüências absolutasDistribua os eventos ou ocorrência por suas respectivas classes
Freqüências acumuladasSome as ocorrências de dados cumulativamente às classes
Observação importante:É muito útil representar as frequências em termos percentuais ao total de amostras
0,06
Dados Classe FrequênciaFrequência Acumulada
1,60 1,59-1,65 1 11,69 1,65-1,71 1 21,72 1,71-1,77 10 121,73 1,77-1,83 4 161,73 1,83-1,89 2 181,74 Total 181,751,751,751,751,751,761,781,801,821,821,841,88
Amplitude
Construindo uma tabela de freqüência
Exercício 1
• Construa gráficos manuais que possam representar a classificação da sua turma quanto:
• Sexo;
• Estado civil;
• Quantidade de veículos;
• Cor do cabelo.
Como construir um gráfico na mão?
• X – Horizontal – Categorias;
• Y – Vertical – Valores (número de pessoas que se encaixam em cada categoria).
Representação Gráfica
HistogramaNa abscissas, distribua as classesNa ordenada da esquerda, as freqüências absolutasConstrua um gráfico de barras para as freqüênciasConstrua um gráfico de linha para a freqüência acumulada (utilize a escala da direita)
0,06
Classe Frequência Frequência Acumulada
1,59-1,65 1 11,65-1,71 1 21,71-1,77 10 121,77-1,83 4 161,83-1,89 2 18
Total 18
Amplitude
02468
1012
1,59-1,65
1,65-1,71
1,71-1,77
1,77-1,83
1,83-1,89
0
5
10
15
20
Distribuição de Freqüência: Histogramas e Polígonos de
FreqüênciaUma distribuição de freqüência representada por um gráfico de barras é denominada histograma
Outro gráfico de interesse é o chamado polígono de freqüência
O polígono de freqüência é obtido unindo-se os pontos médios da parte superior de cada retângulo do histograma com segmentos de reta
É importante notar que tanto o histograma quanto o polígono de freqüência indicam a freqüência absoluta de cada classe
Distribuição de Freqüência: Histogramas e Polígonos de
FreqüênciaDigamos que temos histogramas para as alturas dos estudantes de duas turmas diferentes, traçados de acordo com as regras descritas até agora
Poderíamos sobrepor os desenhos para fazer uma análise comparativa das turmas?
Que cuidados devemos tomar?
O “problema” com esta regra de construção é que o histograma construído é específico para o conjunto em análise
Para fazermos análises comparativas de conjuntos de dados diferentes, as classes devem ser as mesmas!
Devemos, então, utilizar algum conhecimento prévio da área em estudo para definir o intervalo aceitável de variação dos dados e, a partir daí, definir as classes
Essas “classes genéricas” servirão para o estudo de quaisquer conjunto de dados e permitirão análises comparativas
Distribuição de Freqüência: Histogramas e Polígonos de
Freqüência
Distribuição de Freqüência: Histogramas e Polígonos de
FreqüênciaEm um histograma, as classes devem SEMPRE ter a mesma largura?
Não necessariamente!
Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais.
O exemplo típico é a classificação de pessoas por faixas etárias (infantil, juvenil, adulto, sênior, etc). Essas faixas não têm a mesma largura.
Distribuição de Freqüência: Histogramas com Classes de Larguras
DesiguaisA representação gráfica dos dados em um histograma com classes de larguras desiguais requer a transformação dos valores de freqüência absoluta em densidade de freqüência.
Isso é fundamental pois devemos manter a área dos retângulos proporcionais à freqüência da classe
A densidade de freqüência é dada por:
classedalarguraclassedafreqüênciafreqüênciadedensidade =
Distribuição de Freqüência: Histogramas com Classes de Larguras
Desiguais
Isso significa que a altura das barras (i.e., os valores na escala do eixo vertical) NÃO representam a freqüência da classe, mas sim a densidade de freqüência.
Para calcularmos a freqüência da classe devemos multiplicar a densidade (indicada no eixo vertical) pela largura respectiva
Outros Gráficos0,05
Classe Frequência Frequência Relativa (%)
1,59-1,65 1 6%1,65-1,71 1 6%1,71-1,77 10 56%1,77-1,83 4 22%1,83-1,89 2 11%
Total 18
Amplitude
Frequência Relativa (%)
22%
11% 6% 6%
55%
1,59-1,651,65-1,711,71-1,771,77-1,831,83-1,89
Gráfico de Pizza
Gráfico de Pareto
Outros GráficosClasse Frequência
Frequência Relativa(%)
Frequência Acumulada
Frequência Acumulada(%)
1,71-1,77 10 56% 10 56%1,77-1,83 4 22% 14 78%1,83-1,89 2 11% 16 89%1,65-1,71 1 6% 17 94%1,59-1,65 1 6% 18 100%
Total 18
100%94%89%
56% 78%
0%20%40%60%80%
100%120%
1,71-1,77 1,77-1,83 1,83-1,89 1,65-1,71
Classe de Altura (m) Freqüência Freq. Acumulada
1.55 [--- 1.63 2 21.63 [--- 1.71 12 141.71 [--- 1.79 22 361.79 [--- 1.87 13 491.87 [--- 1.96 2 51
Distribuição Acumulada
0102030405060
1.55 [---1.63
1.63 [---1.71
1.71 [---1.79
1.79 [---1.87
1.87 [---1.96
Classes de alturas (m)
Freq
üênc
ia
Seqüência1Seqüência2Seqüência3Seqüência4
OGIVA DE GALTON
0
10
20
30
40
50
60
1.55 [---1.63
1.63 [---1.71
1.71 [---1.79
1.79 [---1.87
1.87 [---1.96
Classes de alturas (m)
Freq
:uên
cia
acum
ulad
aSeries2Series1Series3
Outros Gráficos
Quando os dados estão resumidos em uma tabela de freqüências, podemos calcular aproximadamente a média aritmética ponderando sobre:
Pontos médios de cada intervalo – supõe-se que todos os elementos das classes ocorrem no ponto médio das respectivas classes;Exemplo: temos 7 ocorrências na faixa entre 1,75 e 1,79. Consideramos que as sete ocorrências equivalem a (1,79+1,75)/2=1,77 ponto médio da classe.
Média Ponderada: Média de uma tabela de freqüência
Média Ponderada: Média de uma tabela de freqüência
∑∑=
fxf
x).(
x = ponto médio da classef = freqüênciaΣf = n
Erros por páginas
No de paginas
0 25
1 20
2 3
3 1
4 1
nfx
ffx
x ∑∑∑ ==
..
66,05033
)1132025()14()13()32()201()250(
==++++
⋅+⋅+⋅+⋅+⋅=x
Média PonderadaA média ponderada é considerada “ponderada” quando os valores dos conjuntos tiverem pesos / freqüências diferentesNuma distribuição utilizando os valores discretos, calcula-se:
Média PonderadaQuando tivermos uma distribuição com dados agrupados por classes de valores, calculamos considerando o valor de cada classe como o ponto médio respectivo da classe.
Alturas de Pessoas
Ponto Médio (Xi)
Frequência (fi) xi.fi
1,59-1,65 1,62 1 1,621,65-1,71 1,68 1 1,681,71-1,77 1,74 10 17,41,77-1,83 1,80 4 7,21,83-1,89 1,86 2 3,72
Total 18 31,62
nfx
ffx
x ∑∑∑ ==
..
1,7618
62,31==x
Cálculo da Moda para dados Agrupados
Caso 1: dados agrupados por valores discretos moda é o valor com maior freqüência.Caso 2: dados agrupados por classes
Moda BrutaMétodo de KingMétodo de CzuberMétodo de Pearson
Cálculo da Moda para dados Agrupados: Moda Bruta
Moda BrutaTome a classe que apresenta a maior freqüência classe modalA moda será o ponto médio da classe modal: (liminf + limsup )/2
Cálculo da Moda para dados Agrupados: King
Método de King:
OndeLiminf : limite inferior da classe modalfant : freqüência da classe anterior à modalfpost : freqüência da classe posterior à modalh: amplitude da classe modal
hff
fM
postant
posto +
+= inflim
Cálculo da Mediana para dados Agrupados
Dados agrupados por classesMediana é o valor localizado a Lx =n/2Após cálculo de Lx , determina-se o valor da mediana por:
Onde:• Lx Localização (posição) da Mediana• Fant freqüência acumulada até a classe anterior à classe
da mediana• fi freqüência absoluta da classe da mediana• h amplitude de classe• Liminf Limite inferior da classe da mediana
i
ant
fFhLimX )L.( x
inf
~ −+=
Medidas de Dispersão (Dados Agrupados)
O desvio-padrão, nesse caso, faz uma ponderação da distância dos pontos médios de cada classe para a média, e a respectiva freqüência de valores:
( ) ( ))(população(amostra)
N
xf
n
xxfs
k
jjj
k
jjj ∑∑
==
−=
−
−= 1
2
1
2 ~
1
~ μσ
Desvio padrão de dados agrupados
)1()].([)].([ 22
−−
= ∑ ∑nn
xfxfns
Desvio padrão para uma tabela de freqüênciasx = ponto médio da classef = frequência da classen = tamanho da amostra (ou Σf = soma das frequências)
Interpretando Histogramas
Histograma é uma ferramenta estatística que permite resumir informações de um conjunto de dados, visualizando a forma da distribuição desses dados, a localização do valor central e a dispersão dos dados em torno do valor central
Ou seja, em análises de processos produtivos, freqüentemente obtemos informações úteis sobre a população/amostra de dados coletados pela análise da forma do histograma
O valor médio está localizado no centro do histogramaA freqüência é mais alta no meio e diminui gradualmente na direção dos extremos
Ocorre quando não existem restrições aos valores que a variável de controle pode assumir
Processo geralmente sob controle, somente causas comuns estão presentesProcesso usualmente está estável
Simétrico ou em Forma de Sino
O valor médio está localizado fora do centro do histogramaA freqüência diminui gradativamente em um dos lados e de modo um tanto abrupto do outro lado
Ocorre quando não é possível que a variável de controle assuma valores mais altos (ou mais baixos)
Processo em que o limite inferior (superior) é controlado (apenas um limite de especificação)
Por exemplo, teoricamente é impossível valores inferiores à 0% para a variável impureza
Assimétrico
O valor médio está localizado fora do centro do histograma
A freqüência diminui abruptamente de um dos lados e suavemente em direção ao outro
Processo não atende às especificações e uma inspeção 100% é realizada para eliminar produtos defeituosos
Despinhadeiro
Parte do gráfico é relativamente simétrica com o acréscimo de algumas classes mais afastadas de menores freqüências
Ocorre quando dados de outra distribuição, diferente da distribuição da maior parte das medidas, são incluídos
Processo com anormalidades, ou erro de medição e/ou registro de dados, ou inclusão de dados de um processo diferente
Ilhas Isoladas ou Pico Isolado
A freqüência é mais baixa no centro do histograma e existe um “pico” em cada lado
Ocorre quando dados de duas distribuições, com médias muito diferentes, são misturados
Os valores da variável de controle devem estar associados a duas máquinas ou dois turnos distintos, por exemplo
Bimodal ou com Dois Picos
Todas as classes possuem mais ou menos a mesma freqüência, exceto aquelas das extremidades
Ocorre quando dados de duas distribuições, com médias não muito diferentes, são misturados
Os valores da variável de controle devem estar associados a níveis distintos de algum (ou alguns) dos fatores que constituem o processo em análise
Achatado ou Platô
Atende, com folga, os limites de especificaçãoMédia no centro da faixa de especificaçãoVariabilidade aceitávelManter a situação atual
Especificação atendida sem nenhuma margem extraMédia no centro da faixa de especificaçãoVariabilidade um pouco elevadaAdotar medidas para reduzir um pouco a variabilidade
Histogramas e Limites de Especificação de Processos
Não atende os limites de especificaçãoMédia deslocada para a esquerdaVariabilidade aceitávelAdotar medidas para deslocar a média para o centro (valor nominal)
Não atende os limites de especificaçãoMédia no centro da faixa de especificaçãoVariabilidade elevadaAdotar medidas para reduzir a variabilidade
Não atende os limites de especificaçãoMédia deslocada para a esquerdaVariabilidade elevadaAdotar medidas para deslocar a média para o centro e reduzir a variabilidade
Histogramas e Limites de Especificação de Processos
Definições
ProbabilidadeMedida das incertezas relacionadas a um eventoChances de ocorrência de um eventoAplicação em:
• Avaliação de Desempenho de Sistemas• Engenharia de Confiabilidade• Teoria dos Jogos, etc.
Exemplos:Probabilidade de jogar um dado e cair o número 2Chance de ser assaltado ao sair de casaProbabilidade de ganhar no pôquer
Definições
Observações sobre esta definiçãoSupõe-se que todos os eventos tenham a mesma chance de ocorrer (equiprováveis)s eventos de interesse que podem ocorrern eventos possíveis que podem ocorrer
Conceito Clássico de ProbabilidadeSe há “n” possibilidades igualmente prováveis, das
quais uma deve ocorrer e, destas, “s” são consideradas como um sucesso, então a probabilidade do resultado
ser um sucesso é de s/n.
Exemplo 1
Qual a probabilidade de se extrair um ás de baralho bem misturado de 52 cartas?
Bem misturado significa “qualquer carta tem a mesma chance de ser extraída”.Como temos 4 ases em 52 cartas, vem: 4/52 = 1/13s sucesso. Total de eventos de interesse: 4 asesn total de possíveis retiradas: 52 cartas
Observações: problema clássico de probabilidade, uma vez que todas as cartas tem a mesma chance de ocorrer
Exemplo 2
Qual a probabilidade de obter um 3 ou um 4 em uma jogada de um dado equilibrado?
Probabilidade = 2/6 = 1/3
Observações: problema clássico de probabilidade, uma vez que o dado está “equilibrado”.s = resultado de interesse = 2 (3 ou 4)n = resultados possíveis = 6 (1,2,3,4,5,6)
Exemplo 3
Se H representa “cara” (head) e T representa “coroa” (tail), os quatro resultados possíveis de duas jogadas de uma moeda são:
HH HT TH TTAdmitindo resultados igualmente prováveis, qual a probabilidade de obtermos:
zero caras:uma cara:duas caras:
Exemplo 3
Se H representa “cara” (head) e T representa “coroa” (tail), os quatro resultados possíveis de duas jogadas de uma moeda são:
HH HT TH TTAdmitindo resultados igualmente prováveis, qual a probabilidade de obtermos:
zero caras: s=1; n=4 => s/n=1/4uma cara: s=2; n=4 => s/n=2/4=1/2duas caras: s=1; n=4 => s/n=1/4
Exemplo 4
Qual a probabilidade de obtermos 7 jogando duas vezes um dado?
s: resultados de interesse =
n: resultados possíveis =
Exemplo 4
Qual a probabilidade de obtermos 7 jogando duas vezes um dado?
s: resultados de interesse = 66-1 1-6 2-5 5-2 3-4 4-3
n: resultados possíveis = 361-1 1-2 1-3 1-4 1-5 1-62-1 2-2 2-3 2-4 2-5 2-63-1 3-2 3-3 3-4 3-5 3-64-1 4-2 4-3 4-4 4-5 4-65-1 5-2 5-3 5-4 5-5 5-66-1 6-2 6-3 6-4 6-5 6-6
Probabilidade
s/n = 6/36 = 1/6
Exemplo 5
Numa gaveta, há dez pares distintos de meias. Em um dos pares, ambos os pés estão furados. Se tiramos um pé de meia por vez, ao acaso, qual a probabilidade de tirarmos dois pés de meia, do mesmo par, NÃO furados, em duas retiradas ?
Resposta
Evento de interesse, R: "retirar 2 pés de meias, do mesmo par, não furados, em duas retiradas“.Características do problema: Ambos os pés de um mesmo par furados. Existem 18 pés bons e 2 pés furados.Número de resultados possíveis: N = Maneiras de tirarmos 2 pés de meia em duas retiradas = 20 pés da primeira vez x 19 pés da segunda vez (um já foi retirado) = 380.Número de resultados favoráveis: n(R) = O primeiro pé não furado pode ser escolhido de 18 maneiras. Na segunda retirada, só há um pé de meia que combinacom o já retirado. Então, n(R) = 18 x 1 = 18.Cálculo da probabilidade do evento de interesse:P(R) = n(R) / N = 18 / 380 = 0,0474 = 4,74%
Limitação do conceito clássico
A aplicabilidade é limitadaNão há tantas situações em que várias possibilidades, ou eventos, podem ser considerados como igualmente prováveisExemplo: Probabilidade de chover amanhã.
Eventos possíveis: n = 2Eventos de interesse: s = 1Probabilidade = ½ ???? NÃO SE PODE AFIRMAROs eventos não possuem a mesma chance de ocorrer.
Limitação do conceito clássico
Outros Exemplos:Dado viciado no número 6: a probabilidade de jogar este dado e cair o número 6 será evidentemente maior que 1/6
Moeda com peso maior do lado de cara: a probabilidade de cair “cara” será evidentemente maior que ½
Em ambos os casos, não podemos simplesmente calcular a probabilidade pela relação s/n.
Nestes casos e em diversos outros, a interpretainterpretaçção ão freqfreqüüencialencial deve ser utilizada para determinar a possibilidade de ocorrência de um evento – a PROBABILIDADE
DefiniçõesDefinição Freqüencial de Probabilidade
A freqüência relativa de ocorrência de eventos em experimentos grandes determina a probabilidade de
ocorrência futura deste mesmo evento
1 410
21
02468
1012
1,59-1,65
1,65-1,71
1,71-1,77
1,77-1,83
1,83-1,89
0510
1520
oexperiment do repetições de NúmeroA de socorrência de Número)( =AP
Exemplos
Exemplo 6Há uma probabilidade de 0,78 de um jato da linha Salvador-São Paulo chegar no horário, em vista do fato de que tais vôos chegam no horário em 78% das vezes
Exemplo 7Se o serviço meteorológico indica que há 40% de chance de chover, é porque, sob as condições de tempo previstas para o referido dia, há uma freqüência de chuva em 40% das vezes
Em ambos os casos, não podemos garantir matematicamente as ocorrências; contudo, podemos
concluir com base em dados (experimentos) passados
Exemplo 8
Os registros de aviação da companhia AlQaedaAir mostram que, durante um certo tempo, 468 dentre 600 de seus jatos da linha Bagdá-Nova Iorque chegaram no horário. Qual é a probabilidade de que um avião daquela linha chegue no horário?
Exemplo 8
Os registros de aviação da companhia AlQaedaAir mostram que, durante um certo tempo, 468 dentre 600 de seus jatos da linha Bagdá-Nova Iorque chegaram no horário. Qual é a probabilidade de que um avião daquela linha chegue no horário?
468/600 = Probabilidade de 0,78
Exemplo 9
Os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por grandes lojas de varejo exigiram reparos dentro da garantia de um ano. Qual a probabilidade de que uma dessas lavadoras não venham a exigir reparo dentro da garantia?
Exemplo 9
Os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por grandes lojas de varejo exigiram reparos dentro da garantia de um ano. Qual a probabilidade de que uma dessas lavadoras não venham a exigir reparo dentro da garantia?
813-504 = 309309/813 = Probabilidade de 0,38.
Comentário
Observa-se que a conclusão de probabilidade de eventos futuros está toda baseada em experimentos passados. Portanto, cabe a pergunta:
Que garantia temos sobre a estimativa feita?Mais adiante no curso será apresentado um método que estima a precisão do resultado.Por enquanto nos bastamos com a LEI DOS GRANDES NÚMEROS
LEI DOS GRANDES NÚMEROS
Quando maior for a repetição do experimento, maior a aproximação da probabilidade efetiva de acontecimento de um determinado evento através da freqüência relativa
Comentários
Quando usar uma ou outra regra?A definição clássica exige que os resultados tenham todos a mesma chance de ocorrer.Alguns experimentos, mesmo que tenham os resultados todos com a mesma chance de ocorrer, são muito complexos de serem resolvidos através da abordagem clássica. Utiliza-se então a regra da aproximação de freqüências relativas. Ex.: Probabilidade de ganhar no jogo de paciênciaNo caso acima há métodos de simulação para gerar experimentos a partir de poucos resultados
Comentários
Amostras aleatóriasPara gerar experimentos, os eventos devem ser escolhidos de tal maneira que toda possível amostra de “n”elementos da população tenha a mesma chance de ser escolhida, sendo um conjunto de dados representativo, imparcial e não tendencioso.
Problema da Contagem no Estudo da Probabilidade
Conforme definição clássica, podemos determinar uma probabilidade calculando a relação entre o total de eventos de sucesso e o total de eventos possíveis. Entretanto, observe:
Encontrar quantos conjuntos de Grupo Sanguíneo e Rh existem, OU quantos caminhos diferentes podemos fazer entre 3 cidades é FÁCIL...Mas, o que dizer do número de caminhos possíveis entre 7 cidades?
Em muitos casos, PRECISA-SE DE UM MEIO PRÁTICO DE CALCULAR TANTO O NÚMERO TOTAL DE POSSIBILIDADES, QUANTO DE SUCESSOS.
Multiplicação
Dados dois eventos, o primeiro dos quais pode ocorrer de m maneiras distintas e o segundo pode ocorrer de n maneiras distintas:
Então, os dois eventos conjuntamente podem ocorrer de (m x n) maneiras distintas.
Uma maneira de visualizar esta regra éutilizar diagramas em árvores para representar as seqüências de opções.
Exemplo 1
Uma pessoa pode ir da Barra até o Aeroclube por dois caminhos: orla ou Iguatemi. Do aeroclube, ela pode ir àAv. Vasco da Gama por 3 caminhos: orla, Bonocô ou Av. ACM. Quantas alternativas tem esta pessoa de sair da Barra, ir ao aeroclube e então seguir para a Vasco da Gama?
Exemplo 1
Uma pessoa pode ir da Barra até o Aeroclube por dois caminhos: orla ou Iguatemi. Do aeroclube, ela pode ir à Av. Vasco da Gama por 3 caminhos: orla, Bonocô ou Av. ACM. Quantas alternativas tem esta pessoa de sair da Barra, ir ao aeroclube e então seguir para a Vasco da Gama?
1o trecho: 2 maneiras2o trecho: 3 maneirasTotal: 2 x 3 = 6 maneiras
Exemplo 1
Podemos resolver esta questão utilizando o Diagrama de Árvore
Barra Aeroclube Vasco da Gama
1
2
123
123
1-1
1-2
1-3
2-1
2-2
3-3
Seis possibilidades
Exemplo 2
Se uma agência de viagens oferece pacotes especiais de fim de semana para 12 cidades diferentes, por avião, trem ou ônibus, de quantas maneiras diferentes pode-se programar uma viagem?
Exemplo 2
Se uma agência de viagens oferece pacotes especiais de fim de semana para 12 cidades diferentes, por avião, trem ou ônibus, de quantas maneiras diferentes pode-se programar uma viagem?
12 cidades03 maneiras de viagem diferentesProgramações: 12 x 03 = 36 programações diferentes
Exemplo 3
Se uma sorveteria oferece mini-sundaes com escolha de 20 sabores diferentes, associados a oito coberturas diferentes, de quantas maneiras um cliente pode pedir um mini-sundae?
Exemplo 3
Se uma sorveteria oferece mini-sundaescom escolha de 20 sabores diferentes, associados a oito coberturas diferentes, de quantas maneiras um cliente pode pedir um mini-sundae?
20 sabores08 coberturasTipos de mini-sundaes: 20 x 8 = 160 tipos
Multiplicação – Regra Geral
Se uma escolha consiste de k Passos, o primeiro dos quais pode ser realizado de n1 maneiras, o segundo de n2 maneiras,..., ou seja, para cada um destes, o n-ézimo passo pode ser realizado de nk maneiras, então a escolha global pode ser
feita de:
n1 * n2 *...* nk maneiras
E se tivermos mais que dois passos?
Exemplo 4
Um teste consiste de 15 questões do tipo múltipla escolha, cada uma apresentando quatro respostas possíveis. De quantas maneiras possíveis pode um estudante marcar as respostas do teste?
Exemplo 4
Um teste consiste de 15 questões do tipo múltipla escolha, cada uma apresentando quatro respostas possíveis. De quantas maneiras possíveis pode um estudante marcar as respostas do teste?
n1 = n2 = n3 = n4 .... n15 = 4415 = 1.073.741.824
Exemplo 5
Com base no exemplo 4, quantas alternativas existem para alguém errar todas as questões?
Em cada questão há três alternativas de erro. Assim: 315 = 14.348.907 alternativas com todas as respostas errada
Unidade 6: Erro padrão da Média, Intervalo de Confiância e Assimetria
Introdução a estatística Analítica
Média amostral X Média populacional
• De maneira geral, a média amostral NUNCA será idêntica a média populacional;
• Isto acontece porque uma amostra possui muitos menos informações do que a população inteira;
• Espera-se que a amostra seja representativa da população;
• Teoricamente:
– Média da amostra = Média da população
Erro padrão da Média
• O tamanho da diferença entre a média da população e a média da amostra depende:
– Tamanho da amostra:
• ↑ Amostra - ↓ Erro
– Variabilidade dos dados:
• ↑ Variância - ↑ Erro
• Médias baseadas em um grande número de casos variam menos do que as baseadas em pequeno número!!!
Erro padrão da média
• Quando uma amostra é escolhida ao acaso e é suficientemente grande ela tem características que se aproximam bastante daquelas da população da qual foi extraída;
• Qual é o grau de certeza de que a média da amostra pode representar a média da população?
Exercício
• Olhe a população :
• Tire 3 amostras (escolha números), sendo que cada amostra deve conter 10 dados e tire sua média!
12 18 13 13 13
12 11 17 12 15
15 12 15 17 26
12 17 14 18 15
14 15 14 19 21
11 16 14 16 23
10 19 19 13 58
9 13 11 12 12
8 12 12 11 12
7 11 13 7 12
13 10 17 13 1
13 9 15 16 17
25 9 16 16 19
12 12 16 15 20
21 12 14 14 11
Erro padrão da Média
• O erro padrão da média é uma estatística que combina exatamente a variabilidade de amostra e o seu tamanho.
• Mede a dispersão das médias de diferentes amostras de mesmo tamanho, extraída da mesma população em torno da média das médias!
Erro padrão da média
EPM = 𝐷𝑃 (𝑠)
𝑛
Aonde: DP = desvio padrão da amostra; n = número de dados da amostra
12 18 13 13 13
12 11 17 12 15
15 12 15 17 26
12 17 14 18 15
14 15 14 19 21
11 16 14 16 23
10 19 19 13 58
9 13 11 12 12
8 12 12 11 12
7 11 13 7 12
13 10 17 13 1
13 9 15 16 17
25 9 16 16 19
12 12 16 15 20
21 12 14 14 11
Intervalos de confiança
• Existem cálculo estatísticos que combinam o tamanho da amostra e a sua variabilidade (desvio-padrão) para gerar um intervalo de confiança para a média da população.
• Isto quer dizer: Dada a média da amostra, um número, existe um intervalo ao redor desse valor aonde se posicional a média da população;
Intervalos de confiança
MEDIA DA AMOSTRA
IC! A média da população tem 95% de chance de estar aqui dentro!
IC
• Intevalos de confiança geralmente são usados em 95% de probabilidade.
• Ou seja: Se foram gerados vários intervalos de confiança (95%), um para cada diferente amostra de uma população, espera-se que o IC calculado inclua a verdadeira média em 95% das vezes.
IC
• Os IC são sempre calculados assim:
IC = t * EPM – Aonde:
• t= valor da estatística t para aquele grau de liberdade.
• EPM = Erro padrão da média.
• Porém SEMPRE são expressos assim:
IC(95%) = média da amostra ± IC
IC
• Se você obtiver:
• IC(95%) = 32,12 ± 3,23
• O que isso significa?
• Que a média populacional tem 95% de chance de ser um valor entre 3,23 da média amostral (32,12) para mais ou para menos!!!
IC
• Ou seja: Um intervalo de confiança muito grande sugere que a média da amostra encontrada é pouco representativa da média (verdadeira) da população!
• Os estatísticos desenvolveram métodos para calcular intervalos de confiança para grande parte das estatísticas!
• Ou seja, o quanto o resultado de uma análise representa a verdade!!!
12 18 13 13 13
12 11 17 12 15
15 12 15 17 26
12 17 14 18 15
14 15 14 19 21
11 16 14 16 23
10 19 19 13 58
9 13 11 12 12
8 12 12 11 12
7 11 13 7 12
13 10 17 13 1
13 9 15 16 17
25 9 16 16 19
12 12 16 15 20
21 12 14 14 11
Assimetria
• Assimetria é o grau de desvio de uma curva, no sentido horizontal, podendo ser positivo (com excesso de valores altos) ou negativo (com excesso de valores baixos).
• A assimetria é dada pela fórmula:
Amostragem
• Agora... Exercício!
• Você irá receber o seguinte mapa de uma área qualquer!
• Estabeleça critérios baseados na PAISAGEM, para perfurar 20 poços de petróleo, que sejam ALEATÓRIOS!
• Simplesmente escolher 20 áreas não é suficiente!
• Primeiro passo: Identifique os diferentes tipos de terrenos! (água, vegetação residência).
• Pense que os poços nesses locais serão diferenciados...
• Você quer testar as diferentes influências do relevo e terreno na qualidade do petróleo!
Estimação e Teste de Hipóteses
Estimação e teste de hipóteses (ou significância) são os aspectos principais da Inferência Estatística
ESTIMAÇÃOEstimar um parâmetro qualquer da população
TESTE DE HIPÓTESESDecidir se determinada afirmação sobre um parâmetro populacional é, ou não, apoiada pela evidência obtida de dados amostrais
Teste de Hipóteses
Em estatística, uma hipótese é uma alegação, ou afir-mação, sobre uma característica de uma população
Pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a 37 oC
Um novo fertilizante utilizado no cultivo de hortaliças aumenta a produtividade
Teste de Hipóteses
A dificuldade nestes casos (e daí a necessidade de métodos estatísticos) é que a característica de interesse varia em cada amostra
A temperatura média do corpo humano varia de pessoa para pessoa
A produtividade varia de planta para planta
Raciocínio Estatístico
DIRETRIZ GERAL
“Analisar uma amostra para distinguir entre resultados que podem ocorrer facilmente e os que dificilmente ocorrem”
Exemplo Prático
A empresa ProCare lançou o produto Escolha-o-Sexo. De acordo com a propaganda, o produto permitiria que os casais aumentassem em 87% a chance de terem um filho, e em 80% a chance de terem uma filha.
Suponha que se faz um experimento com 100 casais que querem ter menina, e que todos eles sigam as instruções da embalagem do respectivo produto.
Utilizando apenas o bom senso, o que se poderia concluir sobre a eficácia do Escolha-o-Sexo se das 100 crianças:a) 52 são meninas ?b) 96 são meninas ?
Teste de Hipóteses
PONTO CRUCIALA diferença entre o valor alegado de um parâmetro populacional e o valor de uma estatística amostral pode ser razoavelmente atribuído à variabilidade amostral
OUA discrepância é demasiado grande para ser encarada assim
Estudo de Caso(temperatura do corpo humano)
Estudos prévios indicam que a temperatura do corpo humano é 98,60oF. Pesquisadores médicos de Maryland coletaram dados amostrais com = 98,20oF e distribuição aproximadamente normal.
Estes dados amostrais constituem evidência suficiente para rejeitar a crença comum de que µ = 98,6 oF ???
x
Estudo de Caso(temperatura do corpo humano)
O primeiro passo consiste em formular duashipóteses sobre a afirmação.
As hipóteses são explicações potenciais que procuram levar em conta fatos observados em situações onde existem algumas incógnitas.
A incógnita em nosso caso é a verdadeira temperatura do corpo humano.
Hipótese Nula e Alternativa
A hipótese nula H0 é uma afirmação que diz que o parâmetro populacional é tal como especificado (isto é, a afirmação é correta).
H0 : µ = 98,6
A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação (isto é, o parâmetro é maior/menor/diferente que o valor alegado).
H1 : µ ≠ 98,6
Hipótese Nula e Alternativa
A hipótese nula H0 representa o status quo, ou seja, a circunstância que está sendo testada, e o objetivo dos testes de hipóteses é sempre tentar rejeitar a hipótese nula.
A hipótese alternativa H1 representa o que se deseja provar ou estabelecer, sendo formulada para contradizer a hipótese nula.
Hipótese Nula e Alternativa
Teste Bilateral:
H0 : µ = valor numérico
H1 : µ ≠ valor numérico
Teste Unilateral Superior: Teste Unilateral Inferior:
H0 : µ = valor numérico H0 : µ = valor numérico
H1 : µ > valor numérico H1 : µ < valor numérico
Tipos de Erro
Repare que, ao testarmos uma hipótese nula, chegamos a uma conclusão:
rejeitá-la, ou não rejeitá-la
Entretanto, devemos lembrar que tais conclusões ora são corretas, ora são incorretas (mesmo quando fazemos tudo corretamente!).
Este é o preço a ser pago por estarmos trabalhando em uma situação onde a variabilidade é inerente !!!
Exemplo
A eficácia de certa vacina após um ano é de 25% (isto é, o efeito imunológico se prolonga por mais de um ano em apenas 25% das pessoas que a tomam). Desenvolve-se uma nova vacina, mais cara, e deseja-se saber se esta é, de fato, melhor.
Sendo “p” a proporção de imunizados por mais de uma ano com a nova vacina...
Quais hipóteses devem ser formuladas?
Que erros poderemos cometer?
Exemplo
Hipótese nula: H0 : p = 0,25
Hipótese alternativa: H1 : p > 0,25
Erro tipo I : aprovar a vacina quando, na realidade, ela não tem nenhum efeito superior ao da vacina em uso.
Erro tipo II : rejeitar a nova vacina quando ela é, de fato, melhor que a vacina em uso.
Nível de Significância
A probabilidade de se cometer um erro tipo I depende dos valores dos parâmetros da população e é designada por α (nível de significância).
Dizemos, então, que o nível de significância α de um teste é a probabilidade máxima com que desejamos correr o risco de um erro do tipo I.
O valor de α é tipicamente predeterminado; são comuns as escolhas α = 0,05 e α = 0,01.
A probabilidade de se cometer um erro do tipo II édesignada por β.
Exemplo Ilustrativo
Nosso interesse em detectar desvios não aleatórios (significativos) de determinado parâmetro pode envolver desvios em ambas as direções ou apenas numa direção.
Assim, em sucessivas jogadas de uma moeda, esta pode ser considerada não-equilibrada se aparece um número muito grande, ou muito pequeno, de caras.
Exemplo IlustrativoA hipótese nula estabelece a situação “normal”, isto é, a moeda é equilibrada.
H0 : p = 0,50A hipótese alternativa seria simplesmente “a moeda não é equilibrada”, e investigaríamos então desvios em ambas as direções.
H1: p ≠ 0,50Entretanto, se estivéssemos apostando, digamos, em caras, então nossa preocupação seria somente com um número pequeno de caras. A hipótese alternativa seria “aparecem muito poucas caras”.
H1: p < 0,50
Exemplo Ilustrativo
Essencialmente, a hipótese alternativa é usada para indicar qual o aspecto da variação não-aleatória que nos interessa.
H0 : p = 0,50
H1: p ≠ 0,50 (ambas as direções: muito OU muito pouco)
H1: p < 0,50 (desvio abaixo: muito pouco)
H1: p > 0,50 (desvio acima: muito)
R E S U M O
O processo geral consiste nos seguintes passos:
1. Formular as hipóteses nula e alternativa;
2. Escolher a distribuição amostral adequada;
3. Escolher um nível de significância α com base na gravidade do erro tipo 1 ;
4. Calcular a estatística de teste, os valores críticos e a região crítica (esboçar um gráfico é SEMPRE uma boa opção)
5. Comparar a estatística de teste com os valores críticos:
Rejeitar a hipótese nula se a estatística de testa excede o(s) valor(es) crítico(s), ou seja, está na região crítica
Não rejeitar a hipótese nula, caso contrário.
Exemplo
Uma máquina automática enche pacotes de café segundo uma distribuição normal com média μ e desvio-padrão 20g
A máquina foi regulada para μ = 500g
De meia em meia hora tiramos uma amostra de 16 pacotes para verificar se o empacotamento está sob controle, isto é, se μ = 500g
Se uma dessas amostras apresentasse x = 492g, você pararia ou não o empacotamento para verificar
se o ajuste da máquina está correto ?
Exemplo
Passo 1: Indicamos por X o peso de cada pacote, então X é uma normal com média μ e σ = 20. As hipóteses que nos interessam são:
Hipótese nula: H0 : μ = 500 g
Hipótese alternativa: H1 : μ ≠ 500 g
pois a máquina pode desregular para mais ou para menos
BILATERAL!
Exemplo
Passo 2: Escolher a distribuição amostral
Se o desvio padrão populacional é conhecido:
Distribuição NORMAL (Caso deste exemplo típico)
Se o desvio é desconhecido E a amostra é pequena (n<30):
Distribuição de STUDENT
Exemplo
Passo 3: Escolher o nível de significância
Pela situação descrita no problema, podemos fazer α = 0,01
Exemplo
Passo 4: Calcular a estatística de teste, valores e região crítica
ou
amostralãodistribuiçdapadrãodesvio
alegadamédiaamostralmédiatestedeaestatístic
−=
nxzteste /
0
σμ−
=ns
xtteste /0μ−=
Exemplo
Passo 4: Calcular a estatística de teste, valores e região crítica
n = número de provas
p = proporção populacional (hipótese nula)
q = 1 - p
amostralãodistribuiçdapadrãodesvio
alegadaproporçãoamostralproporçãotestedeaestatístic
−=
npq
ppzteste−
=ˆ
)(ˆ amostralproporçãonxp =
Exemplo
Passo 4: Calcular a estatística de teste, valores e região crítica
6,158
1620500492
−=−
=−
=−
=n
xzσ
μ
Exemplo
Passo 4: Calcular a estatística de teste, valores e região crítica
z = -2,575 z = 2,575
Área = 0,5 – 0,005 = 0,495Área = 0,5 – 0,005 = 0,495
Exemplo
Passo 5: A informação da amostra é que x = 492 g (o que fornece z = - 1,6)
Como x∉ Região Crítica, nossa conclusão seránão rejeitar H0
A discrepância da média da amostra para a média proposta por H0 pode ser considerada como devido apenas
ao sorteio aleatório dos pacotes
Variável: características ou itens de interesse de cada elemento de uma população ou amostra
Também chamada parâmetro, posicionamento, condição...
Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra.
Exemplo: velocidade x consumo combustível
Variáveis
Correlação
Correlação entre duas variáveisQuando uma delas está, de alguma forma, relacionada com a outra.Quando a alteração no valor de uma varíavel (dita independente) provoca alterações no valor da outra variável (dita dependente)
Diagramas de Dispersão
Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos.Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.
Comumente, coloca-se no eixo x um parâmetroCada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo
FabricaçãoNúmero de peças produzidas e número de peças defeituosas
ConstruçãoNúmero de falhas em uma obra e a satisfação média dos construtoresDias de atraso de entrega x número de dias chuvosos
FinanceiroMédia de tempo de atraso de pagamento e número de erros de fatura
Vendas% de imóveis vendidos na data de entrega da obra x satisfação média dos clientes nos últimos 10 empreendimentos.
Exemplos
Exemplo - Peso x alturaPeso (kg)
Altura (m)
80 1,8085 1,8350 1,6570 1,9055 1,6077 1,8085 1,7893 1,8665 1,7060 1,65
Peso x Altura
1,551,6
1,651,7
1,751,8
1,851,9
1,95
40 50 60 70 80 90 100
Peso
Altu
ra
Exemplo – Peso x AlturaEstratificando...
Peso (kg)Altura homens
(m)
Altura Mulheres
(m)80 1,80 ---
---1,651,901,60---1,78------1,65
85 1,8350 ---70 ---55 ---77 1,8085 ---93 1,8665 1,7060 ---
Peso x Altura (por sexo)
1030507090
110
1,5 1,6 1,7 1,8 1,9 2Alturas
Peso
s
Homens
Mulheres
Dicas
Eixo ´x´Variável que é alterada por uma modificação no processo (variável independente)Geralmente uma possível causa de um problema
Eixo ´y´Variável que pode mudar de acordo com a mudança da variável em ´x´ (variável dependente) Geralmente um indicador de qualidade ou efeito gerado por uma causa.
Analisando Diagramas de Dispersão
Os aspectos abaixo são relevantes na análise dos Diagramas:
DIREÇÃO (crescente, decrescente)FORMA (linear, não-linear, aglomerados)PONTOS DISCREPANTES
Interpretando
Padrões de Dispersão
Quanto maior a correlação, mais próxima de uma reta a 45o ou 135o será a distribuição.
Problemas da Análise Gráfica
A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um bom juiz da intensidade de uma relação linear.Os diagramas a seguir ilustram precisamente os mesmos dados, mas o gráfico inferior é menor em um campo mais amplo (escala diferente).
Problemas da Análise Gráfica
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de espaço em branco em torno do aglomerado dos pontos.Deve-se, então, utilizar uma medida numérica para suplementar o gráfico.
Coeficiente de Correlação Linear (r)
Coeficiente de Correlação Linear
r mede o grau de relacionamento linear entre valores emparelhados x e y em uma amostra.Mede a intensidade e a direção da relação linear entre duas variáveis quantitativas.Chamado também de Coeficiente de Correlação de Pearson (Karl Pearson, 1857-1936).
Coeficiente de Correção Linear ou Coeficiente de Pearson
∑=
−=n
iixx xxS
1
2)(
∑=
−=n
iiyy yyS
1
2)(
∑=
−−=n
iiixy yyxxS
1))((
yyxx SSSxyr.
= -1 ≤ r ≤ 1
∑∑ −= 22 )()( iixx xxnS
∑∑ −= 22 )()( iiyy yynS
))((. ∑∑∑ −= iiiixy yxyxnS
Coeficiente de Correção Linear ou Coeficiente de Pearson
( ) ( )( )( ) ( )
11
2222
≤≤−
−⋅−
−⋅=
∑∑∑ ∑∑ ∑∑
r
yynxxn
yxyxnr
iiii
iiii
Interpretando o Coeficiente de Correlação Linear
‘r’ sempre será um valor entre
-1 ≤ r ≤ 1
Quanto mais próximo de –1: maior correlação negativa
Quanto mais próximo de 1: maior correlação positiva
Quanto mais próximo de 0: menor a correlação linear
Interpretação do Valor de r
0-1 +1
correlaçãonegativa
fraca
correlaçãonegativa
forte
correlaçãopositivafraca
correlaçãopositivaforte
ausência de
correlação
valor de r
Propriedades do Coeficiente de Correlação de Pearson
-1 ≤ r ≤ +1O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente.O valor de r não é afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.r: só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade de relacionamentos não-lineares.
Ex.: Alturas e Pesos de Ursos SiberianosComprimento (pol .) Peso ( lb.)
x y x.y x2 y253,0 80 4.240 2.809,00 6.40067,5 344 23.220 4.556,25 118.33672,0 416 29.952 5.184,00 173.05672,0 348 25.056 5.184,00 121.10473,5 262 19.257 5.402,25 68.64468,5 360 24.660 4.692,25 129.60073,0 332 24.236 5.329,00 110.22437,0 34 1.258 1.369,00 1.156
Totais 517 2.176 151.879 34.525,75 728.520
Ex.: Alturas e Pesos de Ursos Siberianos
( ) ( )( )( ) ( )
897,0184.093.175,9433
128.91)176.2()520.728(8)5,516()75,525.34(8
)176.2)(5,516()879.151(822
2222
=⋅
=
=−−
−=
∴−⋅−
−⋅=
∑∑∑ ∑∑ ∑∑
r
yynxxn
yxyxnr
iiii
iiii
Reta de Regressão Linear
Diferentes retas podem ser traçadas, a olho nu, e um diagrama de dispersão
Cada pessoa terá uma tendência diferenteNenhuma reta passará exatamente por todos os pontos (se a correlação não for máxima)Precisamos encontrar uma reta que esteja tão próxima dos pontos quanto possívelOs erros de predição para a reta são erros em y (direção vertical)
Reta de Regressão Linear
Se um diagrama de dispersão sugere uma relação linear, é de interesse representar este padrão através de uma retaUsa-se o método dos mínimos quadradospara ajustar uma reta de regressão ao conjunto de pontos do diagramaA reta de regressão descreve como uma variável resposta (dependente) y varia em relação a uma variável explanatória (independente) x
Variáveis
Variável resposta (y) (dependente)Mede um resultado em um estudo
Variável explanatória (x) (independente)Procura explicar os resultados observados
Variável independente (x) Variável dependente (y)
Temperatura do forno (oC) Resistência mecânica da cerâmica (MPa)
Quantidade de aditivo (%) Octanagem da gasolina
Renda (R$) Consumo (R$)
Memória RAM (GB) Tempo de resposta do sistema (s)
Definição
Dada uma coleção de dados amostrais emparelhados, a seguinte equação de regressão descreve a relação entre as duas variáveis
O gráfico da equação é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados)
y xα β= +
Definição
y xα β= + β: coeficiente angularα: ponto onde a reta intercepta eixo y
( ) ( )( )( ) ( )
( )( ) ( )( )( ) ( )
22
2
22
i i i i
i i
i i i i i
i i
i i
n x y x y
n x x
y x x x y
n x x
y xn
β
α
βα
−=
−
−=
−
−=
∑ ∑ ∑∑ ∑
∑ ∑ ∑ ∑∑ ∑
∑ ∑
Exemplo
Considere um experimento em que se analisa a octanagem da gasolina (Y) em função da adição de um aditivo (X). Para isto, foram realizados ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de aditivo. Os resultados seguem.
Exemplo
80,080,581,081,582,082,583,083,584,084,585,085,5
0 1 2 3 4 5 6 7
Quantidade de Aditivo (%)
Índi
ce d
e O
ctan
agem
X Y1 80,52 81,63 82,14 83,75 83,96 85,0
Exemplo
x i y i x i2 x i y i
1 80,5 1 80,52 81,6 4 163,23 82,1 9 246,34 83,7 16 334,85 83,9 25 419,56 85,0 36 510,0
Soma 21 496,8 91 1.754,3
Calculando a equação de regressão...
2
6(1754,3) (21)(496,8) 93 0,8866(91) (21) 105
496,8 (0,886)(21) 79,76
ˆ 79,7 0,886y x
β
α
−= = =
−−
= =
∴ = +