+ All Categories
Home > Documents > Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila)...

Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila)...

Date post: 13-Jan-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
80
Lucian MATICIUC I NTRODUCERE ˆ IN S TATISTIC ˘ A M ATEMATIC ˘ A Universitatea ,,Alexandru Ioan Cuza” Ias ¸i – 2018
Transcript
Page 1: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Lucian MATICIUC

INTRODUCERE INSTATISTICA MATEMATICA

Universitatea ,,Alexandru Ioan Cuza”

Iasi – 2018

Page 2: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice
Page 3: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Cuprins

1 Statistica descriptiva 11.1 Variabile empirice . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Reprezentarea grafica a variabilelor empirice . . . . . . . . . 51.3 Momente statistice asociate unei variabile . . . . . . . . . . . 6

1.3.1 Momente statistice asociate unei variabile empirice . 61.3.2 Momente ale unei variabile aleatoare discrete . . . . 171.3.3 Momente ale unei variabile aleatoare continue . . . . 19

2 Elemente de teoria selectiei si a estimatiei 232.1 Problema estimatiei . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.1 Estimari punctuale ale momentelor . . . . . . . . . . 292.1.2 Estimari punctuale ale parametrilor . . . . . . . . . . 312.1.3 Estimari prin intervale de ıncredere ale momentelor . 41

3 Verificarea ipotezelor statistice 553.1 Teste pentru media unei selectii . . . . . . . . . . . . . . . . . 56

3.1.1 Testul Z pentru media unei selectii . . . . . . . . . . . 573.1.2 Testul Z pentru diferentia mediilor a doua selectii . . 593.1.3 Testul T pentru media unei selectii . . . . . . . . . . . 63

3.2 Teste pentru dispersia unei selectii . . . . . . . . . . . . . . . 673.2.1 Testul χ2 pentru dispersia unei selectii . . . . . . . . . 673.2.2 Testul F pentru raportul dispersiilor a doua selectii . 70

Bibliografie 76

iii

Page 4: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice
Page 5: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Capitolul 1

Statistica descriptiva

1.1 Variabile empirice

“Statistica este arta ınvatarii din date” (Sheldon M. Ross, 2010).

“Statistica este disciplina care se ocupa cu colectarea, analiza si interpretareadatelor obtinute din observarea unui experiment. Aceasta disciplina are ostructura coerenta bazata pe Teoria Probabilitatilor” (Karl Pearson, 1936).

Definitia 1.1 Partea statisticii care se ocupa cu culegerea, ınregistrarea, gruparea,descrierea si sumarizarea datelor se numeste statistica descriptiva.

Definitia 1.2 Partea statisticii care se ocupa cu interpretarea si obtinerea con-cluziilor din datele colectate ın cadrul unei experiente se numeste statistica infe-rentiala.

Statistica este interesata ın obtinerea de informatii despre o colectie (mul-time) de elemente. La baza statisticii sta notiunea de probabilitate.

Definitia 1.3 O multime de elemente ce poseda o trasatura comuna, si care secerceteaza ın statistica, poarta numele de populatie statistica (colectivitate statis-tica). Elementele care alcatuiesc populatia statistica se numesc unitati statisticesau indivizi. Numarul de indivizi care alcatuiesc populatia statistica determinavolumul populatiei.

Caracteristica (sau variabila) este o anumita proprietate urmarita la in-divizii unei colectivitati statistice si a carei valoare se poate schimba de laun individ la altul ın cadrul populatiei. Exista caracteristici cantitative (celecare se pot masura, ca varsta, greutatea, etc.) si caracteristici calitative.

1

Page 6: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2 1. Statistica descriptiva

Datele pot proveni din observatiile unei singure caracteristici (sau vari-abile) sau, simultan, a doua sau mai multor caracteristici. O multime uni-variata de date reprezinta datele obtinute prin observarea unei singurevariabile; de exemplu, ne intereseaza timpul de viata al unui tip de ba-terii utilizate ıntr-un anume fel. Avem o multime bivariata de date atuncicand observatiile sunt facute pentru doua variabile simultan; de exemplu,ne intereseaza ınaltime si greutatea pentru fiecare jucator al echipelor debaschet, deci fiecare caracteristica este o pereche de date. Date multivari-ate avem atunci cand observatiile sunt facute simultan pentru mai mult dedoua variabile; de exemplu, se analizeaza sangele si ne intereseaza, pentrufiecare pacient, mai multi indicatori simultan.

Definitia 1.4 Se numeste selectie (esantion, sondaj) o submultime a populatiei,i.e. o colectivitate partiala de elemente extrase la ıntamplare din cadrul populatiei.

Notam valorile caracteristicii masurate pe fiecare element al colectivitatiipartiale cu xi, i = 1, n, unde n este volumul selectiei (numarul indivizilordin selectie). Se presupune ca alegerea celor n indivizi ai unui esantion estefacuta astfel ıncat toate subgrupurile de n indivizi din ıntreaga populatiesunt egal probabile de a fi alese.

Selectia spunem ca este repetata (cu ıntoarcere) daca individul extraseste reintrodus ın colectivitate ınainte de a se extrage urmatorul; ın caz con-trar, selectia este nerepetata (fara ıntoarcere). Daca volumul selectiei estefoarte mic ın raport cu volumul populatiei atunci nu se mai face distinctiaıntre cele doua tipuri de selectie (aceasta se va considera repetata).

Sa remarcam faptul ca statistica trebuie sa se ocupe si cu dezvoltareatehnicilor potrivite de colectare a datelor. Daca aceasta nu este facuta corect,atunci analiza datelelor nu poate oferi raspunsuri cu un nivel de ıncrederecrescut.

Se numeste serie statistica, asociata unei selectii de volum n, un tabloude forma

X :

(x1 x2 · · · xkn1 n2 · · · nk

), cu

∑k

i=1ni = n,

unde xi reprezinta valorile caracteristicii masurate (scrise ın ordine cresca-toare) iar ni repezinta frecventele absolute corespunzatoare valorii xi (adicanumarul care arata de cate ori apare valoarea xi ın timpul selectiei).

Definitia 1.5 Numim variabila empirica (de selectie), notata pe scurt v.e.,

Page 7: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.1. Variabile empirice 3

asociata unei selectii de volum n, un tablou de forma

(1.1) X∗ :

(x1 x2 · · · xkf1 f2 · · · fk

), cu

∑k

i=1fi = 1,

unde fi =nin

reprezinta frecventele relative, corespunzatoare valorii xi, ale vari-abilei empirice X∗, adica

fi = P (X∗ = xi) , i = 1, n .

Daca volumul selectiei nu este prea mare si fiecare valoare xi apareo singura data ın timpul selectiei, atunci variabila empirica mai poate fireprezentata astfel

(1.2) X∗ :

(x1 x2 · · · xn

1/n 1/n · · · 1/n

),

unde xi reprezinta cele n valori distincte ale caracteristicii masurate.In cazul ın care caracteristicile pot lua orice valoare dintr-un interval

(marginit) de numere reale sau volumul selectiei este mare se va face ogrupare a acesor valori pe intervale disjuncte (sau clase), de obicei egale,intervale ınchise la stanga si deschise la dreapta:(

[a0, a1) [a1, a2) · · · [ak−1, ak))n1 n2 · · · nk

).

Variabila empirica X∗ se va reprezenta atunci

(1.3) X∗ :

(c1 c2 · · · ckf1 f2 · · · fk

), cu

∑k

i=1fi = 1,

unde fi = nin , ci = ai−1+ai

2 (valoarea centrala a clasei [ai−1, ai)), i = 1, k .

Frecventa absoluta ne da numarul indivizilor care au valoarea caracter-isticii masurate egala cu o valoare data. Frecventa absoluta cumulata neda numarul indivizilor care au valoarea caracteristicii masurate mai micadecat o valoare data.

Definitia 1.6 Se numeste frecventa absoluta cumulata crescator, respectivdescrescator, corespunzatoare valorii xi, valorile

ni ↑ =∑i

j=1xj≤xi

nj , ni ↓ =∑k

j=ixj≥xi

nj , i = 1, k ,

adica ni ↑ = n1 + n2 + · · ·+ ni , ni ↓ = ni + ni+1 + · · ·+ nk .

Page 8: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

4 1. Statistica descriptiva

Definitia 1.7 Se numeste frecventa relativa cumulata crescator, respectiv de-screscator, corespunzatoare valorii xi, valorile

fi ↑ =ni ↑n

, fi ↓ =ni ↓n

, i = 1, k .

Functia empirica de repartitie a v.e. X∗ se noteaza cu Fn (x) si estedefinita astfel:

Daca X∗ este data de (1.1) atunci

Fn (x) =

0 , x < x1,∑i−1

j=1fj , xi−1 ≤ x < xi, i = 2, k ,

1 , xk ≤ x.

=

0 , x < x1,

f1 , x1 ≤ x < x2,

f1 + f2 , x2 ≤ x < x3,

· · ·f1 + f2 + . . .+ fk−1 , xk−1 ≤ x < xk,

1 , xk ≤ x.

Daca X∗ este data de (1.2) atunci

Fn (x) =

0 , x < x1,

i− 1

n, xi−1 ≤ x < xi, i = 2, n ,

1 , xn ≤ x.

Daca X∗ este data de (1.3) atunci

Fn (x) =

0 , x < a0,∑i−1

j=1fj +

x− ai−1

hfi , ai−1 ≤ x < ai, i = 2, k ,

1 , ak ≤ x,

unde h = ai+1 − ai este amplitudinea clasei (care de obicei este constanta).

Page 9: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.2. Reprezentarea grafica a variabilelor empirice 5

1.2 Reprezentarea grafica a variabilelor empirice

Graficul unei v.e. se numeste diagrama. Reprezentarea grafica se poate faceın diverse moduri.

Poligonul frecventelor absolute. Se iau pe abscisa Ox valorile xi sipe Oy frecventele absolute ni corespunzatoare valorilor xi. Unind acestepuncte vom obtine poligonul frecventelor absolute.

Reprezentarea cu bare. Se iau pe abscisa Ox valorile xi iar ın drep-tul fiecarei valori xi se ridica cate o perpendiculara de lungime egala cuvaloarea frecventelor absolute ni (sau relative fi) corespunzatoare lui xi.Mentionam ca daca unim varfurile acestor perpendiculare prin segmentevom obtine poligonul frecventelor absolute (sau respectiv relative). Evi-dent, suma lungimilor segmentelor obtinute ın cazul folosirii frecventelorrelative trebuie sa fie 1.

De asemenea, reprezentarea poate fi facuta si cu ajutorul unor drep-tunghiuri. Mai precis, pe axa absciselor Ox se considera segmente de tipul[xi− c, xi + c] si pe fiecare segment de acest fel, considerat ca baza, se ridicacate un dreptunghi a carui ınaltime este egala cu frecventa corespunzatoare(absoluta sau relativa) acelei valori xi . Mentionam ca daca unim mijloacelelaturilor superioare ale acestor dreptunghiuri vom obtine poligonul frec-ventelor.

Histograma. Aceasta reprezentare se aseamana cu Reprezentarea cubare, dar se foloseste ın cazul unei v.e. ale carei valori sunt numeroase sausunt de tip continuu. Pentru a construi o histograma, primul pas este dea ımparti intervalul de valori ıntr-o serie de intervale si apoi sa numaramcate valori intra ın fiecare interval. Clasele de valori sunt de obicei specifi-cate ca intervale consecutive, de pe axa absciselor, si care nu se suprapun.Intervalele nu trebuie sa fie neaparat de dimensiuni egale. Un dreptunghieste ridicat peste acele intervale cu o ınaltime egala cu frecventa relativa,adica proportionala cu numarul de cazuri din fiecare acea clasa. Evident,suma ariilor dreptunghiurilor obtinute trebuie sa fie 1.

Exercitiul 1.8 Sa se reprezinte grafic urmatoarele date statistice care reprezintanumarul de zile de concediu medical luate de 50 de angajati ai unei companii ınultimele 6 saptamani:

2, 2, 0, 0, 5, 8, 3, 4, 1, 0, 0, 7, 1, 7, 1, 5, 4, 0, 4, 0, 1, 8, 9, 7, 0

1, 7, 2, 5, 5, 4, 3, 3, 0, 0, 2, 5, 1, 3, 0, 1, 0, 2, 4, 5, 0, 5, 7, 5, 1

Page 10: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

6 1. Statistica descriptiva

Obtinem seria (0 1 2 3 4 5 6 7 8 912 8 5 4 5 8 0 5 2 1

).

1.3 Momente statistice asociate unei variabile

Momente statistice asociate unei variabile sunt niste date numerice carereprezinta fidel o variabila aleatoare sau o caracteristica avuta ın vedere.Cunoasterea momentelor statistice este utila ın practica ın compararea adoua variabile aleatoare sau a doua populatii statistice pe care este definitaaceeasi caracteristica, precum si la deducerea legii teoretice urmata de ovariabila aleatoare sau de caracteristica considerata.

1.3.1 Momente statistice asociate unei variabile empirice

Sa consideram o caracteristica cantitativa reprezentata de seria statistica(x1 x2 · · · xkn1 n2 · · · nk

)cu∑k

i=1ni = n (volumul selectiei).

Acestei serii ıi asociem variabila empirica (de selectie)

(1.4) X∗ :

(x1 x2 · · · xkf1 f2 · · · fk

), cu

∑k

i=1fi = 1,

unde fi =nin

(frecventele relative ale valorii xi), i = 1, k , sau (daca datelesunt grupate ın clase de forma [ai−1, ai), de lungimi egale)

(1.5) X∗ :

(c1 c2 · · · ckf1 f2 · · · fk

), cu

∑k

i=1fi = 1,

unde fi =nin

iar ci =ai−1 + ai

2(valoarea centrala a clasei [ai−1, ai)), i =

1, k .

Parametrii tendintei centrale: x, me , m0

Acesti parametrii au rolul de a evidentia pozitia ın jurul careia se grupeazaansamblul valorilor unei v.e.. Aceasta pozitie exprimata printr-un numarse numeste pozitie centrala. Ea poate fi evidentiata prin:

Page 11: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 7

Momentul empiric de ordin r este valoarea

µ′r =1

n

∑k

i=1nix

ri =

∑k

i=1fix

ri ,

daca X∗ este data de (1.4)si respectiv

µ′r =1

n

∑k

i=1nic

ri =

∑k

i=1fic

ri ,

daca X∗ este data de (1.5).In particular, pentru r = 1, obtinem

xdef== µ′1 =

1

n

∑k

i=1nixi =

∑k

i=1fixi ,

respectiv

xdef== µ′1 =

1

n

∑k

i=1nici =

∑k

i=1fici .

Valoarea x se va numi media empirica (sau media aritmetica). Intr-adevar,daca xi , cu i = 1, n , ar reprezinta toate valorile caracteristicii masurate,chiar daca se repeta, atunci x reprezenta efectiv media aritmetica a tuturor

celor n valori, i.e. x =

∑ni=1 xin

.

Mediana (notata cu me) este valoarea caracteristicii X∗ care ımparte volu-mul selectiei ın doua parti egale.

Daca n este par, n = 2k, atunci me =xk + xk+1

2.

Daca n este impar, n = 2k + 1, atunci me = xk+1 .

Moda (sau valoarea modala) (notata cu m0) este valoarea caracteristicii X∗

careia ıi corespunde frecventa relativa cea mai mare.

Cuantilele de ordin n sunt valorile caracteristicii X∗ care ımpart volumulselectiei ın n parti egale. Cuantila de ordin 2 este chiar mediana si este acelnumar x1/2 care verifica ecuatia

Fn(x1/2

)= 1/2,

unde Fn este functia empirica de repartitie asociata v.e. X∗.Cuantilele de ordin 4 se numesc cuartile si sunt acele valori x1/4, x1/2, x3/4

pentru care

Fn(x1/4

)= 1/4, Fn

(x1/2

)= 1/2, Fn

(x3/4

)= 3/4.

Page 12: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

8 1. Statistica descriptiva

Parametrii variabilitatii (ai ımprastierii): R, s2, s, (s∗)2 , s∗

Amplitudinea v.e. (sau a seriei statistice) este numarul

R = xmax − xmin .

Momentul centrat empiric de ordin r este

ν ′r =1

n

∑k

i=1ni (xi − x)r =

∑k

i=1fi (xi − x)r .

In particular, pentru r = 2 obtinemDispersia (sau varianta) empirica:

(1.6) s2 def== ν ′2 =

1

n

∑k

i=1ni (xi − x)2 =

∑k

i=1fi (xi − x)2 .

Are loc urmatoarea relatie care reprezinta o formula utila de calcul adispersiei.

Propozitia 1.9 Avems2 = x2 − x2,

unde x reprezinta media v.e. X∗ iar x2 reprezinta media v.e. (X∗)2.

Demonstratie. Intr-adevar,

s2 =∑k

i=1fi (xi − x)2 =

∑k

i=1fix

2i − 2

∑k

i=1fixix+

∑k

i=1fix

2

=∑k

i=1fix

2i − 2x

∑k

i=1fixi + x2

∑k

i=1fi

=∑k

i=1fix

2i − 2x x+ x2 =

∑k

i=1fix

2i − x2 = x2 − x2.

Marimeas =√s2

se numeste abaterea medie patratica empirica (sau deviatia standard em-pirica).

Dispersia (sau varianta) empirica modificata este numarul

(1.7) (s∗)2 =n

n− 1s2 =

∑ki=1 ni (xi − x)2

n− 1,

unde n este volumul selectiei.

Page 13: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 9

Avem deci si formula de calcul

(1.8) (s∗)2 =nx2 − nx2

n− 1=n∑ki=1 nix

2i

n − nx2

n− 1=

∑ki=1 nix

2i − nx2

n− 1.

Abaterea empirica modificata (sau deviatia standard empirica modificata)este

s∗def==

√(s∗)2 .

O alta caracteristica importanta este

s∗xdef== ± s∗√

n.

Caracteristicile formei

Aceste caracteristici se refera la forma poligonului frecventelor absolute sirelative (sau a curbei de repartitie ın cazul variabilei aleatoare continue).Boltirea se masoara prin coeficientul de exces

EX = α4 − 3, unde α4 =ν ′4s4.

Acest coeficient se mai noteaza si cu γ1 si masoara gradul de turtire alpoligonului frecventelor relative sau al curbei repartitie fata de repartitianormala.

Mentionam ca o variabila aleatoare repartizata normal X ∼ N(m,σ2

)are EX = 0. Intr-adevar, vezi calculul de la Teoria Probabilitatilor,

ν ′4def== E [X − E (X)]4 = 3σ4

iar dispersia este s2 = σ2, deci

EX =ν ′4s4− 3 =

3σ4

(σ2)2 − 3 = 0.

Din acest motiv graficul repartitiei normale este curba cu care se comparatoate repartitiile.

Daca EX > 0 sau echivalent α4 > 3 atunci curba este mai ascutita decatcurba corespunzatoare densitatii repartitiei normale.

Daca EX < 0 sau echivalent α4 < 3 atunci curba este mai turtita decatcurba corespunzatoare densitatii repartitiei normale.

Page 14: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

10 1. Statistica descriptiva

Asimetria se masoara prin coeficientul de asimetrie

γ2 =ν ′3s3,

adica γ2 = α3. Mentionam ca abaterea s este ıntotdeauna pozitiva (fiindradicalul dispersiei) iar ν ′3 poate fi pozitiv sau negativ dupa cum abaterilexi−x care predomina sunt pozitive, respectiv negative. Repartitia statisticanormala are γ2 = 0 sau echivalent α3 = 0.

Daca γ2 < 0 atunci repartitia este cu asimetrie negativa (curba prezintaasimetrie spre stanga), iar daca γ2 > 0 atunci repartitia este cu asimetriepozitiva.

Evident simetria curbei este data de raportarea la dreapta x = x. Curbarepartitiei normale X ∼ N

(m,σ2

)are drept axa de simetrie dreapta x =

m = E (X) .

Exercitiul 1.10 Sa presupunem ca un aparat de masurare este utilizat pentru aciti o distanta de 12 de ori. Se obtin valorile:

0.20, 0.10, 0.35, 0.25, 0.13, 0.20, 0.10, 0.20, 0.25, 0.20, 0.30, 0.35.

Datele sunt colectate in tabelul de mai jos:(0.10 0.13 0.20 0.25 0.30 0.35

2 1 4 2 1 2

)Obtinem deci

X∗ :

(0.10 0.13 0.20 0.25 0.30 0.352/12 1/12 4/12 2/12 1/12 2/12

)Amplitudinea este 0.35− 0.10 = 0.25.

Mediana este o valoare situata ıntre a sasea si a saptea, adica media aritmetica0.20+0.25

2 = 0.225.

Moda (valoarea modala) este 0.20.Media de selectie (sau media aritmetica( este data de

x =∑6

i=1fixi = 0.22

sau echivalent

x =

∑6i=1 nixi

20.

Page 15: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 11

Dispersia (sau varianta) empirica este data de formula

s2 def==

1

12

∑6

i=1ni (xi − x)2 =

∑6

i=1fi (xi − x)2 = 0.00643,

deci abaterea empirica este s =√s2 ' 0.0802.

Pe de alta parte dispersia empirica modificata este numarul

(s∗)2 =12

11s2 =

12

110.00643 = 0.0070244 .

In plus abaterea empirica modificata este

s∗def==

√(s∗)2 ' 0.083811.

Mai trebuie facut graficul poligonului frecventelor relative.Se poate scrie si functia empirica de repartitie F (x) (care este o functie ın

scara).

Exercitiul 1.11 Sa presupunem ca un aparat de masurare este utilizat pentru aciti o distanta de 20 de ori. Datele sunt colectate in tabelul de mai jos:

(1.9)

22.7 25.4 22.0 20.5 22.522.3 24.2 24.7 23.5 23.125.5 24.7 23.1 22.0 23.823.8 24.4 23.7 23.8 22.6

Aceste citiri reprezinta multimea de date. O prima analiza a lor din punct de vederenumeric poate fi facuta calculand amplitudinea. Vedem din tabel ca amplitudineaeste 25.5− 20.5 = 5.0.

Sa consideram ın continuare datele de mai sus puse ın ordine crescatoare.

(1.10)

20.5 22.0 22.0 22.3 22.522.6 22.7 23.1 23.1 23.523.7 23.8 23.8 23.8 24.224.4 24.7 24.7 25.4 25.5

Putem determina imediat mediana. In cazul nostru mediana este data de o valoaresituata ıntre a zecea si a unsprezecea valoare, adica media aritmetica 23.5+23.7

2 (sepoate considera drept mediana si una dintre cele doua valori).

Moda este valoarea 23.8 (valoarea cu frecventa cea mai mare).

Page 16: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

12 1. Statistica descriptiva

Variabila empirica (de selectie) X∗ va avea tabloul

(1.11)X∗ :

(20.5 22.0 22.3 22.5 22.6 22.7 23.1 23.5 23.70.05 0.1 0.05 0.05 0.05 0.05 0.1 0.05 0.05

23.8 24.2 24.4 24.7 25.4 25.50.15 0.05 0.05 0.1 0.05 0.05

)

Momentul empiric de ordin 1 (sau media empirica sau media aritmetica) este datade

x =∑15

i=1fixi

= 0.05 · 20.5 + 0.1 · 22.0 + 0.05 · 22.3 + 0.05 · 22.5 + 0.05 · 22.6 + 0.05 · 22.7

+0.1 · 23.1 + 0.05 · 23.5 + 0.05 · 23.7 + 0.15 · 23.8 + 0.05 · 24.2 + 0.05 · 24.4

+0.1 · 24.7 + 0.05 · 25.4 + 0.05 · 25.5

= 23.415

sau echivalent

x =

∑15i=1 nixi

20

=20.5 + 2 · 22.0 + 22.3 + 22.5 + 22.6 + 22.7 + 2 · 23.1 + 23.5 + 23.7 + 3 · 23.8

20

+24.2 + 24.4 + 2 · 24.7 + 25.4 + 25.5

20=

468.3

20= 23.415

unde xi sunt valorile citite din tabloul (1.11).Echivalent x este media aritmetica a tuturor valorilor citite (valori ce

se pot repeta),

x =

∑20i=1 xi20

,

unde xi sunt valorile din tabelul (1.9).Dispersia (sau varianta) empirica este data de formula

s2 def==

1

20

∑15

i=1ni (xi − x)2 =

∑15

i=1fi (xi − x)2 .

Page 17: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 13

Este util sa scriem mai ıntai un tabel cu diferentele1 xi − x si (xi − x)2 :

xi Frecventa abs. ni Frecventa rel. fi xi − x (xi − x)2

20.5 1 0.05 = 1/20 −2.915 8.4972

22.0 2 0.1 = 2/20 −1.415 2.0022

22.3 1 0.05 = 1/20 −1.115 1.2432

22.5 1 0.05 = 1/20 −0.915 0.8372

22.6 1 0.05 = 1/20 −0.815 0.6642

22.7 1 0.05 = 1/20 −0.715 0.5112

23.1 2 0.1 = 2/20 −0.315 0.0992

23.5 1 0.05 = 1/20 0.085 0.0072

23.7 1 0.05 = 1/20 0.285 0.0812

23.8 3 0.15 = 3/20 0.385 0.1482

24.2 1 0.05 = 1/20 0.785 0.6162

24.4 1 0.05 = 1/20 0.985 1.97

24.7 2 0.1 = 2/20 1.285 1.6512

25.4 1 0.05 = 1/20 1.985 3.9402

25.5 1 0.05 = 1/20 2.085 4.3472

20 1 = 20/20

Deci, calculand obtinem valoarea dispersiei empirice

s2 = 1.4832

iar abaterea medie patratica empirica este

s =√s2 =

√1.4832 = 1, 2178 .

Pe de alta parte dispersia empirica modificata este numarul

(s∗)2 =n

n− 1s2 =

20

191.4832 = 1.5612 .

1Diferentele de tipul xi − x se numesc deviatia de la medie iar suma tuturor, pentrui = 1, n , este nula, deoarece∑n

i=1(xi − x) =

∑n

i=1xi −

∑n

i=1x = nx− nx = 0.

Page 18: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

14 1. Statistica descriptiva

In plus abaterea empirica modificata este

s∗def==

√(s∗)2 = 1.2494 .

Remarca 1.12 In toate tabele si formulele de mai sus putem lasa toate valorile xichiar daca se repeta (deci n = 20 ın acest caz). Atunci frecventa relativa a fiecareivalori va fi aceeasi fi = 1/20 = 0.05 si frecventa absoluta a fiecarei valori va fiaceeasi ni = 1. Formula pentru s2 devine

s2 def==

1

n

∑n

i=1(xi − x)2 =

1

20

∑20

i=1(xi − x)2

iar

(s∗)2 =

∑ni=1 (xi − x)2

n− 1=

∑ni=1 x

2i − 2

∑ni=1 xix+

∑ni=1 x

2

n− 1

=

∑ni=1 x

2i − 2x

∑ni=1 xi + nx2

n− 1=

∑ni=1 x

2i − 2nx · x+ nx2

n− 1

=

∑ni=1 x

2i − nx2

n− 1=

∑20i=1 x

2i − 20x2

n− 1,

adica obtinem urmatoarea formula de calcul a dispersiei empirice modificate(vezi si formula (1.8)):

(1.12) (s∗)2 =

∑ni=1 x

2i − nx2

n− 1.

Daca grupam datele ın clase de lungimi egale atunci lungimea clasei va fi am-plitudinea ımpartita la numarul claselor. Sa ımpartim datele ın 5 clase. Atuncilungimea va fi de 5/5 = 1. deci vom avea intervalele

Clasa Frecventa absoluta a clasei Frecventa relativa a clasei

[20.5; 21.5) 1 0.05 = 1/20

[21.5; 22.5) 4 0.2 = 4/20

[22.5; 23.5) 5 0.25 = 5/20

[23.5; 24.5) 6 0.3 = 6/20

[24.5; 25.5) 4 0.25 = 4/20

1 = 20/20

Remarca 1.13 (Justificarea definirii dispersiei empirice modificate (vezi (1.8)si (1.12) precum si Teorema 2.13).

Page 19: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 15

Sa notam cu µmedia ıntregii populatii (o valoare teoretica ce, ın general,nu poate fi determinata de fapt) iar σ2 dispersia ıntregii populatii care arevolumul N, adica

σ2 =

∑Ni=1 (xi − µ)2

N.

Sa consideram un esantion de volum n.Are loc evident

(xi − µ)2 = (xi − x)2 + 2 (xi − x) (x− µ) + (x− µ)2

deci∑n

i=1(xi − µ)2 =

∑n

i=1(xi − x)2 + 2

n∑i=1

(xi − x) (x− µ) +∑n

i=1(x− µ)2

=∑n

i=1(xi − x)2 + 2 (x− µ)

∑n

i=1(xi − x) + n (x− µ)2

=∑n

i=1(xi − x)2 + 2 (x− µ)

(∑n

i=1xi −

∑n

i=1x)

+ n (x− µ)2

=∑n

i=1(xi − x)2 + 2 (x− µ) (nx− nx) + n (x− µ)2

=∑n

i=1(xi − x)2 + n (x− µ)2 .

Obtinem∑n

i=1(xi − x)2 =

∑n

i=1(xi − µ)2 − n (x− µ)2 , i = 1, n .

Pe de o parte, avem ca termenul∑n

i=1 (xi − µ)2 va fi, pentru n foarte mare

(apropiat de valoarea N ), aproximat de nσ2, adica σ2 '∑ni=1(xi−µ)2

n .

Pe de alta parte, (x− µ)2 aproximeaza dispersia variabila aleatoare Xdef==∑n

i=1Xin care este data de

D2(X)

= D2

(∑ni=1Xi

n

)=

1

n2

∑n

i=1D2 (Xi) =

nσ2

n2=σ2

n,

deci termenul n (x− µ)2 va fi, pentru n foarte mare, aproximat de numaruln σ2

n = σ2.Deci, pentru n foarte mare,

(s∗)2 =

∑ni=1 (xi − x)2

n− 1' nσ2 − σ2

n− 1= σ2,

adica dispersia empirica modificata aproximeaza mai bine dispersia σ2 apopulatiei (decat dispersia empirica s2 data de definitia (1.6)).

Page 20: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

16 1. Statistica descriptiva

Exercitiul 1.14 Presupunem ca au fost obtinute urmatoarele valori ın urma a 15citiri a unei distante cu ajutorul unui aparat de masurare:

212.22 212.25 212.23 212.15 212.23212.11 212.29 212.34 212.22 212.24212.19 212.25 212.27 212.20 212.25

Avand ın vedere ca media X este repartizataN(0, σ2

), mentionam ca ın acest caz

avem relatia E′δ = Eδ s∗ , cu δ ∈ (0, 1) , unde E′δ este dat de relatia

P(|X − x| ≤ E′δ

)= δ ⇔ P

(x− E′δ ≤ X ≤ x+ E′δ

)= δ.

(i) Calculati media empirica, dispersia empirica modificata, abaterea empirica mo-dificata precum si E0.5 , E0.95 .

(ii) Ce procent din cele 15 observatii sunt ın intervalul (x− s∗, x+ s∗)? Inter-pretati rezultatul.(iii) Ce procent din cele 15 observatii se afla ın intervalul (x− E′0.5, x+ E′0.5)?dar ın intervalul (x− E′0.95, x+ E′0.95)? Interpretati rezultatul.

Rezolvare:(i) Obtinem

x =1

15

∑15

i=1xi =

3183.439

15= 212.23,

s2 =1

15

∑15

i=1(xi − x)2 =

0.0421

15= 0.002806, s =

√s2 = 0.05297,

(s∗)2 =15

15− 1s2 =

1

14

∑15

i=1(xi − x)2 =

0.0421

14= 0.003007,

s∗ =

√(s∗)2 = 0.05483

siE′0.50 = 0.6745 · s∗ = 0.6745 · 0.05483 = 0.03698

E′0.95 = 1.960 · s∗ = 1.960 · 0.05483 = 0.10747.

(ii) Intervalul este

(x− s∗, x+ s∗) = (212.23− 0.0548, 212.23 + 0.0548) = (212.175, 212.284)

ın care se gasesc 11 valori din esantion, adica 1115 · 100 = 73.33% .

Dar, teoretic, ın intevalul (x− s∗, x+ s∗) se gasesc 68.26% dintre valori,deoarece

P (|X| ≤ σ) = 0.6826.

Page 21: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 17

Diferenta vine deoarece avem un numar mic de date. Cu cat volumul esantionuluiva fi mai mare, cu atat numarul de valori din intervalul (x− s∗, x+ s∗) va fi maiaproape de procentul de 68.26% dintre valorile citite.(iii) Intervalul este(

x− E′0.50, x+ E′0.50

)= (212.23− 0.03698, 212.23 + 0.03698)

= (212.1930, 212.2669) .

Teoretic, ın intevalul (x− E′0.50, x+ E′0.50) se gasesc 50% dintre valori, deoarece

P(|X| ≤ E′0.50

)= 0.50.

1.3.2 Momente ale unei variabile aleatoare discrete

FieX o variabila aleatoare (v.a.) discreta cu un numar finit de valori, avandtabloul de repartitie

X :

(x1 x2 · · · xnp1 p2 · · · pn

)unde pi ≥ 0, i = 1, n, si

∑ni=1 pi = 1.

NumarulE (X) =

∑n

i=1pixi

este valoarea medie a v.a. X sau media v.a. X .Daca X este o v.a. discreta cu un numar infinit de valori, avand tabloul

de repartitie

X :

(x1 x2 · · · xn · · ·p1 p2 · · · pn · · ·

)unde pi ≥ 0, i ∈ N∗,

∑∞i=1 pi = 1, atunci media v.a. X este definita de

E (X) =∑∞

i=1pixi .

Propozitia 1.15 (Proprietati ale mediei) Pentru orice a, c ∈ R si orice v.a.X,Y au loc urmatoarele:(i) valoarea medie a unei constante este egala cu constanta:

X :

(c1

)⇒ E (X) = c;

(ii)

E (a+X) = a+ E (X) ;

Page 22: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

18 1. Statistica descriptiva

(iii)

E (aX) = aE (X) ;

(iv)

E (X + Y ) = E (X) + E (Y ) ;

(v) media produsului a doua v.a. independente este produsul mediilor variabilelorconsiderate, i.e.

E (XY ) = E (X) E (Y ) .

Demonstratie. (v) Deoarece X,Y sunt independente avem ca

E (XY ) =∑

i,jxiyjpij =

∑i,jxiyjP (X = xi, Y = yj)

=∑

i,jxiyjP ({X = xi} ∩ {Y = yj})

=∑

i,jxiyjP (X = xi) P (Y = yj) =

∑i,jxiyjpiqj =

∑ixipi

∑jyjqj

= E (X) E (Y ) .

Se numeste moment initial de ordin r al v.a. X , media v.a. Xr. Vomnota

µrdef== E (Xr) =

∑ipix

ri .

Evident momentul initial de ordin 1 este exact media v.a. X .Se numeste moment absolut de ordin r al v.a. X , media v.a. |X|r. Vom

notaλr

def== E (|X|r) =

∑ipi |xi|r .

Se numeste valoarea medie de ordin r al v.a. X , numarul

mr = [E (Xr)]1/r .

In particular, obtinem

(i) m1 = µ1 = E (X) .

(ii) m2 =õ2 =

√∑i pix

2i (este valoarea medie patratica a lui X).

(iii) m−1 =[E(X−1

)]−1= 1∑

i pi1xi

= 1∑ipixi

(este media armonica).

(iv) m0def== limr→0mr = limr→0 [p1x

r1 + p2x

r2 + · · ·+ pnx

rn]1/r .

Page 23: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 19

Remarca 1.16 Calculam valoarea lnm0 aplicand L’Hospital:

ln (m0) = limr→0ln (p1x

r1 + p2x

r2 + · · ·+ pnx

rn)

r

= limr→0[ln (p1x

r1 + p2x

r2 + · · ·+ pnx

rn)]′

1= limr→0

[p1xr1 + p2x

r2 + · · ·+ pnx

rn]′

p1xr1 + p2xr2 + · · ·+ pnxrn

= limr→0p1x

r1 lnx1 + p2x

r2 lnx2 + · · ·+ pnx

rn lnxn

p1xr1 + p2xr2 + · · ·+ pnxrn

=p1 lnx1 + p2 lnx2 + · · ·+ pn lnxn

p1 + p2 + · · ·+ pn=

ln [(x1)p1 (x2)p2 · · · (xn)pn ]

1

= ln [(x1)p1 (x2)p2 · · · (xn)pn ] ,

deoarece (xr1)′r =(elnxr1

)′r

=(er lnx1

)′r

= er lnx1 lnx1 = xr1 lnx1 .

Se numeste momentul centrat de ordin r al v.a. X , media v.a. (X − µ1)r.Vom nota

νrdef== E [(X − µ1)r] =

∑ipi (xi − µ1)r .

Se numeste dispersia v.a. X , momentul centrat de ordin 2 al v.a. X , adica

σ2 = D2 (X)def== ν2 = E (X − µ1)2 , unde µ1 = E (X) .

Mediana v.a. X (notata cume) este valoarea v.a. X care ımparte valorile luiX ın doua parti egale:

me =

xk+1 , daca n = 2k + 1,

xk + xk+1

2, daca n = 2k.

Moda este valoarea pe care o ia X cu probabilitatea cea mai mare.

1.3.3 Momente ale unei variabile aleatoare continue

Fie X o v.a. continua cu densitatea de probabilitate f (x).Numarul

E (X) =

∫ ∞−∞

xf (x) dx

este media v.a. X .Proprietatile mediei sunt aceleasi din cazul discret (vezi Propozitia 1.15).

Page 24: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

20 1. Statistica descriptiva

Se numeste moment initial de ordin r al v.a. X , media v.a. Xr. Vomnota

µrdef== E (Xr) =

∫ ∞−∞

xrf (x) dx .

Evident momentul initial de ordin 1 este exact media v.a. X .In particular,

µ2 = E(X2)

=

∫ ∞−∞

x2f (x) dx .

Se numeste momentul centrat de ordin r al v.a. X , media v.a. (X − ν1)r.Vom nota

νrdef== E [(X − µ1)r] =

∫ ∞−∞

(x− µ1)r f (x) dx .

In particular,

ν2 = E[(X − µ1)2

]=

∫ ∞−∞

(x− µ1)2 f (x) dx .

Se numeste dispersia v.a. X , momentul centrat de ordin 2 al v.a. X , adica

σ2 = D2 (X)def== ν2 = E (X − µ1)2 , unde µ1 = E (X) .

Remarca 1.17 Avand ın vedere calculul

D2 (X) = E (X − µ1)2 =

∫R

(x− µ1)2 f (x) dx

=

∫Rx2f (x) dx− 2

∫Rµ1xf (x) dx+

∫Rµ2

1f (x) dx

=

∫Rx2f (x) dx− 2µ1

∫Rxf (x) dx+ µ2

1

∫Rf (x) dx

= E(X2)− 2µ1E (X) + µ2

1 = E(X2)− µ2

1,

obtinem o formula foarte utila ın calcule:

D2 (X) = E(X2)− (E (X))2 .

Propozitia 1.18 (Proprietati ale dispersiei) Pentru orice a, c ∈ R si orice v.a.X,Y au loc urmatoarele:(i) dispersia unei constante este nula,

D2 (c) = E(c2)− (E (c))2 = c2 − c2 = 0;

Page 25: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

1.3. Momente statistice asociate unei variabile 21

(ii)D2 (aX) = a2D2 (X) ,

deoarece

D2 (aX) =

∫R

[ax− E (aX)]2 f (x) dx = a2

∫R

[x− E (X)]2 f (x) dx = a2D2 (X) ;

(iii) dispersia sumei a doua v.a. independente este suma dispersiei variabilelorconsiderate

D2 (X + Y ) = D2 (X) +D2 (Y ) .

Intr-adevar,

D2 (X + Y ) = E(

(X + Y )2)− (E (X + Y ))2

= E(X2)

+ 2E (XY ) + E(Y 2)− (EX)2 − 2E (X) E (Y )− (EY )2

= E(X2)

+ E(Y 2)− (EX)2 − (EY )2 = D2 (X) +D2 (Y ) .

De obicei gradul de ımprastiere a valorilor unei v.a. X se exprima

nu prin dispersie ci prin abaterea medie patratica notata σdef== D (X), si

definita deσ = D (X) =

√D2 (X).

Aceasta are avantajul ca se exprima prin aceleasi unitati de masura ca sivalorile v.a. X .

Propozitia 1.19 (Proprietati ale abaterii medii patratice) Pentru orice a, c ∈R si orice v.a. X au loc urmatoarele:(i) D (c) = 0.(ii) D (aX) = |a|D (X) .

Teorema 1.20 (Inegalitatea lui Cebasev) Fie X o v.a. care admite media m sidispersia σ2 finite. Atunci oricare ar fi ε > 0, are loc inegalitatea

P (|X −m| < ε) ≥ 1− σ2

ε2.

Evident, urmatoarea forma este echivalenta.

Corolarul 1.21 Fie X o v.a. care admite media m si dispersia σ2 finite. Atuncioricare ar fi ε > 0, are loc inegalitatea

P (|X −m| ≥ ε) ≤ σ2

ε2.

Page 26: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

22 1. Statistica descriptiva

O forma des ıntalnita ın aplicatii este urmatoarea consecinta:

Corolarul 1.22 Fie X o v.a. care admite media m si dispersia σ2 finite. Atunciluand ın inegalitatea lui Cebasev ε = kσ, obtinem inegalitatea

P (|X −m| < kσ) ≥ 1− 1

k2, pentru orice k > 0

(sau echivalent P (|X −m| ≥ kσ) ≤ 1k2

).

Page 27: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Capitolul 2

Elemente de teoria selectiei si aestimatiei

Acest capitol face tranzitia spre statistica inferentiala. Daca avem un e-santion de n observatii din cadrul unei populatii, dorim sa obtinem es-timari pentru media µ a ıntregii populatii, dispersia σ2 a ıntregii populatii,deviatia standard σ a ıntregii populatii etc. Dar avand ın vedere ca esanti-onul de n date este extras la ıntamplare din populatie este evident ca me-dia empirica x, dispersia empirica s2 si deviatia standard empirica s vor fidiferite de la un esantion la altul. Ne intereseaza comportamentul acestorestimatori la esantioane diferite.

Presupunem ca o populatie are urmatoarele 100 de valori:

18.2 26.4 20.1 29.9 29.8 26.6 26.2 25.7 25.2 26.326.7 30.6 22.6 22.3 30.0 26.5 28.1 25.6 20.3 35.522.9 30.7 32.2 22.2 29.2 26.1 26.8 25.3 24.3 24.429.0 25.0 29.9 25.2 20.8 29.0 21.9 25.4 27.3 23.438.2 22.6 28.0 24.0 19.4 27.0 32.0 27.3 15.3 26.531.5 28.0 22.4 23.4 21.2 27.7 27.1 27.0 25.2 24.024.5 23.8 28.2 26.8 27.7 39.8 19.8 29.3 28.5 24.722.0 18.4 26.4 24.2 29.9 21.8 36.0 21.3 28.8 22.828.5 30.9 19.1 28.1 30.3 26.5 26.9 26.6 28.2 24.225.5 30.2 18.9 28.9 27.6 19.6 27.9 24.9 21.3 26.7

Media (notata µ) si dispersia (notata σ2) acestei populatii sunt 26.1 respec-tiv 17.5.

23

Page 28: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

24 2. Elemente de teoria selectiei si a estimatiei

Alegand la ıntamplare 10 valori din tabelul de mai sus putem obtine oestimare a mediei si dispersiei (adica media si dispersia empirica, notate xsi s2). Evident aceste valori vor fi estimatori ale valorilor teoretice µ si σ2

(nu vor coincide cu acestea). De asemenea, prin selectarea altor 10 valorivom obtine alta medie si dispersie x, s2.

Daca volumul selectiei creste atunci este de asteptat ca x, s2 sa se apropiede valorile teoretice µ si σ2 (cu cat volumul se apropie mai mult de 100, cuatat x si s2 se apropie mai mult de µ = 26.1 si σ2 = 17.5).

In tabelul de mai jos putem vedea acest lucru (s-au luat la ıntamplareselectii de volum 10, 20, etc. iar aceste selectii de diverse volume nu maisunt mentionate):

No. x s2

10 26.9 28.120 25.9 21.930 25.9 20.040 26.5 18.650 26.6 20.060 26.4 17.670 26.3 17.180 26.3 18.490 26.2 17.8

100 26.1 17.5

Avand ın vedere ca x si s2 sunt calculate plecand de la niste variabile ale-atoare (deoarece x =

∑ni=1 xin iar xi sunt alese aleator), obtinem ca x si s2

sunt si ele, la randul lor, niste variabile aleatoare Deci chiar daca volumul neste mentinut constant pot exista variatii ale mediei si dispersiei empirice.Pentru aceasta vezi tabelul de mai jos:

Set 1: 29.9 18.2 30.7 24.4 36.0 25.6 26.5 29.9 19.6 27.9

Set 2: 26.9 28.1 29.2 26.2 30.0 27.1 26.5 30.6 28.5 25.5

Set 3: 32.2 22.2 23.4 27.9 27.0 28.9 22.6 27.7 30.6 26.9

Set 4: 24.2 36.0 18.2 24.3 24.0 28.9 28.8 30.2 28.1 29.0

cuSet 1: x = 26.9 s2 = 28.1

Set 2: x = 27.9 s2 = 2.9

Set 3: x = 26.9 s2 = 10.9

Set 4: x = 27.2 s2 = 23.0 .

Page 29: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

25

Fluctuatiile care se vad ın tabelul de mai sus ridica urmatoarea problema:ın ce masura valorile x si s2 estimeaza corect valorile reale ale mediei si dis-persiei? Remarcam ca ın primul si al treilea set media este mai apropiatade 26.1 dar dispersia este mare. In setul al doilea dipsersia este mai micadar ın schimb media de 27.9 este destul de departe de valoarea 26.1. Evi-dent sunt de preferat datele obtinute ın urma unei selectii de volum cat maimare posibil.

Important ın acest sens vor fi estimatorii (vezi si definitia data de relatia(2.1)), adica functii care sa depinda de fiecare selectie ın parte.

In cadrul teoriei estimatiei foarte importante vor fi trei distributii:

• distributia “chi patrat” de parametrii n si σ, notata χ2 (n, σ) ,

• distributia Student de parametru n, notata t (n) si

• distributia Fisher de parametrii m si n, notata F (m,n) .

Pentru definitii ale acestora si diverse legaturi ıntre distributii vezi cur-sul de Teoria Probabilitatilor.

In general vorbind, fie P o populatie statistica si X o caracteristica can-titativa relativa la P . In cele mai multe cazuri repartitia teoretica a luiX nu este cunoscuta. Scopul statisticii este acela de a determina pe bazaexperientelor cu elemente din P (selectiilor din P) a legii de repartitie a luiX precum si a anumitor momente ale lui X (de exemplu, media si disper-sia). Acest lucru este posibil aplicand metoda selectiei sau a esantioanelor.

Daca numarul de elemente al multimii P este notat N , atunci ın urma an experiente obtinem rezultatele x1, . . . , xn, unde n este mult mai mic decatN si reprezinta volumul selectiei.

O selectie poate fi repetata (cu ıntoarcere) sau fara ıntoarcere (adica dacaelementul cercetat se pune la loc ın populatie sau nu).

Pentru a reflecta fidel proprietatile ıntregii populatii, o selectie trebuiesa ındeplineasca urmatoarele conditii: P sa fie cat mai omogena; n sa fie catmai mare; unitatile selectiei sa fie extrase la ıntamplare; fiecare unitate dinP sa aiba aceasi probabilitate (sansa) de a face parte din selectie.

In cadrul unei populatii P consideram, mai ıntai, o variabila aleatoareteoretica X , necercetata direct, care se refera la P ın totalitate, si apoi ovariabila aleatoare empirica (de selectie) X∗, ce ia valorile x1, . . . , xn, adica

X∗ :

(x1 x2 · · · xn

1/n 1/n · · · 1/n

).

Page 30: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

26 2. Elemente de teoria selectiei si a estimatiei

Dar valorile x1, . . . , xn sunt, teoretic vorbind, diferite de la un esantionla altul. Deci, avand ın vedere ca pentru un esantion de volum n alesla ıntamplare valorile x1, . . . , xn sunt si ele incerte (ınainte de citi efectivdatele), putem considera x1, . . . , xn ca valori pe care le iau n variabilelealeatoare independente X1, . . . , Xn , ce au aceeasi repartitie si anume re-partitia lui X . Deci, de exemplu, X1 este variabila aleatoare care are dreptvalori caracteristica x1 a primei unitati statistice dintr-un esantion ales laıntamplare si de volum n.

Atunci valorile x1, . . . , xn, observate ın urma selectiei, constitue valoa-rea observata a vectorului aleator n-dimensional (X1, . . . , Xn). Repetandselectia vom obtine diferite valori ale vectorului (X1, . . . , Xn).

Remarca 2.1 Fiecare moment empiric obtinut pe baza selectiei este valoarea uneianumite v.a. teoretice, valoare care variaza odata cu selectia.

De exemplu, media empirica

x =x1 + · · ·+ xn

n

reprezinta valoarea v.a.

Xdef==

X1 + · · ·+Xn

n,

si de aceea putem vorbi de x ca de o v.a.De asemenea, dispersia empirica

s2 =1

n

∑n

i=1(xi − x)2

este valoarea v.a.

S2 def==

1

n

∑n

i=1

(Xi − X

)2.

Problema esentiala este urmatoarea: ın ce masura anumite momenteale lui X∗ (media, dispersia etc.) pot reprezenta momente corespunzatoarepentru v.a. X . Astfel putem vorbi de doua directii de studiu: determinareatipului de repartitie teoretica si a parametrilor corespunzatori; si de deter-minarea unor indicatori numerici pentru v.a. teoretica X .

Sa mentionam ca uneori tipul de repartitie teoretica se cunoaste dinexperientele anterioare. Alteori tipul de repartitie teoretica se intuieste dinreprezentarea grafica a lui X∗, dupa care se face o ipoteza asupra legii,lucrand ın aceasta ipoteza (se vor verifica ipotezele statistice).

Page 31: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

27

Definitia 2.2 Numim statistica (sau functie de selectie) orice cantitate a careivaloare poate fi calculata din datele unui esantion. Avand ın vedere ca valoareaunei statistici depinde de alegerea esantionului, vedem statistica ca pe o variabilaaleatoare (si prin urmare va fi notata cu litera mare).

De exemplu, media empirica se va nota cu X iar valoarea ei corespun-zatoare unui anume esantion este x; similar, dispersia empirica se va notacu S2 iar valoarea ei corespunzatoare unui anume esantion se noteaza cus2.

Statistica, ca v.a., depinde nu doar de tipul de distributie al populatiei,de volumul esantionului ales dar si de metoda de alegere a esantionului.

Definitia 2.3 Spunem ca v.a. X1, . . . , Xn formeaza o selectie aleatoare (sauesantion aleator) de marime n daca v.a. X1, . . . , Xn sunt independente si dacaele urmeaza aceasi distributie (acelasi tip de repartitie). Mai precis, cerem ca fa-milia (Xi)i=1,n sa fie i.i.d. (independenta si identic distribuita).

Remarca 2.4 In cazul ın care avem o selectie aleatoare formata din v.a. X1, . . . , Xn

putem defini similar ca ın Sectiunea 1.3.1 conceptele:momentul de selectie de ordin r

µ′rdef==

∑ni=1X

ri

n,

media de selectie

Xdef==

X1 + · · ·+Xn

n,

momentul centrat de selectie de ordin r

ν ′rdef==

∑ni=1

(Xi − X

)rn

,

dispersia (sau varianta) de selectie

S2 def== ν ′2 =

∑ni=1

(Xi − X

)2n

,

abaterea (sau deviatia standard) de selectie

Sdef==√S2 ,

dispersia (sau varianta) modificata de selectie

(S∗)2 def==

n

n− 1S2 =

∑ni=1

(Xi − X

)2n− 1

,

Page 32: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

28 2. Elemente de teoria selectiei si a estimatiei

abaterea (sau deviatia standard) modificata de selectie

S∗def==

√(S∗)2 .

2.1 Problema estimatiei

Daca avem ın vedere un parametru al populatiei, cum ar fi media ıntregiipopulatii statistice µ sau dispersia ei σ2 (care sunt parametri ın cazul uneicaracteristici X distribuite normal), ne intereseaza estimarea acestuia folo-sind informatiile oferite de un esantion.

Fie o selectie aleatoare formata din v.a. X1, . . . , Xn .

Sa presupunem ın continuare ca avem o repartitie teoretica cu densi-tatea f (x, λ) cunoscuta, unde λ este un parametru legat de ea.

A estima parametrul λ ınseamna a determina o statistica (sau functiede selectie)

(2.1) λ∗n = ϕ (X1, . . . , Xn)

astfel ıncatλ∗n ' λ

ın diferite sensuri.

Definitia 2.5 λ∗n se numeste estimator consistent pentru λ daca

limn→∞ P (|λ∗n − λ| ≤ ε) = 1, pentru orice ε > 0.

Remarca 2.6 Deci λ∗n este estimator consistent daca

λ∗nP−−→ λ, pentru n→ +∞.

Remarca 2.7 O estimarea a lui λ va fi atunci valoarea estimatorului consistentλ∗n calculata ıntr-o selectie (x1, . . . , xn) fixata.

Definitia 2.8 λ∗n se numeste estimator corect pentru λ daca

limn→∞ E (λ∗n) = λ si limn→∞D2 (λ∗n) = 0.

Definitia 2.9 Diferenta δ = E (λ∗n) − λ se numeste deplasarea (sau distorsi-unea) estimatorului λ∗n .

Page 33: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 29

Definitia 2.10 Daca δ 6= 0 spunem ca estimatorul este deplasat. Estimatorulcorect este un estimator deplasat.

Definitia 2.11 λ∗n se numeste estimator absolut corect pentru λ daca

E (λ∗n) = λ si limn→∞D2 (λ∗n) = 0.

Deci δ = 0 si estimatorul absolut corect este nedeplasat.

Remarca 2.12 Din inegalitatea lui Cebasev se deduce imediat ca un estimatorabsolut corect este un estimator consistent.

Se cunosc doua tipuri de estimare: estimari punctuale si estimari prinintervale de ıncredere.

2.1.1 Estimari punctuale ale momentelor repartitiei teoretice

Se demonstreaza ca au loc urmatoarele estimari:

Teorema 2.13 Sa presupunem ca populatia statistica admite medie µ = E (X)si dispersie σ2 = D2 (X) (deci si selectia aleatoare X1, . . . , Xn admite medie sidispersie de selectie).(i) Media de selectie X este un estimator absolut corect al mediei teoretice µ.(ii) Dispersia de selectie modificata (S∗)2 este un estimator absolut corect al dis-persiei teoretice σ2.

(iii) Pentru r ∈ N∗ avem ca momentul de selectie de ordin r (notat µ′r) este unestimator absolut corect pentru momentul de ordin r (notat µr) al populatiei P.(iv) Pentru un x ∈ R fixat, functia de repartitie de selectie Fn (x) este un estimatorabsolut corect pentru functia de repartitie F (x) .

Demonstratie. (i) Fie Xdef== X1+···+Xn

n . Dar Xi sunt independente si auaceeasi distributie cu X , deci

E (Xi) = E (X)not== µ si D2 (Xi) = D2 (X)

not== σ2.

Atunci

E(X)

=

∑ni=1 E (Xi)

n=nE (X)

n= µ,

D2(X)

=

∑ni=1D

2 (Xi)

n2=nD2 (X)

n2=σ2

n→ 0, pentru n→∞.

Page 34: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

30 2. Elemente de teoria selectiei si a estimatiei

(ii) Fie

S2 def==

1

n

∑n

i=1

(Xi − X

)2= X2 − X2 =

1

n

∑n

i=1X2i − X2.

Dar Xi sunt independente si au aceeasi distributie cu X , deci

E (Xi) = E (X) = µ si D2 (Xi) = D2 (X) = σ2.

Utilizand relatia

D2 (X) = E(X2)− [E (X)]2 ⇔ E

(X2)

= D2 (X) + [E (X)]2 ,

obtinem ca

E(S2)

=1

n

∑n

i=1E(X2i

)− E

(X2)

=1

n

∑n

i=1

[D2 (Xi) + [E (Xi)]

2]−[D2(X)

+[E(X)]2]

=1

n

∑n

i=1

[σ2 + µ2

]−[σ2

n+ µ2

]=[σ2 + µ2

]−[σ2

n+ µ2

]= σ2 − σ2

n=n− 1

nσ2 =

n− 1

nD2 (X) .

Se poate justifica acum de ce s-a definit si disperia empirica modificata

(S∗)2 def==

n

n− 1S2.

AstfelE[(S∗)2

]=

n

n− 1E(S2)

=n

n− 1

n− 1

nσ2 = σ2.

Daca prespunem ın plus ca populatia statistica admite momentul centratν ′4 de ordin 4, atunci se poate demonstra urmatoarea identitate

D2[(S∗)2

]=

n2

(n− 1)2

ν ′4 − (ν ′2)2

n−

2(ν ′4 − 2 (ν ′2)2

)n2

+ν ′4 − 3 (ν ′2)2

n3

sau echivalent

D2[(S∗)2

]=

1

n

(µ′4 −

n− 3

n− 1

(ν ′2)2)

,

Page 35: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 31

deciD2[(S∗)2

]→ 0, pentru n→∞.

Am obtinut ca disperia empirica modificata (S∗)2 este un estimator ab-solut corect al dispersiei teoretice σ2 = D2 (X) (iar S2 nu este un estimatorabsolut corect al dispersiei teoretice).

Exercitiul 2.14 Sa se arate ca dispersia de selectie S2 este un estimator deplasatal dispersiei teoretice σ2 si determinati deplasarea.

Exercitiul 2.15 Sa se arate ca dispersia de selectie S2 este un estimator corect (darnu absolut corect) al dispersiei teoretice.

2.1.2 Estimari punctuale ale parametrilor repartitiei teoretice

Presupunem ca repartitia teoretica este cunoscuta (din cunoasterea ın an-samblu a fenomenului studiat sau ın urma unei ipoteze sugerata de grafice).Pentru ca repartitia teoretica sa fie complet determinata este necesar sacunoastem si valorile parametrilor de care depinde (de exemplu media µ sidispersia σ2 care sunt parametri ai repartitiei normale). Pentru estimareaacestor parametri avem la dispozitie doua metode.

Metoda verosimilitatii maxime Fie selectia aleatoare (X1, . . . , Xn) cu den-sitatea f(X1,...,Xn) (x1, . . . , xn, λ1, . . . , λk) (ın cazul v.a. continue sau functiade frecventa, ın cazul v.a. discrete), unde parametrii λ1, . . . , λk au valorinecunoscute.

Definitia 2.16 Functia

V (λ1, . . . , λk)def== f(X1,...,Xn) (x1, . . . , xn, λ1, . . . , λk) ,

unde x1, . . . xn sunt observatiile ın urma unei selectii de volum n, se numestefunctia de verosimilitate.

Remarca 2.17 Deoarece X1, . . . , Xn formeaza o selectie aleatoare, v.a. sunt inde-pendente si identic repartizate, i.e. fXi = fX , deci functia de verosimilitate este,ın cazul continuu,

V (λ1, . . . , λk)def==

∏n

i=1f (xi, λ1, . . . , λk) ,

unde f (xi, λ1, . . . , λk) := fX (xi, λ1, . . . , λk) ,

Page 36: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

32 2. Elemente de teoria selectiei si a estimatiei

iar ın cazul discret este

V (λ1, . . . , λk)def==

∏n

i=1p (xi, λ1, . . . , λk) ,

unde p (xi, λ1, . . . , λk) = P (X = xi) .

Definitia 2.18 Valorile λ∗i = ϕi (x1, . . . , xn) , i = 1, k , asociate lui λi pentrucare functia V ia valori maxime se numesc estimatori de maxima verosimili-tate.

Remarca 2.19 Cum V (λ1, . . . , λk) > 0 iar maximele functiei V coincid cu ma-ximele functiei lnV (deoarece ln este crescatoare) metoda va consta ın determinareapunctelor de maxim pentru lnV.

Etapele sunt urmatoarele:(i) calculam V (λ1, . . . , λk) si lnV (λ1, . . . , λk) cu ajutorul variabilelor de selectie;(ii) rezolvam sistemul de k ecuatii si k necunoscute

∂λi[lnV (λ1, . . . , λk)] = 0, i = 1, k ;

(iii) pentru solutia(λ0

1, . . . , λ0k

)gasita mai sus verificam conditia suficienta de

extrem

d2[lnV

(λ0

1, . . . , λ0k

)]este forma patratica negativ definita.

Remarca 2.20 Cand avem mai multe puncte de maxim se ia cel mai mare dintremaxime.

Remarca 2.21 Se poate demonstra ca, ın conditii destul de generale, estimatoriiλ∗i sunt consistenti pentru λi , i = 1, k .

Exercitiul 2.22 Intr-un esantion de 10 produse fabricate de o companie se observaca primul, al treilea si ultimul nu sunt conform standardelor. Stim ca probabili-tatea ca un produs sa nu fie conform standardelor este p.

Avand ın vedere esantionul observat, sa se obtina o estimare p∗ a valori para-metrului p.

Selectia aleatoare (X1, . . . , Xn) are densitatea data de f (p) := p·q·p·q·. . .·q·p(fiecare Xi sunt distribuite de tip Bernoulli, i.e. Xi ∼ B (1, p) , i = 1, 10 ), decifunctia de verosmilitate asociata esantionului observat este data de

V (p) := p3q7, q := 1− p.

Page 37: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 33

Sa studiem maximele functiei V care coincid cu maximele functiei

lnV (p) = 3 ln p+ 7 ln (1− p) .

Deoarece

∂p[lnV (p)] = 0 ⇔ 3

p− 7

1− p= 0 ⇔ p =

3

10,

obtinem punctul critic p∗ = 3/10.

Acesta e punct de maxim deoarece

∂2

∂p2[lnV (p∗)] = − 3

(p∗)2 −7

(1− p∗)2 < 0

(sau echivalent d2 [lnV (p∗)] este forma patratica negativ definita).Valoarea p∗ = 3/10 este deci estimatorul parametrului p al distributiei populatiei

si este valoarea care, pentru selectia

(x1, . . . , x10) = (1, 0, 1, 0, . . . , 0, 1)

data maximizeaza functia de verosmilitate V (p) .

Sa remarcam ca ın cazul ın care se observa ca ıntr-un esantion de 10 produse 3sunt neconforme standardelor (nu stim ordinea), obtinem ca functia de verosmili-tate este data de

V (p) := C310p

3q7, q := 1− p.

Maximul functiei V este ın acest caz tot p∗ = 3/10.

Exercitiul 2.23 Sa se estimeze, folosind metoda verosimilitatii maxime, parametrulλ al repartitiei exponentiale cu densitatea f (x) = λe−λx , λ > 0, x > 0, stiindca rezultatele obtinute ın urma efectuarii unei selectii de volum 5 sunt x1 = 7,x2 = 6.5, x3 = 6.9, x4 = 6.7, x5 = 6.8. Generalizati rezultatul si studiati dacaestimatorul gasit este sau nu deplasat.

Fiecare v.a. a selectiei aleatoare (X1, . . . , X5) are densitatea data de f (x) =λe−λx, λ > 0, x > 0, deci functia de verosmilitate asociata esantionului observateste data de

V (λ) :=∏5

i=1f (xi, λ) = λ5e−λ

∑5i=1 xi .

Sa studiem maximele functiei V care coincid cu maximele functiei

lnV (λ) = 5 lnλ− 33.9 · λ.

Page 38: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

34 2. Elemente de teoria selectiei si a estimatiei

Deoarece

∂λ[lnV (λ)] = 0 ⇔ 5

λ− 33.9 = 0 ⇔ λ =

5

33.9= 0.1475 ,

obtinem punctul critic

λ∗ = 0.1475 =1

33.95

=1

x.

Acesta e punct de maxim deoarece

∂2

∂λ2[lnV (λ∗)] = − 5

(λ∗)2 < 0

(sau echivalent d2 [lnV (λ∗)] este forma patratica negativ definita).

Numarul λ∗ = 0.1475 =1

xeste deci valoarea care, pentru selectia

(x1, . . . , x10) = (7, 6.5, 6.9, 6.7, 6.8)

data maximizeaza functia de verosmilitate V (λ) .

In general, pentru un esantion aleator (X1, . . . , Xn) , functia de verosmilitateasociata esantionului observat este data de

V (λ) :=∏n

i=1f (xi, λ) = λne−λ

∑ni=1 xi .

Se obtine ca estimatorul parametrului λ al distributiei populatiei este dat de punc-

tul de maxim λ∗ =1

X.

Deoarece E(X)

= E (X) =1

λ, obtinem ca

E (λ∗) 6= λ ⇔ E

(1

X

)6= 1

E(X) ,

deci λ∗ =1

Xeste un estimator deplasat.

Exercitiul 2.24 Sa se estimeze, folosind metoda verosimilitatii maxime, parametriiµ si σ2 ai repartitiei normale, cu densitatea

f (x) =1√

2πσ2e−

(x−µ)2

2σ2 .

Page 39: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 35

Fiecare v.a. a selectiei aleatoare (X1, . . . , Xn) are densitatea data de f (x) =

1√2πσ2

e−(x−µ)2

2σ2 , deci functia de verosmilitate asociata esantionului observat este

data de

V (µ, σ) :=∏n

i=1f(xi, µ, σ

2)

=1

(2πσ2)n/2e−

12σ2

∑ni=1(xi−µ)2 .

Sa studiem maximele functiei V care coincid cu maximele functiei

lnV (µ, σ) = −n2

ln(2πσ2

)− 1

2σ2

∑n

i=1(xi − µ)2 .

Deoarece∂

∂µ[lnV (µ, σ)] = 0,

∂σ[lnV (µ, σ)] = 0

1

σ2

∑n

i=1(xi − µ) = 0,

−nσ

+1

σ3

∑n

i=1(xi − µ)2 = 0

obtinem punctul critic

(µ∗, σ∗) =

∑ni=1 xin

,

√∑ni=1 (xi − x)2

n

= (x , s) .

Acesta e punct de maxim deoarece matricea Hessiana (care este matricea asociataformei patratice d2 [lnV (µ, σ)] ) are forma − n

σ2− 2

σ3

∑n

i=1(xi − µ)

− 2

σ3

∑n

i=1(xi − µ)

n

σ2− 3

σ4

∑n

i=1(xi − µ)2

care ın punctul critic are valoarea

− n

(σ∗)2 − 2

(σ∗)3

∑n

i=1(xi − µ∗)

− 2

(σ∗)3

∑n

i=1(xi − µ∗)

n

(σ∗)2 −3

(σ∗)4

∑n

i=1(xi − µ∗)2

=

− n

(σ∗)2 0

0 − 2n

(σ∗)2

2

Page 40: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

36 2. Elemente de teoria selectiei si a estimatiei

care este negativ definita.Se obtine ca estimatorul parametrilor µ si σ2 ai distributiei populatiei este dat

de punctul de maxim

µ∗ = X si respectiv (σ∗)2 = S2.

DeoareceE (µ∗) = µ ⇔ E

(X)

= E (X)

obtinem ca µ∗ = X este un estimator nedeplasat al lui µ.Deoarece

E(

(σ∗)2)

= E(S2)

=n− 1

nσ2 6= σ2 ⇔ E

((σ∗)2

)6= σ2

obtinem ca (σ∗)2 = S2 este un estimator deplasat al lui σ2.

Exercitiul 2.25 Sa se estimeze, folosind metoda verosimilitatii maxime, parame-trul λ al repartitiei cu densitatea f (x) = (1 + λ)xλ , λ > 0, x ∈ (0, 1) , stiindca rezultatele obtinute ın urma efectuarii unei selectii de volum 4 sunt x1 = 0.4,x2 = 0.6, x3 = 0.85, x4 = 0.9.

Functia de verosmilitate asociata esantionului observat este data de

V (λ) :=∏4

i=1f (xi, λ) = (1 + λ)4 (x1x2x3x4)λ .

Maximele functiei lnV (λ) = 4 ln (1 + λ) + λ∑4

i=1 lnxi sunt date de

∂λ[lnV (λ)] = 0 ⇔ 4

1 + λ+∑4

i=1lnxi = 0 ⇔ λ = −1− 4∑4

i=1 lnxi.

Deci punctul critic este

λ∗ = −1− 1

lnx.

Acesta e punct de maxim deoarece

∂2

∂λ2[lnV (λ∗)] = − 4

(1 + λ∗)2 < 0.

Exercitiul 2.26 Sa se estimeze, folosind metoda verosimilitatii maxime, parame-trul λ al repartitiei Poisson P (λ), considerandu-se o selectie de volum n. Aratatica estimatorul gasit este absolut corect.

Page 41: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 37

Fiecare v.a. a selectiei aleatoare (X1, . . . , Xn) are densitatea data de f (λ) =∏n

i=1

λki

(ki)!e−λ , deci functia de verosmilitate asociata esantionului observat este

data de

V (λ) :=∏n

i=1

λki

(ki)!e−λ =

λ∑ni=1 ki

k1! · . . . · k2!e−nλ .

Sa studiem maximele functiei

lnV (λ) =(∑n

i=1ki

)lnλ−

∑n

i=1ln (ki!)− nλ.

Luand∂

∂λ[lnV (λ)] =

(∑n

i=1ki

) 1

λ− n = 0,

obtinem punctul critic

λ∗ =

∑ni=1 kin

= x .

Acesta e punct de maxim deoarece

∂2

∂λ2[lnV (λ∗)] = −

(∑n

i=1ki

) 1

(λ∗)2 < 0.

Se obtine ca estimatorul parametrului λ al distributiei populatiei este dat de punc-tul de maxim

λ∗ = X .

DeoareceE (λ∗) = λ ⇔ E

(X)

= E (X) ,

obtinem ca λ∗ = X este un estimator nedeplasat al lui µ.Pe de alta parte,

D2 (λ∗) = D2(X)

=1

nD2 (X) =

1

nλ→ 0, pentru n→ +∞,

deci λ∗ = X este un estimator absolut corect pentru parametrul teoretic λ.

Metoda momentelor Fie selectia aleatoare (X1, . . . , Xn) asociata caracte-risticiiX a populatiei, cu densitatea fX (x, λ1, . . . , λk) (ın cazul v.a. continuesau functia de frecventa, ın cazul v.a. discrete), unde parametrii λ1, . . . , λkau valori necunoscute.

Presupunem ca exista si sunt finite momentele de ordin 1, 2, . . . , k (no-tate µ1, µ2, . . . , µk). Daca avem o selectia aleatoare, din faptul ca momentele

Page 42: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

38 2. Elemente de teoria selectiei si a estimatiei

de selectie de ordin r (notate µ′r) sunt estimatori absoluti corecti pentru mo-mentele teoretice de ordin r, putem scrie ca

µr (λ1, . . . , λk) ' µ′r , r = 1, k .

Deoarece momentele teoretice depind de parametrii λ1, . . . , λk, se pot gasiestimatori pentru acestia rezolvand sistemul

µr (λ1, . . . , λk) = µ′r , r = 1, k .

Acesta este un sistem de k ecuatii cu k necunoscute: λ1, . . . , λk .

Se arata ca solutia sistemului (λ∗1, . . . , λ∗k) este un estimator consistent

pentru (λ1, . . . , λk).

Remarca 2.27 Pentru estimarea punctuala a parametrilor unei repartitii exista simetoda celor mai mici patrate.

Exercitiul 2.28 Sa se estimeze, folosind metoda momentelor, parametrul λ al re-partitiei Poisson discrete si infinite P (λ), considerandu-se o selectie de volum n.Aratati ca estimatorul gasit este absolut corect.

Exercitiul 2.29 Fie selectia aleatoare X1, . . . , Xn data de timpul de servire a nclienti la un anumit ghiseu. Caracteristica X a populatiei se presupune ca estedistribuita de tip exponential de parametru λ. Sa se estimeze, folosind metoda mo-mentelor, parametrul λ al repartitiei.

Calculam momentul teoretic de ordin 1, adica media teoretica si obtinem

E (X) =1

λ.

Pe de alta parte, momentul de selectie de ordin 1 este

µ′1 =

∑ni=1Xi

n= X .

Egaland obtinem

λ =1

X,

deci estimatorul lui λ folosind metoda momentelor este

λ∗ =1

X.

Page 43: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 39

Exercitiul 2.30 Sa se estimeze, folosind metoda momentelor, parametrii v.a. uni-form distribuite ın intervalul [a, b] , ın urma obtinerii esantionului x1 = 3.1,x2 = 0.2, x3 = 1.6, x4 = 5.2, x5 = 2.1.

Fiecare v.a. a selectiei aleatoare (X1, . . . , X5) are densitatea data de f (x) =1

b− a, x ∈ [a, b] . Calculam momentele teoretice de ordinul 1 si 2 si obtinem

E (X) =a+ b

2si E

(X2)

=a2 + ab+ b2

3.

Pe de alta parte, momentele de selectie de ordin 1 si 2 sunt respectiv

µ′1 =

∑5i=1 xi5

= 2.44 si µ′2 =

∑5i=1 x

2i

5= 8.73.

Obtinem deci sistemul a+ b

2= 2.44,

a2 + ab+ b2

3= 8.73.

Decia2 + a (4.88− a) + (4.88− a)2 = 26.19

⇔ a2 − 4.88a+ (4.88)2 − 26.19 = 0

⇔ a2 − 4.88a− 2.3756 = 0,

care are solutiile

a1,2 =4.88±

√(4.88)2 − 4 · (−2.3756)

2=

4.88− 5.7721

2,

decia1 = 5.3261, a2 = −0.4461

si apoib1 = −0.4461, b2 = 5.3261.

Obtinem estimatorii a∗ = −0.4461 si b∗ = 5.3261.In cazul general al unei selectii aleatoare (X1, . . . , Xn) momentele de selectie

de ordin 1 si 2 sunt respectiv

µ′1 =

∑ni=1 xin

si µ′2 =

∑ni=1 x

2i

n.

Page 44: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

40 2. Elemente de teoria selectiei si a estimatiei

Obtinem deci sistemul a+ b

2= µ′1 ,

a2 + ab+ b2

3= µ′2 .

Decia2 + a

(2µ′1 − a

)+(2µ′1 − a

)2= 3µ′2

⇔ a2 − 2µ′1 a+ 4(µ′1)2 − 3µ′2 = 0,

care are solutiile

a1,2 =

2µ′1 ±√

(2µ′1)2 − 4 ·(

4 (µ′1)2 − 3µ′2

)2

= µ′1 ±√

3

√µ′2 − (µ′1)2 ,

deci alegem a = µ′1 −√

3√µ′2 − (µ′1)2 si apoi b = µ′1 +

√3√µ′2 − (µ′1)2 .

Obtinem estimatorii

a∗ = X −√

3√S2 = X −

√3S si b∗ = X +

√3√S2 = X +

√3S ,

deoarece media de selectieX = µ′1

iar dispersia de selectieS2 = ν ′2 = µ′2 −

(µ′1)2.

Exercitiul 2.31 Sa se estimeze, folosind metoda momentelor, parametrul m al v.a.X distribuite normal N

(m,σ2

).

Exercitiul 2.32 Sa se estimeze, folosind metoda momentelor, parametrii v.a. dis-tribuite de tip Gamma X ∼ Γ (p, λ) , cu densitatea

f (x) =1

Γ (p)xp−1e−λx ,

ın urma obtinerii esantionului x1 = 2.4, x2 = 2.7, x3 = 2.8, x4 = 2.2, x5 =2.4.

Conform calculelor din cadrul cursului de “Teoria Probabilitatilor” momenteleteoretice de ordinul 1 si 2 sunt date de

E (X) =p

λsi E

(X2)

=p (p+ 1)

λ2.

Page 45: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 41

Pe de alta parte, momentele de selectie de ordin 1 si 2 sunt respectiv

µ′1 =

∑5i=1 xi5

= 2.5 si µ′2 =

∑5i=1 x

2i

5= 6.298.

Obtinem deci sistemul p

λ= 2.5,

p (p+ 1)

λ2= 6.298.

Deci2.5 (2.5λ+ 1) = 6.298λ ⇔ λ = 52.083

iarp = 130.2075.

Obtinem estimatorii p∗ = 130.2075 si λ∗ = 52.083.

2.1.3 Estimari prin intervale de ıncredere ale momentelor repar-titiei teoretice

A estima prin intervale de ıncredere ınseamna a determina un interval (sinu o valoare) ın care se gaseste, cu o probabilitate data, valoarea teoreticaexprimata.

Fie selectia aleatoare (X1, . . . , Xn) asociata caracteristicii X a populatieisi fie λ valoarea teoretica ce dorim sa o estimam prin aceasta metoda.

Definitia 2.33 Se numeste interval de ıncredere pentru λ un interval de tipul(λ1, λ2) unde λi = ϕi (X1, . . . , Xn) , i = 1, 2 , cu proprietatea

P (λ1 < λ < λ2) = δ ' 1.

Numarulδ ' 1

se va numi nivel de ıncredere sau siguranta estimatiei.Numarul

α = 1− δ ' 0

se numeste prag de semnificatie.

Page 46: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

42 2. Elemente de teoria selectiei si a estimatiei

Intervale de ıncredere pentru media teoretica Fie X o caracteristica con-siderata, asociata unei populatii si consideram ca X ∼ N

(m,σ2

). Deci

media E (X) = m si dispersia D2 (X) = σ2. Presupunem ca σ2 este cunos-cut.

Stim ca X ∼ N(m,σ2/n

)(vezi1 Exercitiul 11, Capitolul 4 din cadrul

Teoriei Probabilitatilor).Deci, conform2 Propozitiei 3.51 din cadrul Teoriei Probabilitatilor, vari-

abila aleatoare standardizataX−E(X)√D2(X)

va fi atunci repartizata normal stan-

dard, i.e.

(2.2) Zdef==

X − E(X)√

D2(X) =

X −mσ√n

=

√n

σ

(X −m

)∼ N (0, 1) .

Pentru a determina intervalul de ıncredere pentru m punem conditia

(2.3) P (|Z| < z) = δ ⇔ P

(∣∣∣∣X −mσ/√n

∣∣∣∣ < z

)= δ

cu δ cunoscut, adica vom obtine

2Φ (z)− 1 = δ ⇔ Φ (z) =1 + δ

2= 1− α

2,

deci valoarea z se va obtine din tabelele de valori ale distributiei N (0, 1) .

Remarca 2.34 De fapt, folosind notatii intuitive, avem ca valoarea z de mai suspoate fi scrisa astfel:

z = z1−α/2 .

Deci

|Z| < z1−α/2 ⇔∣∣∣ X−mσ/√n

∣∣∣ < z1−α/2 ⇔∣∣X −m∣∣ < σ√

nz1−α/2

⇔ − σ√nz1−α/2 < X −m <

σ√nz1−α/2 .

1Daca Xk ∼ N(m,σ2

), k = 1, n , sunt v.a. independente, atunci

Xn :=

∑nk=1Xk

n∼ N

(m,

σ2

n

).

2X ∼ N(m,σ2

)daca si numai daca v.a. standardizata

X −mσ

∼ N (0, 1) .

Page 47: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 43

Propozitia 2.35 In cazul ın care populatia are caracteristicaX ∼ N(m,σ2

)iar σ2 este cunoscut, intervalul de ıncredere pentru medie este dat de

(2.4) X − σ√nz1−α/2 < m < X +

σ√nz1−α/2 ,

unde z1−α/2 este valoarea data de

Φ(z1−α/2

)= 1− α

2.

Din graficul repartitiei normale standard se poate gasi interpretarea luiz1−α/2 . Astfel

P(|Z| < z1−α/2

)= δ ⇔

∫ z1−α/2

−z1−α/2

1√2πσ2

e−(x−m)2

2σ2 dx = δ.

Remarca 2.36 Fie a valoarea exacta a unei marimi. In acest caz m = E (a) = asi a valoarea aproximativa a acestei marimi (obtinuta cu ajutorul unui aparat).Faptul ca σ este cunoscut reprezinta precizia masuratorilor (siguranta aparatului).Intervalul de ıncredere pentru a este

a− σ√nz1−α/2 < a < a+

σ√nz1−α/2

deoarecea− aσ√n

∼ N (0, 1) .

O problema comuna care intervine ın practica este aceea de a deter-mina numarul minim de observatii necesare pentru a obtine o anumitaprecizie a rezultatelor. In acest sens utilizam tot relatia (2.3). Presupunemca sunt date δ, siguranta estimatiei, si ∆ (eroarea absoluta). Atunci

|a− a| < ∆.

Deci din|a− a| < σ√

nz1−α/2 ≤ ∆

obtinem

σ√nz1−α/2 ≤ ∆ ⇒

√n ≥ σ

∆z1−α/2 ⇒ n ≥

( σ∆z1−α/2

)2,

adica n este primul numar natural care verifica inegalitatea de mai sus.Remarcam ca eroarea absoluta ∆ reprezinta si jumatate din lungimea

intervalului de ıncredere(a− σ√

nz1−α/2 , a+ σ√

nz1−α/2

).

Page 48: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

44 2. Elemente de teoria selectiei si a estimatiei

Exemplul 2.37 Care este numarul de masuratori necesare pentru a obtine un in-terval de ıncredere de 95% cu o eroare absoluta de 2, stiind ca abaterea empiricamodificata a fost obtinuta si este de 2.6 ?

In cazul v.a. normale se stie ca (vezi cursul de “Teoria Probabilitatilor”) val-oarea E95 = 1.960σ (adica acea cantitate pentru care P (|X| < Eδ) = δ, undeX ∼ N

(0, σ2

)).

Obtinem ca n ∈ N trebuie sa verifice

n ≥( σ

∆z1−α/2

)2=

(2.6

21.960

)2

= 6.49.

Prin urmare vom lua n = 8 (vom lua de fapt un numar par de masuratori, iarprimul numar par care verifica inegalitatea de mai sus este 8).

Propozitia 2.38 In cazul ın care volumul selectiei n > 30, populatia arecaracteristica X care urmeaza o distributie oarecare, nu neaparat de tipnormal, iar σ2 este cunoscut, intervalul de ıncredere pentru medie este datde

X − σ√nz1−α/2 < m < X +

σ√nz1−α/2 ,

unde z1−α/2 este valoarea data de

Φ(z1−α/2

)= 1− α

2.

Aceasta are loc deoarece variabila aleatoare standardizataX−E(X)√D2(X)

este, conform

Teoremei Limita Centrala, repartizata normal standard N (0, 1) , pentru n mare.

In cazul ın care volumul selectiei n > 30, X repartitie oarecare si σnecunoscut consideram

σ2 ' (S∗)2 ,

unde

(S∗)2 =n

n− 1S2 ⇔ S∗ =

√n

n− 1S.

Propozitia 2.39 Relatia (2.4) ne da acum intervalul de ıncredere pentru medieın cazul ın care volumul selectiei n > 30, populatia are caracteristica Xcare urmeaza o distributie oarecare, nu neaparat de tip normal, iar σ2 estenecunoscut:

(2.5) X − S∗√nz1−α/2 < m < X +

S∗√nz1−α/2 .

Page 49: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 45

Exercitiul 2.40 In urma efectuarii unei selectii de volum 250 s-au obtinut x =126.18 si S∗ = 4.05. Determinati intervalul de ıncredere pentru media teoreticam corespunzatoare pragului de semnificatie α = 0.01.

In cazul ın care volumul selectiei n ≤ 30, X este repartizata N(m,σ2

)si σ necunoscut trebuie sa reamintim, mai ıntai, legatura dintre distributi-a normala si distributia χ2 precum si legatura dintre distributia normala,distributia χ2 si distributia Student (pentru demonstratii vezi Propozitia3.129 si Propozitia 3.132 din cadrul Teoriei Probabilitatilor).

Propozitia 2.41 Daca Ai sunt v.a. independente si normale de tip N(0, σ2

),

atunci

(2.6)∑n

i=1A2i ∼ χ2 (n, σ)

adica este distribuita χ2 (“hi patrat”) de parametrii n si σ.

Propozitia 2.42 Daca X ∼ N(0, σ2

)si Y ∼ χ2 (a, σ) sunt doua v.a. indepen-

dente, atunci distributia

Tdef==

X√Ya

∼ t (a) ,

adica T este distribuita Student de parametru a.

Aplicand acum Propozitia 2.41 si3 Propozitia 3.130 din cadrul TeorieiProbabilitatilor, deducem ca

Xi ∼ N(m,σ2

)⇔ (Xi −m) ∼ N

(0, σ2

)⇒

n∑i=1

(Xi −m)2 ∼ χ2 (n, σ)

iar

(2.7)

X ∼ N(m,

σ2

n

)⇔

(X −m

)∼ N

(0,σ2

n

)⇒

(X −m

)2 ∼ χ2

(1,

σ√n

)⇔ n

(X −m

)2 ∼ χ2

(1,√nσ√n

)= χ2 (1, σ) .

3X ∼ χ2 (n, σ) daca si numai daca aX ∼ χ2 (n,√a σ) , pentru orice a > 0.

Page 50: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

46 2. Elemente de teoria selectiei si a estimatiei

Pe de alta parte, avem ca

nS2 =∑n

i=1

(Xi − X

)2=∑n

i=1

[(Xi −m)−

(X −m

)]2=∑n

i=1

[(Xi −m)2 − 2 (Xi −m)

(X −m

)+(X −m

)2]=∑n

i=1(Xi −m)2 − 2

(X −m

)∑n

i=1(Xi −m) +

∑n

i=1

(X −m

)2=∑n

i=1(Xi −m)2 − 2

(X −m

) (∑n

i=1Xi − nm

)+ n

(X −m

)2=∑n

i=1(Xi −m)2 − 2n

(X −m

)2+ n

(X −m

)2,

deci, utilizand (2.6), (2.7) si4 Propozitia 3.82 din cadrul Teoriei Probabilitatilor,

(2.8)nS2 =

∑n

i=1(Xi −m)2 − n

(X −m

)2∼ χ2 (n, σ)− χ2 (1, σ) = χ2 (n− 1, σ) .

Pe de alta parte,

(X −m

)∼ N

(0,σ2

n

)⇔

√n(X −m

)∼ N

(0, σ2

).

Vom obtinem astfel ca variabila

(2.9) Tdef==

√n

S∗(X −m

)=

√n(X −m

)√nS2

n−1

∼ t (n− 1)

este distribuita Student de parametru n− 1.Acum avem din (2.3) si (2.9)

P

(∣∣∣∣√nS∗ (X −m)∣∣∣∣ < t

)= δ ⇔ P (|T | < t) = δ

P (|T | ≥ t) = α ⇔ 2P (T > t) = α.

deciP (T > t) = α/2

iar acum (spre deosebire de cazurile precedente ın care statistica T erarepartizata normal standard) valoarea t se va citi din tabelul distributieiStudent de parametru n− 1.

4Daca X1, X2 ∼ χ2 (ni, σ) , i = 1, 2 , sunt v.a. independente, atunci X1 + X2 ∼χ2 (n1 + n2, σ) .

Page 51: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 47

Remarca 2.43 De fapt, folosind notatii intuitive, avem ca valoarea t de mai suspoate fi scrisa astfel:

t = tα/2,n−1 .

Propozitia 2.44 In cazul ın care volumul selectiei n ≤ 30, populatia arecaracteristicaX ∼ N

(m,σ2

)iar σ2 este necunoscut, intervalul de ıncredere

pentru medie este dat de

(2.10) X − S∗√ntα/2,n−1 < m < X +

S∗√ntα/2,n−1 ,

unde valoarea tα/2,n−1 este citita din tabelul distributiei Student de parametrun− 1.

Exercitiul 2.45 In urma efectuarii unei selectii de volum 20 s-au obtinut mediaempirica x = 0.149 si abaterea empirica modificata S∗ = 0.048. Determinati in-tervalul de ıncredere pentru media teoreticam corespunzatoare pragului de semnificatieα = 0.05.

Exercitiul 2.46 In urma efectuarii unei selectii de volum 16 s-au obtinut mediaempirica x = 25.4 si abaterea empirica (nemodificata) S = 1.259. Determinatiintervalul de ıncredere pentru media teoretica m corespunzatoare nivelului deıncredere δ = 95%.

Determinati apoi intervalul de ıncredere pentru medie utilizand valoarea E95

(calculata pentru o v.a distribuita normal). Care interval de ıncredere este mai micsi de ce?Cititi tabelul repartitiei Student corespunzator la n = ∞ grade de libertate sicomparati cu valorile Eδ de la distribuitia normala.

Determinam intervalul de ıncredere pentru medie folosind tabelul repartitieiStudent deoarece suntem ın cazul n ≤ 30, dispersia teoretica σ2 este necunoscutaiar caracteristica X ∼ N

(m,σ2

).

Intervalul de ıncredere pentru medie este dat de:

x− S∗√ntα/2,n−1 < m < x+

S∗√ntα/2,n−1 ,

unde S∗ =√

nn−1 S =

√16151.259 = 1.3, pragul de semnificatie α = 0.05 iar

tα/2,n−1 = t0.025,15 este dat de

P

(∣∣∣∣√nS∗ (X −m)∣∣∣∣ < t

)= δ ⇔ P

(∣∣∣∣√nS∗ (X −m)∣∣∣∣ ≥ t) = α

⇔ P

(√n

S∗(X −m

)> t

)=α

2,

Page 52: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

48 2. Elemente de teoria selectiei si a estimatiei

adica citim din tabelul distributiei Student valoarea

t0.025,15 = 2.131.

Obtinem intervalul de ıncredere(25.4− 1.3√

162.131, 25.4 +

1.3√16

2.131

)= (24.71, 26.09) .

Precizam ca daca volumul selectiei ar fi mai mare, atunci am putea utiliza repartitianormala ın locul celei Student, deci ar fi utila valoarea E0.95 = 1.960 (vezi Exem-plul 3.58 din cadrul Teoriei Probabilitatilor) care verifica

P

(∣∣∣∣√nS∗ (X −m)∣∣∣∣ ≤ E0.95

)= δ,

deci obtinem intervalul

x− S∗√nE0.95 < m < x+

S∗√nE0.95

adica (25.4− 1.3√

161.96, 25.4 +

1.3√16

1.96

)= (24.76, 26.04) .

Deci intervalul obtinut ın cazul folosirii repartitiei normale este mai mic decat celobtinut ın cazul folosirii repartitiei Student. Aceasta este posibil deoarece folosirearepartitiei Student se face cand numarul de date citite (volumul esantionului) estemai mic.

Sa remarcam si faptul ca valorile tabelului Student corespunzatoare lui n =∞grade de libertate sunt exact cele din tabelul repartitiei normale. De exemplu,

tα/2,∞ = t0.025,∞ = 1.960 ≡ E0.95 = Eδ , cu δ = 1− α.

Similar avem valori identice si ın celelalte cazuri, de exemplu,

tα/2,∞ = t0.0005,∞ = 3.291 ≡ E0.999 = Eδ , cu δ = 1− α.

Intervale de ıncredere pentru dispersia teoretica Fie X o caracteristicaconsiderata asociata unei populatii si consideram ca X ∼ N

(m,σ2

). Deci

media E (X) = m si D2 (X) = σ2. Consideram statistica (sau functia deselectie)

(2.11) χ2 def==

nS2

σ2.

Page 53: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 49

Din proprietatea (2.8) deducem ca nS2 ∼ χ2 (n− 1, σ), deci χ2 va fi repar-tizata atunci (vezi Propozitia 3.130 din cadrul Teoriei Probabilitatilor)

(2.12) χ2 ∼ χ2 (n− 1, 1) .

Din conditia

(2.13) P

(χ2

1 <nS2

σ2< χ2

2

)= δ

se vor putea determina, utilizand tabelul distributiei χ2, valorile χ21 si χ2

2 ,unde δ este nivelul de ıncredere (sau siguranta estimatiei) ales.

Avem evident ca

δ = P

(χ2

1 <nS2

σ2< χ2

2

)= P

(nS2

σ2> χ2

1

)− P

(nS2

σ2> χ2

2

),

care va reprezenta o ecuatie cu doua necunoscute.Cantitatea χ2

1 se va determina din relatia

(2.14) P(χ2 > χ2

1

)= 1− α

2= 1− 1− δ

2

iar cantitatea χ22 se va determina din relatia

(2.15) P(χ2 > χ2

2

)=α

2=

1− δ2

,

unde α = 1− δ este prag de semnificatie.Reamintim ca ın tabelul distributiei se pot citi valorile ariile portiunii

de grafic de la χ21 la∞, adica

P(χ2 > χ2

1

)=

∫ ∞χ21

f (x) dx ,

unde f (x) reprezinta densitatea de repartitie a unei v.a. χ2 repartizataχ2 (n− 1, 1) .

Acum avand cunoscute valorile χ21 si χ2

2 deducem din (2.13) ca

χ21 <

nS2

σ2< χ2

2 ⇔ 1

χ22

<σ2

nS2<

1

χ21

adica obtinem urmatorul rezultat.

Page 54: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

50 2. Elemente de teoria selectiei si a estimatiei

Propozitia 2.47 In cazul ın care volumul selectiei n ≤ 30, populatia arecaracteristicaX ∼ N

(m,σ2

)iarm este necunoscut, intervalul de ıncredere

pentru dispersia teoretica σ2 este dat de

(2.16)nS2

χ22

< σ2 <nS2

χ21

,

unde valorile χ21 si χ2

2 sunt citite din tabelul distributiei χ2 (n− 1, 1) folosindrelatiile (2.14-2.15).

Pentru abaterea medie patratica σ, intervalul de ıncredere este dat de

(2.17)S√n

χ2< σ <

S√n

χ1.

Remarca 2.48 De fapt, folosind notatii intuitive, avem ca cele doua valori χ21 si

χ22 pot fi scrise astfel:

χ21 = χ2

1−α/2,n−1 si χ22 = χ2

α/2,n−1 .

Remarca 2.49 Cand n > 30 folosim faptul ca

χ2 (m, 1)→ N (m, 2m) , pentru m→∞

(vezi5 Remarca 5.72 din cadrul Teoriei Probabilitatilor).In cazul nostru, pentru n suficient de mare,

χ2 (n− 1, 1) ' N (n− 1, 2 (n− 1)) .

Atunci vom putea folosi functia de repartitie Φ si deducem, avand ın vedere canS2

σ2∼ χ2 (n− 1, 1) ,

δ = P

(χ2

1 <nS2

σ2< χ2

2

)= Φ

(χ2

2 − (n− 1)√2 (n− 1)

)− Φ

(χ2

1 − (n− 1)√2 (n− 1)

)

(vezi Propozitia 3.47 din cadrul Teoriei Probabilitatilor).

5Daca X ∼ χ2 (n, 1), atunci, pentru n mare, obtinem, aplicand Teorema Limita Cen-

trala, ca v.a. Zn =X − n√

2neste distribuita normal standard N (0, 1), deci, echivalent,

X =(√

2nZn + n)∼ N (n, 2n).

Page 55: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 51

Reamintim ca graficul repartitiei normale N (n− 1, 2 (n− 1)) este simetricfata de media (n− 1) deci

χ21 + χ2

2

2= n− 1 ⇔ χ2

1 = 2 (n− 1)− χ22

si atunci

δ = Φ

(χ2

2 − (n− 1)√2 (n− 1)

)− Φ

(−χ

22 − (n− 1)√

2 (n− 1)

)= 2Φ

(χ2

2 − (n− 1)√2 (n− 1)

)− 1.

Folosind tabelul functiei de repartitie Φ, asociata unei v.a. Z ∼ N (0, 1) , vomobtine valoarea χ2

2 iar apoi valoarea χ21 .

Exercitiul 2.50 In urma masurarii unei distante obtinem o colectie de 20 de date.Abaterea empirica modificata obtinuta este 1.8. Care este intervalul de increderepentru dispersie cu δ = 95%.

Intervale de ıncredere pentru raportul a doua dispersii teoretice Fie X1

si X2 doua caracteristici asociate la doua populatii si consideram ca X1 ∼N(m1, σ

21

), X2 ∼ N

(m2, σ

22

). Presupunem ca mediile E (Xi) = mi si dis-

persiile D2 (Xi) = σ2i sunt necunoscute, i = 1, 2 .

Luand

X =n1S

21

σ21

si Y =n2S

22

σ22

vom obtine ca

X ∼ χ2 (n1 − 1, 1) si Y ∼ χ2 (n2 − 1, 1) ,

deci X are (n1 − 1) grade de libertate si Y are (n2 − 1) grade de libertate.Dar

(S∗i )2 =ni

ni − 1S2i , i = 1, 2 ,

deci

X =(n1 − 1) (S∗1)2

σ21

si Y =(n2 − 1) (S∗2)2

σ22

.

Consideram statistica (sau functia de selectie)

Fdef==

Xn1−1Y

n2−1

.

Page 56: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

52 2. Elemente de teoria selectiei si a estimatiei

In cazul nostru,

F =X

n1−1Y

n2−1

=

(n1−1)(S∗1)

2

(n1−1)σ21

(n2−1)(S∗2)

2

(n2−1)σ22

=

(S∗1)

2

σ21

(S∗2)

2

σ22

=(S∗1)2

(S∗2)2

σ22

σ21

deci, folosind6 Propozitia 3.135 din cadrul Teoriei Probabilitatilor,

F =(S∗1)2

(S∗2)2

σ22

σ21

=X

n1−1Y

n2−1

∼ F (n1 − 1, n2 − 1) .

Din conditiaP (F1 < F < F2) = δ

se vor putea determina, utilizand tabelul distributiei Fisher, valorile F1 siF2.

Avem evident ca

δ = P

(F1 <

(S∗1)2

(S∗2)2

σ22

σ21

< F2

)= P

((S∗1)2

(S∗2)2

σ22

σ21

> F1

)−P

((S∗1)2

(S∗2)2

σ22

σ21

> F2

),

care va reprezenta o ecuatie cu doua necunoscute.Cantitatea F1 se va determina din relatia

(2.18) P (F > F1) = 1− α

2= 1− 1− δ

2

iar cantitatea F2 se va determina din relatia

(2.19) P (F > F2) =α

2=

1− δ2

.

Reamintim ca din tabel se pot citi valorile ariei portiunii de grafic de laF1 la∞, adica

P (F > F1) =

∫ ∞F1

f (x) dx ,

unde f (x) reprezinta densitatea de repartitie a v.a. F ∼ F (n1 − 1, n2 − 1) .

6Daca X ∼ χ2 (a, 1) si Y ∼ χ2 (b, 1) atunci v.a.

Tdef==

X/a

Y/b∼ F (a, b) ,

adica fractiaX/a

Y/beste distribuita Fisher de parametrii a si b.

Page 57: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

2.1. Problema estimatiei 53

Acum avand cunoscute valorile F1 si F2 deducem din (2.13) ca

δ = P

(1

F2

(S∗1)2

(S∗2)2 <σ2

1

σ22

<1

F1

(S∗1)2

(S∗2)2

),

adica obtinem urmatorul rezultat.

Propozitia 2.51 In cazul ın care volumul selectiei n ≤ 30, populatiile aucaracteristicile X1 ∼ N

(m1, σ

21

), X2 ∼ N

(m2, σ

22

)iar m1,m2 si σ2

1, σ22

sunt necunoscute, intervalul de ıncredere pentru raportul a doua dispersiieste dat de

(2.20)1

F2

(S∗1)2

(S∗2)2 <σ2

1

σ22

<1

F1

(S∗1)2

(S∗2)2

unde valorileF1 siF2 sunt citite din tabelul distributieiF (n1 − 1, n2 − 1) folosindrelatiile (2.18-2.19).

Remarca 2.52 De fapt, folosind notatii intuitive, avem ca cele doua valori F1 siF2 pot fi scrise astfel:

F1 = F1−α/2,n1−1,n2−1 si F2 = Fα/2,n1−1,n2−1 .

Se stie ca are loc urmatoarea relatie ıntre valori

(2.21) F1−α,a,b =1

Fα,b,a.

De exemplu luam a = 5 si b = 15 si α = 0.01. Atunci din tabel putem citivaloarea ariei α corespunzatoare distributiei F (5, 15)

Fα,5,15 = 4.36

precum si valoarea ariei α corespunzatoare distributiei F (15, 5)

Fα,15,5 = 9.72.

Deci valoarea F1−α,5,15 este calculata folosind valoarea Fα,15,5, conform for-mulei

F1−α,5,15 =1

Fα,15,5=

1

9.72= 0.1029

Obtinem astfel intervalul de ıncredere pentru raportul a doua dispersiisub forma

(2.22)1

Fα/2,n1−1,n2−1

(S∗1)2

(S∗2)2 <σ2

1

σ22

< Fα/2,n2−1,n1−1(S∗1)2

(S∗2)2 .

Page 58: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

54 2. Elemente de teoria selectiei si a estimatiei

Exercitiul 2.53 In urma a 31 de observatii se obtine abaterea empirica modificataS∗ = 1.5, iar la 25 de observatii se obtine abaterea empirica modificata S∗ = 0.7.Sa se determine intervalul de ıncredere pentru raportul dispersiilor considerandu-se un prag de semnificatie de 5%.Intervalul obtinut contine valoarea 1 ? Interpretati rezultatul (care este deci prob-abilitatea ca σ2

1 6= σ22?).

Page 59: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Capitolul 3

Verificarea ipotezelor statistice

Asa cum se poate vedea ın exemplele din capitolul precedent, de cele maimulte ori nu suntem interesati de marginile intervalului construit, ci maidegraba de problema cand intervalul construit contine media sau disper-sia teoretica. Deci problema esentiala este aceea de a putea preciza daca oselectie statistica este consistenta ın raport cu populatia ıntreaga.

Mai precis, folosind un esantion de date, putem estima un parametrual unei repartitii teoretice ın mod punctual sau printr-un interval de valoriplauzibile. Dar alta problema care se poate pune este aceea de a investigasi apoi de a decide daca parametrul are sau nu o valoare anume.

Ipoteza statistica este o ipoteza care se face relativ la parametrii uneirepartitii (la un singur parametru sau la doi parametri) sau la forma/tipullegii de repartitie pe care o urmeaza caracteristica cercetata.

Procedura utilizata pentru investigare este aceea de a testa validitateaunei decizii privind o ipoteza statistica prin folosirea, ın acest sens, a uneistatistici (sau functie de selectie), adica a unui test statistic.

Fie X o v.a. cu densitatea de repartitie f (x, θ). Notam cu

(H0) : θ = θ0,

ipoteza conform careia θ = θ0, unde θ0 este o valoare calculata a parametru-lui pe baza unui esantion x1, . . . , xn din populatia P .

Ipoteza (H0) se numeste ipoteza nula.Pot interveni si ipoteze alternative

(H0) : θ = θ0,

(H1) : θ = θ1,sau

(H0) : θ = θ0,

(H1) : θ 6= θ0.

55

Page 60: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

56 3. Verificarea ipotezelor statistice

Definitia 3.1 A testa o ipoteza ınseamna a lua o decizie daca ipoteza nula serespinge sau daca ipoteza nula se accepta (sau se admite sau nu exista mo-tive pentru respingerea ei sau se admite pana la urmatorul esantion).

Definitia 3.2 Se numeste test statistic orice statistica (sau functie de selectie)pe baza careia se poate lua o decizie privind acceptarea sau respingere unei ipotezastatistice.

Definitia 3.3 Orice test statistic se bazeaza pe un criteriu de testare. Criteriulde testare a unei ipoteze statistice este o statistica (o functie de selectie) u =u (x1, . . . , xn) satisfacand conditiile:

(i) functia de selectie depinde de ipoteza facuta,(ii) daca ipoteza facuta se accepta atunci repartitia teoretica este complet de-

terminata.

Definitia 3.4 Se numeste nivel de semnificatie (sau prag de semnificatie, no-tat cuα), probabilitatea respingerii ipotezei facute cand ın realitate ea este adevarata.

Pentru ca o ipoteza sa fie respinsa cat mai greu se va alege α ' 0 (adicaα = 0.01 sau α = 0.05).

Definitia 3.5 Se numeste regiunea critica (sau regiunea de respingere) mul-timea tuturor valorilor statisticii utilizate u (x1, . . . , xn) ∈ R pentru care ipotezanula (H0) va fi respinsa.

Putem scrie regiunea critica cu un nivel de semnificatie α sub forma

V = {(x1, . . . , xn) ∈ Rn : ipoteza (H0) este adevarata ,

prin utilizarea statisticii u} ,

unde P ((x1, . . . , xn) ∈ V) = α.

Deci daca (x1, . . . , xn) ∈ V, atunci ipoteza (H0) se respinge.

Daca (x1, . . . , xn) /∈ V, atunci ipoteza (H0) se accepta iar multimea Rn\Vse va numi regiunea de acceptare cu un nivel de semnificatie α.

3.1 Teste pentru media unei selectii

FieP o populatie statistica siX o caracteristica cercetata. Notam E (X) = msi D2 (X) = σ2. Presupunem ca X ∼ N

(m,σ2

).

Page 61: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.1. Teste pentru media unei selectii 57

In cazul ın care dispersia teoretica σ2 se cunoaste vom folosi distribuitiaN (0, 1) si statistica (vezi si definitia (2.2))

Zdef==

X −mσ/√n∼ N (0, 1) .

In cazul ın care σ2 nu se cunoaste vom folosi distribuitia Student.

3.1.1 Testul Z pentru media unei selectii

Fie X ∼ N(m,σ2

)cu σ2 cunoscut. Ipoteza nula propusa este

(H0) : m = m0.

Testul Z bilateral Verificam ipoteza nula

(H0) : m = m0

fata de ipoteza alternativa

(H1) : m 6= m0.

Daca ipoteza nula este acceptata atunci

Z =X −m0

σ/√n∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale standard,valoarea critica zc astfel ıncat

α = P (|Z| > zc)

sau echivalent

1−α = δ = P (−zc ≤ Z ≤ zc) = 2Φ (zc)− 1 ⇔ Φ (zc) =δ + 1

2= 1− α

2.

Remarca 3.6 De fapt, folosind notatii intuitive, avem ca valoarea critica zc de maisus poate fi scrisa astfel:

zc = z1−α/2 .

Exercitiul 3.7 Reprezentati grafic situatia de mai sus.

Page 62: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

58 3. Verificarea ipotezelor statistice

Obtinem atunci ca intervalul[−z1−α/2, z1−α/2

]este interval de acceptare

iar regiunea |z| > z1−α/2 este regiune critica, adica

V =

{(x1, . . . , xn) ∈ Rn :

∣∣∣∣ x−m0

σ/√n

∣∣∣∣ > z1−α/2

}.

Testul z bilateral ınseamna: se calculeaza z0 = x−m0

σ/√n

(valoarea statisticiiın esantionul observat) si apoi daca z0 ∈

[−z1−α/2, z1−α/2

]atunci (H0) se

accepta, si daca z0 /∈[−z1−α/2, z1−α/2

]atunci (H0) se respinge.

Testul Z unilateral stanga Verificam ipoteza nula

(H0) : m = m0 (de fapt m ≥ m0)

fata de ipoteza alternativa

(H1) : m < m0.

Daca ipoteza nula este acceptata atunci

Zdef==

X −m0

σ/√n∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale, valoareacritica zc astfel ıncat

α = P (Z < −zc)sau echivalent

α = Φ (−zc) = 1− Φ (zc) ⇔ Φ (zc) = 1− α.

Remarca 3.8 De fapt, folosind notatii intuitive, avem ca valoarea critica zc de maisus poate fi scrisa astfel:

zc = z1−α .

Exercitiul 3.9 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca intervalul [−z1−α,∞) este interval de acceptare iarintervalul (−∞,−z1−α) este regiune critica, adica

V =

{(x1, . . . , xn) ∈ Rn :

x−m0

σ/√n< −z1−α

}.

Testul z unilateral stanga ınseamna: se calculeaza z0 = x−m0

σ/√n

(valoareastatisticii ın esantionul observat) si apoi daca z0 ≥ −z1−α atunci (H0) seaccepta, si daca z0 < −z1−α atunci (H0) se respinge.

Page 63: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.1. Teste pentru media unei selectii 59

Testul Z unilateral dreapta Verificam ipoteza nula

(H0) : m = m0 (de fapt m ≤ m0)

fata de ipoteza alternativa

(H1) : m > m0.

Daca ipoteza nula este acceptata atunci

Zdef==

X −m0

σ/√n∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale, valoareacritica zc astfel ıncat

α = P (Z > zc)

sau echivalentΦ (zc) = 1− α.

Remarca 3.10 De fapt, folosind notatii intuitive, avem ca valoarea critica zc demai sus poate fi scrisa astfel:

zc = z1−α .

Exercitiul 3.11 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca intervalul (−∞, z1−α] este interval de acceptare iarintervalul (z1−α,∞) este regiune critica, adica

V =

{(x1, . . . , xn) ∈ Rn :

x−m0

σ/√n> z1−α

}.

Testul z unilateral dreapta ınseamna: se calculeaza z0 = x−m0

σ/√n

(valoareastatisticii ın esantionul observat) si apoi daca z0 ≤ z1−α atunci (H0) se ac-cepta, si daca z0 > z1−α atunci (H0) se respinge.

3.1.2 Testul Z pentru diferentia mediilor a doua selectii

Fie X ∼ N(m1, σ

21

)si Y ∼ N

(m2, σ

22

)cu σ2

1, σ22 cunoscuti. Ipoteza nula

propusa este(H0) : m1 = m2.

Page 64: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

60 3. Verificarea ipotezelor statistice

Aceasta se foloseste cand ın conditii diferite de obtinere a unui produs cuaceeasi valoare nominala a unui parametru, se constata deosebiri ıntre val-orile medii. Se pune problema daca este vorba de calitati diferite ale pro-duselor sau de abateri ıntamplatoare. Statistica utilizata va fi

Zdef==

(X − Y

)− (m1 −m2)√

σ21/n1 + σ2

2/n2

.

Testul Z bilateral Verificam ipoteza

(H0) : m1 = m2

fata de ipoteza alternativa

(H1) : m1 6= m2.

Deoarece X,Y sunt repartizate normal obtinem ca.

X ∼ N(m1, σ

21/n1

)si Y ∼ N

(m2, σ

22/n2

)deci (vezi rezultatele din cadrul Teoriei Probabilitatilor) se poate arata ca

X − Y ∼ N(m1 −m2, σ

21/n1 + σ2

2/n2

).

Daca ipoteza (H0) se accepta, atunci

X − Y ∼ N(0, σ2

1/n1 + σ22/n2

)si deci

Z =

(X − Y

)− 0√

σ21/n1 + σ2

2/n2

=

(X − Y

)√D2(X − Y

) ∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale standard,valoarea critica zc astfel ıncat

α = P (|Z| > zc)

sau echivalent

1−α = δ = P (−zc ≤ Z ≤ zc) = 2Φ (zc)− 1 ⇔ Φ (zc) =δ + 1

2= 1− α

2.

Remarca 3.12 De fapt, folosind notatii intuitive, avem ca valoarea critica zc demai sus poate fi scrisa astfel:

zc = z1−α/2 .

Page 65: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.1. Teste pentru media unei selectii 61

Obtinem atunci ca intervalul[−z1−α/2, z1−α/2

]este interval de acceptare

iar regiunea |z| > z1−α/2 este regiune critica.Testul z bilateral ınseamna: se calculeaza z0 = x−m0

σ/√n

(valoarea statis-ticii ın esantionul observat) si apoi{

daca z0 ∈[−z1−α/2, z1−α/2

], atunci (H0) se accepta;

daca z0 /∈[−z1−α/2, z1−α/2

], atunci (H0) se respinge.

Testul Z unilateral stanga Verificam ipoteza

(H0) : m1 = m2 (de fapt m1 ≥ m2)

fata de ipoteza alternativa

(H1) : m1 < m2.

Daca ipoteza (H0) este acceptata atunci, similar ca mai sus,

Z =

(X − Y

)− 0√

σ21/n1 + σ2

2/n2

=

(X − Y

)√D2(X − Y

) ∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale, valoareacritica zc astfel ıncat

α = P (Z < −zc)

sau echivalent

α = Φ (−zc) = 1− Φ (zc) ⇔ Φ (zc) = 1− α.

Remarca 3.13 De fapt, folosind notatii intuitive, avem ca valoarea critica zc demai sus poate fi scrisa astfel:

zc = z1−α .

Obtinem atunci ca intervalul [−z1−α,∞) este interval de acceptare iarintervalul (−∞,−z1−α) este regiune critica.

Testul z unilateral stanga ınseamna: se calculeaza z0 = x−m0

σ/√n

(valoareastatisticii ın esantionul observat) si apoi{

daca z0 ∈ [−z1−α,∞), atunci (H0) se accepta;

daca z0 /∈ [−z1−α,∞), atunci (H0) se respinge.

Page 66: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

62 3. Verificarea ipotezelor statistice

Testul Z unilateral dreapta Verificam ipoteza nula

(H0) : m1 = m2 (de fapt m1 ≤ m2)

fata de ipoteza alternativa

(H1) : m1 > m2.

Daca ipoteza (H0) este acceptata atunci, similar ca mai sus,

Z =

(X − Y

)− 0√

σ21/n1 + σ2

2/n2

=

(X − Y

)√D2(X − Y

) ∼ N (0, 1) .

Pentru α fixat se va determina, din tabelul repartitiei Normale, valoareacritica zc astfel ıncat

α = P (Z > zc)

sau echivalentΦ (zc) = 1− α.

Remarca 3.14 De fapt, folosind notatii intuitive, avem ca valoarea critica zc demai sus poate fi scrisa astfel:

zc = z1−α .

Obtinem atunci ca intervalul (−∞, z1−α] este interval de acceptare iarintervalul (z1−α,∞) este regiune critica.

Testul z unilateral dreapta ınseamna: se calculeaza z0 = x−y√σ21/n1+σ2

2/n2

(valoarea statisticii ın esantionul observat) si apoi{daca z0 ∈ (−∞, z1−α], atunci (H0) se accepta;

daca z0 /∈ (−∞, z1−α], atunci (H0) se respinge.

Remarca 3.15 Daca σ21 = σ2

2 = σ2 atunci Z = X−Yσ√

1/n1+1/n2.

Remarca 3.16 Daca n1 si n2 sunt suficienti de mari si σ21 si σ2

2 necunoscuti,atunci putem aproxima

σ21 ' (S∗1)2 si σ2

2 ' (S∗2)2 ,

unde (S∗i )2 = nini−1S

2i , i = 1, 2 .

Page 67: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.1. Teste pentru media unei selectii 63

Remarca 3.17 Testele prezentate mai sus pot fi utilizate si ın cazul ın care X,Ynu urmeaza legea normala dar n1 si n2 sunt suficienti de mari, deoarece ın acestcaz, conform T.L.C., variabila

Z =

(X − Y

)− E

(X − Y

)D(X − Y

) ∼ N (0, 1) .

3.1.3 Testul T pentru media unei selectii

Fie X ∼ N(m,σ2

)cu σ2 necunoscut iar volumul de observatii mic, n ≤ 30.

Ipoteza nula propusa este

(H0) : m = m0.

Statistica utilizata va fi

Tdef==

X −mS∗/√n.

Avand ın vedere relatia (2.9) si faptul ca

X −mS∗/√n

=

√n(X −m

)√nS2

n−1

obtinem caT ∼ t (n− 1) .

Testul T bilateral Verificam ipoteza

(H0) : m = m0

fata de ipoteza alternativa

(H1) : m 6= m0.

Daca ipoteza nula este acceptata atunci

T =X −m0

S∗/√n∼ t (n− 1) .

Pentru α fixat se va determina, din tabelul repartitiei Student, valoareacritica tc astfel ıncat

α = P (|T | > tc)

sau echivalentP (T > tc) =

α

2.

Page 68: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

64 3. Verificarea ipotezelor statistice

Remarca 3.18 De fapt, folosind notatii intuitive, avem ca valoarea critica tc demai sus poate fi scrisa astfel:

tc = tα/2,n−1 .

Exercitiul 3.19 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul[−tα/2,n−1 , tα/2,n−1

]este interval de acceptare

iarregiunea |t| > tα/2,n−1 este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

∣∣∣∣ x−m0

S∗/√n

∣∣∣∣ > tα/2,n−1

}.

Testul T bilateral ınseamna: se calculeaza

t0 =x−m0

S∗/√n

(valoarea statisticii ın esantionul observat) si apoi{daca t0 ∈ [−tα/2,n−1 , tα/2,n−1 ], atunci (H0) se accepta;

daca t0 /∈ [−tα/2,n−1 , tα/2,n−1 ], atunci (H0) se respinge.

Exercitiul 3.20 Media teoretica a unei distante este m = 400.008 m. S-au facutn = 20 de observatii si s-a gasit media x = 400.012 m. si abaterea empiricamodificata S∗ = 0.0020 m. Sa se cerceteze, aplicandu-se Testul T bilateral, dacamedia de selectie (media distantelor observate) difera semnificativ sau nu de mediateoretica, considerandu-se un prag de semnificatie de α = 0.05.

Determinati si intervalul de ıncredere pentru medie.

Testul T unilateral stanga Verificam ipoteza

(H0) : m = m0 (de fapt m ≥ m0)

fata de ipoteza alternativa

(H1) : m < m0.

Page 69: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.1. Teste pentru media unei selectii 65

Daca ipoteza nula este acceptata atunci

Tdef==

X −m0

S∗/√n∼ t (n− 1) .

Pentru α fixat se va determina, din tabelul repartitiei Student, valoareacritica tc astfel ıncat

α = P (T < −tc) ⇔ P (T > tc) = α.

Remarca 3.21 De fapt, folosind notatii intuitive, avem ca valoarea critica tc demai sus poate fi scrisa astfel:

tc = tα,n−1 .

Exercitiul 3.22 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul [−t1−α,n−1,∞) este interval de acceptare

iarregiunea (−∞,−t1−α,n−1) este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

x−m0

S∗/√n< −t1−α,n−1

}.

Testul t unilateral stanga ınseamna: se calculeaza

t0 =x−m0

S∗/√n

(valoarea statisticii ın esantionul observat) si apoi{daca t0 ∈ [−t1−α,n−1,∞), atunci (H0) se accepta;

daca t0 /∈ [−t1−α,n−1,∞), atunci (H0) se respinge.

Exercitiul 3.23 Media teoretica a unei distante este m = 400.008 m. S-au facutn = 20 de observatii si s-a gasit media x = 400.012 m. si abaterea empiricaS = 0.0019 m. Sa se cerceteze, aplicandu-se Testul T unilateral stanga, dacamedia de selectie (media distantelor observate) difera semnificativ sau nu de mediateoretica, considerandu-se un prag de semnificatie de α = 0.05.

Determinati si intervalul de ıncredere pentru medie.

Page 70: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

66 3. Verificarea ipotezelor statistice

Testul T unilateral dreapta Verificam ipoteza nula

(H0) : m = m0 (de fapt m ≤ m0)

fata de ipoteza alternativa

(H1) : m > m0.

Daca ipoteza nula este acceptata atunci

Tdef==

X −m0

S∗/√n∼ t (n− 1) .

Pentru α fixat se va determina, din tabelul repartitiei Student, valoareacritica tc astfel ıncat

α = P (T > tc) .

Remarca 3.24 De fapt, folosind notatii intuitive, avem ca valoarea critica tc demai sus poate fi scrisa astfel:

tc = tα,n−1 .

Exercitiul 3.25 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul (−∞, tα,n−1] este interval de acceptare

iarregiunea (tα,n−1,∞) este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

x−m0

S∗/√n> tα,n−1

}.

Testul t unilateral dreapta ınseamna: se calculeaza

t0 =x−m0

S∗/√n

(valoarea statisticii ın esantionul observat) si apoi{daca t0 ∈ (−∞, tα,n−1) , atunci (H0) se accepta;

daca t0 /∈ (−∞, tα,n−1) , atunci (H0) se respinge.

Page 71: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.2. Teste pentru dispersia unei selectii 67

3.2 Teste pentru dispersia unei selectii

3.2.1 Testul χ2 pentru dispersia unei selectii

FieP o populatie statistica siX o caracteristica cercetata. Notam E (X) = msi D2 (X) = σ2. Presupunem ca X ∼ N

(m,σ2

).

Ipoteza nula propusa este

(H0) : σ2 = σ20 .

Statistica utilizata va fi (vezi (2.11) si (2.12))

χ2 def==

nS2

σ2=

(n− 1) (S∗)2

σ2∼ χ2 (n− 1, 1) .

Testul χ2 bilateral Verificam ipoteza nula

(H0) : σ2 = σ20

fata de ipoteza alternativa

(H1) : σ2 6= σ20 .

Daca ipoteza nula este acceptata atunci

χ2 =(n− 1) (S∗)2

σ20

∼ χ2 (n− 1, 1) .

Pentru α fixat se va determina, din tabelul repartitiei χ2 (n− 1, 1), valoarilecritice χ2

1 si χ22 astfel ıncat

δ = 1− α = P(χ2

1 ≤ χ2c ≤ χ2

2

).

Pentru modul de determinare al valorilor χ21 si χ2

2 vezi Sectiunea Intervalede ıncredere pentru dispersia teoretica (pag. 48).

Remarca 3.26 Folosind notatii intuitive, avem ca cele doua valori χ21 si χ2

2 pot fiscrise astfel:

χ21 = χ2

1−α/2,n−1 si χ22 = χ2

α/2,n−1 .

Exercitiul 3.27 Reprezentati grafic situatia de mai sus.

Page 72: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

68 3. Verificarea ipotezelor statistice

Obtinem atunci ca

intervalul[χ2

1−α/2,n−1, χ2α/2,n−1

]este interval de acceptare

iar

regiunea[0, χ2

1−α/2,n−1

)∪(χ2α/2,n−1,∞

)este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

(n− 1) (S∗)2

σ20

∈ [0, χ21−α/2,n−1) ∪

(χ2α/2,n−1,∞

)}.

Testul χ2 bilateral ınseamna: se calculeaza

χ20 =

(n− 1) (S∗)2

σ20

(valoarea statisticii ın esantionul observat) si apoidaca χ2

0 ∈[χ2

1−α/2,n−1, χ2α/2,n−1

], atunci (H0) se accepta;

daca χ20 /∈

[χ2

1−α/2,n−1, χ2α/2,n−1

], atunci (H0) se respinge.

Testul χ2 unilateral stanga Verificam ipoteza nula

(H0) : σ2 = σ20 (de fapt σ2 ≥ σ2

0)

fata de ipoteza alternativa

(H1) : σ2 < σ20 .

Daca ipoteza nula este acceptata atunci

χ2 =(n− 1) (S∗)2

σ20

∼ χ2 (n− 1, 1) .

Pentru α fixat se va determina, din tabelul repartitiei χ2 (n− 1, 1), valoareacritica χ2

1 astfel ıncatP(χ2 ≥ χ2

1

)= 1− α .

Page 73: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.2. Teste pentru dispersia unei selectii 69

Remarca 3.28 Folosind notatii intuitive, avem ca valoarea χ21 poate fi scrisa astfel:

χ21 = χ2

1−α,n−1 .

Exercitiul 3.29 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul[χ2

1−α,n−1,∞)

este interval de acceptare

iarregiunea [0, χ2

1−α,n−1) este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

(n− 1) (S∗)2

σ20

∈ [0, χ21−α,n−1)

}.

Testul χ2 unilateral stanga ınseamna: se calculeaza

χ20 =

(n− 1) (S∗)2

σ20

(valoarea statisticii ın esantionul observat) si apoi{daca χ2

0 ∈[χ2

1−α,n−1,∞), atunci (H0) se accepta;

daca χ20 /∈

[χ2

1−α,n−1,∞), atunci (H0) se respinge.

Testul χ2 unilateral dreapta Verificam ipoteza nula

(H0) : σ2 = σ20 (de fapt σ2 ≤ σ2

0)

fata de ipoteza alternativa

(H1) : σ2 > σ20 .

Daca ipoteza nula este acceptata atunci

χ2c =

(n− 1) (S∗)2

σ20

∼ χ2 (n− 1, 1) .

Pentru α fixat se va determina, din tabelul repartitiei χ2 (n− 1, 1), valoareacritica χ2

2 astfel ıncatα = P

(χ2 > χ2

2

).

Page 74: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

70 3. Verificarea ipotezelor statistice

Remarca 3.30 Folosind notatii intuitive, avem ca valoarea χ22 poate fi scrisa astfel:

χ22 = χ2

α,n−1 .

Exercitiul 3.31 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul[0, χ2

α,n−1

]este interval de acceptare

iarregiunea

(χ2α,n−1,∞

)este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

(n− 1) (S∗)2

σ20

∈(χ2α,n−1,∞

)}.

Testul χ2 unilateral dreapta ınseamna: se calculeaza

χ20 =

(n− 1) (S∗)2

σ20

(valoarea statisticii ın esantionul observat) si apoi{daca χ2

0 ∈[0, χ2

α,n−1

], atunci (H0) se accepta;

daca χ20 /∈

[0, χ2

α,n−1

], atunci (H0) se respinge.

Exercitiul 3.32 Stim ca dispersia reala este σ2 = 2.25. In urma a 30 de observatiise obtine abaterea empirica modificata S∗ = 0.9. Sa se cerceteze, aplicandu-seTestul χ2 unilateral dreapta, daca valorile obtinute difera semnificativ sau nu deσ2 dat, considerandu-se un prag de semnificatie de 5% .

3.2.2 Testul F pentru raportul dispersiilor a doua selectii

Fie X ∼ N(m1, σ

21

)si Y ∼ N

(m2, σ

22

). Ipoteza nula propusa este

(H0) : σ21 = σ2

2 .

Statistica utilizata va fi

Fdef==

(S∗1)

2

σ21

(S∗2)

2

σ22

=σ2

2

σ21

(S∗1)2

(S∗2)2 =σ2

2

σ21

n1n1−1S

21

n2n2−1S

22

=n2 − 1

n1 − 1

n1S21

σ21

n2S22

σ22

.

Page 75: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.2. Teste pentru dispersia unei selectii 71

Stim ca U1def==

n1S21

σ21∼ χ2 (n1 − 1, 1) iar U2

def==

n2S22

σ22∼ χ2 (n2 − 1, 1). Atunci

deducem ca

F =U1n1−1U2n2−1

∼ F (n1 − 1, n2 − 1) .

Vom presupune, fara a restrange generalitatea, ca (S∗1)2 > (S∗2)2 .

Testul F bilateral Verificam ipoteza nula

(H0) : σ21 = σ2

2

fata de ipoteza alternativa

(H1) : σ21 6= σ2

2 .

Daca ipoteza nula este acceptata atunci

F =(S∗1)2

(S∗2)2 ∼ F (n1 − 1, n2 − 1) .

Pentru α fixat se va determina, din tabelul repartitiei F (n1 − 1, n2 − 1), val-oarile critice F1 si F2 astfel ıncat

δ = 1− α = P (F1 ≤ Fc ≤ F2) .

Pentru modul de determinare al valorilor F1 si F2 vezi Sectiunea Intervalede ıncredere pentru raportul a doua dispersii teoretice (pag. 51).

Vom determina valorile F1 si F2 presupunand ca cele doua probabilitatide mai sus sunt egale, adica

P (F < F1) = α/2

siP (F > F2) = α/2.

Remarca 3.33 Folosind notatii intuitive, avem ca cele doua valori F1 si F2 pot fiscrise astfel (vezi si relatia (2.21)):

F1 = F1−α/2,n1−1,n2−1 =1

Fα/2,n2−1,n1−1si F2 = Fα/2,n1−1,n2−1 .

Exercitiul 3.34 Reprezentati grafic situatia de mai sus.

Page 76: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

72 3. Verificarea ipotezelor statistice

Obtinem atunci ca

intervalul[

1

Fα/2,n2−1,n1−1, Fα/2,n1−1,n2−1

]este interval de acceptare

iar

regiunea(

0,1

Fα/2,n2−1,n1−1

)∪(Fα/2,n1−1,n2−1,∞

)este regiune critica,

adica

V =

{(x1, . . . , xn) ∈ Rn :

(S∗1)2

(S∗2)2 ∈(

0,1

Fα/2,n2−1,n1−1

)∪(Fα/2,n1−1,n2−1,∞

)}.

Testul F bilateral ınseamna: se calculeaza

F0 =(S∗1)2

(S∗2)2

(valoarea statisticii ın esantionul observat) si apoidaca F0 ∈

[1

Fα/2,n2−1,n1−1, Fα/2,n1−1,n2−1

], atunci (H0) se accepta;

daca F0 /∈[

1

Fα/2,n2−1,n1−1, Fα/2,n1−1,n2−1

], atunci (H0) se respinge.

Exercitiul 3.35 In urma a 31 de observatii se obtine abaterea empirica modificataS∗ = 1.5, iar la 25 de observatii se obtine abaterea empirica modificata S∗ = 0.7.Sa se cerceteze, aplicandu-se Testul F bilateral, daca ipoteza nula este respinsasau nu (adica daca cele doua dispersii sunt egale) considerandu-se un prag desemnificatie de 5%.

Testul F unilateral stanga Verificam ipoteza

(H0) : σ21 = σ2

2 (de fapt σ21 ≥ σ2

2)

fata de ipoteza alternativa

(H1) : σ21 < σ2

2 .

Daca ipoteza nula este acceptata atunci

F =(S∗1)2

(S∗2)2 ∼ F (n1 − 1, n2 − 1) .

Page 77: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

3.2. Teste pentru dispersia unei selectii 73

Pentru α fixat se va determina, din tabelul repartitiei F (n1 − 1, n2 − 1), val-oarea critica F1 astfel ıncat

P (F ≥ F1) = 1− α.

Remarca 3.36 Folosind notatii intuitive, avem ca valoarea F1 poate fi scrisa astfel(vezi si relatia (2.21)):

F1 = F1−α,n1−1,n2−1 =1

Fα,n2−1,n1−1.

Exercitiul 3.37 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul[

1

Fα,n2−1,n1−1,∞)

este interval de acceptare

iar

regiunea(

0,1

Fα,n2−1,n1−1

)este regiune critica.

Testul F unilateral stanga ınseamna: se calculeaza

F0 =(S∗1)2

(S∗2)2

(valoarea statisticii ın esantionul observat) si apoidaca F0 ∈

[1

Fα,n2−1,n1−1,∞), atunci (H0) se accepta;

daca F0 /∈[

1

Fα,n2−1,n1−1,∞), atunci (H0) se respinge.

Exercitiul 3.38 In urma a 31 de observatii se obtine abaterea empirica modificataS∗ = 1.5, iar la 25 de observatii se obtine abaterea empirica modificata S∗ = 0.7.Sa se cerceteze, aplicandu-se Testul F bilateral, daca ipoteza nula este respinsasau nu (adica daca cele doua dispersii sunt egale) considerandu-se un prag desemnificatie de 5%.

Page 78: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

74 3. Verificarea ipotezelor statistice

Testul F unilateral dreapta Verificam ipoteza

(H0) : σ21 = σ2

2 (de fapt σ21 ≤ σ2

2)

fata de ipoteza alternativa

(H1) : σ21 > σ2

2 .

Daca ipoteza nula este acceptata atunci

F =(S∗1)2

(S∗2)2 ∼ F (n1 − 1, n2 − 1) .

Pentru α fixat se va determina, din tabelul repartitiei F (n1 − 1, n2 − 1), val-oarea critica F2 astfel ıncat

P (F > F2) = α.

Remarca 3.39 Folosind notatii intuitive, avem ca valoareaF2 poate fi scrisa astfel:

F2 = Fα,n1−1,n2−1 .

Exercitiul 3.40 Reprezentati grafic situatia de mai sus.

Obtinem atunci ca

intervalul [0, Fα,n1−1,n2−1) este interval de acceptare

iarregiunea (Fα,n1−1,n2−1,∞) este regiune critica.

Testul F unilateral dreapta ınseamna: se calculeaza

F0 =(S∗1)2

(S∗2)2

(valoarea statisticii ın esantionul observat) si apoi{daca F0 ∈ [0, Fα,n1−1,n2−1), atunci (H0) se accepta;

daca F0 /∈ [0, Fα,n1−1,n2−1), atunci (H0) se respinge.

Page 79: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

Bibliografie

[1] George Ciucu, Virgil Craiu, Ion Sacuiu, Probleme de statistica matem-atica, Editura Tehnica, Bucuresti, 1974.

[2] George Ciucu, Gabriel Sımboan, Teoria probabilitatilor si statistica mate-matica. Culegere de probleme, Editura Tehnica, Bucuresti, 1962.

[3] Jay L. Devore, Probability and Statistics for Engineering and the Sciences(Ninth Edition), Cengage Learning, Boston, 2016.

[4] Jay L. Devore, Kenneth N. Berk, Modern Mathematical Statistics with Ap-plications (Second Edition), series: Springer Texts in Statistics, SpringerNew York, 2012.

[5] Haralambie M. Ionescu, Statistica matematica, Editura Didactica si Ped-agogica, Bucuresti, 1962.

[6] Marius Iosifescu, Gheorghe Mihoc, Radu Theodorescu, Teoria proba-bilitatilor si statistica matematica, Editura Tehnica, Bucuresti, 1966.

[7] Lucian Maticiuc, Teoria probabilitatilor, Universitatea “Alexan-dru Ioan Cuza”, Iasi, http://www.math.uaic.ro/ mati-ciuc/didactic/Probability Theory.pdf, 2018.

[8] Gheorghe Mihoc, George Ciucu, Virgil Craiu, Teoria probabilitatilor sistatistica matematica, Editura Didactica si Pedagogica, Bucuresti, 1970.

[9] Gheorghe Mihoc, Dumitru Firescu, Statistica matematica, Editura Di-dactica si Pedagogica, Bucuresti, 1966.

[10] Gheorghe Mihoc, Nicolae Micu, Teoria probabilitatilor si statistica mate-matica, Editura Didactica si Pedagogica, Bucuresti, 1980.

[11] Octav Onicescu, Gheorghe Mihoc, Lectii de statistica matematica, Edi-tura Tehnica, Bucuresti, 1958.

[12] Sheldon Ross, Introductory Statistics (Third Edition), Elsevier, Oxford,2010.

75

Page 80: Lucian MATICIUCmaticiuc/didactic/Introduction... · 2018-02-18 · Caracteristica (sau variabila) este o anumita proprietate urm˘ arit˘ ˘a la in-divizii unei colectivitat¸i statistice

76 Bibliografie

[13] Iulian Stoleriu, Statistica prin Matlab, Editura Matrix ROM, Bucuresti,2010.

[14] Pavel Talpalaru, Liliana Popa, Emilia Popovici, Probleme de teoria pro-babilitatilor si statistica matematica, Editura Universitatii Tehnice ,,Ghe-orghe Asachi”, Iasi, 1995.


Recommended