+ All Categories
Home > Documents > ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra...

ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra...

Date post: 12-Jul-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
148
Modelo Lineal Virgilio L. Foglia E-mail address : [email protected] URL: http://www.ifoglia.com
Transcript
Page 1: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

Modelo Lineal

Virgilio L. FogliaE-mail address: [email protected]: http://www.ifoglia.com

Page 2: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 3: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

Contents

Preface 5

Part 1. Repaso 7

Chapter 1. Algebra Lineal 91. Espacios Vectoriales 92. Espacios Vectoriales con Producto Interno 103. Sistemas Lineales 134. Proyección de un vector sobre un subespacio 145. Autovalores y Autovectores de matrices simétricas 186. Formas Cuadráticas y Matrices asociadas 207. Operadores de Proyeccion ortogonal 218. Estudio de la matriz X0X 22

Chapter 2. Vectores Aleatorios 231. Media y Matriz de Covarianza 232. Vector Normal Multivariado 28

Chapter 3. Distribución de Proyecciones y Normas 331. Transformaciones ortogonales 332. Distribución de normas cuadráticas 343. Teorema de descomposición en subespacios ortogonales(TDSO) 37

Part 2. Modelo Lineal 45

Chapter 4. Planteo del modelo 471. De�nición 472. Regresión Lineal 483. Análisis de Varianza de 1 factor 494. Análisis de Varianza de 2 factores - Sin interacción 505. Análisis de Varianza de 2 factores - Con interacción 516. Descomposición del vector Y en Rn = V � V ? 537. Análisis de la varianza de un factor 56

Chapter 5. Identi�cación 631. De�nición 632. Caso en que X no es de rango completo 643. Restricciones en un Modelo Lineal 704. Comentarios �nales 74

Chapter 6. Inversa Generalizada 79

3

Page 4: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4 CONTENTS

1. Solución general de un sistema lineal 792. Matriz de proyección ortogonal 813. Veri�cación que � = c0� es identi�cable 824. Expresiones invariantes 835. Varias restricciones 83

Chapter 7. Estimación de parámetros 871. Estimación de (�;�2) por cuadrados mínimos y método de los momentos 872. Estimación de (�;�2) por máxima verosimilitud 883. Geometría del problema de estimación 894. Teorema de Gauss-Markov 905. Comentarios respecto de los parámetros de un ML 956. Estimación de � 967. Estimación de � 97

Chapter 8. R2, correlación múltiple y parcial 1031. Cálculo de proyecciones y coordenadas 1032. Coe�ciente de correlación simple, y parcial 1073. Coe�ciente de determinación o R2 1104. Variación de R2 al incorporar predictores 1125. Signi�cación de un nuevo predictor 113

Chapter 9. Pruebas de hipótesis 1151. Prueba H0 : � 2 V0 � V 1152. Prueba H0 : � 2 L(U) � Rk 1193. Prueba H0 : A� = 0 1234. Descomposición en componentes lineal, cuadrática, etc 124

Chapter 10. Intervalos y regiones de con�anza 1291. Intervalos de Con�anza y Predicción 129

Chapter 11. Incumplimiento de � 2 C(X) 1311. Cp de Mallows 1312. Sobre-especi�cación 1373. Sub-especi�cación 140

Chapter 12. Incumplimiento de �" = �2In 145

Chapter 13. BORRADOR 147

Page 5: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

Preface

Versión Enero-2017

5

Page 6: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 7: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

Part 1

Repaso

Page 8: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 9: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 1

Algebra Lineal

1. Espacios Vectoriales

1.1. Introducción. Trabajaremos con el espacio vectorial de todas las n-uplasx = (x1; x2; � � �; xn)0; de Rn;a las que llamaremos vectores, con las operacionesusuales x + y = (x1 + y1; x2 + y2; � � �; xn + yn)0, y cx = (cx1; cx2; � � �; cxn)0, parac 2 R:Un subconjunto no vacío V � Rn es un subespacio, si es cerrado para estasoperaciones, o sea sí (a)x 2 V;y 2 V ! x+ y 2 V y (b)x 2 V; c 2 R ! cx 2 V:Como en lo que sigue es usual trabajar con varios vectores x1;x2 ���xk 2 Rn, a veceses cómodo pensarlos como vectores columna de una matriz X = [x1;x2 � � � xk] 2Rn�k:Esto simpli�ca muchas expresiones.

Definition 1. x1;x2 � � �xk 2 Rn son vectores Linealmente Independientes(LI)si: b1x1 + b2x2 + � �+bkxk = 0 =) 8i; bi = 0

Matricialmente esto se expresa: Xb = 0 =) b = 0:

Definition 2. El subespacio generado por los vectores x1;x2 � � � xk 2 Rn; es:L(x1;x2 � � � xk) = fb1x1 + b2x2 + � �+bkxk : 8bi 2 Rg

Matricialmente L(X) =�Xb para 8b 2 Rk

Notation 1. A este subespacio generado por los vectores columna de la matriz

X también se lo designará C(X) = L(X) = L(x1;x2 � � � xk):Una base de un subespacio V � Rn; es un conjunto de vectores LI, que lo

generan. Como todas las bases de un subespacio tienen el mismo número de vectores,se llama dimensión del subespacio (dim(V )); a este número.Veamos ahora unasde�niciones similares a las dadas, pero para subespacios.

Definition 3. V1; V2 � � � Vr 2 Rn son Subespacios Linealmente Independi-entes(LI) si : 8xi 2 Vi x1 + x2 + � �+xr = 0 =) xi = 0;8i

En otras palabras: en ninguno de los subespacios hay un vector - salvo el 0 - quese pueda expresar como suma de vectores de los restantes subespacios. Ejemplo:en R3 un plano que pasa por el orígen, y una recta que lo corta solo en 0, sonsubespacios LI, y también tres rectas que pasan por el orígen, no coplanares ; encambio dos planos que pasan por el orígen, no son subespacios LI.Tampoco lo soncuatro rectas que pasan por el orígen. En el caso de dos subespacios V1 y V2, serLI equivale a V1 \ V2 = 0:

Proposition 1. Si v = x1+x2+ � �+xr con xi 2 Vi siendo V1; V2 � � �Vr 2 RnSubespacios (LI), entonces los xi son UNICOS.

En efecto, supóngase que existen también yi 2 Vi con v = y1 + y2 + � � +yr,entonces: 0 = (x1 � y1) + (x2 � y2) + � �+(xr � yr) y resultará xi = yi 8i. Estaes una propiedad importante de los Subespacios Linealmente Independientes(LI).

9

Page 10: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

10 1. ALGEBRA LINEAL

Definition 4. El subespacio Suma de los subespacios V1; V2 � � � Vr 2 Rn; es:V = V1 + V2 + � �+Vr = fx = x1 + x2 + � �+xr : xi 2 Vig

O sea, V contiene todos los vectores que se pueden expresar como suma devectores de los subespacios dados.

Definition 5. Cuando en la suma, los subespacios son LI, la suma se llamaDirecta, y se expresa V = V1 � V2 � � � �Vr:

La diferencia respecto de la Suma común, es que en la suma directa, todox 2 V , se expresa en forma UNICA como suma de vectores de los subespacios Vi.Esta unicidad va a permitir de�nir la descomposición de un vector, en componentespertenecientes a cada uno de los subespacios. Además, cuando la suma es directa,se prueba que una base de V , es la unión de las bases de los Vi. Y también quedimV = dimV1 + � �+dimVr.

Veamos ahora una situación común en Modelo Lineal. Se tiene un subespa-cio V , y otro V0 � V:Interesaría poder descomponer todo vector x 2 V , en doscomponentes: una, x0 2 V0 y la otra xc0 = x � x0 perteneciente a otro subespacioV c0 � V:Como vimos, para que esta descomposición sea única, los subespacios de-berán estar en suma directa, o sea: V = V0 � V c0 : Si esto ocurre V c0 se llama UN"complemento de V0"(respecto de V ). O también se dice que V0 y V c0 son sube-spacios complementarios. La observación que hay que hacer aquí es que dado V0,hay muchas maneras de elegir un complemento V c0 que satisfaga la suma directa.Piensese en V = R3; y V0 un plano que pasa por el orígen. Cualquier recta quepasa por el orígen, y no pertenezca al plano sirve como V c0 . Sin embargo existeuno, llamado el complemento ortogonal, cuya notación es V ?0 , que es muy útil enmodelo lineal. En el ejemplo dado V ?0 correspondería a una recta por el orígen,perpendicular al plano.

Variedad Lineal

2. Espacios Vectoriales con Producto Interno

Ahora, al espacio vectorial de todas las n-uplas x = (x1; x2; � � �; xn)0; de Rn; leagregaremos otra operación entre sus elementos, llamada producto interno o escalar.Esta operación asigna a cada par de vectores x;y 2 Rn un número real, de�nidoasí:

Definition 6. Producto escalar: <x;y>= x1y1 + x2y2 + � �+xnyn = x0y.

Se demuestra fácilmente, que esta operación es simétrica - <x;y>=<y;x> - ylineal en cada variable, o sea: (i)<x+ z;y>=<x;y>+<z;y> (ii)8c 2 R;<cx;y>=c<x;y>:(similarmente para la otra variable)

Además el producto escalar, cuando se aplica a un mismo vector, permite"medir" el tamaño del mismo mediante su norma Euclidea o longitud, kxk ; así:kxk2 =<x;x>= x0x:En forma similar, cuando lo que interesa es evaluar la "dis-tancia" entre dos vectores x e y; se la mide con la norma de su diferencia, o sea:d(x;y) = kx� yk :Ya que tanto en R2 como en R3; el producto escalar de dosvectores de norma 1, da el coseno del ángulo �x;y entre los mismos, se de�ne engeneral en Rn: cos �x;y =< x

kxk ;ykyk >=

<x;y>kxkkyk : Por último, dos vectores se dicen

ortogonales, con notación x?y; cuando: <x;y>= x0y = 0; ya que en este caso cos�x;y = 0 �! �x;y =

�2 :

Page 11: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. ESPACIOS VECTORIALES CON PRODUCTO INTERNO 11

Theorem 1. Si z = x+ y, con x?y =)kzk2 = kxk2 + kyk (Pitágoras)

Proof. Ya que kzk2 =<x+ y;x+ y>=<x;x>+<x;y>+<y;x>+<y;y>=<x;x>+<y;y> (tesis) �

Ahora necesitamos de�nir cuando un vector y 2 Rn es ortogonal a un sube-spacio V , (o sea y?V ) En principio habría que pedir que y sea ortogonal atodos los vectores del subespacio, es decir: <y;x>= 0 8x 2V:Sin embargo siV = L(x1;x2 � � � xk), cualquier x 2V; se expresa x =b1x1 + b2x2 + � � +bkxk.entonces <y;x>= b1<y;x1>+b2<y;x2>+ � � + bk<y;xk>:Luego bastará exigirortogonalidad respecto de un conjunto de vectores que generen el subespacio.

Definition 7. y 2 Rn; V = L(x1;x2 � � �xk). Luego y?V () < y;xi >= 01 � i � k:

Notar que si V está de�nido como C(X), la condición en esta de�nición sepuede expresar más brevemente como: X0y = 0(vector cero). Por último habríaque de�nir la noción de subespacios ortogonales. En principio los subespacios V yW son ortogonales, cuando 8 v 2 V;w 2 W resulta v?w: Pero si V y W estánde�nidos por C(X) y C(Z), la condición a veri�car será X0Z = O(matriz cero).

Definition 8. V1; V2; ��; Vr son subespacios Mutuamente ortogonales(MO), siiVi?Vj 8i 6= j:

Proposition 2. V1; V2; ��; Vr son subespacios MO =) Son LI.

Proof. Si 8xi 2 Vi x1 + x2 + � � +xr = 0, haciendo producto escalar conun xk resulta <x1;xk>+<x2;xk>+��+<xr;xk>=<0;xk>=0 y como para i 6= k es<xi;xk>=0, queda <xk;xk>=kxkk2 =0, o sea xk = 08k. �

De este resultado surge que si V = V1 + V2 + � � +Vr, y los subespacios Vjson MO, entonces también estarán en suma directa. Para distinguir suma directasimple, y suma directa ortogonal se usará la notación V = V1 � V2 � � ��Vr.

Ahora sí estamos en condiciones de de�nir la noción de complemento ortogonal.

Definition 9. Sea V � Rn un conjunto de vectores. El complemento ortogonalde V (respecto de Rn) es V ? = fx 2 Rncon x?V g

O sea V ? es el conjunto de vectores de Rn que son ortogonales a V: Es fácildemostrar que V ? es un subespacio.Más aún, V puede no ser un subespacio, porejemplo V = fx1g, sin embargo V ? sí lo será. También se demuestra que si V essubespacio, V y V ? estarán en suma directa, o sea Rn = V � V ?, cumpliéndosecomo en toda suma directa n = dim(Rn) = dim(V ) + dim(V ?):

A veces interesa el complemento ortogonal de un subespacio V , no respecto delespacio total Rn, sinó respecto de otro subespacio W , con V �W � Rn:

Definition 10. Sea V � W � Rnsubespacios, el complemento ortogonal deV (respecto de W ) es V ?w = fx 2W con x?V g =W \V ?(con V ? el complementoortogonal respecto de Rn)

Como antes, también resultará W = V � V ?w : Se incluirán ahora algunas rela-ciones válidas con complementos ortogonales.

Proposition 3. Si V1 y V2 son subespacios: V1 � V2 () V ?1 � V ?2

Page 12: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

12 1. ALGEBRA LINEAL

Proposition 4. Si V1 y V2 son subespacios: (V1+V2)? = V ?1 \V ?2 y además(V1 \ V2)? = V ?1 + V ?2

A veces, una matriz X 2 Rn�k se la puede pensar como k vectores columna xj ,y el subespacio generado por estos vectores columnas lo designábamos C(X):Perotambién puede pensarse como n vectores �la exi. y en este caso, el subespacio gen-erado por los vectores �la lo designaremos F (X):Notar que C(X) es un subespacioen Rn, mientras que F (X) es un subespacio en Rk:Son subespacios diferentes, perose demuestra que tienen la misma dimensión.

Proposition 5. SiX 2 Rn�k entonces rango(X) = dim(C(X)) = dim(F (X))

Cuando se multiplica una matrizX, por una matriz inversible(ya sea a izquierdao derecha), el rango de la nueva matriz no cambia, y alguno de los subespacioscolumna o �la tampoco, según expresan:

Proposition 6. Si Q inversible =) rg(XQ) = rg(X) y C(XQ) = C(X)

Proposition 7. Si P inversible =) rg(PX) = rg(X) y F (PX) = F (X)

Definition 11. Núcleo de X 2 Rn�k : N(X) =�b 2 Rk : Xb = 0

= F (X)?

El núcleo de la matriz es un subespacio de Rk. Por estar formado por todoslos b 2 Rk que cumplen Xb = 0, resultará también b?F (X). De aquí la últimaigualdad.Veremos dos expresiones importantes.

Proposition 8. Como Rk = F (X)� F (X)? =) Rk = F (X)�N(X):Proposition 9. Como Rn = C(X)� C(X)? =) Rn = C(X)�N(X0):

Ya que C(X)? = F (X0)? = N(X0):

Proposition 10. Si X 2 Rn�k, dim(C(X)) + dim(N(X)) = k.

Proof. Como Rk = F (X)�N(X); resulta k = dim(F (X))+dim(N(X)), perodim(F (X)) = dim(C(X)): �

De cierta manera el "tamaño" del núcleo de una matriz, medido por su dimen-sión, da idea del grado de dependencia entre las columnas de la matriz. Por ejemplosi N(X) = 0, resultará dim(C(X)) = k, lo que indica que las columnas de X sonLI. Si N(X) = f�v, 8� 2 Rg, tendrá dimensión 1, entonces dim(C(X)) = k� 1, loque indica que alguna de las columnas de X, es combinación lineal de las restantes.

Proposition 11. Si X 2 Rn�k =) C(X0X) = C(X0) y C(XX0) = C(X) yademás rg(C(X0X)) = rg(C(XX0)) = rg(X):

Proof. Si u 2 C(X0X); resulta u = X0Xb = X0c (paraXb = c), luego u 2C(X0):Al revés: sea u 2 C(X0); luego u = X0c para c 2 Rn:Pero como Rn = C(X) �N(X0); existirán únicos c1 = Xd 2 C(X), y c2 2 N(X0) con c = c1 + c2 = Xd +c2:Reemplazando: u = X

0c = X0Xd+X0c2; pero como c2 2 N(X0) = F (X0)?;elúltimo término es cero y resulta la tesis. Para la segunda basta intercambiar X yX0 en la primera. �

Proposition 12. Si X 2 Rn�k =) N(X0X) = N(X) y N(XX0) = N(X0) yademás rg(N(X0X)) = rg(N(XX0)) = k � rg(X):

Proof. Similar a la anterior. �

Page 13: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. SISTEMAS LINEALES 13

3. Sistemas Lineales

3.1. Sistemas lineales. En algebra elemental se resuelven sistemas de ecua-ciones lineales del tipo Xb = v, donde X es una matriz cuadrada conocida de Rn�ny v también conocido está en Rn, e interesa averiguar b. Ahora se quiere generalizaresto a matrices X rectangulares. El planteo es el siguiente:

Dado Xb = v con�X 2 Rn�mv 2 Rn hallar F = fb 2 Rm : Xb = vg

Si se escribeXb como combinación lineal de los vectores columna deX = [x1;x2; ��;xm]se tiene:

(3.1) x1b1 + x2b2 + � �+xmbm = vpor eso las bi se suelen llamar coordenadas de el vector v, en los vectores columnade X.

Proposition 13. Consistencia

Si v 2 C(X)() F 6= ; (alguna solución)

Proof. Si v 2 C(X) quiere decir que existirán bi tales que v se podrá expresarcomo combinación lineal de los xi como en (3.1), luego F 6= ;. �

En lo que sigue se supondrá que se cumple esta condición, ya que la consistenciaes lo primero que hay que analizar en un sistema lineal.

Como se verá a continuación, el conjunto solución Fde un sistema consistentepuede incluir un solo vector b, ser un subespacio, o una variedad lineal.

Proposition 14. Vale en particular para sistemas consistentes:

Si rg(X) = m =) F =nb = (X

0X)

�1X0v

o(1 solución)

Proof. Multiplicando por X0, queda X0Xb = X0v. Y como rg(X0X) = m,existe la inversa, y entonces b = (X0

X)�1X0v. Sustituyendo se veri�ca que es

una solución. Para la unicidad supogamos que tenemos dos soluciones b1 y b2,entonces Xb1 = Xb2, o sea X(b1 � b2) = 0:Luego b1 � b2 2N(X) = 0. O seadebe ser b1 = b2: �

Si rg(X) < m, X no será base de C(X) y entonces se tendrán in�nitas solu-ciones. Se presentará a continuación la solución general(que vale tanto para rg(X) =m, o rg(X) < m). Recuérdese que para cualquier matriz X 2 Rn�m, el N(X) =fe 2 Rm : Xe = 0g = F (X)?.

Proposition 15. Vale en general para sistemas consistentes:

F = fb = b0 + eg donde b0 es una solución cualquiera (o sea Xb0= v), y e 2F (X)?

Proof. Notar que b = b0 + e es solución, ya que: Xb = X(b0+e) = Xb0 +Xe = v + 0 = v. Por otro lado si existe otra b1 que es tambien solución, Xb1 = v,y como Xb0= v, resultará X(b1 � b0) = 0, luego b1 � b0 2 F (X)?, y entoncesb1 � b0 = e, y de aquí que b1 = b0 + e 2F . Notar que si rg(X) = m, F (X)? =N(X) = 0, y entonces F contiene solo 1 solución. Además si rg(X) < m, comoF (X)

? es un subespacio no nulo, habrán in�nitos e, luego F contendrá in�nitassoluciones. Este resultado a�rma que conocida una solución b0, cualquier otra seobtiene sumándole un vector e que sea ortogonal a F (X). �

Page 14: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

14 1. ALGEBRA LINEAL

Además si v = 0, resultará b0 2 F (X)? y entonces F = F (X)? será un sube-spacio. Y cuando v 6= 0, F será una variedad lineal.

Se analizará ahora otra expresión de este conjunto solución, que admite unainterpretación geométrica, que será útil mas adelante. Pero antes se probará unapropiedad de todas las soluciones b 2 F .

Proposition 16. Si b 2 F =) Pr(b jF (X)) = bf 2 F , y es únicoProof. Aunque todavía no se de�nió el concepto de proyección de un vector

sobre un subespacio, como Rm = F (X)�F (X)?, si b 2 F � Rm, debido a la sumadirecta existirán, únicos, vectores bf 2 F (X) y bf? 2 F (X)? con b = bf + bf? .Aquí bf es la proyección de b sobre F (X), o sea bf = Pr(b jF (X)). Luego bf =b+ (�bf?). Entonces como b es una solución, y �bf? 2F (X)?, resutará bf unasolución también. �

Notar que bf es la única solución Xbf = v, que pertenece a F (X). Luego laproposición de arriba se puede escribir:

Proposition 17. Vale en general para sistemas consistentes:

F = fb = bf + eg donde:bf es la única solución Xbf = v con bf 2 F (X), y e 2F (X)?

Resultará también que bf?e.Con esto quedan caracterizadas todas las soluciones, como la única solución

que está en F (X), más vectores ortogonales, que están en F (X)?.

4. Proyección de un vector sobre un subespacio

Sea un vector y 2 Rn, y un subespacio V . Considérese su complemento ortogo-nal V ? y la descomposición Rn = V �V ?. Por ser suma directa (De�nition 5) y sepuede descomponer en forma UNICA así: y = yv+yv? donde: yv = Pr(yjV ) 2 Vse llamará la proyección ortogonal de y sobre V; y a yv? = Pr(yjV ?) 2 V ?, laproyección ortogonal de y sobre V ?. Obviamente yv?yv? , y como yv? = y � yv,las condiciones a cumplir por yv son:

Definition 12. Si y 2 Rn y V � Rn es un subespacio, se de�ne yv = Pr(yjV )como la proyección ortogonal de y sobre V , al vector yv que cumple:

(4.1) (i)yv 2 V y (ii)(y � yv) 2 V ?

En este caso yv? = y � yv = Pr(yjV ?) es la proyección ortogonal de y sobre V ?.Y resultarán también que yv y yv? = y � yv ortogonales.

Estudiaremos primero el caso en que dim(V ) = 1, o sea proyectar sobre unarecta, y luego mas adelante el caso general.

Sea y 2 Rn, y el subespacio L(x) generado por x 2 Rn(x 6= 0):Buscamos laproyección de y sobre L(x); o sea yx. Con la primera de (4.1), resulta yx = bx paracierto b 2 R; y usando la segunda condición<y�bx;x>=0, o sea<y;x>=<bx;x>=b kxk2 : Luego b = <y;x>

kxk2 , y entonces :

(4.2) Pr(y j L(x)) = Pr(y j x) = yx = <y;x>kxk2 x

Notar que la proyección yx depende del subespacio, y no del particular x quehayamos usado para generarlo. O sea, si en lugar de x usamos cx (con c 6= 0);reemplazando en (4.2) se obtiene la misma proyección yx:

Page 15: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. PROYECCIÓN DE UN VECTOR SOBRE UN SUBESPACIO 15

4.1. Propiedades de la proyección.

Proposition 18. kyk2 = kyvk2 + kyv?k2 (Pitágoras)

Proof. kyk2 =<y;y>=<yv+yv? ;yv+yv?>=<yv;yv>+<yv;yv?>+<yv? ;yv>+<yv? ;yv?>=<yv;yv>+<yv? ;yv?>=kyvk2 + kyv?k2(tesis) �

Proposition 19. yv es único

Proof. Ya que si existiesen y1v y y2vresultaráy1v � y2v = (y � y1v?)� (y � y

2v?) = y

2v? � y

1v? 2 V

? luegoy1v � y2v 2 V , y también a V ?. Entonces será ortogonal a si mismo, y de aquí0 =<y1v � y2v;y1v � y2v>=

y1v � y2v 2 =) y1v = y2v �

Proposition 20. La distancia de y a un punto cualquiera de V , es mínimaen yv de V .

Proof. Tómese un punto cualquiera x 2V . Luego dist2(y;x) = ky � xk2 == k(y � yv)�(x� yv)k

2= ky � yvk

2+ kx� yvk

2 � ky � yvk2= dist2(y;yv)

(pues y � yv y x� yv, son ortogonales) �

Proposition 21. <x;yv>=<xv;y>=<xv;yv>

Esta es una propiedad importante de las proyecciones, que se usa mucho enModelo Lineal. Esencialmente dice si en un producto escalar, alguno de los vectoresestá proyectado, podemos elegir cual de los dos, o los dos, �guren como proyectados.Para demostrarla basta reemplazar por ejemplo, yv = y � yv? , o x = xv+xv? yoperar. Un ejemplo: <x;xv>=<xv;xv>=kxvk

2.

4.2. Proyección sobre V = V1 � V2 � � ��Vr.

Proposition 22. Sea V = V1 � V2 � � ��Vr subespacios de Rn, entonces

(4.3) Pr(y j V ) = yv =rPj=1

Pr(y j Vj) y kyvk2 =rPj=1

yvj 2Proof. Por ser proyección sobre V , yv 2 V , y y � yv 2 V ?. De la primera,

por ser suma directa, existirán únicos yi 2 Vi con yv = y1 + y2 + � � +yr. De lasegunda, como V ? = V ?1 \ V ?2 \ � � \V ?r , si y � yv 2 V ? resultará y � yv 2 V ?i ,8i. En particular para i = 1; y � yv 2 V ?1 . Luego para todo x 2 V1 se cumplirá<y � yv;x>= 0, o sea <y � y1 � y2 � � � �yr;x >= 0. Pero como y2; ��;yr sonortogonales a x, esto equivale a <y � y1;x>= 0 8x 2V1. Luego resulta y � y1 2V ?1 . Entonces si y1 2 V1 y y � y1 2 V ?1 , será y1 = yv1 = Pr(y j V1) la proyecciónde y sobre V1. El mismo análisis para i = 2; ��; r. La última se demuestra aplicandoPitágoras. �

Este resultado expresa que cuando se proyecta un vector sobre un subespa-cio que es una suma de subespacios ortogonales, la proyección, es la suma de lasproyecciones sobre cada subespacio; y que la norma cuadrática del vector proyec-tado es también la suma de las normas cuadráticas de las proyecciones sobre cadasubespacio. Es un resultado muy usado en ML. Se verá ahora un caso particularmuy útil.

Page 16: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

16 1. ALGEBRA LINEAL

4.3. Proyección sobre V = L(x1;x2 � � � xk) con xi?xj.

Proposition 23. Si V = L(x1;x2 � � �xk) con xi?xj 8i; j o sea V = L(x1)�L(x2)� � ��L(xk)

(4.4) yv =kPj=1

Pr(y j xj) =kPj=1

<y;xj>

kxjk2xj y kyvk2 =

kPj=1

<y;xj>2

kxjk2

Esto signi�ca que si V está generado por k vectores ortogonales, para hallarPr(y j V ), basta con sumar las proyecciones sobre cada vector según se vió en(4.2).Para demostrarlo usar (22). Pero veamos un resultado más general.

4.4. Proyección sobre un subespacio cualquiera - Ecuaciones nor-males. Consideremos el caso general en que V = L(x1;x2 � � � xk) donde no nece-sariamente se cumple xi?xj 8i; j:Buscamos la proyección de y sobre L(x1;x2���xk),o sea yv. Con la primera de (4.1), resulta yv = b1x1+b1x2+��+b1xk para ciertos bjque tendremos que determinar, y usando la segunda condición <y� yv;xi>= 0, osea <yv;xi>=<y;xi>, o sea b1<x1;xi>+b2<x2;xi>+ � �+ bk<xk;xi>=<y;xi>para cada i entre 1 y k: Queda entonces el sistema lineal de k ecuaciones con kincógnitas

(4.5)

8>><>>:b1<x1;x1>+ b2<x2;x1>+ � �+bk<xk;x1> = <y;x1>b1<x1;x2>+ b2<x2;x2>+ � �+bk<xk;x2> = <y;x2>

� � � � � � � � �b1<x1;xk>+ b2<x2;xk>+ � �+bk<xk;xk> = <y;xk>

En el lado izquierdo todos productos escalares <xi;xj>, se pueden expresarmatricialmente como X0X, y las incógnitas - las bj - como el vector b, y en elderecho escribirlo como X0y. En de�nitiva, quedan las llamadas

(4.6) X0Xb = X0y Ecuaciones normales

Este sistema lineal siempre es consistente(13) ya que v = X0y pertenece alespacio columna C(X0) y además el espacio columna de X0X es C(X0X) =C(X0),el mismo. Luego siempre tendrá alguna solución.

Si rg(X) = k, o sea si X es base, resultará rg(C(X0X)) = k;y la matriz X0X

será inversible. Luego de resolver este sistema en b, resultará b = (X0X)�1X0y, y

entonces:

Pr(y j V ) = yv = Xb = X(X0X)�1X0y

Y además Pr(y j V ?) = yv? = y � yv.En el caso que rg(X) < k; la matriz X0X no tiene inversa, y entonces (4.6)

tendrá in�nitos vectores b solución.Una alternativa si rg(X) = r < k es quitarle a la matriz X, k � r columnas

linealmente dependientes de las restantes, de manera que la nueva matriz X� 2Rn�r generará el mismo espacio ya que C(X�) = V y rg(X�) = r, y por lo tantoX�0X� será inversible y se podrá emplear el procedimiento anterior para obteneruna solución particular b0, y las restantes, utilizando lo visto en sistemas linealescomo b0 + e con e 2F (X)?.

Page 17: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. PROYECCIÓN DE UN VECTOR SOBRE UN SUBESPACIO 17

4.5. Coordenadas de yv en una base. Suponga que se ha obtenido laproyección de y sobre un subespacio V . Si yv es la proyección, ahora se quierenhallar sus coordenadas en una base cualquiera de V , por ejemploX 2 Rn�m. O sea,habrá que resolver en b el sistema consistente Xb = yv. Luego según la proposi-ción 14 las coordenadas de yv serán: b = (X

0X)

�1X0yv. Como y = yv + yv? , se

tendrá b = (X0X)

�1X0(y � yv?) = (X0

X)�1X0y (ya que X0yv? = 0). O sea en la

expresión de b, se puede poner yv o y. Las coordenadas serán las mismas y estoes debido a que y � yv? es ortogonal a X.

4.6. Coordenadas de yv en una base ortogonal. Sea V = C(X) conX = [x1;x2; ��;xk] ortogonal, y 2 Rn.Entonces usando (4.4)

yv = Pr(y j V ) = Pr(y j x1) + Pr(y j x2) + � �+Pr(y j xk)

(4.7) yv =<y;x1>

kx1k2x1 +

<y;x2>

kx2k2x2 + � �+

<y;xk>

kxkk2xk

Pero si b1; b2; ��; bk son las coordenadas de yv en la base X

(4.8) yv = b1x1 + b2x2 + � �+bkxk

Debido a la unicidad al descomponer en una base resulta

(4.9) bj =<y;xj>

kxjk2para 1 � j � k

4.7. Procedimiento de ortogonalización de Gram-Schmidt. Como apli-cación de lo visto se dará un procedimiento para, dada una base cualquiera deun subespacio, obtener una base ortogonal. Sea un subespacio V y una basex1;x2 � � �xk. Luego V = L(x1;x2; ��;xk) = C(X): Considérense la sucesión de sube-spacios V1 = L(x1); V2 = L(x1;x2); V3 = L(x1;x2;x3); ��; Vk = L(x1;x2; ��;xk):queestarán propiamente incluidos o sea: V1 � V2 � � � Vk:Los pasos son:

1�) Sea t1 = x12�) Sea t2 = x2 � Pr(x2 j V1) entonces t1?t2 y L(t1; t2) = V2. O sea, se

obtienen dos vectores ortogonales que generan V2:3�) Sea t3 = x3 � Pr(x3 j V2) donde Pr(x3 j V2) = Pr(x3 j t1) + Pr(x3 j t2) y

se obtienen t1;t2; t3 ortogonales que generan L(t1; t2; t3) = V3.Siguiendo k pasos, se obtendrá L(t1; t2; ��; tk) = V = C(T) donde las columnas

de T contituyen una base ortogonal de V . Finalmente si cada tj se reemplaza portj= ktjk se obtendrá una base ortonormal.

Proposition 24. Si V1 � V2 � V � Rn son subespacios de dimensiones1 � r1 < r2 < r y bases B1 2 Rn�r1 ;B2 2 Rn�r2 ;B 2 Rn�r, existe una baseortogonal de V , T = [T1j T2j T3], tal que T1 es base de V1, y [T1 j T2] es base deV2:

Proof. Basta aplicar el procedimiento de Gram-Schmidt. Obviamente valepara una descomposición de V en más de tres subespacios. �

Page 18: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

18 1. ALGEBRA LINEAL

5. Autovalores y Autovectores de matrices simétricas

Se analizara este tema para matrices A 2 Rn�n, simétricas.

Definition 13. Sea A 2 Rn�n, un escalar � se llama autovalor de la matrizA, si existe un x 2 Rn;x 6= 0, tal que Ax = �x. Al vector x se le llama autovectorcorrespondiente al autovalor �.

Proposition 25. � es autovalor de la matriz A() A� �In es singular

Proof. Si � es autovalor, 9x 6= 0 con Ax = �x, entonces (A� �In)x = 0.Luego x 6= 0, deberá pertenecer al N(A� �In). Esto quiere decir que el núcleotendrá dimensión no nula. Y esto signi�ca que la matriz A� �In deberá ser singu-lar. Al revés, si A� �In es singular, su nucleo no es el subespacio nulo, y entoncesexistirá x 6= 0 con (A� �In)x = 0 y de aquí sale que � es un autovalor. �

Para encontrar los � que hacen singular a A� �In, se resuelve la llamadaecuación característica 'A(�) = jA��Inj = 0.

Como al desarrollar el determinante, 'A(�) = �n+�1�

n�1+ � �+�n�1�+�n esun polinomio de grado n en �, en principio la ecuación característica tendrá n raícesen C(contadas con su multiplicidad). Sin embargo se demuestra que en el caso dematrices reales simétricas todos los autovalores serán reales. Y además, como severá más adelante, en el caso de la matriz de covarianza que es simétrica, todos losautovalores son números reales positivos o cero. Como cada valor de �j hace singulara A��jIn, resulta que el N(A��jIn) no será el subespacio nulo. Se demuestraque dimN(A��jIn) coincide con la multiplicidad de el autovalor �j en la ecuacióncaracterística, llamémosla mj . Luego en general, si hay k autovalores distintos cadauno con su respectiva multiplicidad , los escribiremos así: �(m1)

1 ; �(m2)2 ; ��; �(mk)

k .Desde ya que m1 +m2 + � �+mk = n.

Definition 14. Para cada autovalor con su respectiva multiplicidad �(mj)j , el

N(A��jIn) se llama el espacio propio del autovalor �j. Este subespacio contienea todos los autovectores del autovalor �j. Se demuestra que dim(N(A��jIn)) =mj. Como observación, el único vector del espacio propio que no es autovector esx = 0.

Remark 1. Cuando un autovalor � tiene multiplicidad 1, el espacio propiotiene dimensión 1, y será del tipo L(x). O sea si x es un autovector, también loserá cx para c 6= 0. Por eso usualmente los autovectores se normalizan así x

kxk :

Proposition 26. Los espacios propios correspondientes a autovalores distintosson ortogonales. O sea si �j 6= �i =) N(A��jIn)?N(A��iIn).

Proof. Sean los autovectores no nulos xj2N(A��jIn) y xi2N(A��iIn). Re-sultará Axj=�jxj y Axi=�ixi.Entonces x0iAxj = �jx

0ixj y x

0iAxj = (Axi)

0xj =�ix

0ixj . Restando 0 = (�j � �i)x0ixj , como supusimos �j 6= �i, deberá ser x0ixj =

<xi;xj>= 0, o sea xi?xj . �Proposition 27. Rn = N(A��1In)�N(A��2In)� � ��N(A��kIn).O sea los espacios propios de autovectores distintos no solo son ortogonales sinó

que en suma directa generan Rn.Ahora bién, para cada espacio propio N(A��jIn) (que tiene dimensión mj),

tomemos una base. Pero los vectores de esta base, que corresponden a un mismo �j

Page 19: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. AUTOVALORES Y AUTOVECTORES DE MATRICES SIMÉTRICAS 19

no tienen porqué ser ortogonales.Sin embargo, usando el procedimiento de Gram-Schmidt construyamos una base ortonormal. Llamemos a esta base T�j .

Definition 15. La matriz de autovectores de A es T = [T�1 j T�2 j �� j T�k ] 2Rn�n. Esta matriz es base de Rn.

Proposition 28. Si �k = 0 con multiplicidad mk =) el espacio propio esN(A) = C(A)? con base T0

Proof. N(A) = F (A)? = C(A)? debido a la simetría de A: �Para expresar la siguiente proposición de la forma mas general posible supon-

dremos que �k = 0.

Proposition 29. Rn = C(A)� C(A)? = L(T�1 j T�2 j �� j T�k�1)� L(T0)Además r(A) = dim(C(A)) = cantidad de autovalores 6= 0; contados con su

multiplicidad, y r(C(A)?) = dim(C(A)?) = multiplicidad del autovalor nulo. Sino hay autovalores nulos, Rn = C(A):

A partir de ahora, por simplicidad de notación, enumeraremos los autovaloresen orden decreciente �1 > �2 > �� > �n repitiendo algunos de ellos según sumultiplicidad. Y de�nimos la matriz de autovalores como � = diag(�1; �2; ��; �n) 2Rn�n: Y la correspondiente matriz de autovectores será T = [t1; t2; ��; tn] 2 Rn�n:

Definition 16. Una matriz H 2 Rn�n es ortogonal sii HH0= In:

En realidad se demuestra que vale tambiénH0H = In, resultandoHH0= H0H = In.

O sea las matrices ortogonales no solo son ortonormales sinó que su inversa es iguala su transpuesta, es decir H�1 = H0.

Proposition 30. Como T es ortogonal resulta T0T = TT0 = In:

Proposition 31. AT = T�, T0AT = � y la descomposición espectralA = T�T0:

Proof. Como para cada tj ; valeAtj = �jtj ;matricialmente resultaráAT = T�;y luego T0AT = T0T� = �:Para la tercera se multiplica la primera, a derecha porT0: �

Proposition 32. jAj=nQj=1

�j

Proof. jAj =��T�T0�� = jTj j�j jT0j = ��TT0�� j�j = jInj j�j = 1 j�j =

nQj=1

�j .

Luego una matriz es singular, equivale a que alguno de sus autovalores es nulo. �Proposition 33. Si A no es singular, entonces A�1tiene los mismos autovec-

tores, y autovalores ��1j : O sea vale A�1 = T��1T0:

Proof. Sea �j ; tj autovalor y correspondiente autovector deA; entoncesAtj =�jtj ; luego tj = �jA�1tj ; o sea A�1tj = �

�1j tj :(ya que al ser no singular 9��1j ):

�Proposition 34. Aktiene los mismos autovectores que A, y autovalores �kj :O

sea vale Ak = T�kT0:

Proposition 35. In�A tiene los mismos autovectores que A, y autovalores1� �j :

Page 20: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

20 1. ALGEBRA LINEAL

Definition 17. Si A 2 Rn�n, Tr(A) =nPi=1

aii

Valen las siguientes propiedades:

(1) A;B 2 Rn�n =) Tr(A+B) = Tr(A) + Tr(B)(2) A 2 Rn�k;B 2 Rk�m =) Tr(AB) = Tr(BA)(3) A 2 Rn�k;B 2 Rk�m;C 2 Rm�r =) Tr(ABC) = Tr(BCA) = Tr(CAB)

(4) Tr(A) =nPj=1

�j

6. Formas Cuadráticas y Matrices asociadas

Dada una matriz simétrica A; la expresión x0Ax; 8x2 Rn se denomina formacuadrática, y A la matriz asociada a la forma cuadrática.Cláramente x0Ax es unnúmero real, que dependiendo del vector x puede tomar valores positivos, negativoso nulos. Para x = 0; la forma cuadrática es nula siempre, sin embargo en las apli-caciones suelen interesar formas cuadraticas que para cualquier x 6= 0 sean siempre> 0, o a veces > 0:

Definition 18. A es de�nida positiva (notación: A >0), si 8x 6= 0; x0Ax >0.Similarmente A es semi-de�nida positiva (notación: A >0), si 8x 6= 0; x0Ax >0.

Proposition 36. Si A >0 =) �j > 0;8j; y si A >0 =) �j > 0;8j:

Proof. 8x 6= 0;debera ser x0Ax >0: En particular tomando x = tj ; resultarát0jtj�j > 0 o sea �j > 0. La otra se demuestra en forma similar. �

Obviamente si A 2 Rn�n; y es de�nida positiva, r(A) = n , y será inversible.Por otro lado, si es semi-de�nida positiva, r(A) = r < n; y no será inversible.

Proposition 37. A >0 () 9R inversible con A = RR0 (R 2 Rn�n)

A >0 () 9R no-inversible con A = RR0 (R 2 Rn�n)

Proof. A = T�T0= T�1=2�1=2T0 = T�1=2(T�1=2)0 = RR0 donde R seráinversible pues T y �1=2 lo son.Veamos la inversa, 8x 6= 0; x0Ax = x0RR0x =(R0x)

0R0x = y0y = jyj2 > 0, ya que al ser x 6= 0; y R inversible, y = R0x 6= 0:La

otra se demuestra en forma similar. �

Notar que en el caso anterior la descomposición A = RR0 no es única. Enefecto sea C 2 Rn�n ortonormal, luego si en lugar de R, tomamos RC, resulta:RC(RC)

0= RCC0R0 = RR0 = A:

Proposition 38. Si A �0 =) B = T�1=2T0 es la única y simétrica raízcuadrada de A:

Proof. Claramente B es simétrica, y BB = T�1=2T0T�1=2T0 = T�T0 =A:(falta probar la unicidad) �

Descomposicion singular

Page 21: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. OPERADORES DE PROYECCION ORTOGONAL 21

7. Operadores de Proyeccion ortogonal

Dado un subespacio V � Rn, vimos que 8y 2 Rn, la proyección Pr(y j V )de�ne un yv que cumple con los dos requisitos de (4.1). Queremos ahora estudiarla aplicación Pr(y j V ) : Rn �! Rn. Por de pronto con (4.1) se demuestra que eslineal, o sea: (i) y1;y2 2 Rn �! Pr(y1+y2 j V ) = Pr(y1 j V ) + Pr(y2 j V ) y (ii)y 2 Rn; � 2 R �! Pr(�y j V ) = �Pr(y j V ). Esto signi�ca que existirá una matrizPv 2 Rn�n llamada matriz de proyección ortogonal sobre V que permite expresarla proyección así: Pr(y j V ) = Pvy: La intención en lo que sigue es estudiar laspropiedades de esta matriz.

Proposition 39. Pv es única (depende solo de V )

Proof. Si suponemos que 9Pv y P�v. Como 8y 2 Rn la proyección es única(Prop.19), resultará yv = Pvy = P

�vy, luego (Pv � P�v)y = 0 8y 2 Rn luego

Pv �P�v = 0; o sea Pv = P�v: �Proposition 40. Si V = C(X) con X 2 Rn�k y B 2 Rn�r es una base de V ,

entonces Pv = B(B0B)

�1B0 (en el caso que los vectores columna de X sean base,

basta tomar B = X, o sea Pv = X(X0X)

�1X0)

Proof. Como Rn = V �V ?, se busca C 2Rn�(n�r) base de V ?.Luego [B j C]será una base de Rn y entonces todo y 2 Rnse descompone unívocamente comoy = B� +C . (notar que B� 2V y (y � B�) 2V ? luego será yv = B�). Mul-tiplicando por B0 resulta B0y = B0B� +B0C = B0B� (ya que B0C = 0).PeroB0B es inversible, luego � = (B0B)�1B0y , y entonces yv = B(B

0B)

�1B0y o

sea Pv = B(B0B)

�1B0.Notar que debido a la unicidad de Pv, esta matriz será la

misma, no importando cual fué la base B. �Proposition 41. Vale

C(Pv) = V; y entonces r(Pv) = dim(V )

Proof. Si y 2C(Pv);resultará y = Pva para cierto a; luego y 2V y entoncesC(Pv) � V: Al revés: si y 2V; entonces Pvy = y; luego y 2C(Pv): �

Proposition 42. Pv es simétrica e idempotente.

Proof. P0v =hB(B

0B)

�1B0i0= Pv o sea simétrica; PvPv = B(B

0B)

�1B0

B(B0B)

�1B0 = Pv luego es idempotente también. �

Proposition 43. Vale

Si dim(V ) = r; Pv tiene r autovalores 1; y n� r autovalores nulos

Proof. Rn = V � V ?. Además si 0 6= x 2 V entonces Pvx = x = 1x;luego todos los vectores no nulos de V son autovectores con autovalor � = 1, ymultiplicidad dim(V ) = r. Similarmente si 0 6= y 2 V ? entonces Pvy = 0 = 0y;luego todos los vectores no nulos de V ? son autovectores con autovalor � = 0, ymultiplicidad dim(V ?) = n� r. �

Proposition 44. Vale

Si dim(V ) = r; entonces Tr(Pv) = r

Proof. Tr(Pv) = Tr(T�T0) = Tr(�T0T) = Tr(�) = r. �

Page 22: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

22 1. ALGEBRA LINEAL

La última, muy utilizada en Modelo Lineal, a�rma que la traza de una matrizde proyección, es la dimensión del subespacio sobre el cual proyecta.

Si utilizamos la descomposición espectral Pv = T�T0 =rPj=1

tjt0j ya que los

restantes autovalores son nulos.Pero si L(tj) es el subespacio generado por el au-tovector tj ; la matriz de proyección sobre este subespacio será Pj = tj(t0jtj)

�1t0j =

tjt0j : Luego queda Pv =

rPj=1

Pj o sea, una matriz de proyección es la suma de

las matrices de proyección sobre los autovectores que corresponden a autovaloresiguales a 1:Y esto es lógico ya que vimos que estos autovectores generan V y ademásson ortogonales.

Proposition 45. Vale

Pv? = In �Pv es la matriz de proyección sobre V ?

Y por lo tanto será simétrica e idempotente.

Proof. 8y 2 Rn, Pv?y = yv?= y�yv= Iny �Pvy = (In �Pv)y �Proposition 46. Sean los subespacios V �W � Rn, entonces PwPv= PvPw= Pv.Proof. 8y 2 Rn considérese PwPvy. Como Pvy 2V � W , luego Pvy 2W

EntoncesPwPvy = Pvy. Como esto vale para todo y, resultaPwPv= Pv:Transponiendose obtiene la segunda parte. �

Este resultado dice que si un subespacio está incluido en otro, proyectar sobreel mayor y luego sobre el menor (o al revés), es lo mismo que proyectar sobre elmenor directamente.

Proposition 47. Vale

Sea V �W � Rnsubespacios, entonces: Pw �Pv = PV ?w

dondeV ?w =W \ V ? es el complemento ortogonal de V ,respecto de W .Proof. 8y 2 Rn, (Pw �Pv)y = Pwy �Pvy pero Pwy 2W y Pvy 2V �W

luego (Pw �Pv)y 2W: Además Pwy �Pvy = Pwy �PvPwy = (In �Pv)Pwy =Pv?Pwy 2V ?. Luego (Pw � Pv)y 2W \ V ? = V ?w .[1] Como W = V � V ?w ,resultará Rn = V �V ?w �W?Entonces y� (Pw �Pv)y 2V �W? = (V ?w )

? [2].De[1] y [2] resulta la tesis. �

Este resultado dice que si un subespacio está incluido en otro, la proyecciónsobre el mayor menos la proyección sobre el menor, da un vector ortogonal al menordentro del subespacio mayor o sea perteneciente a W \ V ? = V ?w : Y hacer esto eslo mismo que usar la matriz de proyección PV ?

w= Pw �Pv.

8. Estudio de la matriz X0X

Sea X 2 Rn�k; se quieren estudiar las distintas combinaciones lineales de lascolumnas de X:O sea los y = Xb para b 2 Rk:Concretamente interesará ver quetan grande es jyj :Como jyj depende de que tan grande sea jbj, circunscribiremosnuestro análisis a y = Xb para b 2 Rk con jbj = 1: Luego habrá que estudiarjyj2 = b0X0Xb para jbj = 1:

Proyección sobre indicadorasCaso ortogonal y oblicuo.

Page 23: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 2

Vectores Aleatorios

1. Media y Matriz de Covarianza

Ahora se estudiarán vectores en Rn cuyas componentes son variables aleatorias.Se usará como notación Y para el vector, y Yj para sus componentes. Luego, seescribirá Y = (Y1; Y2; ��; Yn)0. A veces aparecerán matrices aleatorias H 2 Rn�k,cuyos elementos Hij son variables aleatorias. En el caso que la matriz sea deconstantes, (aunque puede prestarse a confusión),se usará la misma notación H,pero a sus elementos se los designará hij .

En todas las de�niciones en que intervenga el operador E(), se supondrá quelas esperanzas correspondientes existen.

1.1. Media de vectores y matrices.

Definition 19. Media de Y 2 Rn: �y = E(Y) = (E(Y1); E(Y2); ��; E(Yn))0.

Definition 20. Media deH 2 Rn�k: E(H) =

2664E(H11) E(H12) �� E(H1k)E(H21) E(H22) �� E(H2k)�� �� �� ��

E(Hn1) E(Hn2) �� E(Hnk)

3775Se enumerarán algunas relaciónes útiles entre vectores y/o matrices aleatorias y

sus medias, en todos los casos asumiendo que las expresiones tienen las dimensionesapropiadas (A; B; a; b; son constantes).

(1) SiW = AY + b =) E(W) = AE(Y) + b(2) SiW = AHB =) E(W) = AE(H)B(3) SiW = AY +BZ =)E(W) = AE(Y) +BE(Z)(4) E(<a;Y>) =<a;E(Y)>

Proof. 1. Wj = (AY)j+bj =nPk=1

ajkYk+bj luego E(Wj) =nPk=1

ajkE(Yk)+bj

Se dejan como ejercicio las restantes. �

Hemos de�nido los vectores Y y �y, ambos en Rn. Se de�ne el vector dedesviaciones, o de error así: "y = Y � �y.(este vector tiene media nula, ya queE("y) = �y ��y = 0). Entonces para todo vector aleatorio vale la descomposición

(1.1) Y = �y + "y

donde �y tiene información de "lo constante", y "y información de "lo variable"en el vector aleatorio Y.

23

Page 24: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

24 2. VECTORES ALEATORIOS

1.2. Matriz de Covarianza. Como el producto matricial (Y � �y)(Y � �y)0 ="y"

0y, da la matriz aleatoria:2664

(Y1 � �1)2 (Y1 � �1)(Y2 � �2) �� (Y1 � �1)(Yn � �n)(Y2 � �2)(Y1 � �1) (Y2 � �2)2 �� (Y2 � �2)(Yn � �n)

�� �� �� ��(Yn � �n)(Y1 � �1) (Yn � �n)(Y2 � �2) �� (Yn � �n)2

3775Definition 21. Matriz de Covarianza de Y: (si existen todas las covarianzas)

(1.2) �y = E�(Y � �y)(Y � �y)0

�= E("y"

0y) =

2664�21 �12 � �1n�21 �22 � �2n� � ��n1 �n2 � �2n

3775 2 Rn�nDe esta de�nición esta claro que si se tieneW = Y + b, con b un vector con-

stante, �w = �y O sea cualquier vector constante sumado a un vector aleatorio,no altera la matriz de covarianza. Por otro lado si se presta atención a la descom-posición Y = �y + "y, resulta �y = E

�"y"

0y

�= �"y , o sea, la información sobre

covarianzas está contenida en el vector de error "y.

Proposition 48. E(YY0) = �y�0y +�y

Proof. (desarrollando la de�nición de �y y despejando) �

Example 1. Suponga que se hacen 4 determinaciones independientes de unavariable aleatoria N(�;�) de la que se desconocen sus parámetros, e interesa es-timarlos. En estadística tradicional, las variables observadas se describirían así:Y1; Y2; Y3; Y4 iid ~N(�;�). Pero llamemosY = (Y1; Y2; Y3; Y4)

0, �y = (�; �; �; �)0 =

j4�, y como las Yj son independientes con igual varianza,resultará �y = �" = �2I4.Luego, expresado con la notación de Modelo Lineal

Y = j4�+ " =

26641111

3775�+2664"1"2"3"4

3775 con �" =

2664�2 0 0 00 �2 0 00 0 �2 00 0 0 �2

3775Notese que en el problema de estimación,Y es un vector "observado"(conocido).

El vector de medias �y es desconocido, pero como �y = j4� se sabe que perteneceal subespacio L(j4), luego solo hay que determinar �. Y el vector de desviaciones", también es desconocido, interesa estimar su matriz de covarianza, pero como laestructura de esta matriz es �2I4, solo hay que determinar �2.

Proposition 49. Vale

A 2 Rm�n constante, W = AY =) �w = A�yA0

Proof. �w = E�(AY �A�y)(AY �A�y)0

�= E

�A(Y � �y)(Y � �y)0A0�

= AE�(Y � �y)(Y � �y)0

�A0 = A�yA

0 �

Corollary 1. b 2 Rn constante, W= b0Y =) �w = b0�yb 2 R.

Page 25: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. MEDIA Y MATRIZ DE COVARIANZA 25

Example 2. Sea el vector X = (X1; X2; ��; Xn)0 donde las Xi son variablesaleatorias independientes de media � y desvío �. Se quiere estudiar el vector Y =(X2 � X1; X3 � X2; ��; Xn � Xn�1)0. Por de pronto �x = jn� y �x = In�

2.Notese también que X 2 Rn y que Y 2 Rn�1. Además la relación entre Y y X es:

Y =

2664�1 1 0 �� 00 �1 1 �� 0�� �� �� �� ��0 0 0 �1 1

3775X = AX. Luego �y = A�x = Ajn� = 0, y además

�y = A�xA0 = AIn�

2A0= AA0�2 =

26642 �1 �� 0�1 2 �� 0�� �� �� �10 0 �1 2

3775�2 2 R(n�1)�(n�1)Pero antes de seguir se analizará cierta propiedad que debe tener toda ma-

triz de covarianza de un vector Y 2 Rn. Si b 2 Rn es un vector constante,W= b0Y =b1Y1 + b2Y2 + � � +bnYn es una combinación lineal de las Yj . LuegoV ar(W ) = V ar(b0Y) = b0�yb �0. O sea 8b 6= 0, la forma cuadrática deberáser � 0(si existiese un b en que b0�yb <0, se habria encontrado una combinaciónlineal con V ar(b0Y) < 0 lo cual es imposible).Esto quiere decir que �y deberá sersemi-de�nida positiva, o sea �y � 0.

Conclusion 1. La matriz de covarianza de un Y 2 Rn, es semi-de�nidapositiva (�y � 0).

1.3. Rango y espacio de un vector aleatorio. Hasta ahora se supuso que elvector aleatorio esta en todo Rn.Se analizará con más detalle este tema. Recordandoque Y = �y + "y, podría ser que �y > 0, y en este caso sería rg(�y) = n, perosupongamos que es �y � 0, con rg(�y) = r < n. Entonces �y = T�T0 con� =diag(�1; �2; ��; �r; 0; 0; ��; 0), y T0�yT = �. Considérese la combinación linealW = T0"y, con E(W) = T00 = 0, y �w = T0�yT = �. Luego el vector Wtiene r variables aleatorias no correlacionadas de media cero, y varianzas �1; ��; �r,y el resto, variables aleatorias de media y varianza nula, o sea, se puede escribirW = (W1;W2; ��;Wr; 0; 0; ��; 0)0. Inviertiendo "y = TW quedará: "y = t1W1 +t2W2+ � �+trWr. O sea "y es un vector aleatorio que pertenece, no a todo Rn, sinóa un subespació Vr � Rn de dimensión r.

Definition 22. Se llama rango de un vector Y 2 Rn, a la dimensión delsubespacio en que "vive" "y. Coincide con rg(�y). El vector de dice no-singular sisu rango es n.

Si interesa el espacio donde "vive" el vector Y, como Y = �y + "y, se dirá queel vector aleatorio Y, pertenece a una variedad lineal de dimensión r.

Además enW = T0"y, si se toma i > r, lasWi = t0i"y serán variables aleatorias

de media y varianza nula. Luego t0i"y = 0 expresan las dependencias entre las "yiSe tiene entonces justi�cada la siguiente:

Proposition 50. Si Y 2 Rn, tiene media �y, y matriz de covarianza �y, conrg(�y) = r, entonces Y � �y = "y 2 Vr, donde Vr � Rn es un subespacio dedimensión r generado por los autovectores correspondientes a autovalores no nulosde �y:O también, que Y estará en una variedad lineal de dimensión r:Además ladependencia entre las "yi se expresan a través de las t

0i"y = 0, donde ti son los

autovectores que corresponden a autovalores nulos.

Page 26: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

26 2. VECTORES ALEATORIOS

Aquí cabe una aclaración, ya que si el vector �y 2 Vr, también Y = �y + "y 2Vr, y entonces Y estará también en el subespacio. Pero si �y =2 Vr, Y estarápropiamente en una variedad lineal.

Example 3. Estudiar en que espacio está el vector Y, con �y = (2; 8; 5)0 y

�y =

24 176

176 � 53

176

176 � 53

� 53 � 53223

35. Como los autovalores de �y son �1 = 9; �2 = 4; �3 =

0;será rg(�y) = 2; o sea es semi-de�nida positiva. Entonces si Y = �y + "y, elvector "y "vivirá" en un subespacio V2 de dimensión 2 dentro de R3. Para ver cuales este subespacio se calcula la matriz de autovectores de �y, o sea (redondeando

decimales) T =

24�0:408 �0:577 0:707�0:408 �0:577 �0:7070:816 �0:577 0

35 = [t1j t2j t3]. Como t1 y t2 son los

autovectores que corresponden a autovalores no nulos, resultará V2 = L(t1; t2).Además como �y =2 V2, Y = �y + "y pertenecerá a una variedad lineal de R3. Sise quiere saber cual es la dependencia entre las Yi, habrá que prestar atención a t3,ya que �3 = 0. Como W = T0"y, resultara 0 = t03"y = 0:707"y1 � 0:707"y2 o sea"y1 � "y2 = 0, o también (Y1 � 2)� (Y2 � 8) = 0:En de�nitiva Y1 � Y2 � 6 = 0.

En Modelo Lineal se suele partir de un vector Y 2 Rn con matriz de covarianza�y = �2In, o sea rg(�y) = n, y por lo tanto �y > 0, lo que dice "y "vive" entodo Rn(y también Y = �y + "y, ya que �y 2 Rn). Sin embargo, si posterior-mente interesa la proyección de Y sobre un subespacio V , se la calculará medianteYv= PvY donde Pv es la matriz de proyección, de rg(Pv) = dim(V ) = r. Luego�yv = Pv�

2InP0v = �2Pv, y entonces el vector Yv tendrá matriz de covarianza

�yv de rango r, o sea "yv "vivirá" en V (y en este caso también Yv = �yv + "yv ,ya que �yv = E(Yv) = Pv�y 2 V ). Por este motivo, cuando se proyecta, el vectorproyectado pierde rango, pero "vive" en un subespacio, de dimensión menor que n.

1.4. Matriz de Covarianza entre dos vectores aleatorios. También sede�ne la Matriz de Covarianza entre dos vectores aleatorios (que pueden tenerdiferente dimensión, en cuyo caso la matriz será rectangular):

Definition 23. Matriz de Covarianza entre Y 2 Rn, Z 2 Rm:

�yz = E�(Y � �y)(Z� �z)0

�=

2664�y1z1 �y1z2 �y1z3 �� �y1zm�y2z1 �y2z2 �y2z3 �� �y2zm�� �� �� �� ��

�ynz1 �ynz2 �ynz3 �� �ynzm

3775 2 Rn�mAquí es cómodo usar el operador covarianza de�nido por C(Y;Z) = �yz, que

en el caso de un solo vector C(Y;Y) = �y.Con esta de�nición es fácil demostrarque si se tiene U = Y + a y W = Z+ b, con a y b vectores constantes, �uw =C(Y + a;Z+ b) = C(Y;Z) = �yz O sea vectores constantes sumados a vectoresaleatorios, no altera la matriz de covarianza entre ellos.

Proposition 51. A 2 Rp�n,B 2 Rq�m constantes, entonces

C(AY;BZ) = A�yzB0

Proof. C(AY;BZ) = E�(AY �A�y)(BZ�B�z)0

�= E

�A(Y � �y)(Z� �z)0B0

�= AE

�(Y � �y)(Z� �z)0

�B0 = A�yzB

0 �

Page 27: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. MEDIA Y MATRIZ DE COVARIANZA 27

Aplicando la de�nición se demuestran las siguientes propiedades:

(1) �yz = �0zy(2) C(Y1+Y2;Z) = C(Y1;Z) + C(Y2;Z)(3) C(Y;Z1+Z2) = C(Y;Z1) + C(Y;Z2)

Proposition 52. Vale

Si Y 2 Rn, Z 2 Rm son independientes =) �yz = O

Proof. Pues si son independientes, �yizj = 08i; j, luego �yz = O. �

Example 4. Como aplicación de estas últimas relaciones suponga que se tienenX;Y 2 Rn, vectores aleatorios, y se quiere la matriz de covarianza de Z = X+Y,o sea �z.

�z = C(X+Y;X+Y) = C(X;X) + C(X;Y) + C(Y;X) + C(Y;Y)= �x +�xy +�yx +�y (pero notar que no necesariamente �xy = �yx).

Sin embargo, si X e Y son independientes, resultará �xy = �yx = O, yentonces �z = �x +�y.

Definition 24. Dado Y 2 Rncon matriz de covarianza �y la matriz de desvíoses:

�Y = diag(�1; �2; ��; �n)

Definition 25. Dado Y 2 Rncon matriz de covarianza �y; y �i > 08i, lamatriz de correlación es:

RY = ��1Y �y�

�1Y =

26641 �12 �� �1n�21 1 �� �2n�� �� �� ���n1 �n2 �� 1

3775 2 Rn�nSimilarmente, para dos vectores aleatorios Y 2 Rn, Z 2 Rm, la matriz de cor-

relación se de�ne como

RY Z = ��1Y �yz�

�1Z 2 R

n�m:

1.5. Media de formas cuadráticas. En Modelo Lineal, dado un vectorde observaciones Y, suele interesar su proyección sobre un subespacio V , o seaYv= PvY. Pero también interesa la norma cuadrática de esta proyección, o seakYvk2 =Y0vYv = (PvY)

0PvY = Y0P0vPvY = Y0PvY. Esta es una expresión cuadrática enY, una forma cuadrática. Se quiere poder calcular su media.

En general, dado un vector aleatorio Y 2 Rn, y la matriz de constantessimétrica A 2 Rn�n, la forma cuadrática Q(Y) es la variable aleatoria real

Q(Y) = Y0AY 2 R

Remark 2. Notar que A podría no ser simétrica, por ejemplo A =

�7 13 5

�y en este caso Q(Y) =

�Y1 Y2

� �7 13 5

� �Y1Y2

�= 7Y 21 + 1Y1Y2 + 3Y2Y1 + 5Y

22 =

7Y 21 + 4Y1Y2 + 5Y22 = Y

0�7 22 5

�Y O sea, si A no es simétrica, basta reemplazar

A por A+A0

2 que es simétrica, y se obtiene la misma forma cuadrática.

Page 28: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

28 2. VECTORES ALEATORIOS

A veces, dado Y, interesa la norma cuadrática de otra transformación lineal(no necesariamente una proyección), por ejemplo si W = BY, resultará kWk2 =(BY)

0BY = Y0B0BY que también es una forma cuadrática de matriz A = B0B.

Proposition 53. Si H 2 Rn�n es una matriz de variables aleatorias, el oper-ador de traza y esperanza se pueden intercambiar, o sea

E(Tr(H)) = Tr(E(H))

Proof. (se demuestra aplicando las de�niciones de traza y esperanza). �

Proposition 54. Vale

E(Y0AY) = Tr(A�y) + �0yA�y

Proof. E(Y0AY) = E(Tr(Y0AY)) (pues Y0AY es un escalar)= E(Tr(AYY0)) (por propiedad de la traza)= Tr(E(AYY0))(intercambiando esperanza y traza)= Tr(AE(YY0)) = Tr(A(�y�

0y +�y)) (por proposición vista)

= Tr(A�y) + Tr(A�y�0y) = Tr(A�y) + �

0yA�y

(lo último, por propiedad de la traza nuevamente). �

Example 5. Dadas Y1; Y2; ��; Yn variables aleatorias independientes de media� y desvío �, interesa proporcionar un estimador insesgado de �2. Expresando Ycomo vector, su media será �y = jn� y su �y = In�

2. El estimador usual es

s2 = 1n�1

nPi=1

(Yi � Y )2. Sin embargo se propone un estimador basado en Q(Y) =Pi<j

(Yi � Yj)2. Para encontrar la matriz de esta forma cuadrática, llamando Zk

al interior de los paréntesis, (habrán n(n�1)2 términos) se busca la transformación

Z = BY. Ejempli�cando para n = 4 se tiene: Z =

266666641 �1 0 01 0 �1 01 0 0 �10 1 �1 00 1 0 �10 0 1 �1

37777775Y = BY

luego Q(Y) = kZk2 = (BY)0BY = Y0B0BY y para el caso general, o sea para n,

la matriz de la forma cuadrática será: A = B0B =

2664n� 1 �1 �� �1�1 n� 1 �� �1�� �� �� ���1 �1 �� n� 1

3775 en-

tonces Q(Y) = Y0AY. Calculando la esperanza resulta E(Q(Y)) = E(Y0AY) =Tr(A�y) + �

0yA�y = Tr(AIn�

2) + �j0nAjn� = Tr(A)�2 = n(n � 1)�2. Luego el

estimador insesgado deseado es: es2 = 1n(n�1)Q(Y) =

1n(n�1)

Pi<j

(Yi � Yj)2.

2. Vector Normal Multivariado

2.1. Densidad normal multivariada. En una variable, se dice que X �N(�;�) si su función de densidad es

(2.1) fX(x) =1p2��

e�(x��)2

2�2 para x 2 R

Page 29: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. VECTOR NORMAL MULTIVARIADO 29

Sin embargo, podría haberse de�nido Z � N(0; 1) si tiene densidad fZ(z) =1p2�e�

z2

2 , y luego demostrar que la variable X = �Z + �, (con media E(X) =

�0 + � = �, y V ar(X) = �2) tiene función de densidad como la (2.1).En el caso multivariado, dado un vector aleatorio X 2 Rn, con media � 2 Rn,

y matriz de covarianza � 2 Rn�n, se quiere investigar que podría signi�car el decirque X � Nn(�;�) (se suele poner n como subíndice para recordar la dimensióndel vector).Se pedirá también que � >0, o sea rg(�) = n, para que X "viva" entodo el espacio Rn, pues sinó, no podremos de�nir la función de densidad.

Se procederá como en la segunda de�nición para el caso univariado, peropartiendo de un vector Z 2 Rn, con media 0, matriz de covarianza In y cuyasZj � N(0; 1) (obviamente independientes ya que la matriz de covarianza es In).Ladensidad de Z será:

(2.2) fZ(Z) =nQj=1

1p2�e�

z2j2 = 1

(2�)n2e�

nPj=1

z2j

2 = 1

(2�)n2e�

Z0Z2

De�niremos a esta densidad, como normal multivariada de media 0, matriz decovarianza In, y se escribirá Z � Nn(0; In).

Ahora se estudiará la transformacion X = BZ+ a. Interesa que su media sea�, o sea E(X) = B0+ a = �, luego a = �. Y su matriz de covarianza �, o seaBInB

0= �, luego debe ser BB0= �.En realidad la factorización BB0= �, no proporciona una B única. Pero esto

no importa por ahora, se tomará uno de los B, y se estudiará el cambio de variable

dado Z � Nn(0; In) y X = BZ+ � hallar fX(X)

utilizando el jacobiano de la transformación resulta

fX(X) = fZ(B�1(X� �))= jBj

Notar que al ser � = BB0, rg(BB0) = rg(B) = rg(�) = n, B es inversible y

resulta j�j=��BB0�� = jBj jB0j = jBj2 o sea jBj = j�j

12 . Entonces

fX(X) =1

j�j12

fZ(B�1(X� �)) = 1

(2�)n2 j�j

12

e�(X��)0(B�1)0(B�1)(X��)

2

Como (B�1)0(B�1) = (B0)�1(B)�1 = (BB0)�1 = ��1, la densidad obtenidano depende del particular B elegido.Luego se de�ne:

Definition 26. X 2 Rn, con media � 2 Rn, y matriz de covarianza � >0, esun vector normal multivariado, con notación X � Nn(�;�), si su densidad es

(2.3) fX(X) =1

(2�)n2 j�j

12e�

(X��)0��1(X��)2 para X 2 Rn

Las curvas de igual densidad (curvas de nivel) responden a la ecuación

(X� �)0��1(X� �) = cteque para � >0 son elipsoides, centrados en �, cuyos ejes están en la dirección delos autovectores de �, y semiejes proporcionales a

p�j .

Example 6. Se tienen dos variables aleatorias normales X e Y , con medias�x, �y, varianzas �

2x, �

2y, y correlación � (o sea, �xy = ��x�y). Pensadas como

el vector z = (X;Y )0 se tendrá que �z = (�x;�y)0 y �z =

��2x ��x�y

��x�y �2y

�.

Page 30: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

30 2. VECTORES ALEATORIOS

Se quiere hallar la función de densidad. En primer lugar j�zj = �2x�2y(1 � �2).

Entonces ��1z = 1�2x�

2y(1��2)

��2y ���x�y

���x�y �2x

�. Luego la forma cuadrática en el

exponente de (2.3) será:

(z� �z)0��1z (z� �z) =1

�2x�2y(1� �2)

�X � �x Y � �y

� � �2y ���x�y���x�y �2x

� �X � �xY � �y

=1

1� �2

"(X � �x)2

�2x� 2�

(X � �x)(Y � �y)�x�y

+(Y � �y)2

�2y

#Luego en de�nitiva la densidad normal bivariada buscada será:

fz(Z) = fZ(X;Y ) =1

2��x�yp1��2

e� 12(1��2)

�(X��x)2

�2x�2� (X��x)(Y��y)

�x�y+(Y��y)2

�2y

2.2. Vectores normales multivariados. En (2.3) se de�nió X como vectornormal multivariado Nn(�;�), dando la expresión de su función de densidad. Ycomo la densidad existe en Rn, solo si � >0, se impuso esta condición.

Sin embargo vimos que un vector aleatorio cualquiera, puede tener matriz decovarianza singular, por eso se exigió la condición menos exigente � �0. Paraadmitir vectores normales multivariados con matrices de covarianza singulares sedeberá basar la de�nición, no en su función de densidad, sino en su función dedistribución. Recordar que un vector aleatorio puede no tener función de densidad,pero siempre tendrá función de distribución. Se asumirá además que Z � Nn(0; In)si tiene la densidad dada en (2.2).

Definition 27. Se dice que el vector aleatorio X � Nn(�;�) si la funciónde distribución de X, es igual a la de Y = BZ+ �, para cierta B 2 Rn�p, conBB0 = � y cierto Z � Np(0; Ip).

Notar que deberá ser BB0 = �, pero ahora no se pide que � >0. Utilizandola función característica se prueba que cualquiera sea B, cumpliendo BB0 = �, ladistribución de Y dependerá solo de � y de �. Teniendo en cuenta esto se dara lasiguiente de�nición, más útil para las demostraciones.

Definition 28. Se dice que el vector aleatorioX � Nn(�;�) si existe B 2 Rn�pcon BB0 = � , y cierto vector Z � Np(0; Ip), tal que X � BZ+ �.

Un ejemplo de la necesidad de esta de�nición ampliada es la siguiente proposi-ción

Proposition 55. Vale

Sea X � Nn(�;�) y Y = AX+ b, A 2 Rm�n entonces Y � Nm(A�+ b;A�A0)

Proof. Como X � Nn(�;�), existen B 2 Rn�p, con BB0 = �, y Z �Np(0; Ip), tal queX = BZ+ �. EntoncesY = A(BZ+ �) + b = (AB)Z+ (A�+ b),luegoY será normal multivariado con mediaA�+ b y matriz de covarianzaAB(AB)0 =ABB0A0 = A�A0. �

En Modelo Lineal se suele partir de un Y � Nn(�;�2In), que sí tiene funciónde densidad, y luego interesar su proyección sobre un subespacio V de dimensión r,o sea Yv = PvY. Entonces E(Yv) = Pv�, �yv = Pv�

2InP0v = �

2PvP0v = �

2Pv,

Page 31: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. VECTOR NORMAL MULTIVARIADO 31

pero rg(Yv) = rg(�2Pv) = r < n. Esto quiere decir que Yv no tendrá densidad en

Rn, pero sin embargo diremos que Yv � Nn(Pv�;�2Pv).

Proposition 56. Sea X 2 Rn, X =

�X1

X2

�con X1 2 Rn1 , X2 2 Rn2 y

n1 + n2 = n. Además X � Nn(�;�) con � =��1�2

�y � =

��11 �12�21 �22

�con

las dimensiones correspondientes. Entonces:

(1) X1 � Nn1(�1;�11) y X2 � Nn2(�2;�22)(2) Si �12 = O () X1 y X2 son independientes.(3) Si 9��122 , X1 j (X2 = x2) � Nn1(�1+�12��122 (x2��2);�11��12��122 �21).

Proof. 1. Basta usar la transformación lineal X1 =�In1 O

�X.

2. ((=)ya fué probada en el caso de vectores aleatorios en general, y (=))en elcaso que � >0, basta ver que la densidad conjunta se puede escribir como productode marginales.En el caso general la demostración es más complicada pero siguesiendo válida. No se demostrará la tercera. �

Example 7. Debido a que al dormir la columna vertebral se estira, las personasson más altas cuando se las mide a la mañana al despertarse, que a la nocheal acostarse. Interesa evaluar el "crecimiento nocturno" medio. La población enestudio será la de varones de 18 años. En principio habrían dos diseños para realizarel experimento:

(1) Elegir al azar n personas a la mañana y medirlas, obteniendoX1; X2; ��; Xnindependientes con distribución N(�x;�). Y luego a la noche elegir alazar otras n personas y medirlas, obteniendo Y1; Y2; ��; Yn independientescon distribución N(�y;�), (es razonable suponer que los desvíos serániguales). Nótese que aquí las dos muestras, se la mañana y la noche, seránindependientes.

(2) Igual que en el primer diseño, salvo que aquí las personas de la mañana yla noche son lasmismas. Este diseño se llama de muestras apareadas. Ladiferencia respecto del anterior es que ahora las muestras son dependientes,ya que ahora cada Xi con Yi estarán fuertemente correlacionadas, concorrelación �. Luego la covarianza entre ellas será ��2, con � > 0 (cercanoa 1).

Se trabajará con este último diseño, ya que poniendo en las expresiones que seobtengan � = 0, se convierte en el primero. Se de�ne el vector

Z = (X1; X2; ��; Xn; Y1; Y2; ��; Yn)0 con �z = (�x; �x; ��; �x; �y; �y; ��; �y)0 y

(ejempli�cando para n = 3) �z=

26666664�2 0 0 ��2 0 00 �2 0 0 ��2 00 0 �2 0 0 ��2

��2 0 0 �2 0 00 ��2 0 0 �2 00 0 ��2 0 0 �2

37777775 resultará

también Z �N2n(�z;�z). Notese que si Z =�XY

�usando la proposición resul-

tará: X �Nn(�x; In�2) y Y �Nn(�y; In�2). Si se quiere estimar el "crecimiento

Page 32: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

32 2. VECTORES ALEATORIOS

nocturno medio", � = �x � �y, un estimador sería b� = 1n

nPi=1

Xi � 1n

nPi=1

Yi. Expre-

sado con el vector Z, quedaría b� = ( 1n ; 1n ; ��; 1n ;� 1n ;�

1n ; ��;�

1n )Z = a

0Z. Entonces

E(b�) = a0�z=� (insesgado), y V ar(b�) = a0�za =2�2(1��)

n . Esto indica que si� > 0, el segundo diseño es mejor que el primero.

Para �nalizar de dará una proposición muy simple que involucra a un vectornormal con covarianza del tipo �2In, y al producto escalar.

Proposition 57. Sea Y �Nn(�;�2In), y a;b; ::vectores constantes de Rn.

(1) <a;Y> � N1(<a;�>; kak2 �2)(2) Cov(<a;Y>;<b;Y>) = <a;b>�2

(3) Si a?b () <a;Y> y <b;Y> son independientes(4) (<a1;Y>,<a2;Y>,��;<ak;Y>)0 es un vector normal multivariado.

Proof. Recordando que <a;Y>=a0Y, y usando proposiciones vistas. �

Page 33: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 3

Distribución de Proyecciones y Normas

1. Transformaciones ortogonales

Sea el vector aleatorio Y, con media �, y matriz de covarianza �. Si T 2 Rnes una matriz ortogonal (T0T = TT0= In), notar que el vector W = T0Y, tieneen sus componentes las coordenadas de Y, en cada tj , o sea por ejemplo para Wj

resulta

Wj = t0jY =< tj ;Y >=

< tj ;Y >

1=< tj ;Y >

ktjk2: coordenada de Y en tj

Esta transformación se llama ortogonal, y permite expresar un vector en sus coor-denadas en ejes ortogonales.

Claim 1. Quizas lo apropiado sería decir: �sea el vector v cuyas componentesen la base canónica E = [e1; e2; ��; en] de Rn son (Y1; Y2; ��; Yn)0 = Y que es un vec-tor multivariado de componentes�. Cuando se �aplica una transformación ortogo-nal� lo que estamos haciendo es expresar el mismo vector v en otra base ortogonalde Rn;T = [t1; t2; ��; tn] ;resultando las nuevas componentes (W1;W2; ��;Wn) =W;siendo este vector multivariado de componentes W = T0Y: O sea, al cambiar labase, cambian las componentes de v; pero su norma se mantiene, o sea kYk2 =kWk2.

Pero a partir de aquí se prestará especial atención a vectores aleatorios normalescuya matriz de covarianza es �2In, o sea a vectores Y � Nn(�;�

2In). Esto es,las componentes son variables aleatorias normales independientes y de igualvarianza, Yi � N(�i;�2).

Proposition 58. Si Y � Nn(�y;�2In) y W = T0Y con T 2 Rn�n ortogo-nal, se tiene:

�w = T0�y, �w = �

2In, o sea W � Nn(T0�y;�2In)kWk2 = kYk2

Proof. �w = T0�2InT =�2In, y tambiénkWk2 =W0W = Y0TT0Y = Y0InY = kYk2. �

Lo importante aquí es que transformaciones ortogonales T 2 Rn�n, aplicadasa vectores aleatorios con matriz de covarianza �2In, siguen teniendo matriz decovarianza �2In, o sea componentes independientes, con la misma varianza, y man-teniendo su norma. Gran parte de la teoría de Modelo Lineal se apoya en estaproposición.

Remark 3. Si fueseY � Nn(�;Dn), conDn diagonal, sus componentes seríanvariables aleatorias normales independientes pero de distinta varianza, o sea

33

Page 34: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

34 3. DISTRIBUCIÓN DE PROYECCIONES Y NORMAS

Yi � N(�i;�2i ). Entonces, si se aplica la transformación ortogonal W = T0Y,

resultaría �w = T0�y pero �w = T0DnT no sería diagonal. Entonces W �Nn(T

0�y;T0DnT), y sería un vector normal en que también vale kWk2 = kYk2,

pero de componentes no independientes. Por eso es importante que Y tenga matrizde covarianza del tipo �2In.

Example 8. Como aplicación de esto se verá una descomposición que se uti-lizará mas adelante. Si Y � Nn(�;�

2In), sus componentes son Yj � N(�j ;�2)

independientes. Notar que las componentes de � están presente en todas las compo-nentes de Y a través de el correspondiente �j. Suele interesar una descomposiciónen que la media � intervenga en solo una componente. Busquemos una base orto-normal de Rn, en que t1 esté en la dirección de �, o sea T = [t1; t2; ��; tn]. ComoY = �+" con "�Nn(0;�2In),W = T0Y = T0�+T0". Nótese que T0� = ( k�k ; 0; ��; 0)0:Además debido a la transformación ortonormal "w = T0"�Nn(0;�2In), o sea suscomponentes serán N(0;�2) independientes, luego

W =

2664k�k0��0

3775+2664"w1"w2��"wn

3775 =2664k�k+ "w1"w2��"wn

3775Que se ha conseguido? Expresar el mismo vector Y, en otros ejes, con componentestambién independientes, pero ahora W1 � N(k�k ;�2), y las restantes componentesson N(0;�2). O sea solo W1 tiene información respecto de la media � Si interesakYk2 = kWk2 =W 2

1 +W22 + � �+W 2

n , solo el primer término depende de �.

Example 9. En el ejemplo anterior, suponga que se quiere probar la hipótesisH0 : � = 0 vs Ha : � 6= 0 que es equivalente a H0 : k�k = 0 vs Ha :

k�k 6= 0. Como W1�k�k� � N(0; 1) y un estimador de varianza independiente

es s2w =W 2

2 + �� + W 2n

n�1 con (n�1)s2w�2 ~ �2n�1, resultará entonces

W1�k�ksw

~ tn�1.

Luego, con el estadístico W1

sw~ tn�1 se prueba la hipótesis sugerida. Sin embargo

este ejemplo no es tan general como parece. En efecto, si como es usual � esdesconocida, en general no se podrá encontrar una base ortonormal de Rn, en quet1 esté en la dirección de �, y con ella obtener los Wi necesarios para el test.Pero, si se puede asumir que � es desconocida pero pertenece a un subespacio dedimensión 1, por ejemplo � 2L(a) con a 6= 0 conocido, sí podrá tomarse t1 en ladirección de a, y utilizar el procedimiento indicado.

2. Distribución de normas cuadráticas

En Modelo Lineal la norma cuadrática de un vector, o sea kYk2, se llama sumade cuadrados del vector, ya que kYk2 = Y0Y =Y 21 +Y

22 + � �+Y 2n . Interesa ahora

estudiar como se distribuyen estas sumas de cuadrados.

Definition 29. Si Y1; Y2; ��; Yn son independientes N(0; 1), la variable aleato-ria kYk2 = Y 21 + Y 22 + � � +Y 2n se distribuye según una chi-cuadrado "centrada",�2n, con n grados de libertad. Además

E(�2n)=n y Var(�2n)=2n

Ahora se ampliará esta de�nición permitiendo que las variables normales tenganmedias diferentes de cero. Llegamos entonces a la de�nición de la chi-cuadrado "no-centrada" �2n(�).

Page 35: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. DISTRIBUCIÓN DE NORMAS CUADRÁTICAS 35

Definition 30. Si Y1; Y2; ��; Yn son independientes N(�i; 1), la variable aleato-ria kYk2 = Y 21 +Y 22 +��+Y 2n se distribuye según una chi-cuadrado "no-centrada",�2n(�), con n grados de libertad, y factor de no-centralidad � = �

21 + �

22 + � � +�2n.

AdemásE(�2n(�))=n+� y Var(�2n(�))=2n+4�

Remark 4. En esta de�nición de chi-cuadrado no-centrada se a�rma que de-pende de n y del factor de no-centralidad � = �21 + �

22 + � � +�2n. Para justi�car

la dependencia de los �i de esta forma, habría que hallar su función de densidad,y veri�carlo. Pero notar que Y 21 + Y

22 + � � +Y 2n = kYk2 con Y �Nn(�; In). Si

se utiliza la descomposición ortogonal del ejemplo-8, resulta que siempre podremosexpresar Y 21 + Y

22 + � � +Y 2n = W 2

1 +W22 + � � +W 2

n donde solo W1 � N(k�k ; 1)depende de los �j a través de k�k =

p�21 + �

22 + � �+�2n =

p�. Esto justi�ca que

la destribución de Y 21 + Y22 + � �+Y 2n dependa de � = k�k

2.

Generalizando lo anterior a vectores con matriz de covarianza �2In, se tiene

Proposition 59. Vale

Si Y � Nn(0;�2In) entonces kYk2�2 � �

2n

Proposition 60. Vale

Si Y � Nn(�;�2In) entonces kYk2�2 � �

2n(

k�k2�2 )

Proof. kYk2�2 =

Y 21 + Y 2

2 + �� + Y 2n

�2 = (Y1� )2 + (Y2� )

2 + � � +(Yn� )2 pero como

cada Yi � N(�i;�) resultará Yi� � N(

�i� ; 1), luego la distribución será �

2n(�) con

� =�21 + �22 + �� + �2n

�2 = k�k2�2 . �

Pero en Modelo Lineal interesa mucho estudiar la distribución de normas cuadráti-cas, de vectores cuya matriz de covarianza no es del tipo �2In. Un ejemplo es elvector proyectado sobre un subespacio V de dimensión k. Estudiemos este caso.

Sea Y � Nn(�;�2In), y su proyección sobre V de dimensión k, Yv = PvY.Como �v = Pv� y �yv = Pv�

2InP0v = �2Pv resulta Yv � Nn(�v;�2Pv). Pero

este vector tiene n componentes, y su matriz de covarianza no es del tipo �2In.Luego, si interesa averiguar la distribución de kYvk2, no se podrán utilizar losresultados anteriores.

Si se toma como base de V , a k vectores ortonormales, se tendrá Tk =[t1; t2; ��; tk], y la matriz de proyección será Pv = Tk(T0kTk)�1T0k = TkT0k. LuegokYvk2 = Y0

vYv = Y0PvY = Y0TkT0kY = (T0kY)

0T0kY = Z0kZk = kZkk2. Pero

Zk = T0kY 2 Rk con Zk � Nk(T0k�;�2Ik). Ahora sí se puede aplicar la proposición

anterior, pues la matriz de covarianza de Zk es �2Ik.Notar que en el primer caso, el vector proyección Yv está expresado en la base

canónica de Rn, y tiene n componentes, y en el segundo el mismo vector proyecciónesta expresado en una base ortogonal de V , y tiene solo k componentes, resultandoZk un vector con matriz de covarianza �2Ik no singular, pero manteniendo la mismanorma cuadrática, o sea kYvk2 = kZkk2.

Se tendrá entonces que kYvk2�2 = kZkk2

�2 � �2k(kT0

k�k2�2 ). Pero kT0k�k

2=

(T0k�)0T0k� = �

0TkT0k� = �

0Pv� = kPr(� jV )k2= k�vk2. Hemos probado la sigu-

iente proposición.

Page 36: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

36 3. DISTRIBUCIÓN DE PROYECCIONES Y NORMAS

Proposition 61. Si Y � Nn(�;�2In), y Yv = Pr(Y jV ) con V subespacio dedimensión k, entonces

kYvk2�2 � �2k(

k�vk2�2 ) donde �v = Pr (� jV )

En todos los resultados estudiados hasta ahora, el vector aleatorio tenía matrizde covarianza del tipo �2In o �2Pv. Pero que pasa en el caso general cuandoY � Nn(�;�) e interesa estudiar la distribución de kYk2? La distribución noes simple, ya que queda expresada como combinación lineal de chi-cuadrados no-centradas. Sin embargo, si � es inversible se dará un resultado relacionado.

Proposition 62. Si Y � Nn(�;�) con � >0, entonces

Y0��1Y � �2n(�0��1�) y también (Y � �)0��1(Y � �) � �2n

Proof. Recordando que�1=2 = T�1=2T0 es la única y simétrica raíz cuadradade�, y al ser� >0, existe��1=2. LuegoY0��1Y = (�

�1=2Y)

0��1=2Y = X0X = kXk2,

peroX = ��1=2Y �Nn(��1=2�; In).Usando la proposición anteriorY0��1Y � �2n(�)con � =

��1=2� 2 = �0��1�. La segunda es simple ya que Y � � tiene medianula. �

2.1. Distribuciones F y T no-centradas. Estas distribuciones aparecenen Modelo Lineal cuando se hacen cálculos de potencia en un test de hipótesis, oestimaciones de tamaño de muestra.

Definition 31. Si U � �2n y V � �2m, y son independientes. Entonces lavariable aleatoria Fn;m =

U = nV = m se distribuye según una Fn;m con n y m grados de

libertad. O sea

U � �2n y V � �2m independientes =) Fn;m =U = nV = m

Y además

E(Fn;m) =mm�2 para m > 2 y V ar(Fn;m) =

2m2(n+m�2)n(m�2)2(m�4) para m > 4

Definition 32. Si U � �2n(�) y V � �2m, y son independientes. Entonces lavariable aleatoria Fn;m(�) =

U = nV = m se distribuye según una Fn;m(�) no-centrada,

con n y m grados de libertad, y parámetro de no-centralidad �. O sea

U � �2n(�) y V � �2m independientes =) Fn;m(�) =U = nV = m

Y ademásE(Fn;m(�)) =

m(n+�)(m�2)n para m > 2

Definition 33. Si X � N(0; 1) y U � �2n, y son independientes. Entonces lavariable aleatoria tn = Xp

U = nse distribuye según una tn de Student con n grados

de libertad. O sea

X � N(0; 1) y U � �2n independientes =) tn =XpU = n

Y ademásE(tn) = 0 y V ar(tn) =

nn�2 para n > 2

Page 37: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. TEOREMA DE DESCOMPOSICIÓN EN SUBESPACIOS ORTOGONALES(TDSO) 37

Definition 34. Si X � N(�; 1) y U � �2n, y son independientes. Entoncesla variable aleatoria tn(�) = Xp

U = nse distribuye según una tn(�) de Student no-

centrada, con n grados de libertad, y parámetro de no-centralidad �. O sea

X � N(�; 1) y U � �2n independientes =) tn(�) =XpU = n

3. Teorema de descomposición en subespacios ortogonales(TDSO)

Ahora se presentará un teorema, fundamental en Modelo Lineal, que tratasobre la descomposición de un vector de Rn (del tipo Y � Nn(�;�2In)), sobre rsubespacios mutuamente ortogonales.

Sean V1; V2; ��; Vr subespacios MO de Rn, tales que Rn = V1 � V2 � � ��Vr. Sidim(Vi) = ki, valdrá k1 + k2 + � �+kr = n.

Interesa descomponer Y, en sus vectores proyecciones sobre los subespacios, osea expresar

Y = Yv1 +Yv2 + � �+Yvr donde Yvi = Pr(Y jVi)Cada subespacio tendrá una base Bi, luego B = [B1 j B2 j �� j Br] será una

base de Rn. Además las matrices de proyección sobre cada subespacio serán Pvi =Bi(B

0iBi)

�1B0i. Si en cada subespacio, con el procedimiento de Gram-Schmidt secontruye una base ortonormal Ti, se tendrá también que T = [T1 j T2 j �� j Tr]será una base ortonormal de Rn, pero ahora las expresiones de las matrices deproyección serán mas simples Pvi = Ti(T

0iTi)

�1T0i = TiT0i. Las proyecciones

resultarán entonces Yvi = PviY:Con esta introducción se presenta el siguienteteorema.

Theorem 2. Sea Y � Nn(�;�2In), Rn = V1 � V2 � � ��Vr(1) E(Yvi) = Pr(� jVi) = �vi �yvi = �2Pvi , o sea Yvi � Nn(�vi ;�

2Pvi)pero Yvi es de rango ki

(2) 8i 6= j Yvi e Yvj son vectores aleatorios independientes. (Este resultadorequiere la hipótesis de normalidad)

(3) E(kYvik2) = ki�

2+ �vi 2 o equivalentemente E(kYvik2

ki) = �2+

k�vik2

ki

(4) kYvik2�2 � �2ki(

k�vik2

�2 ) (Este resultado requiere la hipótesis de normalidad)

(5) kYk2 = kYv1k2+ kYv2k

2+ � �+ kYvrk

2

Proof. 1. Como Yvi = PviY, entonces E(Yvi) = E(PviY) = Pvi� = �vi ,además �yvi = Pvi�

2InP0vi = �

2PviP0vi = �

2Pvi y también rg(Pvi) = ki.2. Veamos la matriz de covarianza entreYvi yYvj . Cov(Yvi ;Yvj ) = Cov(PviY;PvjY) =

Pvi�2InP

0vj = PviP

0vj , pero esto es TiT

0i(TjT

0j)0 = TiT

0iTjT

0j = O, pues debido

a la ortogonalidad T0iTj = O. Y de la hipótesis de normalidad surge la indepen-dencia.

3. E(kYvik2) = E(Y0PviY) = Tr(Pvi�

2In)+�0Pvi� =Tr(Pvi)�

2+ �vi 2 =

ki�2 +

�vi 2.4. Ya demostrada al estudiar distribuciones de normas cuadráticas.5. Surge de considerar que Y = Yv1 +Yv2 + � �+Yvr , y que las Yvi están en

subespacios ortogonales. �Remark 5. Si un vector normal con matriz de covarianza �2In, se descompone

en subespacios mutuamente ortogonales, valen los siguientes comentarios:

Page 38: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

38 3. DISTRIBUCIÓN DE PROYECCIONES Y NORMAS

(1) En realidad en la primera igualdad se a�rma que el operador esperanza yproyección se pueden intercambiar, o sea

E [Pr(Y=Vi)] = Pr [E(Y)=Vi]

Esto quiere decir que si se tiene Y con media �, y se calculó la proyecciónYvi ; si después interesa la media de esta proyección, se puede obtener me-diante E(Yvi) o también con Pr(�=Vi). O sea la media �vi de cada vectorproyectado, es la proyección de la media de Y (sobre el correspondientesubespacio). Además estos Yvi de dimensión n, son singulares, ya que sumatriz de covarianza �2Pvi tiene rango ki < n, (la dimensión de Vi). Osea, la matriz de covarianza de los vectores proyectados, no es inversible.

(2) Los vectores proyectados son independientes. Y esto es así por tres mo-tivos: Y es normal multivariado, �y es del tipo �2In, y porque los sube-spacios son ortogonales.

(3) Las medias de las normas cuadráticas de cada proyección, dependen de ladimensión del subespacio sobre el que se proyecta, y de la norma cuadradade la media proyectada, mediante �2 dim(Vi) +

�vi 2. La segunda ex-presión E(kYvik2

dim(Vi)) = �2 +

k�vik2

dim(Vi), se emplea para analizar si se puede

construir un estimador de �2 mediante la norma cuadrática. Notar que si

se propone S2i =kYvik2dim(Vi)

como estimador, no sería un buen estimador de

�2 ya que tiene sesgo. Pero si �vi 2 = 0, entonces sí S2i serviría como

un estimador insesgado de �2.(4) El comentario que se hace aquí es que si sobre un subespacio, la media de

Y, no tiene proyección, o sea si �vi = 0 (esto ocurrirá si �?Vi), entonces �vi 2 = 0, y la chi-cuadrado correspondiente sera centrada.(5) En realidad esto viene del teorema de Pitágoras.Se verán ahora algunos ejemplos, para ilustrar el criterio con que debe de�nirse

la descomposición ortogonal, para que sea útil en las aplicaciones.

Example 10. Sean la muestra Y1; Y2; ��; Yn de observaciones independientes deuna población N(�;�) en la que se desconocen � y �. Interesa estudiar � y �.Expresado vectorialmente se tiene que Y�Nn(�;�2In) donde

� =

2664�����

3775 =266411��1

3775� = j� y � =

2664�2 0 �� 00 �2 �� 0�� �� �� ��0 0 �� �2

3775 = �2InNotar que al ser rg(�2In) = n, el vector Y "vive" en todo Rn, sin embargo, su

vector media �, "vive" en el subespacio V = L(j), de dimensión 1, ya que � = j�.Como interesa estudiar �, se plantea la descomposición ortogonal Rn = V � V ? =L(j)�L?(j), de esta manera el vector � estará todo en L(j), y no tendrá proyecciónsobre L?(j).

Para descomponer Y= Yj + Yj? , se podrían utilizar matrices de proyección.Sin embargo aquí es fácil proyectar directamente

Yj = Pr(Y jL(j)) =<Y; j>

kjk2j =

nPj=1

Yj

nj = Y j

Page 39: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. TEOREMA DE DESCOMPOSICIÓN EN SUBESPACIOS ORTOGONALES(TDSO) 39

Como � 2L(j) resulta E(Yj) = Pr(� jL(j)) = � = j�, entonces Yj = Y j es unestimador insesgado de j�, y se aquí surge que Y es un estimador insesgado de �.

Y paraYj? = Pr(Y jL?(j)) en lugar de proyectar, conviene hacerYj? =Y�Yj

Yj? = Pr(Y jL?(j)) = Y �Yj =

2664Y1 � YY2 � Y��

Yn � Y

3775Como � 2L(j), no tiene proyección sobre L?(j), entonces

E(Yj?) = Pr(� jL?(j)) = 0Además ya que dim(L?(j)) = n� 1, si se analiza el valor esperado de la norma

cuadrática de este vector, utilizando el punto 3 del teorema, resulta

E( Yj?

2) = (n� 1)�2De aqui resulta que

S2 =

Yj? 2

n� 1 =1

n� 1

nXi=1

(Yi � Y )2

es un estimador insesgado de �2. Visualmente la descomposición queda

Y = Yj +Yj? =

2664YY��Y

3775+2664Y1 � YY2 � Y��

Yn � Y

3775Usando el teorema de descomposición ortogonal, Yj y Yj? son vectores nor-

males independientes. Luego, también serán independientes Yj = Y j y Yj?

2 =nPj=1

(Yj � Y )2 = (n � 1)S2. De aquí sale el conocido resultado "en poblaciones

normales, la media muestral Y , y la varianza muestral S2, son independientes".Desde otro punto de vista, como en poblaciones normales (Y ; S2) es un estadís-

tico su�ciente respecto de (�; �2), la descomposición ortogonal elegida permitió de-scomponer la información en Y (respecto de � y �2), en dos aportes independientes:un vector Yj con información respecto de �, y Yj? solo con información respectode �2.

Pero analicemos la distribución de las normas cuadráticas de estos dos vectores.Como Yj es la proyección sobre un subespacio de dimensión 1, y E(Yj) = j�,

con kj�k2 = n�2 entonceskYjk2

�2� �21(

n�2

�2)

Además Yj? es la proyección sobre un subespacio de dimensión n � 1, peroE(Yj?) = 0 entonces Yj?

2�2

� �2n�1Utilizando la de�nición de F no centrada, resulta

kYjk2�2 =1

kYj?k2�2 =(n� 1)

��21(

n�2

�2 )=1

�2n�1=(n� 1)= F1;n�1(

n�2

�2)

Page 40: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

40 3. DISTRIBUCIÓN DE PROYECCIONES Y NORMAS

Si se quiere probar H0 : � = 0 vs Ha : � 6= 0, y si se supone cierta H0, la Fserá centrada obteniendo el estadístico

kYjk2

kYj?k2n�1

� F1;n�1

Como kYjk2 = nY2y Yj?

2 = nPj=1

(Yj � Y )2 = (n� 1)S2 resulta

Y2

S2=n� F1;n�1

Que es el estadístico usual para las hipótesis propuestas(equivalente a YS=pn�

tn�1).

Example 11. Sean X1; X2; ��; Xnx observaciones iid N(�x;�), y otra mues-tra (independiente de la anterior) Y1; Y2; ��; Yny iid N(�y;�), en las que se de-sconocen �x; �y y �. Interesa estudiar como son entre sí, las dos medias �x y�y. Expresando ambas muestras en un único vector de dimensión n = nx + ny,Z = (X1; X2; ��; Xnx ; Y1; Y2; ��; Yny )0, se tiene que Z �Nn(�;�2In) donde

(3.1) � =E(Z) =

26666664�x���x�y���y

37777775 =266666641��10��0

37777775�x +266666640��01��1

37777775�y = cx�x + cy�y y � =�2In

Al ser rg(�2In) = n, el vector Z puede ser cualquier vector de Rn, pero suvector media �, pertenece al subespacio V = L(cx; cy), de dimensión 2, ya que� = cx�x + cy�y, con cx y cy linealmente independientes. Como interesa estudiarcomo son entre sí, las dos medias �x y �y, analícese lo siguiente:

(1) Si fuese �x = �y = �, entonces � = cx� + cy� = (cx + cy)� = j�.Esto quiere decir que el vector � viviría solo en L(j) � V , y no tendríaproyección sobre L?v (j) (el complemento ortogonal de L(j) respecto de V ).

(2) Si �x 6= �y, el vector � tendrá proyección sobre L?v (j).Luego, evaluar si �x = �y o �x 6= �y, equivale a prestar atención a "donde esta

� dentro de V ": si está solo en L(j) � V , o tiene proyección sobre L?v (j) � V .Entonces la proyección de � sobre el subespacio L?v (j) es crucial si se quieren

comparar �x y �y: si no tiene proyección sobre el, esto quiere decir que �x = �y,si tiene proyección signi�ca que �x 6= �y.

De este análisis resulta que no bastará con la descomposición utilizada en elejemplo anterior Rn = V � V ?, sinó que deberemos también descomponer V asíV = L(j)� L?v (j). En de�nitiva la descomposición sugerida es

Rn = L(j)� L?v (j)� V ?

Si bién a � lo desconocemos, Z es un estimador insesgado de � (ya que E(Z) = �),entonces la forma de evaluar por donde esta � dentro de V , es a través de lasproyecciones de Z sobre los subespacios L(j) y L?v (j).

Page 41: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. TEOREMA DE DESCOMPOSICIÓN EN SUBESPACIOS ORTOGONALES(TDSO) 41

Ahora se descompondrá tanto � como Z sobre los tres subespacios ortogonales,obteniendo: � = �j+ �j?v + �v? y Z = Zj+Zj?v + Zv? . Para evitar hallar lasmatrices de proyección se procederá así:

Proyección sobre V ?: Teniendo en cuenta que V = L(cx; cy), con cx?cy,se calcula primero(ver 4.4)

Zv = Pr(Z j V ) =<Z; cx>

kcxk2cx +

<Z; cy>

kcxk2cy = Xcx + Y cy

resultando Zv = (X;X; :::;X; Y ; Y ; ::::Y )0, con �v = �; y luego de aquíse obtiene Zv? = Z� Zv y �v? = � � �v = 0 (ver terceros vectores en3.2).

Proyección sobre L(j): Después se calcula

Zj = Pr(Z j L(j)) = <Z; j>

kjk2j =

nxPj=1

Xj +nyPj=1

Yj

nj =

nxX + nyY

nj =Zj

�j = Pr(� j L(j)) = <�; j>

kjk2j =

nxPj=1

�x +nyPj=1

�y

nj =

nx�x + ny�yn

j =�j

donde Z y �, son el promedio de todas las componentes de Z y � (verprimeros vectores en 3.2).

Proyección sobre L?v (j): Finalmente se obtiene Zj?v = Zv � Zj y �j?v =�v � �j = �� �j o sea

Zj?v =

26666664X��XY��Y

37777775�nxX + nyY

nj =

26666664

nyn (X � Y )��

nyn (X � Y )�nxn (X � Y )

���nxn (X � Y )

37777775 =26666664

nyn��nyn�nxn���nxn

37777775b� (con b� = X � Y )

�j?v =

26666664�x���x�y���y

37777775�nx�x + ny�y

nj =

26666664

nyn (�x � �y)

��nyn (�x � �y)�nxn (�x � �y)

���nxn (�x � �y)

37777775 =26666664

nyn��nyn�nxn���nxn

37777775 � (con � = �x � �y)

(ver segundos vectores en 3.2).

Page 42: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

42 3. DISTRIBUCIÓN DE PROYECCIONES Y NORMAS

Descomposición L(j)� L?v (j)� V ?: Visualmente la descomposición de Zy � quedaría:

(3.2)

Z = Zj+Zj?v + Zv? =Zj+

26666664

nyn��nyn�nxn���nxn

37777775b� +26666664X1 �X��

Xnx �XY1 � Y��

Yny � Y

37777775

� = �j+�j?v + �v? = �j+

26666664

nyn��nyn�nxn���nxn

37777775 � + 0

Remark 6. Notar que en el planteo del modelo(3.1), � = cx�x+cy�y con cx ycy dos vectores LI y ortogonales, luego � 2 L(cx; cy) = V . Y �x sería la coordenadade � en cx, y �y la coordenada de � en cy. Con la nueva descomposición(ver 3.2),si se designa a = (

nyn ; ��;

nyn ;�

nxn ; ��;�

nxn )

0, resultaría � = j�+a� con j y a dosvectores LI y ortogonales tambien, resultando � 2 L(j;a) = V . Pero en esta nuevadescomposición la coordenada de � en j sería �, quizás no muy interesante, pero lacoordenada de � en a es justamente �, que es el parámetro que interesa analizar.

Se analizarán para los dos últimos vectores de la descomposición de Z, que sonindependientes, la esperanza de su norma cuadrática.

El tercero, Zv? , que es la proyección de Z sobre V ? de dimensión n� 2, tienemedia �v? = 0 entonces

E(kZv?k2) = (n� 2)�2 o sea E(kZv?k2

n� 2 ) = �2

Luego S2p =kZv?k2n�2 es un estimador insesgado de �2, y

S2p =kZv?k2

n� 2 =

nxPj=1

(Xj �X)2 +nyPj=1

(Y1 � Y )2

n� 2 =(nx � 1)S2x + (ny � 1)S2y

nx + ny � 2

que es el estimador en pool usual de �2 en el caso de dos muestras normales inde-pendientes de igual varianza, además vale la relación

(3.3)kZv?k2

�2� �2n � 2

El segundo, Zj?v , que es la proyección de Z sobre L?v (j) de dimensión 1, tiene

media �j?v , con �j?v 2 = nxny

n �2 luego

E( Zj?v 2) = �2 + �j?v 2 = �2 + nxnyn �2

El tamaño de este vector Zj?v , medido por E( Zj?v 2) sirve como indicador para

evaluar que tan grande es la proyección de � sobre L?v (j). Notar que si �x = �y,

Page 43: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. TEOREMA DE DESCOMPOSICIÓN EN SUBESPACIOS ORTOGONALES(TDSO) 43

o sea � = 0, resultaría la proyección �j?v = 0, y E( Zj?v 2) = �2. Por otro lado si

�x 6= �y, o sea � 6= 0, la proyección sería �j?v 6= 0, y E( Zj?v 2) = �2+ �j?v 2 > �2.

Si se propone a S21 = Zj?v 2 como otro estimador de varianza, este estimador

estimaría �2 en el caso que � = 0, y un valor mayor �21 = �2 +

nxnyn �2 en el caso

que � 6= 0, además este estimador estaría asociado a la �2 no-centrada

(3.4)

Zj?v 2�2

� �21(nxny�

2

n�2)

Entonces se tienen dos estimadores de varianza: S21 = Zj?v 2 que estima �21,

y S2p =kZv?k2n�2 que siempre estima �2.

Luego probar H0 : �x = �y vs Ha : �x 6= �y, que equivale a H0 : � = 0 vsHa : � 6= 0, es también equivalente a

H0 : �21 = �

2 vs Ha : �21 > �2

Si se cumple la hipótesis nula, la �2 de (3.4) será centrada y Zj?v 2�2 =1

kZv?k2�2 =(nx + ny � 2)

� �21=1

�2nx+ny � 2=(nx + ny � 2)= F1;nx+ny�2

Rechazandose H0 cuando el valor de este estadístico supere a f1;nx+ny�2;1��.

Además como Zj?v 2 = (X � Y )2 nxny

nx+nyy kZv?k2 = (nx + ny � 2)S2p el

estadístico es(X � Y )2

S2p(1nx+ 1

ny)� F1;nx+ny � 2

que es el estadístco habitual para probar la igualdad de medias en dos poblacionesnormales independientes. Que es equivalente a

X � YSpq

1nx+ 1

ny

� tnx+ny � 2

Page 44: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 45: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

Part 2

Modelo Lineal

Page 46: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 47: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 4

Planteo del modelo

1. De�nición

Suponga que se efectúan n experimentos aleatorios independientes, midiendoen cada uno de ellos cierta variable Yi � N1(�i;�) (se supondrá que los desvíosde estas mediciones son iguales, pero no necesariamente las medias). Otra formade expresar esto es considerar Yi = �i + "i donde las "i � N1(0; �). Expresadovectorialmente

Y =

2664Y1Y2��Yn

3775 =2664�1�2���n

3775+2664"1"2��"n

3775 = �+ " con " � Nn(0;�2In)

Entonces Y contiene las observaciones y es conocido, E(Y) = � es desconocido,y " es también desconocido pero se asume que se distribuye según una normalmultivariada de media 0 y matriz de covarianza �2In, lo que implica que las "i sonindependientes y de igual desvío.

Notar que aquí no se hace ninguna a�rmación respecto de las medias, y entonces� = (�1; �2; ��; �n)0 puede ser cualquier vector de Rn. O sea � pertenecería alsubespacio V = Rn con dim(V ) = n. Como se dispone solo de n observaciones, yn + 1 parámetros desconocidos(los �i y �), con este planteo no se puede estimar�.

Ahora se supondrá que, para cada experimento, se conocen k variables, noaleatorias, cuyos valores determinan las condiciones en que se realizan cada uno deellos. Por ejemplo, para el experimento i, se conocen xi1; xi2; ��; xik y se admitirá quela media de Yi depende de estos valores según la expresión lineal �i = �1xi1+�2xi2+� � +�kxik, donde los �j son constantes, los mismos para todos los experimentos.Expresado matricialmente:

� =

266664�1�2�3���n

377775 =266664x11 x12 �� x1kx21 x22 �� x2kx31 x32 �� x3k�� �� �� ��xn1 xn2 �� xnk

3777752664�1�2���k

3775 = X�Aquí X 2 Rn�k es la llamada matriz de diseño del Modelo Lineal, y debe ser

conocida. Esta matriz contiene información respecto de las condiciones en que serealiza cada experimento. Además � 2 Rk es un vector de parámetros, pudiendoser cualquier vector de Rk. Pero como � = X�, resulta que � 2 V = C(X) � Rn.O sea, al introducir en el modelo la información contenida en la matriz de diseño, �ya no puede ser cualquier vector de Rn, sino que "vivirá" en un subespacio menorV = C(X), de dimensión rg(X) = r � min fk; ng. Con esta introducción se de�ne

47

Page 48: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

48 4. PLANTEO DEL MODELO

Definition 35. Modelo Lineal

(1.1) Y = X� + " con E(Y) = � = X� 2V = C(X) y " � Nn(0;�2In)

Se debe tener en cuenta que:Datos: Son datos del modelo, y deben ser conocidos:� Y 2 Rn, el vector de variables aleatorias observadas, y� X 2 Rn�k la matriz de diseño.

Hipótesis: Son hipótesis del modelo, y deben cumplirse:� Que � pertenezca al subespacio generado por las columnas de la matrizde diseño, o sea � = X� 2V = C(X)� Que " � Nn(0;�2In)

Parámetros: Son parámetros del modelo que interesan:� El vector de medias �� La varianza �2� El vector � 2 Rk

Al subespacio V = C(X), se lo designa el "espacio" del modelo lineal. Esimportante no solo porque � 2V , sino porque de el dependen muchas de las carac-terísticas del modelo.

En las aplicaciones, el parámetro de interés suele no ser �, sino �, que estáligado a �, mediante � = X�. O sea � representa las coordenadas de � en losvectores x1;x2; ��;xk de la matriz de diseño. Si rg(X) = k, estos vectores son basede V , la matriz X se dice de "rango completo", y entonces para cada � el vector decoordenadas � es único. Por otro lado cuando rg(X) < k, la matriz X se dice de"rango in-completo", los vectores x1;x2; ��;xk no son base de V , y se presenta unproblema de unicidad que habrá que analizar, ya que a un mismo � le correspondenvarios vectores �.

Otra de�nición equivalente es

Definition 36. Modelo Lineal

(1.2) Y � Nn(�;�2In) con � = X� 2V = C(X)

Remark 7. En ambas de�niciones del Modelo Lineal se asumió la distribuciónnormal multivariante: para " en la primera, y para Y en la segunda. Esto es lohabitual. Sin embargo para probar muchos resultados, principalmente en temas deestimación, esto no es necesario, bastando con suponer: en la primera de�nición,que " es un vector aleatorio con "i independientes y E(") = 0 , �" = �2In; yen la segunda que Y es un vector aleatorio con Yi independientes y E(Y) = � ,�y = �

2In.

A continuación se desarrollarán varios ejemplos prestando particular atencióna la de�nición de la relación � = X�, las propiedades de la matriz de diseño X, delespacio del modelo V , y a la interpretación de los parámetros.

2. Regresión Lineal

Example 12. Se tienen n observaciones independientes de una población N(�;�).Como para cada observación Yi = � + "i con "i � N1(0;�), llamando Y =(Y1; Y2; ��; Yn)0, se tiene el ML: Y = j�+" con " �Nn(0;�2In) (en su versión 1.1),o también Y �Nn(j�;�2In) (en su versión 1.2). Notar que � = j� 2 V = L(j) unsubespacio de dimensión 1 de Rn. La matriz de diseño es X = j de rango completo.

Page 49: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. ANÁLISIS DE VARIANZA DE 1 FACTOR 49

Example 13. Regresión Lineal: se registran las alturas en cm de n jóvenesde 18 años elegidos al azar. Se tendrán entonces Y1; Y2; ��; Yn independientes conYi � N(�i;�). Pero si se supone que la altura media de un joven(�i) esta lineal-mente relacionada con la de su correspondiente padre(xi),según �i = �0 + �1xi,entonces vectorialmente(suponiendo conocidos los xi)

� =

2664�1�2���n

3775 =26641 x11 x2�� ��1 xn

3775��0�1�= X�

Luego planteado como ML

Y = X� + "; con " �N(0;�2In); O, también Y �Nn(�;�2In) con � = X�

Notar que como X 2 Rn�2, seguramente X es de rango 2(salvo que los xi fuesentodos iguales), y entonces rg(X) =2, coincidiendo con el número de columnas deX, resultando una matriz de rango completo. Entonces para cada �, al resolver� = X�, � será único, pudiendose obtener mediante � = (X0

X)�1X0� (ver prop.14

del Ch. 1).

Lo anterior es lo usual en los modelos de regresión. En este caso, las columnasde X son linealmente independientes, o sea son base de V = C(X).

Sin embargo en los modelos de Análisis de Varianza, X es usualmente de rangoincompleto. Y esto ocurre ya que al de�nir la matriz de diseño, para lograr unacomprensión más simple del problema, se usan más parámetros que los realmentenecesarios. O sea, se de�ne el modelo con k columnas, cuando solo con r linealmenteindependientes hubiese sido su�ciente. Entonces rg(X) = r < k y la matriz tienerango in-completo. Esto tiene como consecuencia, que dado �, la obtención de �en � = X� no tiene solución única. Se tratará esto más adelante.

3. Análisis de Varianza de 1 factor

Example 14. Análisis de Varianza(1 factor): Interesa estudiar el efectode tres suplementos(tratamientos) agregados al alimento, sobre la ganancia de pesode cerdos de corral. Para ello se seleccionan 9 cerdos de edad y peso similares, yse los separa en tres grupos de tres. Al primer grupo se le suministra el alimentocon el suplemento "1", y a los otros con el "2" y el "3". Luego de transcurrido unmes se mide el incremento de peso de los cerdos. Se tendrán las observaciones

trat:1Y11Y12Y13

trat:2Y21Y22Y23

trat:3Y31Y32Y33

Para un cerdo de los del tratamiento "1", su ganancia de peso la expresamos comoY1j = �+�1 + �1j donde se supondrá que �1j � N(0; �), y �+�1 es el incrementomedio de peso de estos cerdos. Aquí interpretamos a � como el incremento mediode peso por cerdo, si no se les hubiese suministrado el suplemento, y a �1 como el"plus" de incremento medio de peso debido al suplemento. Idem. para los cerdoscon los tratamientos "2" y "3". Si se disponen matricialmente estas observaciones

Page 50: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

50 4. PLANTEO DEL MODELO

se tiene el modelo lineal

Y =

26666666666664

Y11Y12Y13Y21Y22Y23Y31Y32Y33

37777777777775= �+ � =

26666666666664

�+ �1�+ �1�+ �1�+ �2�+ �2�+ �2�+ �3�+ �3�+ �3

37777777777775+

26666666666664

�11�12�13�21�22�23�31�32�33

37777777777775=

26666666666664

1 1 0 01 1 0 01 1 0 01 0 1 01 0 1 01 0 1 01 0 0 11 0 0 11 0 0 1

37777777777775

2664��1�2�3

3775+� = X� + �

Luego el modelo queda expresado Y = X� + " con " �N9(0;�2I9). La matriz dediseño tiene rg(X) = 3 < 4 así que no es de rango completo. Y además � 2V =C(X) que es un subespacio de dimensión 3 en R9.

4. Análisis de Varianza de 2 factores - Sin interacción

Example 15. Análisis de Varianza(2 factores) Sin interacción: Sequiere estudiar la in�uencia de tres tratamientos genéticos (a, b y c) aplicados asemillas de un cereal, sobre el crecimiento del mismo al mes de haber sido sembrado.El suelo en el que se hará el estudio, presenta zonas bajas y altas. El experimentoconsiste en sembrar 2 semillas de cada tratamiento, una en zona baja("1"), y laotra en zona alta("2"). Luego de 1 mes se miden las alturas de las 6 plantitas,según la notación:

a b c1 Ya1 Yb1 Yc12 Ya2 Yb2 Yc2

El vector de observaciones(alturas de las plantas), se lo puede de�nir así

Y = (Y1; Y2; Y3; Y4; Y5; Y6)0= (Ya1; Ya2; Yb1; Yb2; Yc1; Yc2)

0

La matriz de diseño expresa la relación � = X� entre: la media � de este vectorY, las condiciones en que se realizan estas 6 mediciones(tratamiento de la semillautilizada, y el tipo de suelo) en X , y los �. Por ejemplo para �a1 se postula que�a1 = � + �a + �1. Con esto se quiere decir, que la altura media �a1, se debea: un aporte � que representa la altura media que tendría la plantita si la semillano tuviese ningún tratamiento y hubiese sido plantada en un suelo ni bajo ni alto,más un aporte o"efecto" �a debido al tratamiento de semilla "a", más otro aporteo "efecto" �1 debido al tipo de suelo "1". Se tendrá entonces

� =

26666664�a1�a2�b1�b2�c1�c2

37777775 =26666664�+ �a + �1�+ �a + �2�+ � b + �1�+ � b + �2�+ � c + �1�+ � c + �2

37777775

Page 51: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. ANÁLISIS DE VARIANZA DE 2 FACTORES - CON INTERACCIÓN 51

Ahora sí, se obtiene la matriz de diseño, expresando

(4.1) � =

26666664�a1�a2�b1�b2�c1�c2

37777775 =26666664�+ �a + �1�+ �a + �2�+ � b + �1�+ � b + �2�+ � c + �1�+ � c + �2

37777775 =266666641 1 0 0 1 01 1 0 0 0 11 0 1 0 1 01 0 1 0 0 11 0 0 1 1 01 0 0 1 0 1

37777775

26666664��a� b� c�1�2

37777775 = X�

En de�nitiva el modelo queda expresado Y = X� + " con " �N6(0;�2I6). Sinembargo notar que la matriz de diseño, aunque muy clara, es de rango incompleto,ya que rg(X) = 4 y tiene 6 columnas (hay dependencias, pues la suma de la 2da,3ray 4ta es igual a la 1ra, y la suma de la 5ta y 6ta también es igual a la 1ra). Porúltimo observar que � = X� 2V = C(X) un subespacio de dimensión 4 de R6.

5. Análisis de Varianza de 2 factores - Con interacción

Example 16. Análisis de Varianza(2 factores) Con interacción: Alde�nir la matriz de diseño estamos postulando "el modelo" que consideramos rep-resenta adecuadamente nuestro problema. En el ejemplo anterior � tiene 6 coor-denadas, es un vector de R6, pero no puede ser cualquier vector, ya que � debepertenecer a V � R6, con dim(V ) = 4. Esto quiere decir que entre las coordenadasdel vector � existirá alguna relación. Si para una semilla con el tratamiento "a",se analiza �a2� �a1, que representa cuanto mas crece en promedio al sembrarla enuna zona alta("2") respecto de una zona baja("1") resulta

�a2 � �a1 = (�+ �a + �2)� (�+ �a + �1) = �2 � �1si hacemos lo mismo para una semilla con tratamiento "b" y "c", resulta

�b2 � �b1 = (�+ � b + �2)� (�+ � b + �1) = �2 � �1�c2 � �c1 = (�+ � c + �2)� (�+ � c + �1) = �2 � �1

Luego, en el modelo propuesto, entre las coordenadas de � se cumple la relación:

(5.1) �a2 � �a1 = �b2 � �b1 = �c2 � �c1Esto quiere decir que cualquiera sea el tratamiento de la semilla, "a", "b" o "c",la diferencia de crecimiento medio, entre zona alta y baja es la misma(�2 � �1),dependiendo solo de los tipos de suelo y nada de la semilla utilizada. Se dice eneste caso que el tratamiento aplicado a las semillas no interacciona con el tipode suelo. Esto es una consecuencia del modelo considerado, y parece razonableen este caso. Sin embargo, en otro caso, esto podría no ser así. Porejemplo suponga que la semilla "a", cuando se la siembra en zon alta, es muye�ciente, y crece mucho(�a2 alto); pero si se la siembra en zona baja, su e�cienciase degrada y crece pero muy poco(�a1 bajo), entonces �a2 � �a1 sería grande. Porotro lado, para la semilla "b", podría ser que su desempeño ya sea en zona alta obaja sea aproximadamente el mismo(�b2 � �b1), entonces en este caso �b2 � �b1sería pequeño. De aquí surge que �a2 � �a1 6= �b2 � �b1 y no se cumpliría que�a2 � �a1 = �2 � �1 y �b2 � �b1 = �2 � �1. Cuando esto ocurre se dice que eltratamiento aplicado a las semillas interacciona con el tipo de suelo. Notar queen una situación como esta, �1 y �2 no podrían ser los mismos, sinó que deberíande depender del tipo de tratamiento de las semillas. Concretamente para la semilla"a" sembrada en zona alta, su crecimiento medio sería �a2 = � + �a + �2a donde

Page 52: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

52 4. PLANTEO DEL MODELO

�2a representaría el plus de crecimiento debido a la zona alta, pero especí�co paraesta semilla, por eso la notación �2a ; y cuando se la siembra en zona baja sucrecimiento medio sería �a1 = � + �a + �1a , con un �1a que depende también dela semilla. Lo mismo para las otras semillas. Se tendría entonces el modelo

�a2 = �+ �a + �2a ;�a1 = �+ �a + �1a�b2 = �+ � b + �2b ;�b1 = �+ � b + �1b�c2 = �+ � c + �2c ;�c1 = �+ � c + �1c

Se dice que el tratamiento aplicado a la semilla interactúa con el tipo de suelo. Osea el efecto del suelo cambia dependiendo del tratamiento de la semilla. Aunque loanterior es correcto, no es lo habitual plantear así un modelo con interacción. Loque se hace es expresar por ejemplo �2a = k2+ a2 donde �2 es el efecto global de lazona alta sobre el crecimiento, el mismo para todas las semillas, y que depende solodel suelo, y a2 que es un efecto de interacción, que mide el especi�co crecimientode la semilla "a" en zona alta, por sobre el global k2. Se tendría entonces para lostres tratamientos en las dos zonas

�a2 = �+ �a + �2 + a2 y �a1 = �+ �a + �1 + a1

�b2 = �+ � b + �2 + b2 y �b1 = �+ � b + �1 + b1�c2 = �+ � c + �2 + c2 y �c1 = �+ � c + �1 + c1

Luego el modelo queda

� =

26666664�a1�a2�b1�b2�c1�c2

37777775 =26666664�+ �a + �1 + a1�+ �a + �2 + a2�+ � b + �1 + b1�+ � b + �2 + b2�+ � c + �1 + c1�+ � c + �2 + c2

37777775 =266666641 1 0 0 1 0 1 0 0 0 0 01 1 0 0 0 1 0 1 0 0 0 01 0 1 0 1 0 0 0 1 0 0 01 0 1 0 0 1 0 0 0 1 0 01 0 0 1 1 0 0 0 0 0 1 01 0 0 1 0 1 0 0 0 0 0 1

37777775

26666666666666666664

��a� b� c�1�2 a1 a2 b1 b2 c1 c2

37777777777777777775

= X�

y la matriz de diseño ahora tiene rg(X) = 6 y 12 columnas, resultando de rangoin-completo. Por último, y suponiendo que hemos adoptado este modelo con in-teracción, ahora interesa averiguar que requisitos deberían cumplir los parámetrospara que no exista interacción. La primera respuesta que surge es que deben sernulos todos los efectos de interacción, o sea

a1 = a2 = b1 = b2 = c1 = c2 = 0

Sin embargo, esta es una condición su�ciente, muy fuerte, pero no necesaria. Seanalizará el cumplimiento de la igualdad(5.1). Para ello notar que

�a2 � �a1 = (�+ �a + �2 + a2)� (�+ �a + �1 + a1) = �2 � �1 + a2 � a1�b2 � �b1 = (�+ � b + �2 + b2)� (�+ � b + �1 + b1) = �2 � �1 + b2 � b1�c2 � �c1 = (�+ � c + �2 + c2)� (�+ � c + �1 + c1) = �2 � �1 + c2 � c1Luego deberá cumplirse, ver(5.1)

�2 � �1 + a2 � a1 = �2 � �1 + b2 � b1 = �2 � �1 + c2 � c1

Page 53: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

6. DESCOMPOSICIÓN DEL VECTOR Y EN Rn = V � V ? 53

que es lo mismo que

(5.2) a2 � a1 = b2 � b1 = c2 � c1

que también equivale a veri�car que

� a2 � a1 � b2 + b1 = 0 b2 � b1 � c2 + c1 = 0

Estas relaciones son útiles, ya que si se ha planteado un modelo con interacción, y setienen dudas si se justi�ca utilizar este modelo mas complicado, lo que hay que haceres estudiar los parámetros �ab = a2� a1� b2+ b1 y �bc = b2� b1� c2+ c1. Si�ab = 0; y �bc = 0, esto quiere decir que se puede utilizar el modelo sin interacción.

Remark 8. En este ejemplo como en el anterior se supuso 1 sola observación,para cada una de las 6 combinaciónes de tratamientos(semillas "a", "b" ,"c", ysuelos "1" ,"2"). Esto se hizo para poder explicitar en forma completa el aspectomatricial del modelo(de lo contrario las matrices serían muy grandes). Pero enla práctica lo usual es tomar varias observaciones por combinación de tratamien-tos. Entonces la matriz de diseño tendría el mismo número de columnas k, peron �las, una por cada observación, o sea X 2 Rn�k, con Y 2 Rn. Sin embargo lamatriz X presentaría varias �las repetidas, ya que las medias de las observacionesque corresponden a la misma combinación de tratamientos serán identicas. Comorepetir �las en una matriz no modi�ca su rango, lo habitual al estudiar la relación� = X� es, aunque se tengan varias observaciones por combinación de tratamien-tos, suponer solo una. De esta manera la expresión matricial es mas simple deanalizar, y el rango de la matriz es el mismo, que es lo que interesa estudiar. Porsupuesto, para todos los análisis posteriores se requiere la matriz completa. Este co-mentario es particularmente importante en el último ejemplo analizado. Al tomar1 observación por combinación de tratamientos resultó rg(X) = 6, luego V = C(X)es un subespacio de dimensión 6 en R6, o sea V = R6. Como se analizará mas ade-lante, para estimar �2 se requiere proyectar Y sobre V ?, pero si V = R6, entoncesV ? es el subespacio nulo, y entonces no se podrá estimar �2. Por eso en el últimoejemplo es importante tomar varias observaciones por combinación de tratamien-tos, resultará Y 2 Rn, y como por lo comentado seguira manteniéndose rg(X) = 6,entonces V será un subespacio de dimensión 6 pero en Rn, y V ? tendrá dimensiónn� 6, lo que permitirá proyectar sobre el para estimar �2.

6. Descomposición del vector Y en Rn = V � V ?

Ahora se investigará la descomposición del vector Y 2 Rn en los subespaciosortogonales V y V ? donde Rn = V � V ?. Esta descomposición es importante yaque siempre es la primera que se analiza al estudiar un modelo lineal.

El subespacio V = C(X) � Rn donde "vive" el vector �, tiene dim(V ) = r.Ya que Rn = V � V ?, será dim(V ?) = n � r, y si se descompone Y 2 Rn en los

Page 54: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

54 4. PLANTEO DEL MODELO

subespacios ortogonales V y V ?, resultará Y = Yv +Yv? .

Figura 0 : Interpretaci�on geom�etrica

Como Y �Nn(�;�2In), y si se designan Pv y Pv? las respectivas matrices deproyección sobre V y V ?, resultaráYv = PvY yYv? = Pv?Y. Además utilizandoel punto 1, del teorema de descomposición en subespacios ortogonales:

E(Yv) = Pv� = Pr(�=V ) = � (ya que � 2V )PYv= Pv�

2InP0v = �

2PvP0v = �

2Pv

�=) Yv � Nn(�;�2Pv)

E(Yv?) = Pv?� = Pr(�=V?) = 0 (ya que � 2V )P

Yv?= Pv?�

2InP0v? = �

2Pv?P0v? = �

2Pv?

�=) Yv? � Nn(0;�2Pv?)

Este resultado es muy importante ya que descompone la información que con-tiene el vector Y, respecto de � y �2, en dos aportes independientes: un vectorYv? solo con información respecto de �2; y el vector Yv que contiene toda lainformación del ML respecto de �. Por eso en un modelo lineal:

� al vector Yv? se lo utiliza para construir un estimador insesgado de �2

� y como E(Yv) = � el vector Yv es un estimador insesgado de �, o seab� = Yv.

Sin embargo esto no es todo lo que podemos obtener de Yv. Como � = X�,resulta que Yv también tiene información respecto de �, aunque, como se verá masadelante, no necesariamente de todas sus componentes.

Por eso en lo que sigue, al analizar un ML se prestará particular atención alvector Yv que tiene bajo rango (rg(Yv) = r; en general mucho menor que n),y se buscará descomponerlo en apropiados subespacios ortogonales, por ejemploV = A � B con Yv = Ya +Yb, con la intención de expresar la información quecontiene respecto de �, en función de otros parámetros vinculados a � que sonde interés en el problema en estudio. Pero además, como la distribución de Yv

depende también de �2, y si se cumplen ciertas hipótesis, se buscará obtener otroestimador de varianza, basado en una de estas proyecciones, por ejemplo en Ya,que será independiente del obtenido con Yv? . Esto permitirá efectuar pruebas de

Page 55: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

6. DESCOMPOSICIÓN DEL VECTOR Y EN Rn = V � V ? 55

hipótesis, comparando los dos estimadores de �2. Por eso el nombre de Análisis dela varianza con que se designa a algunas aplicaciones del modelo lineal.

6.1. Proyección de Y sobre un subespacio cualquiera. Ahora se quierenrecordar algunos resultados del Teorema de descomposición en subespacios ortogo-nales, de uso frecuente, y en particular en el próximo ejemplo.

Sea Y � Nn(�;�2In) el vector de observaciones de un ML, y � =E(Y) su

vector media. Consideremos un subespacio cualquiera H � Rn, de dimensión h.En un ML siempre � 2V , pero aquí H es cualquier subespacio de Rn, así que �puede pertenecer o no a H. Por eso, para generalizar, en la �gura se representa �como no perteneciente a H. Se presentarán algunos resultados.

Proyectando Y sobre H, se obtiene YH . Si interesa el vector media de YH(osea �H) hay dos alternativas: calcular su media, E(YH), o proyectar � sobre H.O sea vale

E(YH) = �H = Pr(�=H)

En un ML es usual que interese que tan grande es el vector de media proyectado�H , y para evaluar esto se debería utilizar su norma cuadrática, k�Hk

2. Pero claro,como � es desconocido, también lo es �H .

Como E(YH) = �H , resulta YH un estimador insesgado de �H . Entoncespara evaluar que tan grande es �H se utiliza E(kYHk2). Según el Teorema dedescomposición en subespacios ortogonales resulta (h = dim(H))

E(kYHk2) = h�2 + k�Hk2

Otra forma de expresar esto es

E(kYHk2h ) = �2 + k�Hk2

h

La utilidad de esta expresión es que permite evaluar que tan bueno es el estadísticoS2 = kYHk2

h como estimador de �2: Notar que si �H 6= 0, claramente S2 no serviríacomo estimador insesgado de �2 ya que E(S2) = �2 + k�Hk2

h > �2, o sea estimaríaun valor mayor que �2.

Page 56: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

56 4. PLANTEO DEL MODELO

Por otro lado, si �H = 0, S2 = kYHk2h sería un estimador insesgado de �2,

cumpliendose quekYHk2

�2� �2h

Por último, aunque no esta representado en la �gura, si el vector Y se proyectasobre dos subespacios mutuamente ortogonales H1?H2, sus proyecciones YH1 yYH2 serán vectores aleatorios mutuamente independientes.

7. Análisis de la varianza de un factor

Aunque hasta ahora solo se ha de�nido el Modelo Lineal, y faltan temas im-portantes que se desarrollarán en los próximos capítulos, a continuación se volveráa analizar el ejemplo de Analisis de varianza de 1 factor(14), pero prestando aten-ción al aspecto de las proyecciones, ya que es un tema importante en los cálculospara estudiar un ML. Y de paso servirá como repaso de los conceptos vistos en elTeorema de descomposición en subespacios ortogonales.

El ejemplo de los cerdos(14) es un ML con diseño "balanceado", ya que elnúmero de observaciones por tratamiento es el mismo, 3 en este caso. Ahora, paramayor generalidad, se considerará el caso de un diseño "no-balanceado", donde elprimer tratamiento se aplicara a 4 cerdos, el segundo a 3 y el tercero a dos. Setendrán entonces las observaciones

trat:1Y11Y12Y13Y14

trat:2Y21Y22Y23

trat:3Y31Y32

Suponiendo que se cumplen todas las hipótesis de un ML, usualmente estemodelo se expresa

Yij = �+ �i + "ij para i = 1; 2; 3 y j = 1; 2; ��; niAquí se interprera a � como el incremento medio de peso por cerdo, si no se

les hubiese suministrado ningún suplemento; y a �1 como el "plus" de incrementomedio de peso debido al suplemento "1". Idem. para los cerdos con los tratamientos"2" y "3".

Planteado vectorialmente como un modelo lineal se tendrá(7.1)

Y =

26666666666664

Y11Y12Y13Y14Y21Y22Y23Y31Y32

37777777777775= �+" =

26666666666664

�+ �1�+ �1�+ �1�+ �1�+ �2�+ �2�+ �2�+ �3�+ �3

37777777777775+" =

26666666666664

1 1 0 01 1 0 01 1 0 01 1 1 01 0 1 01 0 1 01 0 1 01 0 0 11 0 0 1

37777777777775

2664��1�2�3

3775+" = X� + "

Como rg(X) =3 < 4, X no es de rango completo, y entonces dado �, la ecuación� = X�, tiene varios � como solución. Además V = C(X) es un subespacio dedimensión 3 en R9. Y como siempre � 2 V .

Page 57: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ANÁLISIS DE LA VARIANZA DE UN FACTOR 57

La intención ahora es descomponer el vector Y en apropiados subespacios or-togonales. En el análisis de un ML siempre se comienza con la descomposición vistaen (6), en este caso R9 = V �V ?, obteniendo Y = Yv +Yv? donde el vector Yv?

tiene solo información respecto de �2, lo que permitirá estimar este parámetro; yel vector Yv que tiene toda la información del ML respecto de �.

En lo que sigue, para una descomposición ortogonal Rn = A � B , con A;Bsubespacios de Rn, se obtendrán, utilizando el Teorema de descomposición en sube-spacios ortogonales:

(1) Los vectores proyectados: Ya = Pr(Y=A) y Yb = Pr(Y=B)(2) Las medias de estos vectores: �a = E(Ya) = Pr(�=A) y �b = E(Yb) =

Pr(�=B)(3) El valor medio de la norma cuadrática/dimensión del subespacio, de los

vectores proyectados: E( kYak2dim(A) ) y E( kYbk2

dim(B) )

(4) Las distribuciones �2 asociadas a las normas cuadráticas kYak2 y kYbk2

7.1. Descomposición R9 = V � V ?. Como Yv = Pr(Y=V ) habrá queproyectar sobre V = C(X). Pero en este caso es simple ya que al ser la primeracolumna de X, c0, combinación lineal de las otras tres, resulta V = C(X) =L(c1; c2; c3) con c1; c2; c3 mutuamente ortogonales. Entonces utilizando la proyec-ción de un vector sobre un subespacio generado por vectores ortogonales (4.4)

Yv = Pr(Y=L(c1; c2; c3)) =< Y; c1 >

kc1k2c1 +

< Y; c2 >

kc2k2c2 +

< Y; c3 >

kc3k2c3

= Y 1�c1 + Y 2�c2 + Y 3�c3

= (Y 1�; Y 1�; Y 1�; Y 1�; Y 2�; Y 2�; Y 2�; Y 3�; Y 3�)0

Además el cálculo de Yv? = Pr(Y=V?) es más fácil ya que

Yv? = Pr(Y=V ?) = Y �Yv

= (Y11 � Y 1�; Y12 � Y 1�; Y13 � Y 1�; Y14 � Y 1�; Y21 � Y 2�; Y22 � Y 2�; Y23 � Y 2�; Y31 � Y 3�; Y32 � Y 3�)0

Como la media de un vector proyectado, coincide con la proyección del vector �sobre el correspondiente subespacio, y teniendo en cuenta que siempre � 2V

E(Yv) = Pr(�=V ) = � y E(Yv?) = Pr(�=V?) = 0

Como E(Yv) = �, el vector proyectado Yv es un estimador insesgado de �, luegolas componentes de Yv estiman las componentes de �, por ejemplo (ver 7.1)

Y 1� =Y11+Y12+Y13+Y14

4 estima �+ �1��

Y 2� =Y21+Y22+Y23

3 estima �+ �2��

Y 3� =Y31+Y32

2 estima �+ �3

Pero no solo interesa la media de estos dos vectores proyectados, sinó también unindicador de su tamaño. Para esto se evaluará la esperanza de su norma cuadrática.Del punto 3 del Teorema de descomposición en subespacios ortogonales, si H es unvector con matriz de covarianza �2In, y Hq su proyección sobre un subespacio Q dedim(Q) = q, y �q = E(Hq) la media del vector proyectado, y utilizando tambien

Page 58: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

58 4. PLANTEO DEL MODELO

el punto 4 de dicho teorema para averiguar su distribución, resulta(7.2)

E(kHqk2) = q�2+ �q 2 o sea E(kHqk2

q) = �2+

�q 2q

; conkHqk2

�2� �2q(

�q 2�2

)

De estas tres expresiones, si se presta atención a la segunda, notar que si �q 2 = 0, esto quiere decir que E(kHqk2q ) = �2, y entonces kHqk2

q puede serutilizado como un estimador insesgado de �2.

En nuestro caso, para Yv que tiene media � y está proyectado sobre V dedim(V ) = 3 resulta(7.3)

E(kYvk2) = 3�2 + k�k2 o sea E(kYvk2

3) = �2 +

k�k2

3; con

kYvk2

�2� �23(

k�k2

�2)

Y para Yv? que tiene media 0 y está proyectado sobre V ? de dim(V ?) = 9�3 = 6resulta

(7.4) E(kYv?k2) = 6�2 o sea E(kYv?k2

6) = �2; con

kYv?k2

�2� �26

Como en (7.4) resulta E(kYv?k26 ) = �2, se puede utilizar Yv? para estimar a

�2 mediante

(7.5) S2 =kYv?k2

6=

4Pj=1

(Y1j � Y 1�)2 +3Pj=1

(Y2j � Y 2�)2 +2Pj=1

(Y3j � Y 3�)2

6

entonces tenemos que: Yv es un estimador de �, S2 es un estimador de �2 (quedepende deYv?), y comoYv? yYv son independientes, hemos logrado, via proyec-ciones, encontrar dos estimadores insesgados, de � y de �2 que son independientes.Y además, usando la tercera de (7.4) resulta

kYv?k2

�2=6S2

�2� �26

En de�nitiva, quedan las expresiones(7.6)

Y = Yv +Yv? =

26666666666664

Y 1�Y 1�Y 1�Y 1�Y 2�Y 2�Y 2�Y 3�Y 3�

37777777777775+

26666666666664

Y11 � Y 1�Y12 � Y 1�Y13 � Y 1�Y14 � Y 1�Y21 � Y 2�Y22 � Y 2�Y23 � Y 2�Y31 � Y 3�Y32 � Y 3�

37777777777775con

kYk2 = kYvk2 + kYv?k2

E(kYvk2

3) = �2 +

k�k2

3kYvk2

�2� �23(

k�k2

�2)

E(kYv?k2

6) = �2

kYv?k2

�2� �26

7.2. Sugerencia de una hipótesis. Usualmente interesa estudiar el cumplim-iento de cierta relación lineal entre las componentes de �, o sea entre los parámet-ros �; �1; �2 y �3. Como � y � estan relacionados mediante � = X�, entonces elcumplimiento de una relación en � implicará el cumplimiento de otra relación peroen �.

Page 59: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ANÁLISIS DE LA VARIANZA DE UN FACTOR 59

Concretamente suponga que interesa averiguar si los efectos de los tratamientosson iguales, o sea si es válida la hipótesis H0 : �1 = �2 = �3. Si esto ocurriese seanalizará donde "viviría" �, utilizando (7.1)

� =

26666666666664

�+ �1�+ �1�+ �1�+ �1�+ �2�+ �2�+ �2�+ �3�+ �3

37777777777775�1=�2=�3=�=

26666666666664

�+ ��+ ��+ ��+ ��+ ��+ ��+ ��+ ��+ �

37777777777775= (�+ �)j

Luego en este caso � 2 L(j) �V que es un subespacio de dim(L(j)) = 1. O sea elvector � viviría solo en L(j), y no tendría proyección sobre L?v (j) (el comple-mento ortogonal de L(j) dentro de V ). Este razonamiento sugiere la descomposiciónortogonal V = L(j)�L?v (j) donde dim(L?v (j)) = 2: Entonces la idea sería, descom-poner � en estos subespacios, obteniendo � = �j + �j?v , y seguidamente prestaratención a la proyección �j?v . Si �j?v = 0, esto querría decir que � esta todo enL(j) y entonces la hipótesis sería válida, y no-válida en caso contrario.

Pero claro, a � lo desconocemos, y entonces también a �j?v , así que no podremossaber si es nulo o no.

Lo que se hace es descomponer Yv 2 V (que es un estimador de �) segúnV = L(j) � L?v (j). Se tendrá entonces Yv = Yj + Yj?v

, con Yj?vun estimador

de �j?v . Así que habrá que evaluar que tan "grande" es Yj?v. Si es "grande" se

interpretará como que los �i no son iguales.

7.3. Descomposición V = L(j) � L?v (j). A continuación se descompondráortogonalmente Yv = Yj +Yj?v

donde Yj 2 L(j) y Yj?v2 L?v (j).

Se tiene Yj = Pr(Yv=L(j)) =Pr(Y=L(j))=<Y;j>kjk2 j =

PYij9 j =Y ��j donde Y �� es

el promedio de todas las observaciones.Además Yj?v

= Pr(Yv=L?v (j)) = Yv �Yj o sea

Yj = Y ��j

Yj?v= (Y 1� � Y ��; Y 1� � Y ��; Y 1� � Y ��; Y 1� � Y ��; Y 2� � Y ��; Y 2� � Y ��; Y 2� � Y ��; Y 3� � Y ��; Y 3� � Y ��)0

y las medias de estos vectores son

�j = E(Yj) = Pr(�v=L(j)) = Pr(�=L(j)) =< �; j >

kjk2j =

1

9

Xi j

�ijj

=1

9(�+ �1 + �+ �1 + �+ �1 + �+ �1 + �+ �2 + �+ �2 + �+ �2 + �+ �3 + �+ �3)j

=1

9(9�+ �1 + �1 + �1 + �1 + �2 + �2 + �2 + �3 + �3)j = (�+ ���)j

donde ��� representaría el promedio de los efectos de los tratamientos para las 9observaciones, o sea ��� = �1+�1+�1+�1+�2+�2+�2+�3+�3

9 y además �j 2 = 9(�+ ���)2

Page 60: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

60 4. PLANTEO DEL MODELO

y también

�j?v = E(Yj?v) = E(Yv)� E(Yj) = �� (�+ ���)j

= (�1����; �1����; �1����; �1����; �2����; �2����; �2����; �2����; �3����; �3����)0

con �j?v 2 = E(Yj?v) 2 =X

i j

(�ij � ���)2 = �2�

donde �2� esta relacionado con la dispersión de los efectos de los tratamientos paralas 9 observaciones, respecto de su promedio ���. Luego �

2� = 0 es equivalente a

a�rmar que �1 = �2 = �3.Luego � queda descompuesto como

� =

26666666666664

�+ �1�+ �1�+ �1�+ �1�+ �2�+ �2�+ �2�+ �3�+ �3

37777777777775= �j + �j?v =

26666666666664

�+ ����+ ����+ ����+ ����+ ����+ ����+ ����+ ����+ ���

37777777777775+

26666666666664

�1 � ����1 � ����1 � ����1 � ����2 � ����2 � ����2 � ����3 � ����3 � ���

37777777777775Ahora se estudiarán las normas cuadráticas de las proyeccionesYj yYj?v

, utilizando(7.2).

En nuestro caso, paraYj que tiene media �j = (�+���)j con �j 2 = 9(�+���)2

y está proyectado sobre L(j) de dim(L(j)) =1, resulta

E(kYjk2) = �2 + 9(�+ ���)2 ; conkYjk2

�2� �21(

9(�+ ���)2

�2)

Y para Yj?vque tiene media �j?v con

�j?v 2 = �2� y está proyectado sobre L?v (j)de dim(L?v (j)) =2 resulta

E( Yj?v

2) = 2�2 + �2� o sea E( Yj?v

22

) = �2 +�2�2; con

Yj?v

2�2

� �22(�2��2)

Luego el vector Yv queda descompuesto como

(7.7) Yv = Yj+Yj?v= Y ��j+

26666666666664

Y 1� � Y ��Y 1� � Y ��Y 1� � Y ��Y 1� � Y ��Y 2� � Y ��Y 2� � Y ��Y 2� � Y ��Y 3� � Y ��Y 3� � Y ��

37777777777775con

kYvk2 = kYjk2 + Yj?v

2E(kYjk2) = �2 + 9(�+ ���)2kYjk2

�2� �21(

9(�+ ���)2

�2)

E(

Yj?v

22

) = �2 +�2�2 Yj?v

2�2

� �22(�2��2)

Se debe aclarar que esta última descomposición fué "sugerida" por el supuesto quelos efectos de los tratamientos fuesen iguales, o sea que �1 = �2 = �3. Sin embargo

Page 61: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ANÁLISIS DE LA VARIANZA DE UN FACTOR 61

la descomposición y todos sus resultados son válidos sea cierto o no este supuesto.Se tiene entonces

Y = Yv +Yv? = Yj +Yj?v+Yv?

donde estos tres vectores son independientes y en orden de aparición

� Yv? tiene información respecto de �2 (y ninguna respecto de �)� Yj tiene información respecto de la componente de � en el subespacioL(j) (y "algo" respecto de �2)

� Yj?vtiene información respecto de la componente de � en el subespacio

L?v (j) (y "algo" respecto de �2)Además desde otro punto de vista, si se presta atención a los estimadores de

varianza que se podrían proponer con estos vectores

� Con Yv? : Como de (7.6), E(kYv?k2

6 ) = �2, se propone S2 = kYv?k26

Este es el estimador usual de varianza en un modelo lineal, y es insesgado. Suexpresión esta en (7.5).

� Con Yj: Como de (7.7), E(kYjk2) = �2 + 9(� + ���)2, se propone S20 =kYjk2

Pero este estimador es sesgado, salvo que � + ��� = 0. Sin embargo como noes usual suponer la validez de esta condición, se asumirá que S20 no sirve comoestimador de �2.

� Con Yj?v: Como de (7.7) E(

Yj?v

22 ) = �2 +

�2�2 = �21, se propone S

21 = Yj?v

22

Pero este estimador también es sesgado. En lugar de estimar �2, estima unacantidad mayor, concretamente �2 + �2�

2 = �21.

Sin embargo, notar aquí que si �j?v 2 = �2� =

Pi j

(�ij � ���)2 = 0, esto es

equivalente a que los efectos de los tratamientos son todos iguales, o sea que esválida la hipótesis H0 : �1 = �2 = �3. En de�nitiva:

Si H0 : �1 = �2 = �3 es válida () S21 y S2 son ambos estimadores de �2

Si H0 : �1 = �2 = �3 NO es válida () S2estima �2, S21 estima �21 > �

2

Luego probar la hipótesis H0 : �1 = �2 = �3 equivale a la prueba habitual decomparación de varianzas, concretamente

H0 : �21 = �

2 vs Ha : �21 > �2

Si se cumple H0,

Yj?v

2�2 � �22 y kYv?k2

�2 � �26 y entonces el estadístico del test es

F2;6 =�22 = 2

�26 = 6=

Yj?v

2 =2kYv?k2 =6

y se rechazará H0 , por ejemplo si F2;6 > f2;6;0:95.

Page 62: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

62 4. PLANTEO DEL MODELO

7.4. Comentarios �nales. Este ejemplo muestra aspectos generales del análi-sis de un modelo lineal. Se enumeran a continuación los pasos a seguir.

� Se plantea un ML, asumiendo la validez de todos sus requisitos, entre ellosque � 2 C(X) = V . Luego se descompone Y 2 Rn según R9 = V � V ?,obteniendo Y = Yv + Yv? , donde Yv es un estimador de �, y S2 =kYv?k2dim(V ?)

es un estimador de �2, ambos insesgados e independientes.� Se plantea una hipótesis lineal H0 entre las componentes de � (no puedeser cualquier hipótesis, esto se verá mas adelante). Se analiza a con-tinuación en que subespacio "viviría" � si se cumpliese esta hipótesis.Supongamos que resulta que � 2W , donde W � V .

� Se razona que, si � 2 W , entonces no tendría proyección sobre el sube-spacio ortogonal a W dentro de V . Entonces se plantea una nueva de-scomposición ortogonal, esta vez dentro de V , o sea V = W �W?

v . Laintención con esta descomposición es que si la hipótesis planteada es vál-ida, la proyección de � sobre W?

v , o sea Pr(�=W?v ) = �w?v sería nula.

� Se descomponeYv 2 V según V =W�W?v , obteniendoYv = Yw+Yw?v

,donde Yw?v

es un estimador de �w?v , cumpliendo siempre

E(

Yw?v

2dim(w?v )

) = �2 +

�w?v 2dim(w?v )

= �21

� Según lo anterior, si H0 es válida, S21 = Yw?v

2dim(w?v )

será un estimador inses-

gado de �2, y en caso contrario estimará �21 > �2.

� Entonces disponemos de dos estimadores de �2 : S2 = kYv?k2dim(V ?)

que siempre

es un estimador insesgado de �2, y S21 =

Yw?v

2dim(w?v )

que estima �2 si H0 esválida, y un valor mayor en caso contrario. Según esto analizar la validezde H0 equivale a comparar(utilizando S21 y S

2) dos varianzas, o sea el test

H0 : �21 = �

2 vs Ha : �21 > �2

Notar que la parte central en este procedimiento es establecer la equivalenciaentre la validez de una hipótesis, y la existencia de un subespacio dentro de V , (eneste caso W?

v ) en el que � no tiene proyección. Si esto ocurre, se dispone de otroestimador de varianza para poder evaluar la hipótesis de interés.

Page 63: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 5

Identi�cación

1. De�nición

De la segunda de�nición de un modelo lineal(1.2), el vector de observacionesY responde a un ML si su distribución pertenece a la familia

F =�Nn(�;�

2In) : � = X� 2 V = C(X)

Se dice que el par (�;�2) es una parametrización del ML ya que: conociendo(�;�2), queda univocamente de�nida la distribución de Y(en F). Pero una car-acterística importante que posee esta parametrización es la de ser identi�cable,o sea: conocida la distribución de Y(en F), queda univocamente de�nido el par(�;�2).

Que una parametrización sea identi�cable es importante, ya que solo tienesentido hablar de estimación, en el caso de parámetros identi�cables. Por ejemplo,si pudiese ocurrir que la distribución de Y sea la misma, ya sea con (�1;�

2) o con(�2;�

2), un estimador de �, basado en Y, no se entiende que parámetro estimaría(�1 o �2). En la próxima sección, al ser el par (�;�

2) identi�cable, se analizarácomo estimarlo, obteniendo b� y b�2.

Remark 9. El problema de identi�cación es una característica del modeloplanteado, no del estimador o del procedimiento de estimación empleado.

Conclusion 2. En el ML: la parametrización (�;�2) siempre es identi�cable.

El problema surge cuando, como es usual, interesa como parámetro � en lugarde �. Importará entonces el par (�;�2), que también es una parametrización del MLya que: conociendo (�;�2), como � = X� se conoce (�;�2), y de aquí la distribuciónde Y(en F). Pero sin embargo, no siempre esta parametrización es identi�cable,ya que: si se conoce la distribución de Y(en F), unívocamente se conoce (�;�2).Pero para que esto implique conocer unívocamente (�;�2), debe cumplirse que:dado cualquier � 2V , la ecuación � = X�, tiene que tener solución única en �. Ende�nitiva, resulta:

Conclusion 3. En el ML: la parametrización (�;�2) es identi�cable sii

8� 2V=C(X); � = X� tiene solución única en � () rg(X) = k

Entonces, si rg(X) = k, � será un parámetro identi�cable, ya que conociendo�, y usando las coordenadas de un vector en una base, se puede obtener en formaúnica

(1.1) � = (X0X)�1X0�

Luego, al ser el par (�;�2) identi�cable, se podrá pensar en estimarlo, y hallarb� y b�2.Sin embargo otro camino indirecto a seguir puede ser el obtener primero b�y b�2, y luego con la 1.1, obtener b�= (X0

X)�1X0b�.

63

Page 64: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

64 5. IDENTIFICACIÓN

2. Caso en que X no es de rango completo

Cuando en un ML la matriz de diseño X no tiene rango completo, es porque� tiene demasiados parámetros, y se dice entonces que el modelo está sobre-parametrizado. Si rg(X) = r, pero � tiene mas componentes, no será identi�cable.La intención es plantear un nuevo modelo, con otro X�, y otro �� de solo r com-ponentes. Pero lo que debe mantenerse es el espacio V del modelo original. Elmotivo es que V es el subespacio donde se encuentra � que es la media del vectorde observaciones Y, y es una hipótesis del modelo.

Se presentarán dos alternativas para abordar este tema:

� En la primera, se re-parametrizará el modelo, es decir se expresará conotros parámetros. O sea se cambiara � por ��, y también X por X�, demanera que la nueva matriz de diseño tenga rango completo.� En la segunda se agregarán restricciones a los �i, hasta lograr que lanueva matriz sea de rango completo. Pero el agregar estas restriccioneshace que la interpretación de los parámetros cambie, o sea en lugar de �tendremos ��, y también la matriz de diseño cambiará a X�. Así que setrata también de una re-parametrización.

Con estas re-parametrizaciones, el beta cambia a ��(con r componentes), otrosparámetros y otra interpretación de los mismos.

Finalmente se analizará otra alternativa, donde se mantiene el modelo sobre-parametrizado, o seaX y �, pero se analizará si, aunque todo � no sea identi�cable,hay algunos de los �i que sí lo son, o quizás que algunas combinaciones lineales delos �i lo sean. Es decir � es el mismo, pero se presta atención solo a algunas desus combinaciones lineales.

2.1. Re-parametrización del modelo. Si en el ejemplo 15 de las semillas,se de�ne �a el crecimiento medio de una semilla con tratamiento a sembrada enuna zona baja, y k el plus de crecimiento por sembrarla en una zona alta, resultará�a1 = �a, y �a2 = �a + k. Similarmente para las semillas con tratamiento b y cresultará: �b1 = �b, y �b2 = �b + k; y también �c1 = �c, y �c2 = �c + k; se tendráentonces

� =

26666664�a1�a2�b1�b2�c1�c2

37777775 =26666664

�a�a + k�b

�b + k�c

�c + k

37777775Entonces se obtiene la matriz de diseño expresando

� =

26666664�a1�a2�b1�b2�c1�c2

37777775 =26666664

�a�a + k�b

�b + k�c

�c + k

37777775 =266666641 0 0 01 0 0 10 1 0 00 1 0 10 0 1 00 0 1 1

377777752664�a�b�ck

3775 = X���

Notar que esta matrix de diseño sigue teniendo rg(X�) = 4, pero ahora es de rangocompleto. Además su espacio columna, V , es el mismo, ya que mantiene las colum-nas 2da, 3ra, 4ta y 6ta de la matriz original, pero se han sacado la 1ra y 5ta por ser

Page 65: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. CASO EN QUE X NO ES DE RANGO COMPLETO 65

combinacion lineal de las anteriores: la 1ra(2da+3ra+4ta), y la 5ta(2da+3ra+4ta-6ta). Por supuesto, el �� ha cambiado, ya que sus componentes �a; �b; �c; k tienenahora otra interpretación, pero siendo todos identi�cables, se los puede estimar.Esto permite analizar mas comodamente el mismo problema.

2.2. Re-parametrización: Imponiendo restricciones a �. Se supondráque se tiene un ML sobre-parametrizado con rg(X) = r < k, � 2 Rk, y espacio V

ML : V =�� = X� con � 2 Rk

Debido a que X no es de rango completo, para cada �, al resolver � = X�,

existirán varios � solución. Por eso la idea es imponer restricciones a los �i.Aunque la justi�cación de este tema se dará mas adelante(15), se detallarán los

pasos a seguir.Como rg(X) = r < k, resulta dim(F (X)) = r, entonces primero se busca una

matriz C 2 Rkx(k�r), de k� r columnas y dim(C(C)) = k� r (o sea con columnasLI entre si), pero además que junto con las �las de X generen todo Rk, o sea serequiere

F (X)� C(C) = Rk

Para lograr esto, hay que veri�car que estos subespacios esten en suma directa, yesto requiere que sean linealmente independientes entre sí, o sea que F (X) \C(C)sea el subespacio nulo. Notar que es condición necesaria(pero no su�ciente) quelas columnas de C sean LI de las �las deX(en efecto, dos columnas de C pueden serLI de las de X, pero su diferencia pertenecer a F (X), y entonces F (X)\C(C) 6= 0).

En segundo lugar se de�ne un nuevo MLr, restringido, imponiendo que � nopuede ser cualquier vector de Rk sinó que también debe cumplir r-restricciones osea C0� = 0 (en lo que sigue se designará a beta como �r , ya que luego de larestricción el beta cambia)

(2.1) MLr : V =�� = X�r con �r 2 Rk y C0�r= 0

El cumplimiento del requisito sobre C hace que este modelo comparta el mismo

espacio V . Faltaría darle aspecto de modelo lineal no restrigido, o sea expresarlocomo ML� : V = f� = X��� con �� 2 Rq g para cierto X�, �� y q. Esto se veráen el ejemplo que sigue.

Pero antes se quiere analizar una característica importante del modelo(2.1).Analicemos cuales son los �r que hacen que � = 0. Como debe cumplirse que 0 =X�r, en principio se necesita que �r? F (X), pero como también debe cumplireseque C0�r= 0, también se requiere que �r? C(C). Y como F (X)� C(C) = Rk,resultará �r? Rk, o sea debe ser �r= 0. Esto quiere decir que el núcleo del modeloserá el subespacio nulo. Lo que implica que cuando se exprese como modelo linealno restringido, la matriz de diseño tendrá rango completo.

Example 17. En el ejemplo(15) de Análisis de Varianza, como rg(X) = 4 < 6,el modelo esta sobre-parametrizado. La intención ahora es agregar restricciones alos �i para lograr un nuevo modelo pero de rango completo. Hay muchas maneras dehacer esto. En análisis de la varianza, es usual exigir que la suma de los "efectos"de los tratamientos aplicados a las semillas sea nulo, o sea �a + � b + � c = 0, ytambién que la suma de los "efectos" del tipo de suelo sea también nulo, o sea�1 + �2 = 0:¿Porqué se eligen estas restricciones? Un motivo es que simpli�can

Page 66: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

66 5. IDENTIFICACIÓN

la interpretación de los efectos del tratamiento aplicado a las semillas, y al tipo desuelo. Volviendo a las dos restricciones, si se las expresa con � se tiene

(0; 1; 1; 1; 0; 0)� = 0(0; 0; 0; 0; 1; 1)� = 0

o sea�0 1 1 1 0 00 0 0 0 1 1

�� = C0� = 0

Con estas restricciones se cumple el requisito F (X)�C(C) = R6,(aunque en real-idad, esto habría que veri�carlo, ya que no siempre es sencillo probar que F (X) \C(C) es el subespacio nulo) entonces el nuevo modelo es

MLr : V =�� = X�r con �r 2 R6 y C0�r= 0

O sea

MLr : V =

8>>>>>><>>>>>>:� =

266666641 1 0 0 1 01 1 0 0 0 11 0 1 0 1 01 0 1 0 0 11 0 0 1 1 01 0 0 1 0 1

37777775

26666664�r

� ra� rb� rc�r1�r2

37777775 con �r 2 R6 y � ra + �rb + �

rc = 0

�r1 + �r2 = 0

9>>>>>>=>>>>>>;Ahora se lo expresará como modelo no-restringido. Para ello se le incorporarán a�r las restricciones

�r =

26666664�r

� ra� rb� rc�r1�r2

377777758<: � ra + �

rb + �

rc = 0

�r1 + �r2 = 0

=

26666664�r

� ra� rb

�� ra � � rb�r1��r1

37777775 =266666641 0 0 00 1 0 00 0 1 00 �1 �1 00 0 0 10 0 0 �1

377777752664�r

� ra� rb�r1

3775 = U��

donde �� contiene parte de las componentes de �r, y U expresa la relación en-tre ellos, o sea �r = U��. Luego reemplazando en la anterior, y multiplicandoXU = X� queda(donde se marcaron los parámetros con asterisco para recordar queahora tienen otra interpretración)

� = X� = X�r = XU�� =

266666641 1 0 11 1 0 �11 0 1 11 0 1 �11 �1 �1 11 �1 �1 �1

377777752664��

��a��b��1

3775 = X���

Finalmente el nuevo modelo, con su expresión no-restringida queda

ML� : V =�� = X��� con �� 2 R4

Aquí la matriz X� tiene rg(X�) = 4; y son 4 los parámetros, luego es de rangocompleto. Ahora sí, �� es un parámetro identi�cable. Si se conoce �, se obtienenlas coordenadas de �� mediante

(2.2) �� = (X�0X�)�1X��

Si se quiere analizar que miden las componentes de este nuevo ��, utilizando(2.2), se tiene que �� = (X�0X�)�1X��, pero como � = X� resultará �� =

Page 67: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. CASO EN QUE X NO ES DE RANGO COMPLETO 67

(X�0X�)�1X�X�, y operando queda

�� =

2664��

��a��b��1

3775 =26641 1

313

13

12

12

0 23 � 13 � 13 0 0

0 � 1323 � 13 0 0

0 0 0 0 12 � 12

377526666664��a� b� c�1�2

37777775 =2664�+ �a+�b+�c

3 + �1+�22

�a � �a+�b+�c3

� b � �a+�b+�c3

�1 � �1+�22

3775Notar que ahora �� = �+ promedio de efectos de los tratamientos aplicados a lassemillas + promedio de efectos de los tipos de suelo. Y, ��a es más interesante, yaque mide el "plus" de efecto de la semilla "a", respecto del efecto promedio de lostres tratamientos. Idem para ��b . Y ��1 mide también el "plus" de efecto del suelo"1" respecto del promedio de efectos de los tipos de suelo. En de�nitiva se logroun modelo de rango completo, totalmente identi�cable, y con el agregado de unainterpretación mas simple de los parámetros.

2.3. Combinaciones lineales identi�cables. Si rg(X) = r < k, entoncespara � 2V = C(X), se tendrán varios � que son soluciones de � = X�. Por esoel vector � todo, no es identi�cable. Pero podría suceder que, cualquira sea � 2V ,si bien existen varios �, en todos, la componente �3 es la misma. En este caso �3sería identi�cable. O, con mayor generalidad, podría suceder que para todo � 2V ,la combinación lineal � = c0� (de interés), mantenga su valor para los diferentes�, en cuyo caso � sería un parámetro identi�cable también. Se estudiará entoncesque requisito debe cumplir c 2 Rk, para que � = c0� sea identi�cable.

Por de pronto, dado � 2V = C(X), la solución general de � = X� es(ver prop17), � = �f+e, donde �f es la única solución que está en F (X), y e es cualquiervector perteneciente al Nu(X). Si rg(X) = r < k, Nu(X) 6= 0, y entonces habránin�nitos e, y por lo tanto in�nitos �. Como interesa estudiar la combinación linealc0�

� = c0� = c0�f+c0e

El primer término es �jo, y si se quiere que, cualesquiera sea �, � = c0� se mantengaconstante, se deberá exigir que 8e 2 Nu(X) resulte c0e = cte. Como 0 2Nu(X), laconstante deberá ser nula, o sea c0e = 0. Pero entonces c 2 F (X). Se ha probadola proposición

Proposition 63. Identi�cación 1

(2.3) � = c0� es identi�cable () c 2 F (X)

(o sea que c = X0a para algún a 2 Rn)De acuerdo a esto, como dim(F (X)) = rg(X) = r, solo podremos encontrar

como máximo r vectores linealmente independientes ci; entonces

](�i = c0i� linealmente independientes) = r

Notar que en el caso de rango completo, rg(X) = rg(F (X)) = k, luego F (X) =Rk, entonces siempre c 2 F (X). Esto quiere decir que toda combinación lineal� = c0� será identi�cable. Sin embargo cuando rg(X) = rg(F (X)) = r < k, soloserán identi�cables las � = c0�, en que c 2 F (X).

Como la matriz X suele tener muchas �las(n), veri�car si c 2 F (X) puede sertedioso, sin embargo F (X) = C(X0), y además según (11) C(X0) = C(X0X), luegola (2.3) se expresa también

Page 68: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

68 5. IDENTIFICACIÓN

Proposition 64. Identi�cación 2

(2.4) � = c0� es identi�cable () c 2 C(X0X)

Como X0X 2 Rkxk, y tiene solo k columnas, es mas fácil veri�car este requisito.

Además, como c 2 F (X) equivale a c ? Nu(X), entonces si se tiene una basede Nu(X), para analizar la identi�cabilidad bastará veri�car que c es ortogonal atodos los vectores de esta base(que suelen ser pocos), o sea

Proposition 65. Identi�cación 3

� = c0� es identi�cable () c0ei = 0;8ei 2 base de Nu(X)

Finalmente si c 2 F (X), quiere decir que c = X0a para algún a 2 Rn, luego� = c0� = a0X� = a0� o sea

Proposition 66. Identi�cación 4

(2.5) � = c0� es identi�cable () � = a0� para algún a 2 Rn

Esta es importante ya que a�rma que solo son identi�cables las combinacioneslineales de los �i, que pueden expresarse como combinaciones lineales de los �i.

Y como � siempre es identi�cable, son estimables todas sus componentes �i,

lo que permitirá estimar b� = a0b� = nXi=1

aib�i.Remark 10. Cuando, para lograr que la matriz de diseño tenga rango completo

se analizó la alternativa de imponer restricciones a �(como en el ejemplo 17), seimpuso que

c01� = (0; 1; 1; 1; 0; 0)� = �a + � b + � c = 0

c02� = (0; 0; 0; 0; 1; 1)� = �1 + �2 = 0

y se señalo que una condición necesaria es que c1 y c2 sean LI de las restantes �lasde X, o sea que c1; c2 =2 F (X). Esto quiere decir que las combinaciónes lineales aagregar, c0i� = 0, deben ser no-identi�cables.

2.3.1. Identi�cación y Estimabilidad. Se comento anteriormente que unparámetro debe ser identi�cable para que se pueda pensar en estimarlo. Pero,aunque no fué dicho, el estimador que interesa en un ML no puede ser cualquierestimador, sinó que debe ser lineal en las observaciones(las Yi) e insesgado.Mas adelante en el Teorema de Gauss-Markov se demuestra que en el caso delparámetro � = c0� identi�cable, siempre se puede encontrar una combinación lineald0Y tal que E(d0Y) = c0� 8� (insesgada). Luego b� = d0Y será un estimador linealinsesgado de �. En de�nitiva toda combinación lineal c0� identi�cable, será tambiénestimable. Por eso en un ML para una combinación lineal c0�, ser identi�cableequivale a ser estimable.

Sin embargo esto no es cierto en general. Por ejemplo considerese el parámetro� = c01�=c

02� donde c

01� y c

02� son identi�cables. Como para todo � tanto c

01�

como c02� toman el mismo valor, resulta � también un parámetro identi�cable. Sinembargo aquí no es posible encontrar un estimador lineal en las Yi e insesgado. Yno resultaría identi�cabilidad equivalente a estimabilidad.

Page 69: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. CASO EN QUE X NO ES DE RANGO COMPLETO 69

Example 18. Continuando con el ejemplo 15, ahora se buscará explicitar deuna forma sencilla, que requisito debe cumplir c = (c1; c2; c3; c4; c5; c6)

0, para quec0� sea identi�cable. Como c tiene que pertenecer a F (X), deberá ser c = X0apara algún a 2 R6 o sea:

c =

26666664c1c2c3c4c5c6

37777775 = X0a =

266666641 1 1 1 1 11 1 0 0 0 00 0 1 1 0 00 0 0 0 1 11 0 1 0 1 00 1 0 1 0 1

37777775

26666664a1a2a3a4a5a6

37777775entonces 8>>>>>><>>>>>>:

c1 = a1 + a2 + a3 + a4 + a5 + a6c2 = a1 + a2c3 = a3 + a4c4 = a5 + a6c5 = a1 +a3 +a5c6 = a2 +a4 +a6

Sumando la 2da, 3ra y 4ta, y comparando con la 1ra, resulta que c1 = c2+c3+c4; ytambién sumando la 5ta y 6ta, y comparando con la 1ra resulta c1 = c5+ c6. Luegoc deberá pertenecer al subespacio

F (X) = f(c1; c2; c3; c4; c5; c6)0 : c1 = c2 + c3 + c4 = c5 + c6g

Ya que se tiene bién de�nido este subespacio, se analizarán varias combinacioneslineales c0� del � = (�; �a; � b; � c; �1; �2)0 del ejemplo 15. Se tendrá:

� � = (1; 0; 0; 0; 0; 0)�, pero c =2F (X), luego no es identi�cable.� �a = (0; 1; 0; 0; 0; 0)�, con c =2F (X), tampoco es identi�cable. Lo mismoocurre con las restantes componentes de �.

� 3�+ 3�a � � b + � c + 3k1 = (1; 2;�1; 0; 3;�2)�, con c 2F (X), es identi�-cable, sin embargo no parece una combinación lineal muy interesante.� �a � � b = (0; 1;�1; 0; 0; 0)�, con c 2F (X), luego es identi�cable. Si in-teresa averiguar cuánto mejor es la variedad de semilla "a" respecto de la"b", el párametro �a � � b se puede estimar.

� �1 = �+�a+�1 = (1; 1; 0; 0; 1; 0)�, donde c 2F (X), luego �1 es identi�ca-ble. Pero esto ya lo sabíamos, ya que siempre el vector � es identi�cable,y todas sus componentes.� Notar que c =(0; 23 ;

�13 ;

�13 ; 0; 0)

0 2 F (X). Luego c0� es identi�cable. Peroc0� = 2

3�a �13� b �

13� c = �a �

�a+�b+�c3 = ��a, el parámetro identi�cable

del ejemplo 17, cuando se introdujeron restricciónes al ejemplo 15 paralograr identi�cabilidad.

En de�nitiva, cuando X es de rango incompleto, se puede proceder comoen el ejemplo 17, introduciendo oportunas restricciones, para lograr convenientespárametros identi�cables. Otra alternativa es aceptar la X de rango incompleto, ybuscar combinaciones lineales útiles, que sean identi�cables.

Page 70: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

70 5. IDENTIFICACIÓN

3. Restricciones en un Modelo Lineal

Anteriormente, cuando la matriz de diseño no era de rango completo, se utilizóel recurso de imponer restricciones lineales a �, para lograr parámetros identi�-cables. Mas adelante, en prueba de hipótesis, se postularán restricciónes linealessobre �, pero esta vez con otro objetivo: el de analizar la validez de una hipótesis.

Se quiere ahora estudiar con mas detalle este tema, pero para simpli�car, eneste capítulo se considerará solo el caso del agregado de una sola restricción.

3.1. Primer enfoque: Imponer restricciones. Sea un ML con Y 2 Rn,X 2 Rn�k, rg(X) = r, y espacio V , o sea

(3.1) ML : V =�� = X� con � 2 Rk

Si a este modelo se le agrega la restricción c0� = 0 donde c 2 Rk, el nuevo

modelo con la restricción tendrá espacio W

(3.2) MLr :W =�� = X� con � 2 Rk y c0� = 0

Este modelo es restringido en �, ya que � no puede ser cualquier vector de

Rk sinó que también debe cumplir c0� = 0. Y esta restricción en �, induce unarestricción en �, ya que � no puede ser cualquier vector de V , sinó que debe provenirde algún � que cumpla la restricción.

Remark 11. En todo el análisis que sigue se asumirá siempre que c 6= 0, yaque en caso contrario, c0� = 0 no sería una restricción, pues se cumpliría 8�, y en-tonces resultaría ML idéntico a MLr. Por ejemplo cuando se considere una combi-nación lineal identi�cable, que fué de�nida anteriormente como c0� para c 2F (X),se excluirá la posibilidad de que c = 0.

Notar que así como V es un subespacio, se demuestra fácilmente que tambiénlo es W .

Además si � 2 W , será � = X� para cierto � 2 Rk que cumple c0� = 0, perocomo esta restricción no se exige en ML, resultará también � 2V , de aquí surgeque siempre

W � VEn de�nitiva, al incorporar la restricción c0� = 0 sobre un modelo lineal(ML),aparece otro modelo lineal restringido(MLr), con W � V .

3.1.1. Tamaño de W : Ahora se quiere estudiar que condición debe cumplirsepara que, no obstante la restricción, resulte W = V . Como W � V se cumplesiempre, habrá que analizar el cumplimiento de V �W .

Notar que para que todo � 2 V pertenezca también a W , esos � deben poderexpresarse como � = X� para algún � que cumpla c0� = 0. O sea la condición es

8� 2V;9� : � = X� y c0� = 0Como � = X�, resolviendo el sistema lineal consistente en �, resulta � = �F +

e, con �F el único beta solución que pertenece a F (X), y e 2Nu(X).Si �F cumple c

0�F = 0, resultará que � = X�F 2W .Si �F no cumple c

0�F = 0, resultará c0�F = � 6= 0. Entonces para que � 2W ,

deberá poderse encontrar otro � = �F + e, o sea buscar algún e 2Nu(X) tal que

c0� = c0(�F + e) =0

Page 71: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. RESTRICCIONES EN UN MODELO LINEAL 71

Esto equivale a que exista un e 2Nu(X) que cumplac0e = �c0�F 6= 0

Para que esto ocurra, c no debe ser ortogonal al Nu(X). Esto es lo mismo quea�rmar que c =2F (X), o sea la combinación lineal c0� debe ser no-identi�cable.

Conclusion 4. Una restricción lineal c0� = 0 no-identi�cable, impuesta aun ML de espacio V , mantiene el espacio del modelo, o sea W = V .

Conclusion 5. Una restricción lineal c0� = 0 identi�cable impuesta a unML de espacio V , reduce el espacio del modelo, o sea W � V .

3.1.2. Expresión del MLr, en su versión no restringida ML�: Para ellose expresará el MLr, en la forma en que se de�nió originalmente un modelo lineal,es decir sin utilizar restricciones en beta.

Como c0� = 0, esto quiere decir que � ? L(c), y entonces � pertenecerá alsubespacio L?(c) dentro de Rk. Habrá que buscar una base de L?(c), y comodim(L(c)) = 1, se tendrá dim(L?(c)) = k � 1: Encontrados los k � 1 vectores dela base, y dispuestos en columna se tendrá la matriz U 2 Rk�(k�1) y se cumpliráC(U) = L?(c). Luego la restricción se expresará � 2 C(U), o sea � = U�� para�� 2 Rk�1. O sea W =

�� = X� con � = U�� para �� 2 Rk�1

, y si se reem-

plaza queda

(3.3) ML� :W =�� = XU�� = X

��� con �� 2 Rk�1

(donde � = U��)

Aquí se utilizó la notación ML�para este modelo no-restringido, pero el espacio deeste modelo no cambia, sigue siendo W , sin embargo ahora se tiene otra matrizde diseño, X� = XU 2 Rn�(k�1), y un beta que ahora es otro, �� , con k � 1coordenadas.

3.1.3. Propiedades de ML�: Entonces de acuerdo a lo anterior, si la restric-ción c0� = 0 es no-identi�cable se trata de una re-codi�cación, ya que el mismoespacio V =W queda expresado con otros parámetros, en este caso ��.

Conclusion 6. Toda restricción c0� = 0 no-identi�cable, impone una re-codi�cación en el modelo, quedando expresado con otros parámetros relacionados.

En el ML inicial estan las combinaciones lineales identi�cables, que son lasque interesan ya que son estimables; sin embargo suponga que por motivos deinterpretación, a este modelo se le impone una restricción no-identi�cable parare-codi�car � en ��. La pregunta importante ahora es: toda combinación linealidenti�cable, de interés en el modelo inicial, la encontraremos en el modelo recodi-�cado(aunque expresada con ��)?

Para analizarlo, sea � = d0� identi�cable en ML, luego(2.5) existirá a 2 Rn talque � = a0�, pero como � también pertenece a W , existirá �� tal que � = X���,y reemplazando queda � = a0� = a0X���= (X�0a)

0��. Llamando a X�0a = d

�,resulta que d� es una combinación lineal de las �las de X�, luego � = d��� es unacombinación lineal identinti�cable en ML�, y con el mismo parámetro estimado �.Además este argumento es válido al revés, o sea si se parte de una combinaciónidenti�cable en ML�.

Conclusion 7. Si la restricción c0� = 0 es no-identi�cable, a toda combi-nación lineal identi�cable de ML, le corresponderá otra combinación lineal identi�-cable en ML� que estima el mismo parámetro. Y vale tambien la inversa.

Page 72: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

72 5. IDENTIFICACIÓN

Otro aspecto a considerar es el núcleo de la matriz de diseño. En el modeloinicial ML, X tiene k columnas, con rg(X) = r. Luego la dimensión del nucleo esdim(Nu(X)) =k � r. Si la matriz fuese de rango completo, k = r, esto equivale adim(Nu(X)) =0, y la consecuencia es que todo � es identi�cable(o sea todos los �iy obviamente todas las combinación lineales de los mismos).

Por otro lado, si la matriz no es de rango completo, k > r, resultará dim(Nu(X)) >0,y entonces � no será identi�cable(habrán combinaciones lineales de los �i que seránidenti�cables, y otras que no).

Ademas cuanto mayor sea la dim(Nu(X)), mayor será la cantidad de combi-naciones lineales no-identi�cables en el modelo. Y al revés, cuanto menor sea ladimensión del núcleo, disminuirán las no-identi�cables.

En de�nitiva, la dim(Nu(X)) de un modelo lineal es un indicador del grado deno-identi�cacación en el � del modelo.

En el nuevo modelo ML�, la matriz de diseño X� tiene siempre k�1 columnas.Pero se analizará la dimensión del Nu(X�).

Si la restricción es no-identi�cable, como W = V; resulta rg(X�) = rg(X) = r,y entonces dim(Nu(X�)) = (k � 1)� r = dim(Nu(X))� 1.

Si la restricción es identi�cable, W � V; se demuestra que rg(X�) = r � 1,entonces dim(Nu(X�)) = (k � 1)� (r � 1) = dim(Nu(X)).

Conclusion 8. Toda restricción c0� = 0 no-identi�cable: mantiene la di-mensión del espacio dim(W ) = dim(V ); pero disminuye en 1 unidad la dimensióndel núcleo del modelo.

Conclusion 9. Toda restricción c0� = 0 identi�cable: disminuye en 1unidad la dimensión del espacio dim(W ) = dim(V )�1, pero mantiene la dimensióndel núcleo del modelo.

3.2. Segundo enfoque: Postular restricciones. Consideremos nuevamenteel ML inicial, con Y 2 Rn, X 2 Rn�k, rg(X) = r, y espacio V , o sea

ML : V =�� = X� con � 2 Rk

En este modelo, que se asume válido, � puede ser cualquier vector de V , y �cualquier vector de Rk.

Pero si bien � puede ser cualquier vector de V , el valor real que adopta � ennuestro modelo en relación a las observaciones, es un valor único(ya que � es iden-ti�cable). Este � es el que podemos estar interesados en estimar. Lo designaremos"el �" del modelo. Como es único, siempre tendrá sentido postular, por ejemplo, sieste � cumple a0� = 0. Sin embargo en un modelo lineal suelen interesar relacionesque involucran a �. Pero esto trae algunas complicaciones.

Suponga que se quiere investigar si se cumple la relación c0� = 0, o como seexpresa usualmente, si se cumple la hipótesis

Ho : c0� = 0

Notar que si � es el � del modelo, resolviendo � = X�, le corresponderán engeneral varios �, y aunque con alguno quizás se cumpla c0� = 0, con otros quizásno. Entonces no se entiende bien lo que se está postulando.

Por eso en este segundo enfoque se requiere que la combinación lineal c0� seaidenti�cable, o sea que c 2F (X).

Page 73: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. RESTRICCIONES EN UN MODELO LINEAL 73

Entonces, cualquiera sea el valor que adopte el � del modelo, aunque le corre-spondan varios �, con todos ellos c0� tomará el mismo valor. Ahora sí tiene sentidopreguntarse si se cumple c0� = 0.

Remark 12. La hipótesis Ho : c0� = 0 no debe interpretarse como que "el�" del modelo cumple esta relación, ya que los � pueden varios. La interpretacióncorrecta sería que: "los �" que le corresponden al � del modelo, todos ellos cumplenla relación.

En un modelo lineal, las hipótesis que involucran combinaciones lineales iden-ti�cables, se las designa "testeables", y son las únicas consideradas.

En el primer enfoque, se incorporaba directamente la relación c0� = 0 al mod-elo, obteniendo otro modelo ML�, con las propiedades ya analizadas.

Ahora se quiere evaluar el cumplimiento de una hipótesis: no se creará unnuevo modelo restringido, se trabajara solo con el ML y todo su espacio V , peroen cambio se analizará, de cumplirse la Ho : c0� = 0, como se manifestará esto, enlas propiedades del modelo.

Considerese el ML sin asumir el cumplimiento de Ho.� Por de pronto, dentro de V están los � que provienen de betas que cumplenla relación c0� = 0; estos � son los que estan en W � V .� Por supuesto, también estarán otros �, que provienen de � 2Rk que nocumplen la relación c0� = 0; estos estan en V , pero no en W .

Como W � V y ambos son subespacios, de�niendo W?v (el complemento or-

togonal de W dentro de V ) resulta

V =W �W?v

O sea, se cumpla o no la relación, dentro de V estarán siempre los subespaciosortogonales: W y W?

v .Ahora si, el siguiente teorema vincula el cumplimiento de la hipótesis, con una

propiedad que tendrá el � del modelo.

Theorem 3. Sea el modelo lineal ML con � 2V , � 2 Rk, y c 2F (X)

Si se cumple Ho : c0� = 0 () Pr(�=W?v ) = 0

Proof. Si los � cumplen Ho, � 2W , luego Pr(�=W?v ) = 0. Al revés, si

Pr(�=W?v ) = 0, � 2W y entonces se cumple Ho. �

En de�nitiva que se cumpla la hipótesis Ho : c0� = 0, equivale a que el � delmodelo tiene proyección nula sobre W?

v .Entonces como se trata de una equivalencia, analizar el cumplimiento de la

hipótesis se reduce a veri�car la propiedad de proyección nula sobre W?v .

Para enfatizar la importancia de este resultado se presentará un ejemplo.

Example 19. Subespacios en que � tiene proyección nula: En un mod-elo lineal Y = X� + � con X 2 Rnxk de rg(X) = r, siempre � 2V = C(X).Entonces descomponiendo Rn según Rn = V � V ?, y como � 2V , resultará siem-pre Pr(�=V ?) = �V ? = 0. Con esto hemos encontrado el subespacio V ? sobre elcual � tiene proyección nula. Este subespacio siempre existe. Si ahora se proyectael vector Y sobre V ? resulta (TDSO)

E( Y

V?

2) = dim(V ?)�2 + k�V ?k2

Page 74: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

74 5. IDENTIFICACIÓN

y teniendo en cuenta que dim(V ?) = n� r, y que �V ? = 0, queda

E( Y

V?

2) = (n� r)�2Entonces

S2 =

YV?

2n� r

resulta un estimador insesgado de �2, que siempre esta disponible(salvo que r = n).Pero suponga que ahora se quiere estudiar si se cumple la hipótesis Ho : c0� = 0(obviamente con c 2 F (X)). Dentro de V siempre están los subespacios W y W?

v .Pero si se cumple la hipótesis, la Pr(� =W?

v ) = �W?v= 0. Hemos encontrado otro

subespacio sobre el cual � tiene proyección nula(solo si se cumple la hipótesis).Proyectando Y sobre este subespacio(W?

v ), y como dim(W ) = dim(V )� 1 = r� 1,resulta también dim(W?

v ) = dim(V )� dim(W ) = r � (r � 1) = 1, luego

E( YW?

v

2) = dim(W?v )�

2 + �W?

v

2E(

YW?v

21

) = �2 + �W?

v

2De la segunda surge que si se cumple H0, resultará �W?

v= 0, y entonces

S21 =

YW?v

21

es otro estimador insesgado de �2(independiente del anterior ya que V ? y W?v

son subespacios ortogonales). Pero claro, este estimador estimará �2 solo en elcaso que H0 sea cierta, ya que en caso contrario estimará una cantidad mayor

�21 = �2 + �W?

v

2. Luego probar las hipótesis H0 : c0� = 0 v.s. Ha : c0� 6= 0

equivale a probarH�0 : �

21 = �

2 v.s. H�a : �

21 > �

2

Esto es una prueba de comparación de varianzas, y se utiliza el estadístico

F1;n�r =S21S2

rechazando H�0 , por ejemplo si F1;n�r > f1;n�r;1��.

Remark 13. En de�nitiva para probar en un ML una hipótesis del tipo H0 :c0� = 0 v.s. Ha : c0� 6= 0 (con c 2 F (X)), hay que prestar atención a dos sube-spacios sobre los cuales � tiene proyección nula: uno es V ?, y el otro es W?

v (solosi H0 es válida). Con ellos se construyen los respectivos estimadores de varianza,y �nalmente se apela a un test de comparación de varianzas.

4. Comentarios �nales

Cuando se analizó un ML en que la matriz de diseño no tenía rango completo,se presentaba el problema que no todas las componentes de � se podian estimar.

Con el recurso de re-codi�cación imponiendo restricciónes lineales, se obteníaotra matriz de diseño, X� y otro beta ��, donde X� tenía rango completo. De estamanera todo �� era estimable.

Page 75: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. COMENTARIOS FINALES 75

Sin embargo lo logrado es válido para el nuevo modelo, pero no para el modeloinicial sobre-parametrizado. De otra manera: serán estimables todas las compo-nentes de ��, pero seguirán siendo no-estimables los parámetros no-estimables de�(o las combinaciones lineales no estimables de �).

En de�nitiva, la re-parametrización no convierte en estimable, un parametrono-estimable de un modelo. Recordar de paso, que en una re-parametrización, lascomponentes de � y �� tienen distinta interpretación, o sea, son otros parámetros.

Para analizar esto se supondrá un ML en que rg(X) = r, y cuya matriz tiener + 1 columnas, o sea � tiene r + 1 componentes.

Es un modelo sobre-parametrizado, y entonces dado � la ecuación � = X�tiene como "solución" varios �. Sea � = c0� una combinación lineal identi�cable,y �a = c0a� otra no-identi�cable. Según fué analizado anteriormente, para todoslos � solución de � = X�, � toma siempre el mismo valor, no asi �a, que tomadiferentes valores para cada �.

Si para lograr rango completo se impone arbitrariamente la restricción �a =c0a� =0, esto equivale a elegir, para cada �, uno de todos los � "solución", de-signemoslo �a. Ahora el nuevo modelo será de rango completo. Notar que dehaber elegido otro valor de "ca", el �a cambiará. Sin embargo, para este otro �ala combinación lineal identi�cable � = c0� tomará siempre el mismo valor, pero noasi �a = c

0a� que cambiará con el "ca" elegido.

Entonces, con la restricción se logro la ventaja de un nuevo modelo con unamatriz X� de rango completo, y el �� todo es estimable y único.

En cambio en el modelo inicial, el valor estimado de cualquier combinaciónlineal identi�cable es el mismo, y no depende de la restricción, pero para las com-binaciones no-identi�cables, aunque se logra un valor "estimado"(entre comillas),es totalmente dependiente de la arbitraria restricción impuesta.

Es válido este valor "estimado"? La respuesta en general es no.Para que sea válido, la restricción �a = c

0a� =0 no debería ser tan arbitraria,

ya que debería ser una relación entre parámetros válida en el modelo inicial sobre-parametrizado. Pero claro, si esto fuese así, lo correcto hubiese sido re-formular elmodelo inicial incorporando esta relación.

Se analizará esto con dos ejemplos.

Example 20. Suponga que se tienen tres tipos de artículos cuyos pesos mediosson a1; a2; y a3. Posteriormante se forma un lote de cajas "grandes" con tresartículos, uno de cada tipo; y otro lote de cajas "medianas" con dos artículos, el"1" y el "2". Finalmente se toman al azar 3 cajas "grandes" y se registra el pesode cada una, y también 2 cajas "medianas" y se registra su peso. Planteado comoML se tendría:

(4.1) � =

266664�g1�g2�g3�m1�m2

377775 =266664a1 + a2 + a3a1 + a2 + a3a1 + a2 + a3a1 + a2a1 + a2

377775 =2666641 1 11 1 11 1 11 1 01 1 0

37777524a1a2a3

35 = X�

Claramente rg(X) =2 < 3. Entonces � no es identi�cable. Algunas combinacioneslineales c0� sí lo son por ejemplo (0; 0; 1)� =a3 ya que (0; 0; 1) 2 F (X) por sercombinación lineal entre la 1ra y 5ta �la. También lo son (1; 1; 1)� =a1 + a2 + a3

Page 76: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

76 5. IDENTIFICACIÓN

y (1; 1; 0)� =a1 + a2. Pero por ejemplo a1, ni a2 son identi�cables. Para solu-cionar este problema de ideni�cación se impone arbitrariamente la restricción(1;�1; 0)� = a1 � a2 = 0 que es no-identi�cable ya que (1;�1; 0)0 =2 F (X). Des-ignando a los nuevos parámetros con asterisco, y a la restricción a�1 � a�2 = 0 setiene

� =

266664�g1�g2�g3�m1�m2

377775 =266664a�1 + a

�2 + a

�3

a�1 + a�2 + a

�3

a�1 + a�2 + a

�3

a�1 + a�2

a�1 + a�2

377775 a�1�a�2=0=

2666642a�1 + a

�3

2a�1 + a�3

2a�1 + a�3

2a�12a�1

377775 =2666642 12 12 12 02 0

377775�a�1a�3

�= X���

Como X� ahora es de rango completo, �� = (X�0X�)�1X��, y como � = X�,reemplazando queda �� = (X�0X�)�1X�X�, que es la relación entre los betas.Operando matricialmente

�� =

�a�1a�3

�=

�0:5 0:5 00 0 1

�24a1a2a3

35 = �a1+a22a3

Notar que el nuevo modelo tiene otros parámetros, solo 2, con otra interpretación eidenti�cables. Y que los nuevos parámetros son función de parámetros identi�cablesdel modelo inicial: a�1 =

a1+a22 cuando a1 + a2 era identi�cable, y a�3 = a3 también

identi�cable. Notar que si se tiene en cuenta que la arbitraria restricción fuéa1 = a2, se podría pensar que a�1 = a1 = a2, y entonces como a�1 es estimable,también serían "estimables" a1 y a2, pero claro, con comillas. Sin embargo laventaja del modelo recodi�cado es que es mas simple, quedando expresado solo conparámetros estimables. Pero si se insiste en la posibilidad de estimar genuinamentea a1y a2, una solución consistiría en formar también un lote de cajas "especiales"con dos artículos, el "2" y el "3", y registrar también el peso de 2 de estas cajas.Entonces se tendría el modelo

(4.2) � =

2666666664

�g1�g2�g3�m1�m2�e1�e2

3777777775=

2666666664

a1 + a2 + a3a1 + a2 + a3a1 + a2 + a3a1 + a2a1 + a2a2 + a3a2 + a3

3777777775=

2666666664

1 1 11 1 11 1 11 1 01 1 00 1 10 1 1

377777777524a1a2a3

35 = X�

Ahora sí, rg(X) =3, es de rango completo, todo � es identi�cable, y se puedenrealizar estimaciones validas de todas sus componentes. Pero fué necesario cambiarel modelo incorporando nuevas observaciones.

Example 21. Ahora se quiere estudiar el efecto de dos aditivos "1" y "2"agregados a la nafta, para evaluar los kilometros/litro que puede recorrer. Para ellose carga el tanque del vehiculo con 20litros de nafta, se le agrega el aditivo "1", yse hace un recorrido a velocidad aproximadamente constante hasta que se detengapor falta de combustible. Se miden los Km recorridos, y se calculan los Km/litro.Se repite esto tres veces. Luego se hacen otras dos repeticiones agregando el aditivo

Page 77: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. COMENTARIOS FINALES 77

"2". Se tendría entonces el modelo

� =

266664�11�12�13�21�22

377775 =266664�+ �1�+ �1�+ �1�+ �2�+ �2

377775 =2666641 1 01 1 01 1 01 0 11 0 1

37777524 ��1�2

35 = X�

La interpretación de los parámetros sería la siguiente: � representaría el valormedio de los Km/litro recorridos por el automóvil si a la nafta no se le agreganingún aditivo; �1 representaría el incremento medio de Km/litro debido al aditivo"1", y para �2 lo mismo, pero con el aditivo "2". Como rg(X) =2 < 3, � noes identi�cable. Es más, ni �, ni �1 ni �2 son identi�cables. Sin embargo lacombinación lineal � = �1 � �2 = (0; 1;�1)� sí es identi�cable(�la1 menos �la4).Y en realidad este parámetro, � , sí es útil y es el apropiado para comparar los efectosde los dos aditivos. Pero supongamos que para lograr rango completo se impone laarbitraria restricción �1 + �2 = 0. Como esta restricción es no-identi�cable, nocambiará el espacio V del modelo, y se trata sí, de una recodi�cación. Luego en elnuevo modelo se tendrá(utilizando asterisco para los nuevos parámetros)

� =

266664�11�12�13�21�22

377775 =266664�� + ��1�� + ��1�� + ��1�� + ��2�� + ��2

377775 ��1+��2 = 0=

266664�� + ��1�� + ��1�� + ��1�� � ��1�� � ��1

377775 =2666641 11 11 11 �11 �1

377775���

��1

�= X���

Ahora X� es de rango completo, �� = (X�0X�)�1X��, y como � = X�, resulta�� = (X�0X�)�1X�X�, con la que se puede averiguar la relación entre los betas.Pero, mas simple, ya que � no cambia en los dos modelos, se igualarán las lasexpresiones en cada modelo de las componentes �11 y �21

para �11 : �+ �1 = �� + ��1

para �21 : �+ �2 = �� � ��1

De aquí resulta

�� =

���

��1

�=

"(�+�1)+(�+�2)

2

�+ �1 � (�+�1)+(�+�2)2

#=

��+ �1+�2

2�1 � �2

�Ahora la interpretación de ��no es tan interesante como en el modelo inicial, rep-resentaría un promedio de: el valor medio de Km/litro con el aditivo "1", y conel "2". Pero la interpretación de ��1 es mas útil: representaria el valor medio del"plus" de Km/litro que se podrán recorrer con el aditivo "1" respecto del "2". Estees el parámetro que interesa para comparar los aditivos. Notar, como en el ejemploanterior, que si se tiene en cuenta que la arbitraria restricción fué �1+�2 = 0, sepodría pensar que �� = �+ �1+�2

2 = �, y entonces como �� es estimable, estaríamosestimando �. Pero se trataría solo de una "estimación", que di�cilmente esti-mará los Km/litro que recorre el vehiculo cuando se le carga nafta sin aditivos.Como segunda variante se presentará otra re-codi�cación imponiendo la restricción

Page 78: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

78 5. IDENTIFICACIÓN

no-identi�cable � = 0 al modelo inicial

� =

266664�11�12�13�21�22

377775 =266664��� + ���1��� + ���1��� + ���1��� + ���2��� + ���2

377775 ��� = 0=

266664���1���1���1���2���2

377775 =2666641 01 01 00 10 1

377775����1���2

�= X�����

quedando un modelo de rango completo, y si se igualan las las expresiones en cadamodelo de las componentes �11 y �21

para �11 : �+ �1 = ���1

para �21 : �+ �2 = ���2

Aquí la interpretación de ambos parámetros es clara: ���1 es el valor medio de losKm/litro que recorre el vehículo con el aditivo "1", e idem para ���2 . Sin embargocon esta re-codi�cación, si se quieren comparar los aditivos, habrá que analizarposteriormente como parámetro la combinación lineal � = ���1 � ���2 = �1 � �2.Por este motivo se pre�ere la primera recodi�cación ya que uno de los parámetros,��1 = �1 � �2 es justamente el de interés. Por último se obsevará que con ningunade las re-parametrizaciones se puede estimar ni �, ni �1 ni �2 del modelo inicial. Siesto es lo de interés, se tendrá que tomar una muestra de observaciones adicionales,como se propuso en el ejemplo anterior, por ejemplo haciendo recorridos a velocidadconstante con el automovil con nafta sin ningún aditivo, y midiendo los Km/litro.Pero claro, esto es cambiar el modelo con el agregado de nuevas observaciones..

Para �nalizar, se enumerarán las ventajas e inconvenientes, de las dos formasde abordar un modelo sobre-parametrizado.

4.0.1. Reparametrización para lograr rango completo. La razón princi-pal de su utilización es que con el agregado de restricciones se suele lograr una inter-pretación mas simple de los parámetros, incluso con parámetros como ��1 = �1��2del ejemplo anterior, que expresan una comparación de interes. Además comoX�0X� resulta inversible, la matemática para su tratamiento es mas simple, similara la de los modelos de regresión. Y por último como se mantienen las combinacioneslineales identi�cables, lo que interesaba, estimable, del modelo sobre-parametrizado,se puede analizar con los parametros del nuevo modelo.

Como inconveniente, y esto suele ocurrir con modelos mas complejo, no siemprees sencillo elegir una re-codi�cación con la que se obtengan interpretaciones clarasde los parámetros, y además con parámetros que expresen comparaciones de interes.

4.0.2. Mantener el modelo sobre-parametrizado. Aquí se mantiene el mod-elo sobre-parametrizado, se acepta tener un modelo con una interpretración menosclara, pero se buscan apropiadas combinaciones lineales identi�cables que expre-sen las comparaciones de interés. Pero como la matriz no es de rango completo,y X0X no es inversible, se necesita otra teoría. Pero no obstante lo anterior, esteenfoque es posible y utilizado.

Page 79: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 6

Inversa Generalizada

En (3) se abordó el problema de la solución de un sistema lineal consistente,o sea Xb = v, con X 2 Rn�m, v 2 Rn, y v 2 C(X) (para la consistencia). Lasolución general propuesta fué

F = fb = b0 + eg donde:b0 es una solución cualquiera (o sea Xb0= v) y

e 2 Nu(X) = F (X)?

Sin embargo no se analizó como obtener en el caso general, la "solución cualquiera"b0, ni tampoco los vectores e 2 Nu(X).

1. Solución general de un sistema lineal

En lo que sigue en vez de la matriz X se utilizará en su lugar A, y el sistemalineal a resolver es

Ab = v, con A 2 Rn�m;v 2 Rn, y v 2C(A)

Si A es una matriz cuadrada(n = m) e inversible, existirá A�1y entonces la únicasolución es b0 = A�1v. En el caso contrario, si A no es cuadrada o singular, puedehaber una o in�nitas soluciones. Interesa ahora extender el concepto de inversa deuna matriz cualquiera, para poder abarcar también esta última situación.

Definition 37. La matriz Ag es "una" inversa generalizada de la matriz Asii cumple

(1.1) AAgA = A

La inversa generalizada siempre existe. Pero una matriz A puede tener solouna, o in�nitas inversas generalizadas. Es única solo en el caso que A es cuadraday no-singular, resultando Ag= A�1.

Además si A 2 Rn�m, para que este bién de�nido el producto(1.1), necesaria-mente debe ser Ag 2 Rm�n.

Por otro lado, como el rango de un producto de matrices es menor o igual almínimo de los rangos de las matrices, entonces de (1.1), si rg(A) = r, necesaria-mente rg(Ag) � r.

Si se aplica la de�nición(1.1) a la matriz A0, resulta A0(A0)gA0= A0. Si se

traspone esta expresión queda A((A0)g)0A = A, y entonces apelando nuevamente

a la de�nición(1.1), resulta ((A0)g)0 = Ag. Transponiendo nuevamente resulta

(A0)g= (Ag)0, lo que signi�ca que la inversa generalizada de la traspuesta, coincide

con la traspuesta de la inversa generalizada de una matriz.

Conclusion 10. Primeras propiedades de la inversa generalizada:

79

Page 80: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

80 6. INVERSA GENERALIZADA

1) Si A 2 Rn�m =) Ag 2 Rm�n2) Si rg(A) = r =) rg(Ag) � r3) (A0)

g= (Ag)0

Antes de continuar con las propiedades, se presentará sin demostración y através de un ejemplo, el método de Shayle R. Searle para obtener una inversageneralizada de una matriz de rango conocido.

Example 22. Sea la matriz A 2 R3x4 con rg(A) = r = 2

A =

24 4 1 2 01 1 5 153 1 3 5

35(1) ComoA tiene rg(A) = 2, se selecciona una sub-matriz inversibleM 2 Rrxr(aquí

R2x2), que no tiene porque ocupar �las y columnas consecutivas. En esteejemplo se eligió la que corresponde a los elementos a22; a24; a32; a34(ennegrita en la matriz), o sea

M =

�1 151 5

�(2) Se la invierte y traspone, o sea

(M�1)0 =

��0:5 0:11:5 �0:1

�(3) Se reemplaza esta matriz en las mismas posiciones que ocupabaM en A,

quedando 24 4 1 2 01 �0:5 5 0:13 1:5 3 �0:1

35(4) Se completa con ceros los restantes elementos24 0 0 0 0

0 �0:5 0 0:10 1:5 0 �0:1

35(5) Finalmente se traspone esta matriz, obteniendo "una" inversa general-

izada

Ag =

26640 0 00 �0:5 1:50 0 00 0:1 �0:1

3775Ahora sí se presentará el teorema general para obtener todas las soluciones de

un sistema lineal consistente.

Theorem 4. Si Ab = v, es un sistema lineal consistente, con A 2 Rn�m;v 2Rn, y Ag es "una" inversa generalizada de A, resulta

(1) b0 = Agv es "una" solución del sistema.(2) El conjunto de todas las soluciones eb se expresa mediante(e 2 Nu(A))eb = b0 + e = Agv + (Im�A

gA)z para cualquier z 2 Rm

Page 81: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. MATRIZ DE PROYECCIÓN ORTOGONAL 81

Proof. 1. Por ser sistema consistente, existirá al menos una solución u quecumplirá Au = v. Luego, si se reemplaza b0 = Agv en el sistema queda:

Ab0 = AAgv = AAgAu = Au = v

(la segunda igualdad utilizando que v = Au, y la tercera de la de�nición deinversa generalizada), luego b0 es una solución.

2. Aquí habrá que probar que la segunda expresión genera exactamente todoslos vectores del Nu(A). O sea probar que

Q = fe : e = (Im�AgA)z para z 2 Rmg = Nu(A)

Si e 2Q,Ae = A(Im�AgA)z = Az�AAg

Az = Az�Az = 0, luego e 2Nu(A).Si e 2Nu(A), notar que tomando z = e resulta (Im�A

gA)e = e�AgAe = e+ 0 = e,

luego e 2 Q. �

En de�nitiva, en la parte 2 de este teorema, con solo "una" inversa generalizadaAg, se obtienen "todas" las soluciones, sumando a una solución particular b0 =Agv, los vectores del Nu(A) mediante e = (Im�A

gA)z para z 2 Rm.Se demuestra que otra forma equivalente de obtener "todas" las soluciones

utilizando solo el punto 1 del teorema sería: primero obtener "todas" las inversasgeneralizadas de A, y luego ir reemplazando cada una de ellas en el punto 1.

2. Matriz de proyección ortogonal

Ahora se quiere abordar el problema de obtener la matriz de proyección ortog-onal sobre un subespacio cualquiera. Para ello se utilizará la notación habitual delos vectores y matrices en un modelo lineal.

Sea Y 2 Rn y el subespacio V = C(X) con X 2 Rnxm. Interesa obtenerYv = Pr(Y j V ) = PvY donde Pv sería la matriz de proyección buscada.

Si X tiene rango completo, sus columnas son base de V , y al ser X0X in-versible, resulta Pv = X(X

0X)

�1X0 (ver Operadores de proyección ortogonal). A

continuación se quiere generalizar esto al caso de matrices X que no tengan rangocompleto.

Si Yv es la proyección ortogonal de Y sobre V = C(X), deberá cumplirse

1) Yv 2 V = C(X) y 2) Y �Yv 2 V ?

De la primera surge que deberá ser

(2.1) Yv = Xb para cierto b 2 Rm

Notar aquí que Yv es único(es proyección ortogonal), pero los b pueden ser varios.De la segunda, al ser el vector Y �Yv ortogonal a V , será también ortogonal a

todas las columnas de X, o sea se cumplirá X0(Y �Yv) = 0. Reemplazando Yv =Xb y operando resulta que b deberá cumplir las llamadas ecuaciones normales deun modelo lineal

(2.2) X0Xb = X0Y

Antes de buscar sus soluciones, habría que analizar si este sistema lineal es con-sistente, o sea ver si X0Y 2 C(X0X). Pero X0Y, al ser combinación lineal de lascolumnas de X0, resulta X0Y 2 C(X0), y de (11) C(X0) =C(X0X), lo que pruebala consistencia.

Page 82: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

82 6. INVERSA GENERALIZADA

Luego del teorema(4), en su parte 2, si (X0X)g es una inversa generalizada de

X0X, "todas" las soluciones de esta ecuación se obtienen medianteeb = b0 + e = (X0X)gX0Y + e donde e 2 Nu(X0X)

Si se reemplaza cualquiera de estas soluciones en (2.1) resulta

Yv = X(X0X)

gX0Y +Xe

Como (12) Nu(X0X) = Nu(X), si e 2 Nu(X0X) resultará también e 2 Nu(X),luego siempre Xe = 0. En de�nitiva queda Yv = X(X

0X)gX0Y. Luego la matriz

de proyección buscada sería Pv = X(X0X)gX0. Además como la matriz de proyec-

ción ortogonal es única, no dependerá de cual sea la particular (X0X)g utilizada.

De aquí resulta

Theorem 5. Pv = X(X0X)gX0 es "la" matriz de proyección ortogonal so-

bre V = C(X), siendo: simétrica, idempotente, única e invariante respecto de laelección de la inversa generalizada.

A continuación se presentarán algunos resultados generales que surgen del de-sarrollo anterior.

Notar que (X0X)gX0 es una inversa generalizada deX. Para demostrarlo habría

que veri�car que X [(X0X)gX0]X = X, pero reagrupando el lado izquierdo queda

[X(X0X)gX0]X = PvX = X, luego

Theorem 6. (X0X)gX0 es "una" inversa generalizada de X.

Remark 14. Notar que si se necesita por algún motivo una inversa general-izada de X, mediante el metodo de Shayle R. Searle, podíamos obtener Xg. Sinembargo como en el análisis de un ML se requiere tener la matriz de proyecciónPv, siempre habrá que obtener (X0X)

g. Por eso, si además se necesita una inversageneralizada de X, lo mas práctico es utilizar la expresión (X0X)

gX0, que obtenerla

con el algoritmo de Searle.

3. Veri�cación que � = c0� es identi�cable

Cuando interesa estudiar si una combinación lineal � = c0� es identi�cable,una forma de hacerlo es ver si c 2F (X).

Como esta veri�cación suele no ser simple, otra alternativa es obtener una ma-triz de proyección ortogonal, no sobre V = C(X), sinó sobre el subespacio F (X) =C(X0). Para hallar PF (X), habría que reemplazar X por X0 en el Teorema(5),obteniendo PF (X) = X0(XX0)gX, que es "la" matriz de proyección ortogonal sobreF (X).

Entonces para averiguar si c 2F (X), bastará con proyectar c sobre F (X), yveri�car que la proyección es c. O sea, ver si se cumple

PF (X)c = c

El problema que tiene utilizar PF (X), es que se requiere obtener otra inversageneralizada, esta vez (XX0)g.

En un modelo lineal se utilizan siempre matrices de proyección ortogonal,sin embargo para veri�car que c 2F (X) bastaría con una matriz de proyeccióncualquiera(sin el adjetivo ortogonal), que designaremos P�F (X). El siguiente teo-rema da una expresión.

Page 83: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. VARIAS RESTRICCIONES 83

Theorem 7. P�F (X) = X0X(X0X)g es "una" matriz de proyección(no nece-

sariamente ortogonal) sobre F (X).

Esta matriz no es única, ni invariante, pero tiene la ventaja de estar expresadacon la inversa generalizada (X0X)

g usual del modelo lineal. Entonces para averiguarsi c 2F (X), bastará con proyectar c sobre F (X), y veri�car que la proyección es c.O sea, ver si se cumple

P�F (X)c = c

4. Expresiones invariantes

Hay otro aspecto vinculado a las inversas generalizadas(que ya se ha men-cionado), que es el de la invarianza. La inversa generalizada de una matriz engeneral no es única, sinó que suelen ser in�nitas. Y cuando se tiene una expresiónmatricial que incluye alguna inversa generalizada, a veces, pero no siempre, in-teresa que esa expresión no dependa de la particular inversa generalizada utilizada.Este es el concepto de invarianza.

Por ejemplo la expresión para obtener la matriz de proyección ortogonal Pv =X(X0X)

gX0 debe ser invariante, ya que cualquiera sea la (X0X)

g utilizada, la Pvdebe ser la misma(propiedad de una matriz de proyección ortogonal).

Sin embargo la expresión (X0X)gX0 para obtener "una" inversa generalizada

de X no requiere ser invariante, ya que la inversa generalizada de X suelen serin�nitas.

Mas adelante aparecerán expresiones del tipo Izq(X0X)gDer, donde Izq y

Der son apropiadas matrices, en que se necesita que sean invariantes respecto dela (X0X)

g elegida.Un requisito para lograr invariancia es que tanto los vectores �la de Izq como los

vectores columna de Der, pertenezcan al espacio �la de X, o sea F (Izq) � F (X),C(Der) � F (X).

En efecto, si F (Izq) � F (X), existirá una matriz A tal que (Izq)0 = X0A, osea Izq = A0X.

Y si C(Der) � F (X), existirá una matriz B tal que Der = X0B.Luego Izq(X0X)

gDer = A0X(X0X)

gX0B = A0PvB, y como Pv es la matriz

de proyección ortogonal, resulta la invariancia buscada.

Theorem 8. Si F (Izq) � F (X), C(Der) � F (X) entonces Izq(X0X)gDer

es invariante respecto de (X0X)g.

5. Varias restricciones

5.1. Primer enfoque: Imponer restricciones. Se supondrá un ML conY 2 Rn, X 2 Rn�k, rg(X) =r

ML : V =�� = X� con � 2 Rk

Si a este modelo se le agregan m restricciones, esto lo expresaremos con C0� = 0con C 2 Rk�m, y el nuevo modelo con la restricción será

MLr :W =�� = X� con � 2 Rk y C0� = 0

En las columnas de C pueden estar presentes restricciones identi�cables y otras

que no lo son. Interesa detectar cual es la parte identi�cable de la restricción, yaque de ella dependerá el nuevo espacio W . Pero esto no es tan simple como retener

Page 84: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

84 6. INVERSA GENERALIZADA

las columnas de C que pertenecen a F (X). La razón es que en dos columnas deC que se descartan, por ser no-identi�cables, podría ocurrir que sin embargo, sudiferencia si lo sea.

Entonces para hallar la parte identi�cable de C se intersecará el subespacioF (X) con el C(C), se buscará una base de este subespacio, que se dispone comomatriz columna K: Entonces las columnas de K generan la parte identi�cable deC, y se tendrá

F (X) \ C(C) = C(K)Se presentarán sin demostración los resultados principales:� Si C(K) = 0 (el subespacio nulo), quiere decir que C no tiene parteidenti�cable, y entonces: MLr es una re-codi�cación, y W = V .

� Si C(K) 6= 0, quiere decir que C si tiene parte identi�cable, y entonces:MLr tiene W 6= V; con W � V .

Remark 15. Cuando se trató la re-codi�cación, imponiendo restricciones a �,la intención era que el nuevo modelo fuese de rango completo. Se exigió el requisito

F (X)� C(C) = Rk

Notar que al pedir que estos subespacios esten en suma directa(sean linealmenteindependientes), implica que F (X) \ C(C) = 0, entonces la restricción no tendráparte identi�cable, y el nuevo modelo mantendrá el mismo espacio V ; y al pedirque sumen Rk, se consigue que el núcleo del nuevo modelo sea el subespacio nulo,y entonces la matriz de diseño del correspondiente modelo no-restringido tendrárango completo.

5.2. Segundo enfoque: Postular restricciones. Consideremos nuevamenteel ML inicial, con Y 2 Rn, X 2 Rn�k, rg(X) = r, y espacio V , o sea

ML : V =�� = X� con � 2 Rk

En este modelo, que se asume válido, � puede ser cualquier vector de V , y �cualquier vector de Rk.

Suponga que se quiere investigar si se cumple la hipótesis

Ho : C0� = 0

Aquí C 2 Rkxh, resultando h restricciones.Por los motivos analizados en el capítulo anterior, al considerar solo una restric-

ción, para que esta hipotesis tenga sentido se exigirá que todas las restricciones seanidenti�cables, luego C(C) � F (X). Pero además, para evitar redundancias en estahipótesis, se pedirá también que las h restricciones sean LI, o sea que rg(C) = h.

Considerando el ML sin asumir el cumplimiento de Ho.� Dentro de V están los � que provienen de betas que cumplen la relaciónC0� = 0; estos � son los que estan en W � V .� Pero también estarán otros �, que provienen de � 2Rk que no cumplenla relación C0� = 0; estos estan en V , pero no en W .

Como W � V y ambos son subespacios, de�niendo W?v (el complemento or-

togonal de W dentro de V ) resulta

V =W �W?v

O sea, se cumpla o no la hipótesis, dentro de V estarán siempre los subespaciosortogonales: W y W?

v .

Page 85: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. VARIAS RESTRICCIONES 85

Ahora si, se enuncia el teorema que vincula el cumplimiento de la hipótesis,con una propiedad que tendrá el � del modelo.

Theorem 9. Sea el modelo lineal ML con � 2V , � 2 Rk, y C(C) � F (X),con rg(C) = h

Si se cumple Ho : C0� = 0 () Pr(�=W?v ) = 0

En de�nitiva el cumplimiento de la hipótesis equivale a que � tendrá proyecciónnula sobre el subespacio W?

v .Por eso en lo que sigue se abordará el problema de caracterizar el subespacio

W?v , para obtener la correspondiente matriz de proyección ortogonal sobre el. Pero

esto requiere algunos resultados previos.5.2.1. Relación entre C y Av. En primer lugar se analizará una relación que

involucra a la matriz C.Cada vector columna de C, por ejemplo ci, debe pertenecer a F (X) para que la

correspondiente combinación lineal sea identi�cable. Esto quiere decir que existiráun ai 2 Rn tal que ci = X0ai. Pero como los ai serán en general varios, resolviendoeste sistema lineal resulta ai = aiv + e, con e 2V ? y aiv la única solución quepertenece a V . Tomando de entre todas las soluciones a aiv, resultará ci = X0aiv.Si se repite esto para todas las columnas de C, resulta la expresión

C = X0Av

donde Av 2 Rnxh contiene en sus columnas los aiv correspondientes a cada ci.Como los vectores columna de C son LI, ahora se probará que también los vectorescolumna de Av son LI. En efecto, supongamos que esto último no ocurre, entoncesexistirá un vector d 6= 0 tal que Avd = 0. Si se multiplica la expresión C = X

0Av

a derecha por d resultaria

Cd = X0Avd = 0

pero si Cd = 0 con d 6= 0, esto signi�caría que los vectores columna de C seríandependientes(absurdo). Con esto queda probado que las h columnas de Av sonvectores LI, y entonces rg(Av) = h. En de�nitiva resulta

Proposition 67. Si C 2 Rkxh; C(C) � F (X);con rg(C) = h entonces

C = X0Av; con Av 2 Rnxh única; C(Av) � C(X) =V; con rg(Av) = h

Con este resultado, los h vectores columna de C, que son LI y pertenecen aF (X), quedan expresados en forma única a traves de la matriz Av, en h vectorescolumna LI, que pertenecen a V .

Ahora se buscará una expresión para Av.Como C(Av) � C(X) =V , quiere decir que existirá u 2 Rk tal que Av =

Xu. Reemplazando queda X0Xu = C. Resolviendo el sistema lineal en u quedau = (X

0X)

gC (aquí si X no tiene rango completo, los u serán in�nitos! ya que

dependerán de la (X0X)

g elegida).Si no se presta atención a la observación anterior, y se reemplaza en Av = Xu,

queda Av = X(X0X)

gC.

Notar �nalmente que esta expresión es invariante respecto de la (X0X)

g elegida.En efecto(8) F (Izq) = F (X) � F (X), y C(Der) = C(C) � F (X). O sea, noimportando cual sea la (X0

X)g, resultará Av única.

Page 86: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

86 6. INVERSA GENERALIZADA

Proposition 68. Con las hipótesis anteriores respecto de C resulta

Av = X(X0X)

gC

Remark 16. En de�nitiva con las dos proposiciones anteriores C queda expre-sado como C = X0Av, donde Av es unica y se obtiene mediante Av = X(X

0X)

gC.

5.2.2. Determinación de los subespacios W y W?v . Ahora sí, la hipótesis

postulada Ho : C0� = 0, se expresará en función de �.Como Ho : C0� = 0, y C = X

0Av resulta Ho : A0vX� = 0 o sea Ho : A

0v� = 0

en de�nitiva

Proposition 69. Ho : C0� = 0 es equivalente a Ho : A0v� = 0

La ventaja de esta hipótesis equivalente es que queda expresada en función de� que es un parámetro siempre identi�cable(� usualmente no es identi�cable en losmodelos de análisis de varianza).

Si se reescribie el subespacios W en función de � queda:

W = f� 2 V con A0v� = 0g = f� 2 V con �?C(Av)g = C(Av)

?v

Aquí el subespacio C(Av)?v contiene los vectores de V que son ortogonales a C(Av).

Luego para W?v será

W?v = f� 2 V con �?Wg = f� 2 V con � 2C(Av)g = C(Av)

La última igualdad resulta ya que C(Av) �V .5.2.3. Matriz de proyección sobre W?

v . Utilizando la expresión de la matrizde proyección ortogonal sobre un subespacio resultan

Proposition 70. Matriz de proyección ortogonal sobre W?v

PW?v= Av(A

0vAv)

gA0v = Av(A

0vAv)

�1A0v

Aquí como Av es de rango completo, se utilizó (A0vAv)

g= (A0

vAv)�1.

Para expresar esta matriz en función de C, se reemplaza Av = X(X0X)

gC

quedando

PW?v= X(X

0X)

gC�C0(X

0X)

gX0X(X

0X)

gC�gC0(X

0X)

gX0

Dentro del corchete �gura (X0X)

gX0X(X

0X)

g que en realidad es la inversa gener-alizada (X0

X)g. Para probarlo habría que ver si

X0X(X0X)

gX0X(X

0X)

gX0X = X0X

Pero en el lado izquierdo

X0X(X0X)

gX0X| {z }

X0X

(X0X)

gX0X =X0X(X

0X)

gX0X| {z }

X0X

= X0X

Luego queda

Proposition 71. Matriz de proyección ortogonal sobre W?v

PW?v= X(X

0X)

gC�C0(X

0X)

gC��1

C0(X0X)

gX0

Page 87: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 7

Estimación de parámetros

Teniendo en cuenta que en el ML la parametrización (�;�2) siempre es identi-�cable, se procederá primero a obtener estimadores de estos parámetros. Ademásse enfocará este tema en dos situaciones: la primera sin suponer normalidad, yutilizando el estimador de cuadrados mínimos; y la segunda con la hipótesis denormalidad, y utilizando el estimador de máxima verosimilitud. Posteriormente seanalizará la estimación de �, en el caso de ser posible, o de apropiadas combina-ciones lineales identi�cables(estimación de �).

1. Estimación de (�;�2) por cuadrados mínimos y método de losmomentos

Según la segunda de�nición de ML, escrita sin hacer referencia a �, y quitandoel requisito de normalidad ya que aquí no es necesario

(1.1) Y = �+ " con � 2V = C(X) y " � �n (0;�2In)

Si se quiere estimar �, parece razonable elegir entre todos los � 2V , aquel que estémas cerca de Y. Entonces el estimador b�, sería el vector de V , que hace mínimala distancia cuadrática kY�b�k2. Esto es lo que postula el principio de cuadradosmínimos. Recordando la proposición 20 que a�rma que la distancia de un vector aun subespacio es mínima en su proyección ortogonal, se tiene queb� = Pr(Y jV ) = Yv

Si Pv = X(X0X)gX0 es la matriz de proyección sobre V , de rg(Pv) = r, se tendrá

que b� = PvY, con E(b�) = Pv� = � (insesgada), y además �b� = Pv�2InP

0v =

�2Pv, se tiene entonces

Estimación de �b� = Pr(Y jV ) = PvYE(b�) = � (insesgado) y b�� �n (�;�2Pv)

Además, y también sin necesitar la hipótesis de normalidad, más adelante seprobará con el Teorema de Gauss-Markov, que b�, y sus componentes o sea las b�i,son estimadores BLUE (best linear unbiased estimate), en el sentido que son losestimadores, con menor varianza, en la familia de todos los estimadores lineales einsesgados.

Para proponer un estimador de �2, se empleará elmétodo de los momentos,evaluando el valor esperado de kY�b�k2. Pero Y�b� = Pr(Y jV ?) es la proyecciónde Y sobre V ? de dimensión n � r; y además la proyección de la media de Y, osea �, sobre V ? es nula. Entonces, usando el TDSO, punto (3)

E(kY�b�k2) = (n� r)�287

Page 88: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

88 7. ESTIMACIÓN DE PARÁMETROS

y de aquí surge

Estimación de �2b�2 = S2 = kY�b�k2 =(n� dim(V )) (insesgado)Y�b� = Pr(Y jV ?)

Remark 17. Notar que estos dos estimadores surgen de la descomposiciónde Y 2 Rn en los subespacios ortogonales V � V ? = Rn. Con la proyecciónPr(Y jV ) = b� se pudo estimar �; y con Pr(Y jV ?) = Y � b�, tomando su normacuadrática y corrigiendo el sesgo se estimó �2.

Remark 18. Invariancia respecto de la matriz de diseño: Si en el ML secambia la matriz X por otra X� que genere el mismo espacio V , o sea C(X�) = V ,todos los resultados anteriores siguen siendo válidos. El motivo es que Pv dependesolo de V , y no de la particular matriz de diseño utilizada. Por ejemplo si semultiplica una columna de X por una constante c 6= 0, o si se quita una columna quees combinación lineal de otras. En de�nitiva estos estimadores y sus propiedadesdependen de V y no de la particular matriz de diseño que genera este espacio.

2. Estimación de (�;�2) por máxima verosimilitud

Según la primera de�nición de ML, escrita sin hacer referencia a �, pero ahorasi con la hipótesis de normalidad

(2.1) Y �Nn(�;�2In) con � 2V = C(X)

Ahora se buscarán los estimadores de máxima verosimilitud de (�;�2), necesitán-dose por supuesto la hipótesis de normalidad. Usando la densidad de la normalmultivariada de 2.3

L�;�2(y) =1

(2�)n2 j�j

12

e�(y��)0��1(y��)

2 =1

(2�)n2 (�2)

n2e�

ky��k2

2�2 para � 2V y �2 > 0

Luego

lnL�;�2(y) = �n

2ln(2�)� n

2ln(�2)� ky � �k

2

2�2

Para cada �2 �jo, esta expresión es maximizada respecto de � 2V . Luego b� =argmin�2V

kY � �k2 = Pr(Y jV ) = b�, o seaEstimación de �b� = b� = Pr(Y jV ) = PvY

E(b�) = � (insesgado) y b� � Nn(�; �2Pv)Notar que el estimador es el mismo que con cuadrados mínimos, pero ahora seconoce su distribución, y además por propiedades del estimador de máxima verosimil-itud tanto b�, como sus componentes b�i, son estimadores BUE (best unbiased esti-mate), en el sentido que son los estimadores, con menor varianza, en la familia masamplia de todos los estimadores insesgados.

Reemplazando b� en lnL�;�2(y) queda:lnLb�;�2(y) = �n

2ln(2�)� n

2ln(�2)� ky�b�k2

2�2

Page 89: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. GEOMETRíA DEL PROBLEMA DE ESTIMACIÓN 89

Derivando respecto de �2

d lnLb�;�2(y)d�2

= � n

2�2+ky�b�k22�4

= 0 o sea e�2 = ky�b�k2n

Y se trata de un máximo ya qued2 lnLb�;�2 (y)

d(�2)2 < 0. Y entonces e�2 sería el estimadorque surge con el método de máxima verosimilitud.

Pero como E(e�2) = E(kY�b�k2)n = (n�r)�2

n , el estimador es sesgado. Por esta

razón, se utiliza el estimador insesgado b�2 = e�2=(n�rn ) = kY�b�k2n�r .

Además como Y�b� = Pr(Y=V ?) y dim(V ?) = n � r, si se utiliza el Teo-rema de descomposición en subespacios ortogonales, parte(4), resulta kY�b�k2

�2 �

�2n�r(k�?k2�2 ) pero �? = Pr (� jV ?) = 0 (ya que � 2V ). Luego queda kY�b�k2

�2 ��2n�r, o sea

(n�r)b�2�2 = �2n�r. Finalmente

Estimación de �2b�2 = S2 = kY�b�k2 =(n� dim(V )) (insesgado)Y�b� = Pr(Y jV ?)

(n�dim(V ))S2�2 � �2n�dim(V )

También el estimador es el mismo que con cuadrados mínimos, pero ahora se conocela distribución de S2, ya que esta relacionada con una �2, y además es un es-timador de mínima varianza, en la familia mas amplia de todos los estimadoresinsesgados[Rao-1973].

Pero falta otra propiedad importante que surge de la hipótesis de normalidad.Como S2 = kY�b�k2 =(n� dim(V )) y Y�b� = Pr(Y jV ?), resulta que S2 dependede Pr(Y jV ?); además b� = Pr(Y jV ), pero bajo normalidad estos dos vectoresproyectados son independientes, luego lo serán también b� y S2 o sea:

Estimación de � y �2b� y S2 son independientesEn de�nitiva, al suponer normalidad y con máxima verosimilitud, se llega a los

mismos estimadores que con cuadrados mínimos y el método de los momentos, peroahora se conocen sus distribuciones, y tienen mejores propiedades de optimalidad.

3. Geometría del problema de estimación

Bajo normalidad, y utilizando el Teorema de descomposición en subespaciosortogonales(2), se obtienen varios resultados importantes. Por de pronto el modelo

Y = �+ " con � 2V = C(X) y " �Nn(0;�2In)

dice que el vector aleatorio observado Y 2 Rn, se puede expresar como la sumaentre: un vector desconocido � 2 V , donde V es un subespacio de Rn de dimensiónr, mas un vector aleatorio normal " 2 Rn, que es no-observado (ver Figura 1). Notarque � no es ortogonal a ".

Page 90: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

90 7. ESTIMACIÓN DE PARÁMETROS

Figura 1 : Interpretaci�on geom�etrica

Como Rn = V �V ?, si se descompone Y en sus proyecciones ortogonales sobreestos subespacios, se tiene Y = b� + b" donde b� = Pr(Y jV ) y b" = Pr(Y jV ?) conb�?b". Pero como Y es normal con matriz de covarianza �2In, usando el Teoremade descomposición en subespacios ortogonales, punto (2), resultarán b� y b" vectoresaleatorios independientes(para esta a�rmación sí se requiere asumir la distribuciónnormal).

4. Teorema de Gauss-Markov

Cuando se trató identi�cación, se probó que � es un parámetro siempre iden-ti�cable, y por tanto estimable. Si rg(X) = k, � también es identi�cable. Sinembargo si rg(X) = r < k, dado cualquier � 2V , el sistema lineal � = X� no teníasolución única en �. O sea habrán varios � solución. Esto signi�ca que � no esidenti�cable. También se vió que en esta situación, si nos interesa una combinaciónlineal � = c0�, con c 2 Rk, a veces ocurre, que cualquira sea � 2V , para todoslos � solución que le corresponden, la combinación lineal � = c0� toma un mismovalor. En este caso � será identi�cable. El requisito para esto es que c 2F (X) oalguna de sus formas equivalentes.

En el caso que rg(X) = k, esta condición para identi�car � también se aplica,lo que ocurre es que al ser F (X) =Rk, la inclusión c 2F (X) se cumple siempre. Osea toda combinación lineal es identi�cable.

El Teorema de Gauss-Markov proporciona un estimador b� para una combi-nación lineal identi�cable � = c0� (en rango completo o no), y prueba que esteestimador es único y BLUE (best linear unbiased estimate), en el sentido que esel estimador, con menor varianza, en la familia de todos los estimadores lineales einsesgados de �.

Además, y esto es importante, este teorema no requiere la hipótesis de normal-idad.

Antes de empezar con el teorema(ver diagrama), notar que en general, a cada� 2 V = C(X), según la relación � = X� le corresponderán varios �, pero si� = c0� es identi�cable, a todos estos � les correspondera el mismo �.

Page 91: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. TEOREMA DE GAUSS-MARKOV 91

% �� &� � �& �� %

Entonces existirá una función � = g(�). Se buscará esta función, ya que con ellaquedará expresado � en función de un parámetro siempre identi�cable como es �.En primer lugar � = c0�, pero debido a la identi�cabilidad, como c 2F (X), deberáser c = X0a para cierto a 2 Rn. Pero como los a pueden ser varios, resolviendoeste último sistema lineal en a (ver prop. 17), se tendrá

a = av+e donde: av es la única solución de c = X0av con av 2 F (X0) = V , y e 2V ?

Luego � = c0� = (X0a)0� = a0X� = a0vX� + e

0X� = a0vX� = a0v�. Queda

entonces expresado �= a0v� como una combinación lineal de �, y única (ya queav es único), o sea

�= a0v� con av 2 V y único

Pero antes una aclaración: en un ML de parámetros (�;�2), a b� = PvY se lodesigna "el" estimador de cuadrados mínimos de �(ya que es único).

Pero b� no debería llamarse estimador de �, ya que siX no es de rango completo,� no es único.

Sin embargo, y abusando de la terminología, en este teorema b� designa a"cualquier" estimador de cuadrados mínimos de �, entendiendo por esto a cualquierb�, que sea solución de b�= Xb�. O también, si b� es un elemento de la familia

F =nb� : Xb� = b� = PvYo

(en el caso de rango completo esta familia tiene un solo estimador).

Theorem 10. Sea un ML con rg(X) = r � k, y � = c0� una combinaciónlineal identi�cable. Además sea a "cualquier" a que cumple c = X0a, resultandotambién � = c0� = a0X� = a0�, luego:

� Si b� es "cualquier" estimador de cuadrados mínimos de �. Entoncesb� = c0b� es BLUE y único.� Si b� es "el" estimador de cuadrados mínimos de �. Entonces b� = a0b� esBLUE y único.

Proof. Se demostrará por partes:

(1) Primera parte: Se propone como estimador ab� = a0vb� = a0vPvY = (Pvav)0Y = a0vY

Que es lineal en Y.(2) Para analizar el sesgo, E(b�) = E(a0vY) = a0v� =� luego es insesgado.(3) Para probar que es el de mínima varianza(B), en la familia de todos los

estimadores lineales e insesgados(LUE), se analizará primero como sonlos estimadores de esta familia. Por de pronto, por ser lineales en Y,tendrán el aspecto b�� = d0Y para cierto d 2 Rn. Y por ser insesgadoscumplirán E(b��) = E(d0Y) = d0� =� = a0v� para todo � 2V . O seaestos estimadores cumplirán que (d � av)0� =0 8� 2V , es decir (d �av)?V . De otra forma: si e es cualquier vector de V ?, los estimadoresde esta familia tendrán d = av + e, con av 2 V y e 2V ?, o sea av?e.

Page 92: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

92 7. ESTIMACIÓN DE PARÁMETROS

(4) Se estudiará la varianza de un estimador cualquiera de la familia de linealese insesgados: V ar(b��) = V ar((av + e)

0Y) = V ar(a0vY + e

0Y) pero alser av?e, los productos escalares a0vY y e0Y son variables.aleatorias no-correlacionadas resultando = V ar(a0vY)+V ar(e

0Y) =V ar(b�)+ kek2 �2 �V ar(b�) luego es BLUE.

(5) Finalmente como b� 2 F , resulta b� = Xb�, luego el estimador se puedeexpresar b� = a0vb� = a0vXb� = c0b� .

(6) Segunda parte: Si b� es "cualquier" estimador de cuadrados mínimosde �, o sea b� = Xb�, por el teorema anterior resulta que b� = c0b� es BLUEy único. Como c = X0a, reemplazando queda que b� = c0b� = a0Xb� = a0b�será BLUE y único.

�En la Figura 2 se representa sobre la vertical el lugar geométrico de los vectores

d 2 Rn que hacen que el estimador b� = d0Y sea lineal e insesgado(LUE). Y ademásel av 2 V , que hace que b� = a0vY sea el BLUE.

Figura 2 : Teorema de Gauss�Markov

Remark 19. Observaciones

� En este teorema no se utilizó la hipótesis de normalidad, y el estimadorobtenido es BLUE. Sin embargo, si se agrega la hipótesis de normalidad,se puede demostrar que el estimador obtenido es BUE, o sea que es elestimador, con menor varianza, en la familia mas amplia, de todos losestimadores insesgados de � (o sea, incluyendo los no-lineales).

� Este teorema garantiza que b� será el estimador de mínima varianza entrelos lineales e insesgados. Pero en otra familia más amplia, como la delos sesgados, pueden existir estimadores que tengan menor varianza, contodavía menor error cuadrático medio.� En el punto 3 se demuestra que si d0Y es un estimador insesgado de� = c0�, resultará d = av + e, con av 2 V y e 2V ?, o sea av?e. Estoes lo mismo que a�rmar que Pr(d jV ) = av. Para que puede servir esto?Suponga que se tiene un estimador insesgado d0Y no muy bueno, entonces

Page 93: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. TEOREMA DE GAUSS-MARKOV 93

proyectando d sobre V , se obtiene av, y con este vector el estimadoróptimo a0vY.� Cuando se analizó el estimador de cuadrados mínimos b�, se a�rmó sindemostrar, que las componentes de b�, o sea las b�i, son estimadores BLUEde los correspondientes �i. Notar que si se toma como c a la i-esima�la de la matriz X, o sea c = (xi1; xi2; ��; xik)0, sin duda c 2F (X), luegoc0� =xi1�1+xi2�2+ � �+xik�k = �i será identi�cable, y por este teoremac0b�=xi1b�1 + xi2b�2 + � �+xikb�k = b�i será BLUE.� En el caso de rango completo, como F (X) = Rk, todas las combinaciónesc0� son identi�cables. Luego si se toma c = ei = (0; 0; ::; 1; ::; 0)0, resultarác0� = e0i� =�i identi�cable, luego8i, b�i será BLUE. Esto no siempre esválido para rango incompleto, ya que no siempre ei 2 F (X).

� Un problema que puede interesar es la determinación de av 2 V conc = X0av. En el caso de rango completo es simple pues como av 2 V , seráav = Xu para cierto u 2 Rk. Luego c = X0Xu con X0X inversible, en-tonces u = (X0

X)�1c, y reemplazando av = Xu = X(X

0X)

�1c. Luego el

mejor estimador de c0� será a0vY = c0(X0X)

�1X0Y = c0b� como lo a�rma

Gauss-Markov.� En el caso de rg(X) = r < k, como también av 2 V , debería serav = Xu para cierto u 2 Rk, y entonces c = X0Xu. Como aquí la matrizX0X no es inversible, utilizando la inversa generalizada de X0X resultau = (X

0X)

gc, y reemplazando av = Xu = X(X

0X)

gc. Otra forma con-

siste en tomar r columnas LI de X, y de�nir X� 2 Rn�r, luego av = X�vcon v 2 Rr. Luego c = X0X�v y como X0X� 2 Rk�r de rango r,v = (X

�0XX0X�)�1X�0Xc, y en de�nitiva av = X�(X

�0XX0X�)�1X�0Xc.

Example 23. Suponga que se mide 3 veces la concentración �1 de una sustanciacon un instrumento que tiene un error N(0;�2), y luego 2 veces la concentración�2 de otra, con el mismo instrumento. Interesa estimar � = �1 � �2. Si Yi son lasmediciones, planteado como ML se tendrá:

Y =

2666641 01 01 00 10 1

377775��1�2

�+

266664"1"2"3"4"5

377775 = X� + " con " �N(0;�2I5) además � = (1;�1)� = c0�

Como X es de rango completo, � es identi�cable, y según Gauss-Markov b� = c0b�es BLUE. Como b� = (X0X)�1X0Y =

�13

13

13 0 0

0 0 0 12

12

�Y =

�Y1+Y2+Y3

3Y4+Y52

�y b� =

(1;�1)b� resultará b� = Y1+Y2+Y33 � Y4+Y5

2 el estimador BLUE insesgado de ladiferencia de concentraciones, que es muy lógico. Si interesa la varianza de este

estimador V ar(b�) = c0(X0X)�1c�2=�1 �1

� � 13 00 1

2

� �1�1

��2 = �2

3 +�2

2 = 56�

2.

Además como b� es únicob� = Y1 + Y2 + Y3

3� Y4 + Y5

2= (

1

3;1

3;1

3;�12;�12)Y = a

0vY

resulta también av 2 F (X0) = V , y único. Propongamos ahora otro estimadorinsesgado. Como estimador de �1 podríamos haber tomado Y1+Y2

2 , y para �2,

Page 94: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

94 7. ESTIMACIÓN DE PARÁMETROS

simplemente Y5. Entonces para � = �1 � �2, se propone: b�� = Y1+Y22 � Y5.

Como E(b��) = �1+�12 � �2 = � , es insesgado. Expresado en la forma b�� =

d0Y = (12 ;12 ;0;0;� 1)Y , resulta tener varianza V ar(b��) = V ar(d0Y) = kdk2 �2 =

96�

2 > 56�

2 = V ar(b�) obviamente mayor pues no es el BLUE. Como d = av + ese obtiene e = (16 ;

16 ;�

13 ;12 ;�

12 ) con av?e. Notar que kek2 �2 = 4

6�2, y es esta

cantidad la que expresa el incremento de varianza del segundo estimador ya que56�

2 + 46�

2 = 96�

2.

Example 24. Se volverá a analizar el ejemplo 15, sobre la in�uencia deltratamiento aplicado a la semilla sobre el crecimiento de un cereal al mes de habersido sembrado. El suelo en el que se hizo el estudio, presenta zonas bajas y altas.Se emplearon tres tratamientos para las semillas, a, b y c. El experimento consisteen sembrar 2 semillas con cada tratamiento, una en zona baja("1"), y la otra enzona alta("2"). Luego de 1 mes se miden las alturas de las 6 plantitas. El modelopropuesto fué:

Y = X� + " =

266666641 1 0 0 1 01 1 0 0 0 11 0 1 0 1 01 0 1 0 0 11 0 0 1 1 01 0 0 1 0 1

37777775

26666664��a� b� c�1�2

37777775+26666664"1"2"3"4"5"6

37777775 con " �N(0;�2I6)

Si interesa averiguar cuánto mejor es la variedad de semilla "a" respecto de la "b",el párametro de interés será � = �a � � b = c0� = (0; 1;�1;0; 0; 0)�. Pero comorg(X) = 4 < 6, X es de rango incompleto, luego habrá que veri�car primero si� es identi�cable. Pero sí lo es, ya que c 2F (X), ya que es la diferencia entre laprimera y tercera �la. Entonces si se conociese uno de los estimadores de cuadradosmínimos de �, por ejemplo el obtenido agregando restricciones para identi�caciónen el ejemplo 17 (con la notación allí usada b��), utilizando el teorema de Gauss-Markov, resultaría c0b�� el BLUE para �. Pero en este problema se buscará esteBLUE pero de la forma

b� = a0vY, con av la única solución de c = X0av donde av 2 V

Deberá ser entonces av = Xu para cierto u 2 R6. Pero recordando una de lasobservaciones al teorema, conviene expresar esto con una matriz de rango completo,por ejemplo X� = [x2;x3;x4;x5] ya que sus columnas son LI, y generan V . Luegoav = X�v para cierto v 2 R4. Reemplazando queda: c = X0av = X0X�v o seacalculando

c =

2666666401�1000

37777775 = X0X�v =

266666641 1 1 1 1 11 1 0 0 0 00 0 1 1 0 00 0 0 0 1 11 0 1 0 1 00 1 0 1 0 1

37777775

266666641 0 0 11 0 0 00 1 0 10 1 0 00 0 1 10 0 1 0

37777775v =266666642 2 2 32 0 0 10 2 0 10 0 2 11 1 1 31 1 1 0

37777775v

Si se llama A a la última matriz, que es de rango completo, se podrá obtener v,como las coordenadas de c, en los vectores columna de A, o sea: v = (A0

A)�1A0c,

Page 95: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. COMENTARIOS RESPECTO DE LOS PARÁMETROS DE UN ML 95

y luego como av = X�v, se obtendrá av:

v = (A0A)

�1A0c =

266447198 � 5

396 � 5396 � 19

� 5396

47198 � 5

396 � 19� 5396 � 5

39647198 � 19

� 19 � 19 � 1929

377526642 2 0 0 1 12 0 2 0 1 12 0 0 2 1 13 1 1 1 3 0

37752666666401�1000

37777775 =2664

12� 1200

3775

y �nalmente:

av = X�v =

266666641 0 0 11 0 0 00 1 0 10 1 0 00 0 1 10 0 1 0

377777752664

12� 1200

3775 =26666664

1212� 12� 1200

37777775En de�nitiva, el BLUE para � = �a � � b, es b� = a0vY =Y1+Y2

2 � Y3+Y42 .

5. Comentarios respecto de los parámetros de un ML

En un modelo lineal el parámetro � al ser siempre identi�cable, se lo puedeestimar. Anteriormente se presentaron dos métodos para estimarlo, uno mediantecuadrados mínimos(sin asumir la hipótesis de normalidad) y el otro por máximaverosimilitud(asumiendo la hipótesis de normalidad). En ambos casos el estimadorobtenido fué el mismo b� = PvY = X(X

0X)

gX0Y, variando solo sus propiedades

de optimalidad. En el primer caso, por el teorema de Gauss-Markov el estimador esBLUE(el mejor en la familia de Lineales e Insergados), y en el segundo es BUE(elmejor en la familia de los Insesgados).

Cuando lo que interesa es el parámetro �, que en realidad es lo habitual, se suelepresentar un problema de identi�cación. En efecto 8� 2 V la ecuación � = X�puede tener una o varios � solución.

� SiX es de rango completo, � es único, y por tanto identi�cable, y se podrápensar en obtener su estimador b�. Esto es lo que ocurre en los modelosde regresión.� Si X NO es de rango completo, cualquiera sea � la ecuación � = X�tendrá in�nitos � solución. Entonces � no será identi�cable, y no sepodrá de�nir un estimador. Esto es lo común en los modelos de analisisde varianza.

Sin embargo en este último caso no esta todo perdido, ya que aunque todo �no sea identi�cable, quizás algunas combinaciónes lineales �i = c0i� sí lo sean, yentonces podremos pensar en buscar estimadores b�i para los �i.

Cuando se estudió el problema de identi�cación, si rg(X) = r � k, se con-cluyó que como máximo hay r combinaciones lineales identi�cables c0i�, que sonlinealmente independientes.

Como no siempre interesan todas, en lo que sigue se supondrá que interesanh � r de estas combinaciones lineales.

Page 96: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

96 7. ESTIMACIÓN DE PARÁMETROS

Se de�ne entonces el parámetro � 2 Rh donde

� =

2664�1�2���h

3775 =2664c01�c02���c0h�

3775 = C0�Aquí C 2 Rkxh es una matriz de rg(C) = h, que contiene en sus columnas losh vectores c1; c2; �� ch LI, que de�nen las correspondientes combinaciones linealesidenti�cables de interes.

Notar que en la relación � = C0�, � puede ser o no identi�cable, sin embargolas componentes de � siempre lo serán(pues los ci 2 F (X)).

En de�nitiva con esta relación queda de�nido el parámetro siempre identi�cable�, que contiene los parámetros �i de las combinaciones lineales de interés.

Entonces, en lo que sigue se desarrollará la estimación de �, que será de util-idad solo para el caso que X sea de rango completo(modelos de regresión); y acontinuación la estimación de � que necesariamente hay que utilizar en el caso derango incompleto(modelos de análisis de varianza).

Sin embargo la teoría sobre estimación de � es más general, ya que puedeutilizarse también en el caso de rango completo. Por ejemplo en un modelo deregresión, podrían interesar solo algunas combinaciones lineales de los �i, y entoncescon una conveniente de�nición de la matriz C se podrían analizar con � solo losparámetros de interés.

Rigurosamente habría que considerar una tercera situación intermedia: cuandoX no es de rango completo, pero se incorporaron restricciones para para lograr unamatriz X� que sí tenga rango completo. Pero entonces el beta será otro, ��, eidenti�cable, así que este caso se reduce al primero.

Para �nalizar, y para simpli�car, en el análisis de las dos situaciones men-cionadas(estimación de � o de �) se supondrá siempre la hipótesis de normalidad.El motivo es que los estimadores obtenidos son los mismos, y solo hay que recordarque sin normalidad, por Gauss-Markov los estimadores obtenidos son BLUE, ycon la hipótesis de normalidad serán BUE, pero con el agregado importante quese conocerán las distribuciones.

6. Estimación de �

Aquí como X es base de V , resulta X0X inversible, y entonces la matriz deproyección ortogonal sobre V es Pv = X(X

0X)

�1X0.

Ya sea por mínimos cuadrados o máxima verosimilitud el estimador de � esb� = PvY, o sea b� = X(X0X)

�1X0Y.

La relación entre los parámetros � y � es � = X�. Pero como X es base deV , esta relación es biyectiva. Entonces cualquiera sea el valor de �, el � que lecorresponderá es único y representa las coordenadas de � en la base de los vectorescolumna de X, obteniendolo mediante � = (X0X)

�1X0�.

En nuestro caso como el estimador de � es b� = X(X0X)

�1X0Y, el correspon-

diente estimador de � será b�= (X0X)�1X0b�, o seab�= (X0X)

�1X0X(X

0X)

�1X0Y = (X0X)

�1X0Y

Este es el llamado estimador de cuadrados mínimos de �.

Page 97: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ESTIMACIÓN DE � 97

Notar que E(b�) = (X0X)�1X0E(Y) = (X0X)

�1X0X� = �, o sea insesgado.

Además �b� = (X0X)�1X0�2InX(X

0X)�1= �2(X0X)

�1, y entonces b� tendrá unadistribución normal multivariada Nk(�;�2(X0X)

�1), no-singular.

Por último, como b� depende de b�(a través de b�= (X0X)�1X0b�), y b� y S2 son

independiente, también serán independientes b� y S2, luego resulta(6.1)

Si rg(X) = k (completo)b� = (X0X)�1X0Y (insesgado)b� � Nk(�;�2(X0X)

�1) (no-singular)b� y S2 son independientes

Example 25. Regresión lineal simple: Considérese el modelo Yi = �0 +�1xi + "i con "i � N1(0;�2) independientes. Expresado vectorialmente Y = j�0 +x�1 + ", con " �Nn(0;�2In). O también matricialmente Y = X� + " donde

X =

26641 x11 x2�� ��1 xn

3775 luego X0X =

�n �xi�xi �x2i

�entonces (X0X)�1 =

1

��x2i ��xi��xi n

Aquí � = det(X0X) = n�x2i � (�xi)2. Como b� = (X0X)�1X0Y

b� = 1

��x2i ��xi��xi n

� �1 1 �� 1x1 x2 �� xn

�2664Y1Y2��Yn

3775 = 1

��x2i ��xi��xi n

� ��Yi�xiYi

b� = "b�0b�1#=1

��x2i�Yi � �xi�xiYi��xi�Yi + n�xiYi

�Operando b�1 = �xiYi�nxY

�x2i�nx2y b�0 = Y � b�1x. Además de �b� = �2(X0X)�1,

resulta V ar(b�1) = �2

�x2i�nx2, V ar(b�0) = �x2i =n

�x2i�nx2�2 y Cov(b�0; b�1) = �x

�x2i�nx2�2

Para estimar S2 se necesita kb"k2. Pero como Y = b�+b", con b�?b", será kYk2 =kb�k2+kb"k2. De b� = Xb�, se tiene kb�k2 = b�0X0Xb� = hb�0 b�1i � n �xi

�xi �x2i

�"b�0b�1#=

nb�20 +�x2i b�21 + 2(�xi)2b�0b�1 y entonces S2 = (�Y 2i � kb�k2)=(n� 2).7. Estimación de �

En el desarrollo que sigue se supondrá que X no es de rango completo, sinembargo la teoría es válida para rango completo, bastando reemplazar en las ex-presiones las inversas generalizadas, por inversas ordinarias.

Además � = C0� donde la matriz C 2 Rkxh contiene en sus columnas los hvectores ci 2 F (X), LI, que de�nen las h combinaciones lineales identi�cables deinterés. Luego C es de rango completo, con rg(C) = h.

Como X no es base de V , X0X no es inversible, sin embargo siempre existealguna inversa generalizada (X0X)

g.Además, y no importando cual inversa generalizada se elije, la matriz de proyec-

ción ortogonal sobre V es Pv = X(X0X)

gX0(única).

Page 98: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

98 7. ESTIMACIÓN DE PARÁMETROS

Y ya sea por mínimos cuadrados o máxima verosimilitud el estimador de � esb� = PvY, o sea b� = X(X0X)

gX0Y.

Hasta aquí todo es bastante parecido al caso en que X es de rango completo,salvo que ahora aparece (X0X)

g.La relación entre los parámetros � y � sigue siendo � = X�. Sin embargo

como X no es base de V , esta relación no es biyectiva. O sea cualquiera sea el valorde �, le corresponderán varios �(en realidad in�nitos).

Luego el parámetro � no es identi�cable, y no se podrá proponer un estimador,pero � en la relación � = C0� siempre es identi�cable.

La razón por la cual � es identi�cable es que aunque � = X� tenga varios �como solución, con cualquiera de estas soluciones � = C0� toma siempre el mismovalor, y entonces se puede pensar en obtener el estimador b� de �.

Esto sugiere el procedimiento a seguir:

(1) obtenido b�, se resuelve b� = X�, pero como los � son varios, se elije unode ellos, y se lo designa como "un" estimador de cuadrados mínimos de� utilizando la notación b�(en realidad no es un estimador de � ya que �no es identi�cable, pero en modelo lineal es usual usar este término).

(2) se reemplaza este b� en la relación � = C0�, para obtener el estimadorbuscado b� = C0b� (no importa cual b� hayamos elegido ya que C0b� tomarásiempre el mismo valor).

Para encontrar una solución de b� = X�, recordando que una inversa general-izada de X es (X0X)

gX0, "una" solución será b� = (X0X)

gX0b� y como b� = PvY

resulta, b� = (X0X)gX0PvY =(X0X)

g(PvX)

0Y =(X0X)

gX0Y o seab� = (X0X)

gX0Y

Notar que si se elije otra inversa generalizada(otra (X0X)g), el b� cambiará; y que

tampoco interesará analizar si es insesgado ya que b� no es un estimador, represen-tando solo una de las soluciones de las ecuaciones normales. En cambio para b�, quesí es un estimador resulta b� = C0b� = C0(X0X)

gX0Y

Utilizando el Teorema de Invarianza(8) como F (C0) � F (X) y C(X0) � F (X), esteestimador es invariante.

Para probar que es insesgado

E(b�) = E(C0(X0X)gX0Y) = C0(X0X)

gX0E(Y) = C0(X0X)

gX0X�

= [X0X(X0X)gC]

0� =

hP�F (X)C

i0� = C0� = �

Aquí se utilizó la matriz de proyección (no ortogonal) sobre F (X) vista en(7), o seaP�F (X) = X

0X(X0X)g, y como C(C) � F (X), resulta P�F (X)C = C.

Para estudiar la matriz de covarianza de b� (utilizando también P�F (X)) resulta�b� = V ar(C0(X0X)

gX0Y) = C

0(X0X)

gX0�2InX(X

0X)gC

= C0(X0X)gX0X(X0X)

gC�2= C0(X0X)

gP�F(X)C�

2 = C0(X0X)

gC �2

Con el Teorema de Invarianza(8), esta expresión también es invariante respectode (X0X)

g.Pero falta analizar el rango de esta matriz de covarianza.

Page 99: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ESTIMACIÓN DE � 99

Cada vector columna de C, por ejemplo ci, debe pertenecer a F (X) para que lacorrespondiente combinación lineal sea identi�cable. Esto quiere decir que existiráun ai 2 Rn tal que ci = X0ai. Pero como los ai serán varios, resolviendo estesistema lineal resulta ai = aiv+e, con e 2V ? y aiv la única solución que pertenecea V . Tomando de entre todas las soluciones a aiv, resultará ci = X0aiv. Si se repiteesto para todas las columnas de C, resulta la expresión

C = X0Av

donde Av 2 Rnxh contiene en sus columnas los aiv correspondientes a cada ci.Como los vectores columna de C son LI, ahora se probará que también los vectorescolumna de Av son LI. En efecto, supongamos que esto último no ocurre, entoncesexistirá un vector d 6= 0 tal que Avd = 0. Si se multiplica la expresión C = X

0Av

a derecha por d resultaria

Cd = X0Avd = 0

pero si Cd = 0 con d 6= 0, esto signi�caría que los vectores columna de C seríandependientes(absurdo). Con esto queda probado que las h columnas de Av sonvectores LI, y entonces rg(Av) = h.

Ahora sí se analizará la matriz de covarianza de b��b� = C0(X0X)

gC �2 = A0

vX(X0X)

gX0Av �

2 = A0vPvAv �

2 = A0vAv �

2

y entonces como rg(A0vAv) = rg(Av) = h , la matriz de covarianza es no-singular

de rango h.En de�nitiva resulta

(7.1)

Si rg(X) = r � k

Si � = C0� con�� identi�cable con C(C) � F (X)rg(C) = hb� = C0(X0X)

gX0Y (insesgado)b� � Nh(� ;C0(X0X)gC �2) (no-singular)

Example 26. Ahora se volverá a analizar el ejemplo de Análisis de varianzade 2 factores con interacción(16). La intención es evaluar si se justi�ca el haberplanteado un modelo con interacción, o si con un modelo sin interacción hubiesesido su�ciente. En ese ejemplo se quiso estudiar la in�uencia de tres tratamientosgenéticos (a, b y c) aplicados a semillas de un cereal, sobre el crecimiento del mismoal mes de haber sido sembrado. El suelo en el que se hizo el estudio, presenta zonasbajas y altas. El experimento consistio en sembrar 2 semillas de cada tratamiento,una en zona baja("1"), y la otra en zona alta("2"). Luego de 1 mes se midieronlas alturas de las 6 plantitas, resultando las observaciones:

a b c1 Ya1 Yb1 Yc12 Ya2 Yb2 Yc2

Se trata de un modelo con 6 observaciones, pero 1 observación por combinación detratamientos(Ya1 para a1,....,Yc2 para c2). En este ejemplo, y para tener su�cientesgrados de libertad para poder estimar varianzas(ver 8), se tomaron 3 observacionespor combinación de tratamientos(Ya11; Ya12; Ya13 para a1,....,Yc21; Yc22; Yc23 para

Page 100: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

100 7. ESTIMACIÓN DE PARÁMETROS

c2) o sea la tabla de observaciones será

a b c1 Ya11; Ya12; Ya13 Yb11; Yb12; Yb13 Yc11; Yc12; Yc132 Ya21; Ya22; Ya23 Yb21; Yb22; Yb23 Yc21; Yc22; Yc23

con un vector Y 2 R18

Y = (Ya11; Ya12; Ya13; Ya21; Ya22; Ya23; Yb11; Yb12; Yb13; Yb21; Yb22; Yb23; Yc11; Yc12; Yc13; Yc21; Yc22; Yc23)0

el modelo lineal es

Y = �+ " = X� + "; con X 2 R18x12, " � N(0;�2I18)y la relación entre �, � y la matriz de diseño X queda(aquí los dos puntos signi�canque la �la anterior se repite 2 veces mas)

� =

26666666666666666664

�a1::�a2::�b1::�b2::�c1::�c2::

37777777777777777775

=

26666666666666666664

�+ �a + �1 + a1::

�+ �a + �2 + a2::

�+ � b + �1 + b1::

�+ � b + �2 + b2::

�+ � c + �1 + c1::

�+ � c + �2 + c2::

37777777777777777775

=

26666666666666666664

1 1 0 0 1 0 1 0 0 0 0 0::

1 1 0 0 0 1 0 1 0 0 0 0::

1 0 1 0 1 0 0 0 1 0 0 0::

1 0 1 0 0 1 0 0 0 1 0 0::

1 0 0 1 1 0 0 0 0 0 1 0::

1 0 0 1 0 1 0 0 0 0 0 1::

37777777777777777775

26666666666666666664

��a� b� c�1�2 a1 a2 b1 b2 c1 c2

37777777777777777775

= X�

Como repetir �las en una matriz no modi�ca su rango, resultará rg(X) = 6(incompleto),igual que en el ejemplo anterior, pero ahora tiene 18 �las en lugar de 6. Este esun modelo con interacción. Y para evaluar la presencia de interacción, hay queveri�car si se cumple �

a2 � a1 � b2 + b1 = 0 b2 � b1 � c2 + c1 = 0

De�niendo los nuevos parámetros �ab = a2 � a1 � b2 + b1 y �bc = b2 � b1 � c2 + c1 habrá que evaluar si�

�ab = a2 � a1 � b2 + b1 = 0�bc = b2 � b1 � c2 + c1 = 0

Llamando � =��ab�ab

�, y observando que �ab y �ab son combinaciones lineales de �,

esto se expresa

� =

��ab�ab

�=

�0 0 0 0 0 0 �1 1 1 �1 0 00 0 0 0 0 0 0 0 �1 1 1 �1

�� = C0�

Ahora hay que veri�car que � es identi�cable, y que rg(C) = 2. Lo segundo essimple ya que las dos columnas de C son vectores LI. Lo primero suele dar mastrabajo. Si c1 y c2 son las dos columnas de C, hay que ver si c1 2 F (X) yc2 2 F (X). Si se designan f1; f2; f3; f4; f5; f6 a las 6 �las explicitadas de X(enrelidad son 18, pero las demas son repeticiones) se tiene

c1 = �f1 + f2 + f3 � f4c2 = �f3 + f4 + f5 � f6

Page 101: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

7. ESTIMACIÓN DE � 101

Con esto estaría probado que c1 y c2 son combinaciones lineales de las �las deX, y entonces � es un parámetro identi�cable. Pero claro, la matriz X puedeser mas grande y compleja, y entonces probar que C(C) 2 F (X) suele ser muchomás difícil. Para facilitar esto es muy útil la matriz de proyección(no ortogonal)sobre F (X), cuya expresión es P�F (X) = X0X(X0X)

g(por supuesto se requiere lainversa generalizada (X0X)

g, que se obtendrá mediante algún soft ya que tambiénse necesita para el análisis que sigue), y veri�car que

P�F (X)C = C

Ahora sí, utilizando 7.1 se tiene como estimador de � ab� = C0(X0X)gX0Y

y su distribución

(7.2) b� � N2(�;C0(X0X)gC �2)

Si interesa estimar la matriz de covarianza de esta normal, habrá que estimar �2.Como dim(V ) = 6, entonces dim(V ?) = 18�6 = 12. Como la matriz de proyecciónortogonal sobre V es Pv = X(X0X)

gX0 resulta

b�2 = S2 = Y0(I18 �X(X0X)gX0)Y

12y también

Y0(I18 �X(X0X)gX0)Y

�2� �212

Luego la matriz de covarianza estimada de b� seráb�b� = C0(X0X)gC S2

Para �nalizar suponga que interesa evaluar con los datos, si se justi�ca haber adop-tado un modelo con interacción. Habrá que probar las hipótesis Ho : � = 0 vsHa : � 6= 0. La varianza estimada con este modelo es S2, con 12gl, y este esti-mador es válido, exista o no interacción. Ahora bién, si no hay interacción, en(7.2), � = 0, y utilizando (62)

b�0 �C0(X0X)gC �2

��1 b� � �22 o seab�0 �C0(X0X)

gC �2

��1 b��2

� �22

Luego b�0 [C0(X0X)gC ]

�1 b��2

=Y0(I18 �X(X0X)

gX0)Y

�2� �22

�212= F2;12

O sea b�0 [C0(X0X)gC ]

�1 b�Y0(I18 �X(X0X)

gX0)Y

� F2;12

Y entonces se rechazará la hipótesis nula si, por ejemplo, F2;12 > f2;12;1�� paracierto �.

Page 102: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 103: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 8

R2, correlación múltiple y parcial

1. Cálculo de proyecciones y coordenadas

En el capítulo anterior, dado un ML, se utilizó la matriz de proyección Pv,para obtener b� = bY = PvY, y en el caso de rango completo se estimó �, medianteb� = (X0X)�1X0Y. En este capítulo se desarrollarán algunas formas de calculono matriciales, en general más simples, que prestan mayor atención a los aspectosgeométricos del ML. Esto facilitará la interpretación de indicadores como R2, y elcoe�ciente de correlación múltiple y parcial, que se estudiarán más adelante.

Remark 20. En lo que sigue, dado Y 2 Rn, y una matriz X 2 Rn�k de rangocompleto, interesará frecuentemente el cálculo de las coordenadas de bY=Pr(Y jC(X)) en los vectores columna de X. O sea hallar b� que resuelva bY = Xb�, cuyasolución única es b� = (X0X)�1X0 bY. Pero observar que si en esta expresión se uti-lizaY en lugar de bY, se obtiene el mismo b�, ya que: (X0X)�1X0Y =(X0X)�1X0( bY+Y?) = b�, pues Y? es ortogonal a C(X), y por tanto X0Y? = 0. Por eso en lasexpresiones que siguen, para calcular las coordenadas de un vector proyectado( bY),en los vectores de una base, se suele utilizar Y.

Si se tiene un ML con matriz de diseño X 2 Rn�k de rango completo, se tendráque si V = L(x1;x2; ��;xk) entonces:

(1.1) bY = Pr(Y j V ) = b�1x1+b�2x2+ � �+b�kxkSe de�ne el subespacio: V(i) = L(x1;x2; ; ;xi�1;xi+1; ; ; ;xk), o sea el generado porlos vectores columna de la matriz de diseño, pero sin la columna xi. Y tambiénbxi = Pr(xi j V(i)), y x?i = xi � bxi. Notar que x?i expresa el aporte "nuevo" quehace la columna xi al ML, por sobre lo aportado por las restantes columnas de X.Como resulta x?i ?V(i), se puede expresar V = V(i) � L(x?i ). Lo valioso de estadescomposición, es que al ser ortogonal, la proyección de Y sobre V , será la sumade las proyecciones sobre cada uno de estos subespacios, o sea :

(1.2) bY = Pr(Y j V ) = Pr(Y j V(i)) + Pr(Y j x?i ) = bY(i) +< Y;x?i > x?i 2 x?i

Ahora, si en la expresión de arriba (1.1), se reemplaza xi = bxi + x?i , quedarábY = b�1x1+ � �+b�i(bxi + x?i ) + � �+b�kxk, y reagrupando:(1.3) bY =

hb�1x1+ � �+b�ibxi + � �+b�kxki+ b�ix?i103

Page 104: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

104 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

Si se compara (1.2) con (1.3), teniendo en cuenta que lo que está entre corchetes esun vector en V(i), y la unicidad al descomponer sobre V(i) � L(x?i ) se tendrá:

(1.4)< Y;x?i > x?i 2 x?i =

b�ix?i y bY(i) = b�1x1+ � �+b�ibxi + � �+b�kxkDe aquí surgen las siguientes consideraciones:

Conclusion 11. b�i se puede obtener como la coordenada de la Pr(Y j x?i ) enx?i , o sea: b�i = <Y;x?i >

kx?i k2

Notar que la utilidad de esta expresión descansa en la facilidad con que puedacalcularse la proyección bxi = Pr(xi j V(i)), para así obtener x?i = xi � bxi. Sinembargo en el caso que V(i) sea generado por vectores mutuamente ortogonales, laproyección se calcula fácilmente sumando proyecciones ortogonales.

Conclusion 12. También es simple el cálculo de V ar(b�i) pues:V ar(b�i) = �2= x?i 2 = �2= dist2(xi;V(i))

Ya que V ar(b�i) = 1

kx?i k4V ar(< Y;x?i >) =

1

kx?i k4 x?i 2 �2 = �2= x?i 2. Además

como xi = bxi + x?i , con bxi 2 V(i), la norma x?i mide la distancia de xi al sube-spacio generado por las restantes columnas de X, o sea dist(xi;V(i)). Notar quecuanto menor sea esta distancia, menor será la información nueva aportada porxi al ML, por sobre la aportada por las restantes variables, y esto se re�eja enuna mayor varianza(incertidumbre) en la estimación de b�i. Por último, en elcapítulo anterior, para calcular esta varianza había que expresar b�i = e0i

b� y en-tonces V ar(b�i) = e0i(X

0X)�1ei�2, o lo que es lo mismo, tomar el elemento ii de

�b� = (X0X)�1�2. En ambos casos implicaba labosiosos cálculos de multiplicacióne inversión de matrices.

Conclusion 13. Los restantes b�j (de los xj de V(i)), se pueden obtener comolas coordenadas de la Pr(Y � b�ix j V(i)) en los xj de V(i), o sea:nb�j para j 6= io = coordenadas de la Pr(Y � b�ixi j V(i)) en �x1;x2; ; ;xi�1;xi+1; ; ; ;xk�

Proof. De (1.4) resultabY(i) � b�ibxi = Pr(Y � b�ixijV(i)) = b�1x1+ � �+b�i�1xi�1 + b�i+1xi+1 + � �+b�kxky de aquí la tesis. �

En general este cálculo debe hacerse conjuntamente. Sin embargo, y esto sueleser muy útil, cuando los xj de V(i) sean mutuamente ortogonales, se pueden calcular

por separado mediante b�j = <Y�b�ixi;xj>kxjk2

.

Conclusion 14. Si se calcularon x?i y x?(j) se demuestra fácilmente que:

Cov(b�i; b�j) = <x?i ;x?(j)>

kx?i k2 x?(j) 2�

2 y también �(b�i; b�j) = cos h�angulo(x?i ;x?(j))i

Page 105: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. CÁLCULO DE PROYECCIONES Y COORDENADAS 105

Como la Cov(b�i; b�j) es el ij esimo elemento de la matriz �b� = (X0X)�1�2, estaexpresión proporciona otra forma de cálculo sin invertir X0X. Notar además quesi x?i ?x?(j), resultarán b�i y b�j independientes(bajo normalidad).

Finalmente se repetirán dos proposiciones ya vistas en capítulos anteriores quese utilizarán frecuentemente en lo que sigue.

Proposition 72. <x;by>=<bx;y>=<bx;by> (dondebsigni�ca Pr(� j V ))Esta se utilizará para simpli�car algunas expresiones, por ejemplo al escribir

< Y;x?i >=< Y?(i);x

?i >, o también < Y; bY >=< bY; bY >=

bY 2, donde x?i =Pr(x jV ?(i)) y bY = Pr(Y j V ) respectivamente.

Proposition 73. Sea Y �Nn(�;�2In), y a;b; ::vectores constantes de Rn.

(1) <a;Y> � N1(<a;�>; kak2 �2)(2) Cov(<a;Y>;<b;Y>) = <a;b>�2

(3) Si a?b () <a;Y> y <b;Y> son independientes(4) (<a1;Y>,<a2;Y>,��;<ak;Y>)0 es un vector normal multivariado.Estas se utilizarán ya que muchas expresiones quedarán expresadas como pro-

ductos escalares, entonces para calcular sus medias o varianzas serán útiles las dosprimeras. Y además, si se tienen dos estimadores, donde el primero depende de<a;Y>, y el segundo de <b;Y>; entonces si a y b son ortogonales, con la tercerase podrá deducir que los estimadores son independientes.

Como en análisis de varianza los vectores columna de la matriz de diseño suelenestar compuestos únicamente por ceros y unos, se dará una expresión para calcularproyecciones sobre dichos vectores. Sea Y 2 Rn, A un conjunto de índices, ycA 2 Rn un vector que tiene "unos" en sus coordenadas que corresponden a indicesen A, y las restantes son "ceros". Luego

Pr(Y j cA) = bYcA =< Y; cA >

kcAk2cA =

Pi2AYi

nAcA = Y AcA

o sea bYcA tiene "ceros" en los mismos indices que cA, y en las restantes coordenadasvale Y A. Por ejemplo si Y = (2; 8; 15; 4)

0, y cA = (0; 1; 0; 1)0 (o sea A = f2; 4g), setendrá Pr(Y j cA) = (0; 6; 0; 6)0.

Example 27. Se analizará nuevamente el problema de regresión lineal simpledel ejemplo (25). Expresado vectorialmente Y = j�0+x�1+", con " �Nn(0;�2In).Aquí V = L(j;x) con j y x, en general no ortogonales. Sea

bx = Pr(x j j) =< x; j >kjk2

j =xj = (x; x; ��; x)0 = x

(a este vector se lo suele llamar vector x raya), y entonces

x? = x�bx = (x1 � x; x2 � x; ��; xn � x)0 = x�(a este vector de desviaciones se lo suele llamar x centrado). Ahora sí se plantea:V = L(j)� L(x?). Luego

b�1 = < Y;x? >

kx?k2=< Y?;x? >

kx?k2=

P(Yi � Y )(xi � x)P

(xi � x)2

Page 106: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

106 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

Para obtener b�0, hay que hallar la coordenada de la proyección de Y�b�1x sobre jb�0 = < Y�b�1x; j >

kjk2=

PYi � nb�1xn

= Y � b�1xLuego fácilmente V ar(b�1) = �2=

x? 2 = �2=P(xi � x)2. Para la V ar(b�0),

si se obtuvo j?, se calcularía como �2= j? 2. Quizás más simple es notar que

Y = <Y;j>kjk2 , y

b�1 = <Y;x?>kx?k2 pero al ser j?x?, resultarán Y y b�1 independientes,

luego

V ar(b�0) = �2

n+

�2P(xi � x)2

x2 = �2(1

n+

x2P(xi � x)2

)

Para estimar �2, se necesita el error estimado b" = Y� bY pero

bY = Pr(Y j j) + Pr(Y j x?) = < Y; j >

kjk2j+

< Y;x? >

kx?k2x? = Y + b�1x?

debido a la ortogonalidad bY 2 = Y 2 + b�21 x? 2, y luego

kb"k2 = kYk2 � Y 2 � b�21 x? 2 = Y �Y 2 � b�21 x? 2y �nalmente S2 = kb"k2 =(n� 2) = �P(Yi � Y )2 � (P(Yi�Y )(xi�x))

2P(xi�x)2

�=(n� 2).

Example 28. Se tienen datos de edad xi y altura Yi de n menores(de entre 5 y10 años) de ambos sexos. Interesa estudiar la altura, conociendo la edad del menor.Aceptando una relación lineal entre altura media y edad, se podrían plantear dosmodelos: para varones Yvi = hv + bvxi + "vi con "vi � N(0;�2v); y para mujeresYmi = hm + bmxi + "mi con "mi � N(0;�2m). Estos son dos modelos, que podríanresolverse con dos ML separados, MLv y MLm. Pero supóngase que es razonableaceptar que las pendientes de crecimiento en ambos sexos son las mismas, o seabv = bm = b, y que los errores tienen iguales varianzas, �2v = �

2m = �

2. Se tendranentonces los modelos

Yv = jhv+xvb+"v con "vi � N(0;�2) y Ym = jhm+xmb+"m con "mi � N(0;�2)

Pero como entre estos dos modelos hay parámetros comunes, decididamente con-viene uni�carlos en un solo ML, para aprovechar toda la información disponible,y obtener mejores estimadores. Si se usan los vectores indicadores de sexo jv =(1; ��; 1; 0; ��; 0)0 con tantos 1 como cantidad de varones nv, y jm = (0; ��; 0; 1; ��; 1)0con tantos 1 como cantidad de mujeres nm, donde nv + nm = n, podría plantearse:

Y = jvhv + jmhm + xb+ ", con " �Nn(0;�2In)

O expresado matricialmente:

Y = X� + " =

266666641 0 x1�� �� x21 0 x30 1 x4�� �� ��0 1 xn

3777777524hvhmb

35+ " con " �Nn(0;�2In)

Page 107: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. COEFICIENTE DE CORRELACIÓN SIMPLE, Y PARCIAL 107

En este problema V = L(jv; jm;x) pero estos vectores no son mutuamente ortogo-nales. Tomando V(x) = L(jv; jm) se calcula

bx = Pr(x j jv) + Pr(x j jm) = < x; jv >

kjvk2jv +

< x; jm >

kjmk2jm = xvjv + xmjm

y entoncesx? = x�bx = (��; (xi � xv); �� j ��; (xi � xm); ��)

Ahora sí, como V = L(jv; jm) � L(x?) y teniendo en cuenta que Y? tiene igualaspecto que x?, se tendrá

bb = < Y;x? >

kx?k2=< Y?;x? >

kx?k2=

P(Yi � Y v)(xi � xv) +

P(Yi � Y m)(xi � xm)P

(xi � xv)2 +P(xi � xm)2

y la varianza de bb seráV ar(bb) = �2

kx?k2=

�2P(xi � xv)2 +

P(xi � xm)2

Para estimar bhv y bhm, se buscarán las coordenadas de la proyección de Y�bbx, enlos jv y jm de V(x) = L(jv; jm). Pero como jv?jm, se pueden calcular por separado

bhv = < Y �bbx; jv >kjvk2

=< Y; jv >

nv�bb< x; jv >

nv= Y v �bbxv

bhm = < Y �bbx; jm >kjmk2

=< Y; jm >

nm�bb< x; jm >

nm= Y m �bbxm

Para estimar �2, se necesita el error estimado b" = Y� bY pero

bY = Pr(Y j L(jv; jm)) + Pr(Y j x?) = Y vjv + Y mjm +< Y;x? >

kx?k2x?

bY = Y vjv + Y mjm +bbx?debido a la ortogonalidad

bY 2 = nvY 2v + nmY 2m +bb2 x? 2, y luegokb"k2 = kYk2 � bY 2 =XY 2i � nvY

2

v � nmY2

m �bb2 x? 2y �nalmente resultará S2 = kb"k2 =(n� 3).

2. Coe�ciente de correlación simple, y parcial

2.1. Correlación simple. Sea un par de variables aleatorias X e Y que sedistribuyen según una normal multivariada, o sea�

XY

�� N2(

��x�y

�;

��2x ��x�y

��x�y �2y

�)

entonces resultará también que X � N(�x;�x) y Y � N(�y;�y). Si ahora se tomauna muestra independiente del par (X;Y )0, por ejemplo

(X1;Y1)0; (X2;Y2)

0; ��; (Xn;Yn)0

Page 108: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

108 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

y se aplica el método de máxima verosimilitud para estimar �, se obtiene b� = rx;yel coe�ciente de correlación muestral

rx;y =

P(Xi �X)(Yi � Y )qP

(Xi �X)2qP

(Yi � Y )2

Se le dará otra forma a esta expresión. Considerando a la primera y segunda coorde-nada de los pares (Xi;Yi)0 como vectores en Rn, se tendrá queX = (X1;X2; ��; Xn)0,Y = (Y1;Y2; ��; Yn)0, conX �N(j�x;�2xIn) eY �N(j�y;�2yIn) y entonces planteandolos modelos lineales

X = j�x+"x con "x � Nn(0;�2xIn) y Y = j�y+"y con "y � Nn(0;�2yIn)

pero ahora "x y "y son dependientes, ya que por ejemplo Cov("xi; "yi) = ��x�y.Notar que b"x = X�Pr (X j j) = X�X, y b"y = Y�Pr (Y j j) = Y�Y, entonces laexpresión de arriba se puede escribir

rx;y =<b"x;b"y>kb"xkkb"yk = <X�X;Y�Y>

kX�XkkY�Yk = cos [�angulo(b"x;b"y)]o sea, el coe�ciente de correlación muestral es el coseno del ángulo entre los resid-uales b"x y b"y respecto de j (ver Figura 3), y si estos vectores son ortogonales,rx;y = 0. De otra manera, si los vectores X e Y se proyectan sobre el subespacioortogonal a j, el coseno del ángulo entre los vectores proyectados será rx;y.

Figura 3 : Correlaci�on simple

Por último, aunque los vectores X e Y no provengan de una muestra indepen-diente (X1;Y1)0; (X2;Y2)0; ��; (Xn;Yn)0 de una normal multivariada, la de�niciónanterior se toma como de�nición general de la correlación entre dos vectores aleato-rios. En este caso rx;y será una medida del grado de asociación lineal entre X eY.

Page 109: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. COEFICIENTE DE CORRELACIÓN SIMPLE, Y PARCIAL 109

2.2. Correlación parcial. Sean las variables aleatoriasX;Y; Z1; Z2; ��; Zk quese distribuyen según una normal multivariada, o sea266664

XYZ1��Zz

377775 � N2+k(266664�x�y�1���k

377775 ;266664�2x �xy �x1 �� �xz�yx �2y �y1 �� �yz�1x �1y �11 �� �1z�� �� �� �� ���zx �zy �z1 �� �zz

377775)Si ahora se suponen las Z1; Z2; ��; Zk conocidas, e interesa el comportamiento delvector U =

�XY

�, habrá que estudiar el vector aleatorio condicional�

XY

�= [Z1 = z1; Z2 = z2; ��; Zk = zk]

Si se designa z= [z1; z2; ��; zk]0, y con la apropiada partición de la matriz de covari-anza original, usando la proposición-56 , se tendrá�

XY

�=(Z = z) � N2(

��x�y

�+�uz�

�1zz (z� �);�uu ��uz��1zz �zu)

Operando, a esta expresión se le puede dar la forma�XY

�=(Z = z) � N2(

��x + (z1 � �1)�x1 + � �+(zk � �k)�xk�y + (z1 � �1)�y1 + � �+(zk � �k)�yk

�;

��21 ���1�2

���1�2 �22

�)

donde ��, el coe�ciente de correlación entre X y Y condicionadas a Z, es el lla-mado coe�ciente de correlación parcial. Observar también que las distribucionesmarginales son

X=(Z = z) � N(��x+z1�x1+��+zk�xk;�21) y Y=(Z = z) � N(��y+z1�y1+��+zk�yk;�22)

Para estimar ��, se toma una muestra independiente de (X;Y; Z1; Z2; ��; Zk)0, porejemplo

(X1; Y1; z11; z21; ��; zk1)0; (X2; Y2; z12; z22; ��; zk2)0; ��; (Xn; Yn; z1n; z2n; ��; zkn)0

y aplicando máxima verosimilitud sobre la densidad condicional se llega al estimadormuestral de b�� = rx;y�z. Los desarrollos matemáticos son complicados, pero ahorase dará su expresión utilizando modelos lineales. Considerense los vectores X yY de Rn, y el subespacio V = L(j;z1;z2; ��;zk) � Rn. Si se plantean los modeloslineales

X = j�x0+z1�x1+z2�x2+zk�xk+"x y Y = j�y0+z1�y1+z2�y2+zk�yk+"y

resultará, b"x�V =X�Pr(Xj V ) =X�bX, y b"y�V =Y�Pr(Y j V ) =Y� bY, pero estosvectores en general serán dependientes. Notar que b"x�V contiene la información enX, que no se puede predecir linealmente con las zi de V , y similarmente b"y�V lainformación en Y , que no se puede predecir linealmente con las zi de V . Se de�neentonces el coe�ciente de correlación parcial muestral entre X y Y respecto de V ,con notación rx;y�V , al coe�ciente de correlación simple entre los residuales b"x�Vy b"y�V respecto de V (que coincide con el que se hubiese obtenido por máximaverosimilitud)

rx;y�V = rb"x�V ;b"y�V = <b"x�V ;b"y�V >kb"x�V kkb"y�V k = <X�bX;Y�bY>

kX�bXkkY�bYk = cos [�angulo(b"x�V ;b"y�V )]

Page 110: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

110 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

Si se compara con la de�nición de correlación simple, se notará que son casi iguales,ya que en ambos casos se trata del coseno del angulo entre residuales: respecto deL(j) en correlación simple, y respecto de L(j;z1;z2; ��;zk) en correlación parcial.Notar también que, de acuerdo al desarrollo realizado, en el ajuste, j debe incluirseen V .

De otra manera, si los vectoresX e Y se proyectan sobre el subespacio ortogonala V , el coseno del ángulo entre los vectores proyectados será rx;y�V . Además siV = L(j), la correlación parcial y simple coinciden, o sea rx;y� V = rx;y.

Por último, aunque los vectores X e Y no provengan de una muestra indepen-diente de una normal multivariada, la de�nición anterior se toma como de�nicióngeneral de la correlación parcial entre dos vectores aleatorios. En este caso rx;y�Vserá una medida del grado de asociación lineal entre la información en X e Y queno se puede predecir linealmente con los vectores de V .

3. Coe�ciente de determinación o R2

Se de�nirá una medida de la bondad de ajuste en un ML. Pero por motivosque se comentarán mas adelante, se exigirá que el ML incluya el intercept, o seaque j 2V = C(X). En primer lugar, si se ajusta el modelo lineal reducido ML0 :Y = j�0 + "0 con "0�Nn(0;�2In), se obtendrá el error estimado b"0 = Y � Y.Este error de ajuste tendrá kb"0k2 presumiblemente grande, ya que solo se estáutilizando j en la predicción. Si ahora se plantea el modelo total ML : Y = X�+ "

con " �Nn(0;�2In), se obtendrá un error estimado b"= Y � bY, que seguramentetendrá kb"k2 menor ya que ahora se usa toda la información de la matriz de diseñoen el ajuste. De otra manera, cuanto menor sea kb"k2 = kb"0k2, mejor será el ajuste ymayor será el aporte de los restantes predictores de X, en la predicción. Se de�neentonces (ver Figura 4)

R2 = 1� kb"k2kb"0k2

Como en el ML kb"k2 � kb"0k2, resultará siempre 0 � R2 � 1. Si R2 = 0, serákb"k2 = kb"0k2, y entonces el modelo completo no mejora en nada el ajuste respectode ML0. Por otro lado, si R2 = 1, es porque kb"k2 = 0, o sea b" = 0. En este caso Yestaría en V , lograndose el ajuste perfecto sin error. Desde ya no es lo común enlas aplicaciones.

Observando la �gura, b"0 = Y �Y = (Y � bY) + ( bY �Y) = b"+ ( bY �Y) perocomo b"?V y ( bY � Y) 2 V se trata de una descomposición ortogonal, entonces

kb"0k2 = kb"k2 + bY �Y 2.Como kb"0k2 = Y �Y 2 =P(Yi � Y )2 es la suma decuadrados obtenida cuando solo se ajusta la constante (Y = j�0 + "0), tambiénllamada la variabilidad total de Y, entonces, si se expresa (ver Figura 4)

R2 = kb"0k2�kb"k2kb"0k2 =

kbY�Yk2kY�Yk2

R2 se interpreta como la proporción en que se reduce la variablidad de Y, al utilizar

el modelo completo. O también si se llama a bY �Y 2 la suma de cuadrados

debida a la regresión, R2 se interpreta como la proporción de la variabilidad totalde Y que es explicada por la regresión.

Notar que la exigencia de que j 2V = C(X) no quiere decir que j sea una de lascolumnas de X, ya que bastaría con que alguna combinación lineal de las mismas de

Page 111: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. COEFICIENTE DE DETERMINACIÓN O R2 111

como resultado j. Sin embargo en las aplicaciones es usual que el modelo completoincluya explicitamente a j, o sea, Y = j�0 + x1�1 + � � +xk�1�k�1 + ". En estecaso R2 se interpreta como la proporción en que se reduce la variabilidad de Y, alagregar las variables explicativas x1;x2; ��;xk�1.

En la de�nición de este indicador se exigió que j 2V = C(X). Sin embargo aveces interesa un modelo lineal en que j =2V (son los modelos sin intercept, en dondeningún xi es igual a j, ni tampoco ninguna combinación lineal de los xi es igual aj). En este caso también resulta b"0 = Y�Y = (Y� bY)+ ( bY�Y) = b"+( bY�Y),con b"?V , pero ahora ( bY �Y) =2 V (pues Pr(Y j j) = Y j =Y =2 V ). Al no ser unadescomposición ortogonal, kb"k2 no es una parte de kb"0k2, y podría obtenerse unR2 < 0. Piensese por ejemplo que j este muy "cerca" de Y, entonces en este casokb"0k2 sería pequeño, y podria resultar kb"k2 = kb"0k2 > 1, o sea R2 < 0. Por estosmotivos R2 no es un buen indicador cuando j =2V , y algunos han propuesto para estasituación el indicador R2� = 1�

kb"k2kYk2 . En realidad este no es un problema menor de

R2, ya que si se tiene que elegir entre varios posibles ML�s, es conveniente disponerde un único indicador para realizar la elección. Por otro lado este problema se agravasi alguno de los modelos son no lineales, o lineales luego de haber transformado losdatos. En otro capítulo se analizarán alternativas para estos casos.

Se dará ahora otra caracterización de R como el coe�ciente de correlación simpleentre Y y bY. Primeramente notar que Pr(Y j j) = Y, y que Pr( bY j j) = Y (puesse supone que j 2 V ), luego (ver Figura 4)

ry;by = <Y�Y;bY�Y>kY�YkkbY�Yk = <bY�Y;bY�Y>

kY�YkkbY�Yk = kbY�Yk2kY�YkkbY�Yk = k

bY�YkkY�Yk = R

Figura 4 : Interpretaci�on geom�etrica de R2

Por último se relacionará a R con un concepto que se estudia también en análi-sis multivariado, que es el de coe�ciente de correlación múltiple. Dado el vectorY, y los vectores x1;x2; ��;xk, el coe�ciente de correlación múltiple entre Y y losx1;x2; ��;xk, con notación ry�(x1;x2;��;xk), es la máxima correlación simple entre Y ytodas las combinaciones lineales �1x1 + �2x2 + � �+�kxk o sea

ry�(x1;x2;��;xk) = m�ax�1�2���k

Corr [Y;�1x1 + �2x2 + � �+�kxk]

Page 112: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

112 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

pero como la correlación simple es el coseno del ángulo entre los residuales de Y yla combinación lineal, respecto de j, será máxima cuando el ángulo sea mínimo, yse demuestra que esto se dará para una combinación lineal c bY con c > 0. Luego

dicha correlación máxima será CorrhY; c bYi = Corr hY; bYi, que si j 2 V es igual

a R (ver punto anterior) o sea:

ry�(x1;x2;��;xk) = R

4. Variación de R2 al incorporar predictores

Supongase que se tiene un modelo con k predictores, o sea Vk = L(j;x1;x2; ��;xk),y se desea incorporar un nuevo predictor xk+1, entonces Vk+1 = L(j;x1;x2; ��;xk;xk+1).Los modelos en estudio son

Y = j�0+x1�1+x2�2 + � �+xk�k + "k con "k � Nn(0;�2In)

Y = j�0+x1�1+x2�2 + � �+xk�k + xk+1�k+1 + "k+1 con "k+1 � Nn(0;�2In)

y planteando Vk+1 = Vk � L(x?k+1) con x?k+1 = xk+1 � Pr(xk+1 j Vk) resulta

bYk+1 = bYk +< Y;x?k+1 > x?k+1 2 x?k+1 o sea b"k = b"k+1 + < Y;x?k+1 > x?k+1 2 x?k+1

Como estos últimos son ortogonales

(4.1) kb"kk2 = kb"k+1k2 + < Y;x?k+1 >2 x?k+1 2y reemplazando en la expresión de R2 queda

R2k+1 = R2k +

< Y;x?k+1 >2 x?k+1 2 Y �Y 2

pero notar que al ser x?k+1?j, también será x?k+1?Y, o sea < Y;x?k+1 >= 0. Estoimplica que < Y;x?k+1 >=< Y�Y;x?k+1 >, pero entonces reemplazando resultará<Y�Y;x?k+1>kx?k+1kkY�Yk

= ry;x?k+1 y entonces queda

R2k+1 = R2k + r

2y;x?k+1

o también r2y;x?k+1

= R2k+1 �R2k

y esta relación a�rma que el incremento absoluto deR2 con un nuevo predictor xk+1,coincide con el cuadrado del coe�ciente de correlación entre Y, y la informaciónnueva aportada por el predictor al modelo, o sea x?k+1. Notar aquí que aunquese elija muy bien el nuevo predictor xk+1, la correlación ry;x?k+1 no podrá tomar

cualquier valor entre �1 y 1, ya que al ser el R2k+1 máximo posible 1, vale laacotación r2

y;x?k+1� 1 � R2k, donde 1 � R2k es la mejora total de ajuste posible.

Procediendo inductivamente es simple demostrar también la siguiente expresiónpara R2

R2k = r2y;x?1

+ r2y;x?2

+ r2y;x?3

+ � �+r2y;x?k

Se analizará ahora la correlación parcial entre Y y xk+1 respecto de Vk, o seary;xk+1�Vk . Por de�nición es la correlación simple entre Pr(Y j V ?k ) = b"k = Y� bYk

Page 113: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

5. SIGNIFICACIÓN DE UN NUEVO PREDICTOR 113

y Pr(xk+1 j V ?k ) = x?k+1 , y como la proyección de estos dos vectores sobre j esnula será

r2y;xk+1�Vk =< b"k;x?k+1 >2kb"kk2 x?k+1 2 =

< Y � bYk;x?k+1 >

2

kb"kk2 x?k+1 2 =< Y;x?k+1 >

2

kb"kk2 x?k+1 2y usando (4.1) queda r2y;xk+1�Vk =

kb"kk2�kb"k+1k2kb"kk2 o sea

(4.2) r2y;xk+1�Vk = 1�kb"k+1k2kb"kk2 = R2k+1(parcial)

Notar que R2k+1 compara el modelo con Vk+1 con el de V0 = L(j) a través deR2k+1 = 1�

kb"k+1k2kb"0k2 , siendo esta una medida del ajuste total obtenido. Pero según

la expresión anterior el r2y;xk+1�Vk compara el modelo con Vk+1 con el de Vk, siendouna medida diferencial del ajuste debido a xk+1. Por eso r2y;xk+1�Vk suele tambiénllamarse coe�ciente de determinación parcial.

Por último si se divide numerador y denominador de la primera de la (4.2) por Y �Y 2, y reagrupando, resulta la expresión(4.3) r2y;xk+1�Vk =

R2k+1�R

2k

1�R2k

Notar que así como r2y;x?k+1

= R2k+1�R2k mide el incremento de ajuste al introducirun nuevo predictor, según esta expresión r2y;xk+1�Vk mide este incremento, perorelativo a la mejora total de ajuste posible 1�R2k.

5. Signi�cación de un nuevo predictor

Nuevamente, si se tiene un modelo con k predictores, o sea Vk = L(j;x1;x2; ��;xk),y se desea incorporar un nuevo predictor xk+1, tendremos Vk+1 = L(j;x1;x2; ��;xk;xk+1).El R2 del modelo ampliado casi seguramente aumentará, sin embargo sería intere-sante que el test H0 : �k+1 = 0 vs Ha : �k+1 6= 0 arroje un resultado signi�cativo.Se analizará esta cuestión. El modelo en estudio es

Y = j�0+x1�1+x2�2 + � �+xk�k + xk+1�k+1 + "k+1 con "k+1 � Nn(0;�2In)

planteando Vk+1 = Vk � L(x?k+1) con x?k+1 = xk+1 � Pr(xk+1 j Vk) resulta

b�k+1 = < Y;x?k+1 > x?k+1 2 y V ar(b�k+1) = �2= x?k+1 2recordando de la (4.1) que kb"kk2�kb"k+1k2 = <Y;x?k+1>

2

kx?k+1k2y como S2 = kb"k+1k2 =(n�

k � 2), aplicando el test de Student

t2n�k�2 =b�2k+1dV ar(b�k+1) =

< Y;x?k+1 >2 x?k+1 2 kb"k+1k2 (n�k�2) =

kb"kk2 � kb"k+1k2kb"k+1k2 (n�k�2)

si en esta expresión usa la (4.2): r2y;xk+1�Vk = 1�kb"k+1k2kb"kk2 queda

(5.1) t2n�k�2 =r2y;xk+1�Vk1�r2y;xk+1�Vk

(n� k � 2)

Page 114: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

114 8. R2, CORRELACIÓN MÚLTIPLE Y PARCIAL

Esta relación es importante, y a�rma que la signi�cación de �k+1, del predictoragregado, depende del coe�ciente de correlación parcial entre Y y xk+1(respectode Vk).

Example 29. Se supondrá un ML con n observaciones y k predictores. Si sequiere agregar otro predictor xk+1, para que el test H0 : �k+1 = 0 resulte signi�ca-tivo al nivel �, deberá ser t2n�k�2 � t2n�k�2;1��

2= t2cr, o sea, según la (5.1)

r2y;xk+1�Vk1� r2y;xk+1�Vk

(n� k � 2) � t2cr o sea r2y;xk+1�Vk �1

1 + n�k�2t2cr

Por ejemplo si n = 20, y k = 4, y tomando � = 0:05, resulta tcr = 2:145, yentonces para lograr signi�cación deberá ser r2y;xk+1�Vk �

11+ 14

2:1452= 0:247. Además

recordando la expresión (4.3) se tendrá que

R2k+1 �R2k = r2y;xk+1�Vk(1�R2k)

luego si por ejemplo r2y;xk+1�Vk = 0:25, el incremento absoluto de R2 que se obtendrá

con la incorporación, será la cuarta parte, de la mejora total posible. O sea, cuantomayor sea R24, menor será el incremento absoluto de R

2.

5.1. Comentarios respecto de la incorporación de predictores. En laetapa de de�nición de un ML, es común disponer de un número grande de variablespredictoras, y hay que decidir cuales conviene incluir en el modelo. Una opciónsería incorporarlas a todas. Notar que en este caso V tendrá mayor dimensión,lograndose un error de ajuste b" = Y� bY con kb"k2menor, y por lo tanto el R2 serámayor. Esto es bueno ya que mejora el ajuste. Sin embargo, como S2 = kb"k2 =(n�dim(V )), aunque el numerador disminuya, al aumentar dim(V ), disminuye tambiénel denominador, y entonces no necesariamente S2 será menor. De todas maneras,aunque se logre un S2 menor, tendrá menos grados de libertad, lo que implicamayor incertidumbre en todos los estimadores que surjan del modelo.

Pero hay todavía un efecto mas sutil en este tema. Recuérdese que la varianzade un coe�ciente, por ejemplo b�i se estima mediante S2= x?i 2 = S2=dist2(xi;V(i)).Entonces al agregar predictores, como V(i) tendrá mayor dimensión, muy posible-mente alguna dist(xi;V(i)) disminuya, lo que hará aumentar la varianza del corre-spondiente estimador.

Page 115: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 9

Pruebas de hipótesis

1. Prueba H0 : � 2 V0 � V

En la de�nición de un ML

Y �Nn(�;�2In) con � = X� 2V = C(X)

la matriz X 2 Rn�k de rg(X) = r � k, puede ser de rango completo o no, pero loque siempre debe cumplirse es que � 2V subespacio de dimensión r de Rn, ya queesta es una hipótesis del modelo. En otro capítulo se analizarán las consecuenciasde este incumplimiento. Ahora se quiere ver si en realidad � no pertenecerá a unsubespacio menor, V0 de dimensión r0, incluído en V , o sea probar las hipótesis

H0 : � 2V0 vs Ha : � =2V0 (donde V0 � V y siempre � 2V )

Dejando para el �nal de esta sección la justi�cación del procedimiento, se lo analizaráintuitivamente. Si se busca el complemento ortogonal de V0 dentro de V se tendrá

V = V0 � V1 con V1 = V?0 \ V y también dim(V1) = r � r0

pero como � =Pr(� j V0) + Pr(� j V1) = �0+�1 con �0?�1, si H0 es válida, �no tendrá proyección sobre V1, o sea �1 = 0. De aquí resulta que las hipótesis atestear son equivalentes a

H0 : �1 = 0 vs Ha : �1 6= 0

Se buscará un estimador para �1 = Pr (�=V1). En principio lo natural seríaproyectar directamente Y sobre V1 y utilizar bY1 = Pr (Y=V1), ya que E( bY1) =E(Pr (Y=V1)) =Pr (E(Y)=V1) = �1 , insesgado. Pero se hará esto ajustando dosmodelos lineales (ver la Figura 5).

Si se ajusta el ML0: Y �Nn(� 2V0;�2In), se obtiene bY0 = Pv0Y y entonces( bY0 = Pr (Y=V0)

E( bY0) = Pr (�=V0) = �0con dim(V0) = r0

resultando

(1.1) kbY0k2�2 � �2r0(

k�0k2�2 ) con E(

bY0

2) = r0�2 + k�0k2Si se ajusta el ML: Y �Nn(� 2V ;�2In) se obtendrá bY = PvY. Pero como

V0 � V , resultará bY � bY0 = (Pv �Pv0)Y = Pv1Y =Pr (Y=V1) o sea( bY � bY0 = Pr (Y=V1)

E( bY � bY0) = Pr (�=V1) = �1con dim(V1) = r � r0

115

Page 116: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

116 9. PRUEBAS DE HIPÓTESIS

Luego bY � bY0 es un estimador insesgado de �1, y entonces

(1.2) kbY�bY0k2�2 � �2r�r0(

k�1k2�2 ) con E(

bY � bY0

2) = (r � r0)�2 + k�1k2y �nalmente para el ML grande, valen(

Y � bY = Pr (Y=V ?)

E(Y � bY) = Pr (�=V ?) = 0 con dim(V ?) = n� r

y entonces

(1.3) kY�bYk2�2 � �2n�r con E(

Y � bY 2) = (n� r)�2

Figura 5 : prueba de hip�otesis H0 : � 2V0 vs Ha : � =2V0

Utilizando las segundas partes de (1.1), (1.2) y (1.3) se han encontrado tres es-

timadores para �2: el primero, S20 = bY0

2 =r0, es sesgado ya que E(S20) =�2 + k�0k2

r0; el segundo, S21 =

bY � bY0

2 =(r � r0), también es sesgado ya queE(S21) = �

2 + k�1k2(r�r0) ; y el tercero, S

2 = Y � bY 2 =(n� r), es siempre insesgado,

y es el estimador de varianza usual empleado en un modelo lineal. Además comobY0, bY � bY0 y Y � bY son mutuamente ortogonales, S20 ; S21 y S

2son estimadores

independientes. Si se designa a �2 + k�1k2(r�r0) = �21, notar que si H0 : �1 = 0 es

válida, la �2r�r0 de (1.2) será centrada, y resultará�21�2 = 1, luego el test buscado,

al menos para determinar la región crítica, equivaldría a la prueba de Fischer paracomparar dos varianzas, o sea H0 :

�21�2 = 1 vs Ha :

�21�2 > 1. De aquí que este

análisis se denomine análisis de la varianza. Sin embargo la equivalencia no es to-tal, ya que para �1 6= 0, la no centralidad de la �2r�r0 hace inaplicable este test (y

Page 117: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. PRUEBA H0 : � 2 V0 � V 117

esto es necesario en cálculos de potencia). Reordenando y dividiendo las primerasexpresiones de (1.2) y (1.3) se obtiene

kbY�bY0k2(r�r0)�2

kY�bYk2(n�r)�2

=�2r�r0(

k�1k2�2 )=(r � r0)

�2n�r=(n� r)� Fr�r0;n�r(

k�1k2

�2)

y como es usual, escribiendo k�� �0k2 en lugar de k�1k

2

(1.4) kbY�bY0k2=(r�r0)kY�bYk2=(n�r) � Fr�r0;n�r(�) con � = k���0k2

�2

Notar que si H0 es válida, �1 = � � �0 = 0, y tanto el numerador como eldenominador estiman insesgadamente la misma �2, resultando para el estadísticoun valor alrededor de 1; pero si es cierta Ha, el estadístico será tanto más grandecuanto mayor sea k�� �0k

2.De acuerdo a lo anterior, si H0 es cierta, � = 0, la F será centrada, y entonces

la zona crítica de nivel � será para Fr�r0;n�r � fr�r0;n�r;1��. Por otro lado lapotencia de este test para una alternativa � se calculará mediante

�(�) = P (Fr�r0;n�r(�) � fr�r0;n�r;1��)

Pero falta calcular � = k�1k2�2 . Sin embargo como bY1 = bY� bY0 = Pv1Y y también

�1 = Pv1�, luego si en la misma expresión que se usa para calcular bY � bY0

2 sereemplaza Y por �, se obtendrá k�1k

2 y de aquí �.Si se tiene en cuenta que lo que se ha hecho es descomponer Y 2 Rn ortogo-

nalmente según Rn = V0�V1�V ?, lo anterior se suele disponer según la siguientetabla de Análisis de la varianza, donde, para las tres primeras �las:

� Espacio : subespacio sobre el que se proyecta� df : dimensión del subespacio (grados de libertad)� Fuente : concepto que mide la proyección� SC : suma de cuadrados de la proyección� SC : los tres estimadores independientes de varianza(al dividir SC=df)� E(SC) : los valores esperados de estos estimadores

siendo la última �la la del total(que suele no incluirse en esta tabla).

Fuente Espacio df SC SC E(SC)

�0 V0 r0

bY0

2 bY0

2 =r0 �2 + k�0k2r0

�1 V1 r � r0 bY � bY0

2 bY � bY0

2 =(r � r0) �2 + k���0k2(r�r0)

Error V ? n� r Y � bY 2 Y � bY 2 =(n� r) �2

Total Rn n kYk2 kYk2 =n �2 + k�k2n

Por último, una variante de este test se presenta si se quiere probar si � pertenecea una variedad lineal, o sea

H0 : � 2 ��+V0 vs Ha : � =2 ��+V0 (donde V0 � V y ��2V )como esto es equivalente a

H0 : �� �� 2V0 vs Ha : �� �� =2V0 (donde V0 � V y ��2V )para efectuar el test bastara reemplazar Y por Y� = Y � ��.

Page 118: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

118 9. PRUEBAS DE HIPÓTESIS

1.1. Test de razón de verosimilitud. Dado el ML: Y �Nn(�;�2In) con� = X� 2V = C(X), se justi�cará ahora el procedimiento analizado para probarlas hipótesis

H0 : � 2V0 vs Ha : � =2V0 (donde V0 � V y siempre � 2V )

La verosimilitud es(1.5)

L�;�2(y) = L(�;�2) =

1

(2�)n2 j�j

12

e�(y��)0��1(y��)

2 =1

(2�)n2 (�2)

n2e�

ky��k2

2�2 para �2 > 0

y como dim(V0) < dim(V ), el estadístico de razón de verosimilitud para probar lashipótesis planteadas es

(1.6) L = Sup�2V

�L(�;�2)

�= Sup�2V0

�L(�;�2)

�Pero cuando se estudió la estimación de (�;�2) por máxima verosimilitud, se vióque cuando � 2V , el supremo del numerador se realizaba en � =Pr (Y jV ) = bY, y�2 =

Y� bY 2 =n. Si se reemplaza en (1.5) se tendráSup�2V

�L(�;�2)

�=

�2�e

n

Y� bY 2��n2

Haciendo lo mismo cuando � 2V0, el supremo del denominador se realizará en� =Pr (Y jV0) = bY0, y �2 =

Y� bY0

2 =n. Si se reemplaza en (1.5) se tendráSup�2V0

�L(�;�2)

�=

�2�e

n

Y� bY0

2��n2

Luego estadístico de razón de verosimilitud(1.6) valdrá

L =

264 Y� bY0

2 Y� bY 2375

n2

y se rechaza para L � cte, o sea kY�bY0k2

kY�bYk2 � cte. Recordando que debido a la ortog-onalidad vale

Y� bY0

2 = bY� bY0

2+ Y� bY 2, se rechazará para kbY�bY0k2kY�bYk2 +1 �

cte, o sea para kbY�bY0k2kY�bYk2 � cte�. Que se puede expresar bY� bY0

2 =(r � r0) Y� bY 2 =(n� r) � cte��Pero esto es el mismo test (1.4), obtenido antes con otros razonamientos.

Page 119: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. PRUEBA H0 : � 2 L(U) � Rk 119

2. Prueba H0 : � 2 L(U) � Rk

Igual que en el desarrollo anterior a la matriz X 2 Rn�k se la supondrá derg(X) = r � k, no necesariamente completo, para abarcar los problemas de análisisde varianza. La hipótesis nula planteada fué H0 : � 2V0 donde V0 � V era unsubespacio de dim(V0) = r0. Sin embargo lo común es que interese una hipótesisnula expresada en función de �, o sea, suponiendo que U 2 Rk�k0

H0 : � 2L(U) vs Ha : � =2L(U) (donde L(U) � Rk)Para reducir este planteo al anteriormente estudiado se de�ne

V0 = f� = X� con � 2L(U)g = L(XU)y entonces quedan como antes, las hipótesis

H0 : � 2V0 vs Ha : � =2V0Notar que V0 = L(XU) pero su dimensión no está clara. Si X y U fuesen derango completo, dim(V0) = rg(U) = k0. Pero como siempre será dim(V0) � k, sesupondrá aquí que dim(V0) = r0 � k.

El procedimiento a seguir será como el de antes:

� ajustar el modelo ML0: Y �Nn(� 2V0;�2In) y obtener bY0 = Pv0Y, yluego� ajustar el modelo ML: Y �Nn(� 2V ;�2In) y obtener bY = PvY

luego el estadístico del test será bY � bY0

2 =(r � r0) Y� bY 2 =(n� r) � Fr�r0;n�r(�)para obtener � habrá que reemplazar en las expresiones de bY y bY0, Y por � = X�.Por ejemplo si en V0 = L(XU); resulta XU = X0 de rango completo, se tiene

� =

(In�X0(X00X0)

�1X00)X�

2�2

Example 30. Suponiendo el ML: Y = j�0 + x2�2 + x3�3 + x4�4 + " dondeX = [j;x2;x3;x4] de rg(X) = 4, se verán algunos casos particulares.

� Si H0 : �2 = �3 = �4

� =

2664�0�2�2�2

3775 =26641000

3775�0 +26640111

3775�2 =26641 00 10 10 1

3775��0�2�o sea U =

26641 00 10 10 1

3775y entonces V0 = L(XU) con dim(V0) = 2. Y esto equivale a ajustar el

ML0 : Y = j�0 + x2�2 + x3�2 + x4�2 + " = j�0 + (x2 + x3 + x4)�2 + ":

� Si H0 : �3 = 5�2

� =

2664�0�25�2�4

3775 =26641000

3775�0 +26640150

3775�2 +26640001

3775�4 =26641 0 00 1 00 5 00 0 1

377524�0�2�4

35 = U24�0�2�4

35

Page 120: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

120 9. PRUEBAS DE HIPÓTESIS

y entonces V0 = L(XU) con dim(V0) = 3. Y se ajusta el modelo

ML0 : Y = j�0 + x2�2 + x35�2 + x4�4 + " = j�0 + (x2 + 5x3)�2 + x4�4 + "

� Si H0 : �2 + �3 = 3 y 2�2 + �4 = 7

� =

2664�0�2

3� �27� 2�2

3775 =26641000

3775�0 +26640037

3775+266401�1�2

3775�2 =26640037

3775+26641 00 10 �10 �2

3775��0�2�

notar que aquí � pertenece a una variedad lineal de R4, o sea � 2 �� +L(U). Entonces la variedad lineal que le corresponde en Rn es

� 2 X�� + L(XU) = �� + L(X0) con dim(L(X0)) = 2

El problema se resuelve igual que antes, pero reemplazando Y por Y� =Y � ��, donde �� es un vector constante. Y se ajusta el modelo

ML0 : Y = j�0 + x2�2 + x3(3� �2) + x4(7� 2�2) + " o sea

ML0 : Y = (3x3 + 7x4) + j�0 + (x2 � x3 � 2x4)�2 + " o sea

ML0 : Y� = Y � (3x3 + 7x4) = j�0 + (x2 � x3 � 2x4)�2 + "

Example 31. Análisis de la varianza de un factor. Suponiendo k tratamientos,con nj observaciones por tratamiento con

Pnj = n, se tienen los datos

T1 T2 �� TkY1;1 Y1;2 �� Y1;k�� �� �� ��Yn1;1 Yn2;2 �� Ynk;k

Las medias de las variables aleatorias medidas con cada tratamiento se designarán�1;�2; � �; �k . La intención es estudiar como son entre sí estas medias.

Utilizando los vectores indicadores de columna (con unos y ceros), c1; c2; ��; ck,vectorialmente se tiene el modelo

ML : Y = c1�1 + c2�2 + � �+ck�k + " donde V = L(c1; c2; ��; ck)

Si se quiere probar la hipótesis

H0 : �1 = �2 = �� = �kse tendrá

ML0 : Y = (c1 + c2 + � �+ck)� + " = j� + " con V0 = L(j)

y entonces proyectando sobre V y V0 se obtienebY = Y 1c1 + Y 2c2 + � �+Y kck bY0 = Y jbY � bY0 = (Y 1 � Y )c1 + (Y 2 � Y )c2 + � �+(Y k � Y )ck

entonces bY0

2 = nY 2, bY � bY0

2 =Pnj(Y j � Y )2, y además Y � bY 2 = kYk2 � bY 2 =XY 2j �X

njY2

j

Page 121: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. PRUEBA H0 : � 2 L(U) � Rk 121

y el estadístico para probar la hiótesis nula será bY � bY0

2 =(k � 1) Y � bY 2 =(n� k) =�P

nj(Y 1 � Y )2�=(k � 1)hP

Y 2j �PnjY

2

j

i=(n� k)

� Fk�1;n�k(�)

la tabla de análisis de varianza es

Fuente Espacio df SC SC E(SC)

�0 L(j) 1 bY0

2 bY0

2 =1 �2 + n�2

�1 L?(j) \ V k � 1 bY � bY0

2 bY � bY0

2 =(k � 1) �2 +Pnj(�j��)2k�1

Error V ? n� k Y � bY 2 Y � bY 2 =(n� k) �2

Total Rn n kYk2 kYk2 =n �2 +P�2jn

Se explicará el cálculo de los cuadrados medios. Como en la columna SC �gurannormas cuadráticas de proyecciones sobre apropiados subespacios, y recordandoel Teorema sobre descomposición en subespacios ortogonales (2) se tiene que, porejemplo para un subespacio W

E(kPr(Y jW )k2) = dim(W )�2 + kPr(� jW )k2

Notar entonces que conocida una expresión para kPr(Y jW )k2, si se reemplaza enella Y por �, se obtendrá kPr(� jW )k2. Como el vector � tiene el aspecto

� = (� 1; � 1; ��; � 1; � 2; � 2; ��; � 2; � � � � �; � k; � k; ��; � k)0

al ser bY0

2 = nY 2, será E( bY0

2) = 1�2 + n(n1�1+n2�2+��+nk�kn )2 = 1�2 + n�2,y entonces

E(SC) = E( bY0

2 =1) = �2 + n�2además como

bY � bY0

2 =Pnj(Y j � Y )2, será

E( bY � bY0

2) = (k � 1)�2 +Xnj(� j � �)2

y entonces

E(SC) = E( bY � bY0

2 =(k � 1)) = �2 + Pnj(� j � �)2k � 1

para la �la del "Error", como siempre � 2 V resultará también siempre Pr(� jV ?) = 0, luego E(

Y � bY 2) = (n� k)�2 + 0, y entoncesE(SC) = E(

Y � bY 2 =(n� k)) = �2�nalmente kYk2 =

PY 2j , luego E(kYk

2) = n�2 +

P�2j , y resulta

E(SC) = E(kYk2 =n) = �2 +P�2jn

Page 122: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

122 9. PRUEBAS DE HIPÓTESIS

Por último para calcular el factor de no centralidad de la F , como bY � bY0

2 =Pnj(Y j � Y )2

� =k�� �0k

2

�2=

Pnj(� j � �)2�2

Remark 21. Siempre el vector � 2 V = L(c1; c2; ��; ck). Sin embargo si lasmedias de los k tratamientos son iguales(H0 es cierta), será � = (� ; � ; ��; � ) = � j;y entonces � estará contenido totalmente en L(j), y no tendrá proyección sobreL?(j) \ V . Y al revés, si H0 no es cierta, � tendrá también proyección sobreL?(j) \ V . Por eso al proyectar sobre L(j) se está evaluando lo que tienen en"común" las medias de los tratamientos; y al proyectar sobre L?(j) \ V se evalúalo que tienen de "diferente" estas medias.

Example 32. (George W. Snedecor, William G. Cochran pág. 321). En lasfrituras, las rosquillas absorben aceite en diferentes cantidades. Lowe, deseandosaber si la cantidad absorbida depende del tipo de aceite que se utiliza, preparó 6amasijos para cada uno de 4 aceites. Concluída las frituras, se midió los gramosde aceite absorbidos por cada amasijo. Los datos son

A1 A2 A3 A4164 178 175 155172 191 193 166168 197 178 149177 182 171 164156 185 163 170195 177 176 168

Planteando el modelo Y = c1�1 + c2�2 + c3�3 + c4�4 + ", como interesa averiguar"si la cantidad absorbida depende del tipo de aceite", la hipótesis de interés seráH0 : �1 = �2 = �3 = �4. Ajustando ML0 : Y = j� + " resulta bY0 = Y j =173:75j

y con el modelo total, bY = c1Y 1 + c2Y 2 + c3Y 3 + c4Y 4, o sea bY = c1172 +

c2185+c3176+c4162. También �resulta bY0

2 = 724537:5, bY � bY0

2 = 1636:5,y Y � bY 2 = 2018 y la tablaFuente Espacio df SC SC E(SC)

�0 L(j) 1 bY0

2 724537:5 �2 + 24�2

�1 L?(j) \ V 3 bY � bY0

2 545:5 �2 +P6(�j��)23

Error V ? 20 Y � bY 2 100:9 �2

Total Rn 24 kYk2 30341:33 �2 +P�2j24

Como F3;20 = 545:5100:9 = 5:4, y f3;20;0:99 = 4:94, se rechaza la hipótesis nula a un nivel

� = 0:01. Luego son diferentes las cantidades medias de aceite absorbido. Noteseque estos cálculos se efectuaron suponiendo que H0 es válida, o sea

� = (� ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; � ; �) = � j

Pero si H0 no es válida, será en general

� = ( �1 !j �2 !j �3 !j �4 !)

Page 123: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. PRUEBA H0 : A� = 0 123

Si se descompone este � en lo que es "común"(�0), y lo que es "diferente"(�1),o sea proyectando sobre L(j) y L?(j) \ V respectivamente, se tendrá � = �0 + �1o sea

� = (� ; � ; � � �; � ; ) + ( (�1 � �)!j (�2 � �)!j (�3 � �)!j (�4 � �)!)

Ahora se quiere evaluar la probabilidad de rechazo de este test, si las � i di�erencomo máximo en 30gr de aceite absorbido, por ejemplo si

�1 � � = �15; �2 � � = �3 � � = 0; �4 � � = +15 y suponiendo �2 ' 100

en este caso � = k���0k2�2 =

Pnj(�j��)2�2 =

P6(�j��)2100 = 27 luego

�(�) = P (F3;20(27) � 4:94) = 0:91

Pero suponga que es importante detectar una diferencia, como máximo de 15gr deaceite absorbido, entonces � = 6:75 y �(�) = P (F3;20(6:75) � 4:94) = 0:23, ob-viamente menor. Pero esta potencia es bastante baja. Si se quiere tener mayorpotencia para detectar esta diferencia, se necesitará aumentar la cantidad de mues-tras por tratamiento. Averiguemos esto, si se desea una potencia de 0.80. O sea sequiere que �(�) = P (F3;20(�) � 4:94) = 0:80. Por tanteos resulta � = 20:69 y como

� =

Pn�(� j � �)2100

= n�7:52 + 7:52

100= n�1:125 = 20:69

luego con n� = 19 observaciones por tratamiento se logrará lo deseado.

3. Prueba H0 : A� = 0

Puesto que A� = 0 equivale a que � 2 L?(A0), este caso puede reducirse al dela sección anterior. Sin embargo se presentarán dos opciones para realizar el test:la primera en Rn, y la segunda en Rq. Suponiendo que A 2 Rq�k, se asumirá entodos los casos que A0 es de rango completo, o sea rg(A0) = q, (aunque esto no esuna restricción ya que siempre se lo podrá reducir a esta situación).

Notar que en las dos pruebas analizadas hasta aquí, basadas en proyecciones,la matriz X era completamente general, pudiendo ser de rango completo, o no.Sin embargo para las dos pruebas que se analizarán a continuación, ya que sonmatriciales, se requerirá que X 2 Rn�k sea de rango completo (esto sí es unarestricción, ya que no serán de aplicación en problemas de análisis de varianza, conX de rango incompleto).

3.1. Test en Rn. Como H0 : A� = 0 equivale a H0 : � 2L?(A0), se podríade�nir

(3.1) V0 =�� = X� con � 2L?(A0)

Pero entonces para poder expresar V0 = f� = X� con � 2L(U)g habría quehallar una matriz U que sea base de L?(A0), de manera que L?(A0) = L(U). Perose quieren evitar estos cálculos.

Notar que si � 2 V0 de (3.1), el correspondiente � (o sea � = (X0X)

�1X0�),

cumpliráA� = 0, es decirA(X0X)

�1X0� = 0. Pero entonces � 2 L?(X(X0

X)�1A0),

y esto signi�ca que

V1 = L(X(X0X)

�1A0) con dim(V1) = q

Page 124: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

124 9. PRUEBAS DE HIPÓTESIS

Como se tiene una base de V1, en lugar de calcular bY0 y luego bY � bY0 = bY1, secalculará directamente bY1 = Pr(Y j V1), con su matriz de proyecciónbY1 = bY � bY0 = X(X

0X)

�1A0hA(X

0X)

�1A0i�1

A(X0X)

�1X0Y

además Y� bY se obtiene como siempre (usando X). En de�nitiva el estadístico es(3.2) bY1

2 =q Y � bY 2 =(n� k) =�Y0X(X

0X)

�1A0hA(X

0X)

�1A0i�1

A(X0X)

�1X0Y

�=q Y � bY 2 =(n� k) � Fq;n�k(�)

y también � =�0X(X0X)�1A0[A(X0X)�1A0]

�1A(X0X)�1X0�

�2 .

3.2. Test en Rq. La hipótesis de interés esH0 : A� = 0, y si se de�ne � = A�donde � 2 Rq, se puede expresar

H0 : � = 0 vs H0 : � 6= 0Como estimador de � se propone b�= Ab�, y como X es de rango completo seráb� � Nk(�; (X0X)�1�2) y entoncesb� � Nq(�;A(X0X)�1A0�2)

Donde b� es insesgado, y la normal multivariada no singular ya que A(X0X)�1A0 esinversible. Recordando de (62) que siY � Nn(�;�) con� >0, resultaY0��1Y � �2n(�0��1�),y aplicadolo a este caso, y dividiendo por q

(3.3)b�0 �A(X0X)�1A0��1 b�

q�2� �2q(

�0�A(X0X)�1A0��1 �

�2)=q

como b� es independiente de S2, resultará también b� independiente de S2, y al ser(3.4)

Y � bY 2(n� k)�2 �

�2n�kn� k

y dividiendo, resulta el estadístico del test�b�0[A(X0X)�1A0]�1b��=q

kY�bYk2=(n�k) � Fq;n�k(�)

Notar que si se reemplaza b� = Ab� = A(X0X)

�1X0Y esta expresión coincide con

la de (3.2).

4. Descomposición en componentes lineal, cuadrática, etc

Para ejempli�car se supondrá un análisis de varianza de un factor como el delejemplo-31, pero con 4 tratamientos, con datos

T1 T2 T3 T4Y1;1 Y1;2 Y1;3 Y1;4�� �� �� ��Yn1;1 Yn2;2 Yn3;3 Ynk;4

el modelo podría plantearse (usando los vectores indicadores de columna cj)

(4.1) Y = c1�1 + c2�2 + c3�3 + c4�4 + " = X� + "

Page 125: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. DESCOMPOSICIÓN EN COMPONENTES LINEAL, CUADRÁTICA, ETC 125

Las hipótesis nulas de interés podrían ser H0 : �1 = �2 = �3 = �4, o, si se sospechaque el primer tratamiento di�ere de los otros

H0 : �1 =�2 + �3 + �4

3vs Ha : �1 6=

�2 + �3 + �43

Pero supóngase que el efecto � de cada tratamiento T , depende de cierta variablez conocida(por ejemplo temperatura, o cantidad de fertilizante empleado) según� = �0+�1z+�2z

2+�3z3. Entonces por ejemplo para el tratamiento Tj se tendrá

(4.2) � j = �0 + �1zj + �2z2j + �3z

3j

Si se reemplaza en el modelo anterior

Y = c1(�0 + �1z1 + �2z21 + �3z

31) + c2(�0 + �1z2 + �2z

22 + �3z

32) +

c3(�0 + �1z3 + �2z23 + �3z

33) + c4(�0 + �1z4 + �2z

24 + �3z

34) + "

y operando

Y = j�0 + (c1z1 + c2z2 + c3z3 + c4z4)�1 + (c1z21 + c2z

22 + c3z

23 + c4z

24)�2 +

(c1z31 + c2z

32 + c3z

33 + c4z

34)�3 + "

y llamando

dj = c1zj1 + c2z

j2 + c3z

j3 + c4z

j4

= (zj1; zj1; ��; z

j1; z

j2; z

j2; ��; z

j2; z

j3; z

j3; ��; z

j3; z

j4; z

j4; ��; z

j4)0

se puede expresar el modelo como

(4.3) Y = j�0 + d1�1 + d2�2 + d3�3 + " = D� + "

Si se expresa la (4.2) en forma matricial

� =

2664�1�2�3�4

3775 =26641 z1 z21 z311 z2 z22 z321 z3 z23 z331 z4 z24 z34

37752664�0�1�2�3

3775 = Z�Notar que en realidad se ha re-parametrizado el modelo original Y = X� + ", con� = Z� para expresarlo como Y = XZ� + " o sea Y = D� + ". Para mantenerla identi�cabilidad se supondrá que Z es de rango completo, de esta manera larelación entre los � i y los �i es biunívoca. La ventaja es que ahora se podrá probaruna hipótesis del tipo H0 :"los � i varían linealmente", mediante H0 : �2 = �3 = 0,o también H0 :"los � i varían cuadráticamente", mediante H0 : �3 = 0.

Notar que tanto en el modelo original (4.1) como en (4.3), V es el mismoya que V = L(c1; c2; c3; c4) = L(j;d1;d2;d3). Entonces se expresará bY segúnuna conveniente descomposición ortogonal dentro de V . Una forma de hacerlo esajustando secuencialmente los modelos

Y = j�0 + " resultando Y = bY�0 + b"�0Y = j�0 + d1�1 + " resultando Y = bY�0�1 + b"�0�1Y = j�0 + d1�1 + d2�2 + " resultando Y = bY�0�1�2 + b"�0�1�2Y = j�0 + d1�1 + d2�2 + d3�3 + " resultando Y = bY + b"

Page 126: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

126 9. PRUEBAS DE HIPÓTESIS

notar que si se llamabY�1=�0= bY�0�1 � bY�0 donde bY�1=�0

? bY�0bY�2=�0�1= bY�0�1�2 � bY�0�1 donde bY�2=�0�1

? bY�0�1bY�3=�0�1�2= bY � bY�0�1�2 donde bY�3=�0�1�2

? bY�0�1�2

resulta la descomposición ortogonalbY = bY�0 +bY�1=�0

+ bY�2=�0�1+ bY�3=�0�1�2

Otra forma de hacer esto es notar que al estar los siguientes subespacios propiamenteincluídos

L(j) � L(j;d1) � L(j;d1;d2) � L(j;d1;d2;d3) = Vy ortogonalizando por Gram-Schmidt se expresa V = L(j; t1; t2; t3), y entoncesresultarábY�0 = Pr(

bY j j), bY�1=�0= Pr( bY j t1), bY�2=�0�1

= Pr( bY j t2), bY�3=�0�1�2= Pr( bY j t3)

Se tiene la siguiente tabla

Fuente Espacio df SC

�0 L(j) 1 bY�0

2�1=�0 L?(j) \ L(j;d1) 1

bY�1=�0

2�2=�0�1 L?(j;d1) \ L(j;d1;d2) 1

bY�2=�0�1

2�3=�0�1�2 L?(j;d1;d2) \ V 1

bY�3=�0�1�2

2Error V ? n� 4

Y � bY 2Total Rn n kYk2

Remark 22. Notar que �1=�0 se re�ere al aporte nuevo que hace la compo-nente lineal por sobre el intercept; �2=�0�1 el aporte nuevo que hace la componentecuadrática por sobre el aportado por la componente lineal y el intercept; etc.

Luego, las posibles pruebas y sus correspondientes estadísticos son

H0 : �1 = �2 = �3 = 0 con(kbY�1=�0k

2+kbY�2=�0�1k

2+kbY�3=�0�1�2k

2)=3

kY�bYk2=(n�4) � F3;n�4

H0 : �2 = �3 = 0 con(kbY�2=�0�1k

2+kbY�3=�0�1�2k

2)=2

kY�bYk2=(n�4) � F2;n�4

H0 : �3 = 0 con(kbY�3=�0�1�2k

2)=1

kY�bYk2=(n�4) � F1;n�4y estas hipótesis equivalen respectivamente aH0 : " los � i son iguales"H0 : " los � i varian linealmente"H0 : " los � i varian cuadráticamente"

Example 33. Se quiere estudiar que efecto tiene la cantidad de fertilizantesobre el crecimiento de la soja. Para ello se preparan tres parcelas: a la primera sele incorpora cierta cantidad de fertilizante(z = 1), a la segunda el doble(z = 2), y ala tercera el cuadruple(z = 4). Luego se siembran en cada una r semillas, y al cabo

Page 127: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

4. DESCOMPOSICIÓN EN COMPONENTES LINEAL, CUADRÁTICA, ETC 127

de 30 días se miden las alturas de las plantitas. Se tienen entonces los siguientesdatos

T1 T2 T3Y1;1 Y1;2 Y1;3�� �� ��Yr;1 Yr;2 Yr;3

donde las variables observadas en cada tratamiento son las alturas de r plantas.En cada tratamiento las medias de estas variables son �1; �2 y �3 respectivamente.Como se quiere investigar el efecto de la cantidad de fertilizante(z) sobre la alturamedia de las plantas(�), se postula la relación: � = �0 + �1z + �2z

2, o sea unafunción cuadrática de la variable z asociada al tratamiento. Se pide (a) Hallar �para la prueba H0 : g(z) es lineal (b) Calcular la potencia para r = 5, �2 = 1:2,�2 = 3 y � = 0:05. (c) Hallar r, para que la potencia sea 0:90, suponiendo �2 = 3,�2 = 1:2 y � = 0:05.

El modelo completo seríaY = c1�1+c2�2+c3�3+", pero como � j = �0+�1zj+�2z

2j , reemplazando será Y = j�0 +d1�1 +d2�2 + " con dj = c11j + c22j + c34j ,

matricialmente

Y =

26666666666664

1 1 1�� �� ��1 1 11 2 4�� �� ��1 2 41 4 16�� �� ��1 4 16

37777777777775

24�0�1�2

35+ " luego � =

26666666666664

�0 + �1 + �2��

�0 + �1 + �2�0 + 2�1 + 4�2

���0 + 2�1 + 4�2�0 + 4�1 + 16�2

���0 + 4�1 + 16�2

37777777777775Aplicando Gram-Schmidt t1 = d1 �Pr(d1 j j) = d1 � d1j y como d1 = 1r+2r+4r

3r =73 , luego sería t1 = (� 43 ; ��;�

13 ; ��;

53 ; ��), pero ya que solo lo necesitaremos para

proyectar se tomará un múltiplo simple

t1 = (�4; ��;�4;�1; ��;�1; 5; ��; 5)

�nalmente t2 = d2 � Pr(d2 j j) � Pr(d2 j t1) donde Pr(d2 j j) = d2j con d2 =1r+4r+16r

3r = 7, y Pr(d2 j t1) = <d2;t1>kt1k2

t1 =127 t1 reemplazando se tiene t2 =

( 67 ; ��;�97 ; ��;

37 ) pero tomaremos

t2 = (6; ��; 6;�9; ��;�9; 3; ��; 3)

en de�nitiva V = L(j;d1;d2) = L(j; t1; t2) pero este último es ortogonal(aunqueno ortonormal).

(a): Llamando V0 = L(j; t1) y V1 = V ?0 \ V , como la hipótesis de interésequivale a H0 : �2 = 0, entonces � = k�1k

2=�2, donde �1 = Pr(� jV1) =

Pr(� j t2) resultará

k�1k2=< �; t2 >

2

kt2k2=[(�0 + �1 + �2)6r � (�0 + 2�1 + 4�2)9r + (�0 + 4�1 + 16�2)3r]

2

(62r + 92r + 32r)

luego k�1k2=

18r�227 y entonces � = 18r�22

7�2 .

Page 128: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

128 9. PRUEBAS DE HIPÓTESIS

(b): Para el cálculo de potencia solicitado en (b) � = 18�5�1:227�3 = 6:17

�(r = 5; �2 = 1:2; �2 = 3) = P (F1;12(6:17) � f1;12;0:95) = 0:626

(c): y para (c), como � = 18�r�1:227�3 = 1:234r, hay que resolver

�(r; �2 = 1:2; �2 = 3) = P (F1;12(1:234r) � f1;12;0:95) = 0:9

y por tanteos resulta r = 10 (ya que se obtiene una potencia de 0.896).

Page 129: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 10

Intervalos y regiones de con�anza

1. Intervalos de Con�anza y Predicción

Si se tiene el modelo lineal Y = X� + " con " � Nn(0;�2In), para la obser-vación i-esima valdrá Yi = exi�+"i con "i � N(0;�2)(donde exi es la i-esima �la dela matriz X, que la supondremos de rango completo). Notar que �i = exi� es lai-esima coordenada del vector �. Si interesa un intervalo de con�anza para �i, senecesita un estimador, pero como �i = exi� es una combinación lineal de �, usandoel teorema de Gauss-Markov, b�i = exib� será un BLUE para �i. Y ademásb�i = exib� � N(�i; exi(X0X)�1ex0i�2)y como S2 estima �2 con n� k grados de libertad y es independiente de b�exib� � �ipexi(X0X)�1ex0iS � tn�kluego un intervalo de con�anza (1� �) para �i es

(1.1) IC�i =hexib� � tn�k;1��=2pexi(X0X)�1ex0iSi

y en este caso exi(X0X)�1ex0i = hii es el elemento ii de la matriz de proyección sobreV . Notar que �i es el valor medio de la variable observada Yi correspondiente a lapredictora exi.

Pero si se dispone como predictora a ex�, (donde ex� no es una �la de la matriz dediseño), puede interesar estimar el valor medio de la Y� que pudo haberse observadocon esta ex�. Suponiendo válido el modelo para ex�, se tendrá(1.2) Y� = ex��+"� con "� � N(0;�2)donde �� = ex�� es la media de Y�. Si se quiere un intervalo de con�anza para ��,igual que arriba b�� = ex�b� será un BLUE para ��. Y ademásb�� = ex�b� � N(��; ex�(X0X)�1ex0��2)y también ex�b� � ��pex�(X0X)�1ex0�S � tn�kluego un intervalo de con�anza (1� �) para �� es

IC�� =hex�b� � tn�k;1��=2pex�(X0X)�1ex0�Si

que tiene el mismo aspecto que (1.1), y la única aclaración que hay que hacer esque la predictora ex� no debería estar muy "alejada" (se verá esto más adelante) delas exi de la matriz de diseño, ya que debemos estar seguros que el modelo (1.2) esválido para ex�.

129

Page 130: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

130 10. INTERVALOS Y REGIONES DE CONFIANZA

Por último, y también respecto del modelo (1.2), podríamos estar interesadosen un intervalo, con probabilidad (1 � �) para el valor de Y�.Se llama intervalode predicción y no de con�anza, ya que Y� no es un parámetro, sinó una nuevaobservación que podría observarse en el futuro. Como estimador de Y� se puede usarsu media estimada, o sea bY� = b�� = ex�b�, entonces juntando con (1.2) tendremosbY� = ex�b�

Y� = ex��+"�y luego restando bY� � Y� = ex�b� � ex���"�. Además

E(bY� � Y�) = E(ex�b� � ex���"�) = ex�� � ex���0 = 0y como b� y "� son independientes, ya que Y� es una nueva observación independiente

V ar(bY� � Y�) = ex�(X0X)�1ex0��2 + �2luego bY��Y� � N(0; �ex�(X0X)�1ex0� + 1��2), y como S2 estima �2 con n�k gradosde libertad y es independiente de bY� = ex�b�ex�b� � Y�p

[ex�(X0X)�1ex0� + 1]S � tn�ky en de�nitiva el intervalo de predicción es

IPY� =hex�b� � tn�k;1��=2p[ex�(X0X)�1ex0� + 1]Si

Page 131: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 11

Incumplimiento de � 2 C(X)

Recordando el planteo inicial de un modelo lineal, este surgía cuando se efec-túan n experimentos aleatorios independientes, midiendo en cada uno de ellos unavariable aleatoria Yi � N(�i;�

2), resultando vectorialmente Y � Nn(�; In�2).

Hasta aquí los supuestos son: normalidad, igualdad de varianzas e independencia(que se analizarán en otro capítulo), pero � puede ser cualquier vector de Rn. Osea

Y = �+ " con " �Nn(0;�2In)Después se agregó, que para cada experimento, junto con Yi se midieron k

variables, cuyos valores xi1; xi2; ��; xik, en general determinan las condiciones enque se realizan los mismos, y se supuso que la media de Yi depende de estos valoressegún la expresión lineal �i = �1xi1+�2xi2+��+�kxik, donde las �j son constantes,las mismas para todos los experimentos. Expresado matricialmente esto signi�casuponer que � 2 L(x1;x2; � � �;xk) = C(X) = V , o sea se agregó la hipótesis

� = X� 2V = C(X)

En de�nitiva, uni�cando las dos condiciones anteriores, un modelo lineal quedade�nido por

(0.3) ML:�Y = �+ " con " �Nn(0;�2In)� = X� 2V = C(X)

Notar que en la primera, respecto de � se a�rma simplemente que � =E(Y), osea que un � 2 Rn es la media del vector Y conocido, y esto es una de�nición quese cumple siempre. Pero la segunda es más fuerte, es una hipótesis, y a�rma quedada la matriz X conocida, � 2 C(X). Pero esto podría no cumplirse.

Esta es en realidad la hipótesis más importante en un modelo lineal, ya que silas variables predictoras de la matriz de diseño no son las apropiadas, � =E(Y)no pertenecerá a V , y entonces los estimadores que se obtengan, ya sea b�, S2,y b� tendrán sesgos que pueden alterar substancialmente la interpretación de losresultados.

En lo que sigue se supondrá que el primer renglón de la (0.3) se cumple inte-gramente (lo que es de�nición, y las hipótesis de normalidad, igualdad de varianzase independencia); pero en el segundo renglón se irá variando la matriz X, o sea elsubespacio V , y evaluando como se comporta el modelo en cada caso.

1. Cp de Mallows

En esta sección se presentará un indicador del desempeño del modelo, quecombina una medida de la varianza del estimador de �, con el sesgo en el caso enque � =2 V .

131

Page 132: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

132 11. INCUMPLIMIENTO DE � 2 C(X)

1.1. Error cuadrático medio de un estimador. Sea b� 2 Rn una funciónestimadora de un parámetro � 2 Rn. Se de�nen el error del estimador al vectoraleatorio e = b� � �, y el sesgo del estimador al vector constante �=E( b�)� �.Además como medida de bondad del estimador b� se utilizará el error cuadráticomedio de�nido por

ecm(b�) = E(kek2) = E( b�� � 2)Como b�� � =b��E( b�) +E( b�)� � = (b��E( b�))+� se tendrá reemplazando enkek2 = e0e

E(kek2) = Eh((b�� E( b�)0)+�0)((b�� E( b�))+�)i

= E[ b�� E( b�) 2 + k�k2]

(ya que E(b�� E( b�)) = 0), y en de�nitivaecm(b�) = E( b�� E( b�) 2) + k�k2

Notar que el primer término contiene la suma de varianzas de las componentes del

estimador b�, o sea nXi=1

var(b�i), y el segundo la suma de cuadrados de los sesgosnXi=1

�2i . Luego, si se está trabajando con una familia de estimadores insesgados,

minimizar el ecm(b�) equivale a minimizar la varianza. Sin embargo en lo que sigueaparecerán estimadores sesgados, así que se utilizará el ecm(b�) para evaluarlos, yse prestará atención a sus dos componentes, de varianza y de sesgo.

En lo que sigue, como lo que interesa es el comportamiento del modelo cuandose varía el espacio V , k será el total de columnas de la matriz de diseño, y se usarála letra p para referirse a un modelo con p � k predictores.

1.2. Cuando � 2 Vp. Para empezar se analizará el error del estimador de� suponiendo un modelo con p � k predictores, y estando seguros que se cumple� 2 Vp. En este caso bY es un estimador insesgado de �, y el error del estimador loda el vector e = bY � �, y �jándose en la �gura 6 resulta

" = e+b" donde e?b"

Page 133: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. Cp DE MALLOWS 133

Figura 6 : Cuando � 2 Vp

Como Y = �+ ", resulta que " no depende de la matriz X elegida(o sea deVp). En cambio e y b" sí dependen de Vp(ver el triángulo sombreado).

Notar que al ser b" = Y� bY, b" es el error de ajuste de los datos(Y), alestimador( bY) obtenido con el modelo(Vp), y una medida del ajuste que ya fuéanalizada es R2 = 1� kb"k2

kb"0k2 . Por eso cuando kb"k2es pequeño, R2 será grande, y sedice que el modelo ajusta bién a los datos.

Por otro lado al ser e = bY � �, e es el error del estimador( bY) respecto delparámetro(�), y una medida de la bondad de este estimador es E(kek2). ComoE(e) = 0, y �e = �2Pvp , se tendrá

ecm( bY) = E(kek2) = Tr(In�2Pvp) + 00In0 =p�2

y es esta cantidad la que debería ser baja si se quiere una buena estimación de �.Cuando lo que interesa es predecir, un problema frecuente en un modelo lineal

es decidir cuantos predictores (columnas) de la matriz de diseño incorporar. Esto sepresenta usualmente en análisis de regresión, cuando además del vectorY se disponede mediciones de muchas variables xj . Se tendrá en este caso que X 2 Rn�k dondek en general es grande, y hay que decidir que predictores utilizar, o sea el subespacioVp con p � k. Pero siempre cuidando que � 2 Vp para que el modelo sea válido.

Supóngase ahora que se selecciona un número menor q de predictores, con q � ppero cumpliéndose todavía que � 2 Vq � Vp, o sea el modelo sigue siendo válido

Page 134: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

134 11. INCUMPLIMIENTO DE � 2 C(X)

también con Vq. Ver ahora la Figura 7.

Figura 7 : Cuando � 2 Vq � Vp

Si se comparan ambas �guras, Y, � y " siguen siendo los mismos, no variandoel triángulo Y = �+ ". Pero el triángulo sombreado sí cambió. Y esto es debido aque al ser e+b" = " �jo, al cambiar el subespacio, deberán cambiar e y b".

Notar que ahora el error del estimador disminuyó, ya que ecm( bY) = E(kek2) =q�2 < p�2, lo cual es bueno; y al tener menos dimensión Vq, los grados de libertaddel estimador de varianza del modelo, n� q, aumentan, lo cual también es bueno.Sin embargo el error de ajuste b" aumenta, lo que hace disminuir el R2. Pero estono es un problema, lo importante son las dos ventajas mencionadas.

En de�nitiva, conviene elegir el subespacio de menor dimensión entre los quecumplen � 2 Vp.

Por supuesto todo esto suponiendo siempre que � pertenece al subespacio gen-erado por los predictores seleccionados. Si este no es el caso, debemos estar encondiciones de detectar este incumplimiento.

1.3. Cuando � =2 Vp. Ahora se supondrá un modelo con p predictores enque � =2 Vp, (ver la Figura 8) y que como esto no lo sabemos, se lo estima comoes habitual mediante bY = Pr(Y j Vp). Como E( bY) = E(PvpY) = Pvp� = �vp ,

entonces bY resultará un estimador insesgado de �vp = Pr(� j Vp), pero no de �.El error del estimador será como antes e = bY � �, pero ahora:

E(e) = E( bY)� � = �vp�� = �Pr (� jV ?p ) = ��?

Page 135: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

1. Cp DE MALLOWS 135

notar que aparece un sesgo, y si bién sigue valiendo " = e+b" (ver la Figura 8) ahorano se cumple que e?b".

Figura 8 : Cuando � =2 Vp

Como �e = �2Pvp el error cuadrático medio del estimador está dado por

(1.1) ecm( bY) = E(kek2) = Tr(In�2Pvp) + �?0In�?= �? 2 + p�2y si se la divide por �2 se obtiene el indicador de Mallows del modelo

(1.2) p =E(kek2)�2 =

k�?k2�2 + p

En este indicador, el primer término está relacionado con el sesgo en el modelo(unproblema de validez), y el segundo con la varianza del estimador. Notar que si unmodelo con p predictores no tuviese sesgo(o sea � 2 Vp), resultará p = p, peroesto no quiere decir que sea un buen modelo, ya que p podría ser grande, y seríaalta la componente de varianza del estimador. Por otro lado, si un modelo conpocos predictores tiene algo de sesgo, podría no obstante tener un p menor Poreso si se quieren evaluar varios modelos con diferente número de predictores, larecomendación de Mallows es: entre los modelos en que p sea próximo a p(paraque sea bajo el sesgo), elegir el subespacio Vp con el menor p(para que sea baja lavarianza de la estimación).

Pero para poder evaluar este indicador se necesitaría conocer �? 2, y esto

no es simple ya que � es desconocido. Se procederá indirectamente analizando lasconsecuencias del incumplimiento de � 2 Vp, sobre el estimador de varianza.

Como b" = Y� bY = Pr(Y j V ?p ), y E(Y� bY) = �?, si se utiliza el 4to puntodel teorema de descomposición en subespacios ortogonales(2), resulta

(1.3)

Y� bY 2�2

=(n� p)S2

�2� �2n�p(

�? 2�2

)

y tomando esperanza (n�p)E(S2)�2 =

k�?k2�2 + (n� p) , resulta

E(S2) =

�? 2n� p + �2

Page 136: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

136 11. INCUMPLIMIENTO DE � 2 C(X)

luego no cumpliéndose que � 2 Vp, el estimador de varianza tiene sesgo. De otramanera: si � =2 Vp, esta circunstancia se va a re�ejar en una varianza estimadamás grande. Y si es posible averiguar el valor de �2, podremos estimar

c�? 2 =(n � p)(S2 � �2). Reemplazando en la (1.2) se obtiene el indicador de Mallowsestimado

Cp = b p = (n� p)S2��2�2 + p = (n�p)S2�2 � n+ 2p

Por supuesto es necesario conocer �2, y en las aplicaciones se lo suele reemplazarpor una buena estimación b�2 utilizando datos de estudios anteriores. Para �nalizarde calculará la media y varianza del estimador Cp de Mallows. Como de (1.3)

Cp =(n� p)S2

�2� n+ 2p = �2n�p(

�? 2�2

)� n+ 2p

y de E(�2�(�)) = � + �, y V ar(�2�(�)) = 2� + 4� resulta8<: E(Cp) = n� p+

k�?k2�2 � n+ 2p = k�

?k2�2 + p = p (insesgado)

V ar(Cp) = 2(n� p) + 4k�?k2�2 = (2n� 6p) + 4 p

Notar que aunque �2 se conozca exactamente, el estimador de Mallows puede tenermucha varianza, lo que suele introducir incertidumbre al decidir cual es el mejormodelo.

1.4. Cuando el modelo completo se supone válido. Como se mencionóanteriormente, al querer aplicar el Cp de Mallows para seleccionar el mejor modelo,se tropieza con la di�cultad de tener que conocer el valor de �2. Si se dispone deotra información, y buena, una alternativa es estimarlo, pero naturalmente el b�2obtenido tendrá su desvío, lo que introduce más incertidumbre en el estimador Cp.

A veces es razonable suponer que el modelo completo, utilizando todas las kcolumnas de la matriz de diseño es válido, o sea, cumple con � 2 Vk. Si se quiereevaluar si un modelo con p < k predictores es válido, (o sea si � 2 Vp), comoVp � Vk, se pueden plantean las hipótesis

(1.4) H0 : � 2 Vp vs Ha : � =2 Vp o también H0 : �? = 0 vs Ha : �

? 6= 0y utilizando el estadístico visto en (1.4 del capítulo 9), y adaptando la notación

F =

bYk � bYp

2 =(k � p) Y � bYk

2 =(n� k) � Fk�p;n�k(�) con � =

�? 2�2

Entonces, si con p predictores el modelo es válido, resultará � = 0, y entonces F �Fk�p;n�k. Sin embargo, así como esta planteada, esta prueba serviría para detectarcuando el modelo con p predictores no es válido, o sea cuando vale Ha : �? 6= 0.El inconveniente es que en el caso de no rechazar a un nivel �, no se puede asumirque vale H0 : �? = 0.

Notar que en esta ocasión se quiere investigar si el indicador de Mallows(quecombina sesgo con varianza de la estimación) es mejor en el modelo reducido que en

el completo, o sea si p � k. Pero sik�?k2�2 + p � k, entonces k�

?k2�2 = � � k� p.

Luego las hipótesis se pueden re-escribir

H0 : � = k � p vs Ha : � � k � p

Page 137: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. SOBRE-ESPECIFICACIÓN 137

y el estadístico de prueba quedaría

F =

bYk � bYp

2 =(k � p) Y � bYk

2 =(n� k) � Fk�p;n�k(k � p)y como la media de esta Fk�p;n�k(k � p) no centrada es

(n� k)(k � p+ k � p)(n� k � 2)(k � p) = 2

n� kn� k � 2 � 2

entonces para evaluar si p � k, se puede utilizar el criterio simple F � 2. Otraalternativa es calcular

p = P [Fk�p;n�k(k � p) � F ]

y decidir que el modelo con p predictores es mejor(en el sentido de Mallows), cuantomenor que 0:5 sea p.

2. Sobre-especi�cación

En esta sección se quieren estudiar las consecuencias de usar un modelo linealcon mayor número de variables predictoras que las realmente necesarias. Consid-érese que el modelo verdadero(MV) es

Y = �+ " cumpliendo: � = X� 2Vx

donde X 2 Rn�k es de rango completo, y tiene k predictores. Pero, desconociendoesto, el modelo usado(MU) es

Y = �+ " "suponiendo": � = [XW]

��

�2 Vxw

donde [XW] 2 Rn�(k+m) es también de rango completo, pero con k+m predictores.Notar que al ser � 2 Vx � Vxw, este modelo también será válido(o sea el "supuesto"� 2Vxw se cumplirá también).

Siendo el MU válido, tanto el estimador de la media bYxw, como el de la vari-

anza S2xw también serán insesgados, pero como ahora(n�k�m)S2xw

�2 =kY�bYxwk2

�2 ��2n�k�m, resulta que S

2xw tendrá menos grados de libertad, y por lo tanto todos

los intervalos de con�anza que se calculen serán en principio de mayor amplitud.Lo de "en principio" se debe a que al disminuir los grados de libertad, los valoresde la tabla F de nivel 1 � �

2 que se necesitan para dichos intervalos estarán másseparados, lo que incrementa su longitud. Pero estos intervalos dependen tambiéndel valor que tome el estimador S2xw, que no obstante ser insesgado, y por motivospuramente aleatorios puede, en un caso práctico, ser menor.

Además en el MV, E(kexk2) = k�2 y para el MU, E(kexwk2) = (k + m)�2,luego con el MU resulta un incremento de la varianza del estimador. De otra forma,el indicador de Mallows empeora ya que pasa de valer k = k a k+m = k +m. Ytambién aumentará el R2xw.

Page 138: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

138 11. INCUMPLIMIENTO DE � 2 C(X)

Pero supóngase que interesa estimar � = c0� (que incluye como caso particularla estimación de algún �i). Vease la �gura 9.

Figura 9 : Sobre� especificaci�on

Con el MV el estimador sería b�x = a0xY, donde, y recordando Gauss-Markov,ax es el único ax 2 L(X) con X0ax = c. Y este estimador es BLUE en la familiade todos los insesgados d0Y, con d = ax + e, donde e 2V ?x .

Con el MU el parámetro a estimar es � =�c0

�[�; ] = c

0�, y el estimador seríab�xw = a0xwY, donde, (Gauss-Markov), axw es el único axw 2 L(XW) con

[XW]0axw =

�c0

�o sea: X0axw = c y W0axw = 0

Y este estimador también es BLUE, pero en otra familia: la familia de todos losinsesgados d0Y, con d = axw + e, donde e 2V ?xw. Como V ?xw � V ?x , este estimadores BLUE en una familia menor, y por lo tanto V ar(b�xw) � V ar(b�x). De otraforma, como

X0axw = cW0axw = 0

y X0ax = c, resultará (axw � ax)?Vx y axw?W

si se observa la �gura resulta

V ar(b�xw)� V ar(b�x) = kaxwk2 �2 � kaxk2 �2 = kaxw � axk2 �2 � 0Luego en el MU el estimador dV ar(b�xw) = kaxwk2 S2xw, se encuentra doblementeafectado: por un lado al disminuir los grados de libertad de S2xw, y por el otro alaumentar kaxwk2.

Notar también que si L(W)?L(X), resultará axw = ax, pero subsiste el prob-lema de el menor número de grados de libertad en el estimador S2xw. Por otra parte,si L(W) está "casi" contenido en L(X) (colinealidad), como axw?W , la V ar(b�xw)puede resultar mucho mayor que V ar(b�x).

Page 139: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

2. SOBRE-ESPECIFICACIÓN 139

Resumiendo todo lo anterior, si se usa un modelo sobre-especi�cado se tendrá

1) Un modelo válido (� 2 Vxw)2) S2xw es insesgado con menos grados de libertad3) bYxw será estimador insesgado de �4) Intervalos de con�anza más amplios5) El E(kexwk2) aumentará6) El R2xw aumentará7) b�xw será insesgado8) V ar(b�xw) aumentará

Example 34. Se analizará geométricamente la estimacion de un coe�ciente,por ejemplo �1, comparando el MV con X = [x1; � � �;xk] , y el MU con [XW] =[x1; � � �;xk;w1; ��;wm]. Como

V ar(b�1x) = �2

dist2(x1 j L(x2; ��;xk))y V ar(b�1xw) = �2

dist2(x1 j L(x2; ��;xk;w1; ��;wm))luego, al tomar la distancia a un subespacio de mayor dimensión, en principiola distancia será menor(o a lo sumo igual), y de aquí resulta que V ar(b�1xw) �V ar(b�1x). Se analizará con más detalle las razones de este incremento de varianza.

Si se designa L(W?) al subespacio generado por las componentes de los wiortogonales a L(x2; ��;xk), se tendrá que

L(x2; ��;xk;w1; ��;wm) = L(x2; ��;xk)� L(W?)

y proyectando x1 sobre estos subespacios, bbx1 = bx1 + Pr(x1 j W?), siendo estos

últimos ortogonales, luego bbx1 2 = kbx1k2 + Pr(x1 jW?)

2. Restando de kx1k2queda la expresión

V ar(b�1xw) = �2

dist2(x1 j L(x2; ��;xk))� kPr(x1 jW?)k2

Luego la V ar(b�1xw) aumentará cuando x1 tenga proyección sobre W?. De otraforma: cuando x1 pueda ser explicado por la parte de las variables agregadas, queno contienen información respecto de las x2; ��;xk.

Example 35. Suponga que el modelo verdadero es Yi = �0 + �1xi + "i dondexi = �2;�1; 0; 1; 2, pero el modelo usado es Yi = �0 + �1xi + 2x2i + 3x3i + "i.

Matricialmente el MV es

Y = X� + " =

2666641 �21 �11 01 11 2

377775��0�1

�+ "

y el MU

Y = X� +W + " =

2666641 �2 4 �81 �1 1 �11 0 0 01 1 1 11 2 4 8

3777752664�0�1 2 3

3775+ "

Page 140: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

140 11. INCUMPLIMIENTO DE � 2 C(X)

Si interesa estimar � =��0�1

�, con el verdadero se usaría b�x = (X0X)

�1X0Y inses-

gado con

(2.1) �b�x = (X0X)�1�2 =

�0:2 00 0:1

��2

Sin embargo usando el modelo grande,

� =

��0�1

�=

�1 0 0 00 1 0 0

�2664�0�1 2 3

3775 = A0��

y llamando [X jW] = Z, se lo estimaría mediante b�xw = A0(Z0Z)�1Z0Y, resul-

tando

E(b�xw) = A0(Z0Z)�1Z0E(Y) = A

0(Z0Z)

�1Z0Z

��

�= � (insesgado también)

pero �b�xw = A0(Z0Z)�1Z0Z(Z0Z)

�1A�2 o sea

(2.2) �b�xw = A0(Z0Z)�1A�2 =

�0:486 00 0:903

��2

Si se compara con (2.1) ambas varianzas se incrementan, en especial la de V ar(b�1)que pasa de valer 0:1�2 a 0:903�2. Recordando que en el modelo grande

V ar(b�1) = �2

dist2(x1 j L(j;w2;w3))y calculando la matriz de correlación entre los predictores x1;w2; y w3

� =

24 1 0 0:9430 1 0

0:943 0 1

35resulta que al estar x1y w3 fuertemente correlacionadas(� = 0:943), la dist(x1 jL(j;w2;w3)) será muy pequeña, lo que aumenta la varianza.

Por último en este ejemplo en que n es de solo 5 observaciones, es importantetambién el deterioro de los grados de libertad del estimador de varianza (S2), yaque pasa de 3 gl en el modelo correcto, a solo 1 en el modelo ampliado.

3. Sub-especi�cación

Ahora se quieren estudiar las consecuencias de usar un modelo lineal con menornúmero de variables predictoras que las realmente necesarias. Considérese que elmodelo verdadero(MV) es

Y = �+ " cumpliendo: � = [XW]

��

�2 Vxw

donde [XW] 2 Rn�(k+m) es de rango completo, con k + m predictores. Pero,desconociendo esto, el modelo usado(MU) es

Y = �+ " "suponiendo": � = X� 2Vx

Page 141: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. SUB-ESPECIFICACIÓN 141

donde X 2 Rn�k es de rango completo, y tiene k predictores. Notar que Vx � Vxw,pero de � 2 Vxw, no surge necesariamente que � 2 Vx. En lo que sigue supondremosque � 6= X�, o sea � =2Vx(ya que si � 2Vx, sin duda este sería el mejor modelo).

Con el MU como b"x = Y� bYx = Pr(Y j V ?x ), con E(Y� bYx) = � � �x =�? 6= 0, y si se utiliza el 4to punto del teorema de descomposición en subespaciosortogonales(2), resulta Y� bYx

2�2

=(n� k)S2x

�2� �2n�k(

�? 2�2

)

entonces ahora el estimador de varianza tiene más grados de libertad, pero es ses-gado, con(calculando la esperanza de la �2 no centrada)

E(S2x) =

�? 2n� k + �2

En el MU como E( bYx) = E(PxY) = Px� = �x, resulta que bYx es estimador dela Pr(� j Vx) = �x pero no de �, resultando sesgado.

Además en el MV, E(kexwk2) = (k +m)�2 y para el MU, como ex = bYx ��,con E(ex) = �x � � = ��?(sesgado), utilizando argumentos similares a los de(1.1) se llega a que E(kexk2) =

�? 2+ k�2. Luego con el MU el error cuadráticomedio en parte se incrementa debido al sesgo, pero disminuye debido a la reducciónde grados de libertad. Por eso aquí sería conveniente el indicador de Mallows, paraevaluar este compromiso, o sea comparar

MV = k +m con MU =

�? 2�2

+ k

Pero supóngase que interesa estimar � = c0�.Con en el MV el estimador sería b�xw = a0xwY, donde, (Gauss-Markov), axw es

el único axw 2 L(XW) con

[XW]0axw =

�c0

�o sea: X0axw = c y W0axw = 0

Y este estimador es BLUE, en la familia de todos los insesgados d0Y, con d =axw + e, donde e 2V ?xw.

Con el MU el estimador que se usaría es b�x = a0xY, con ax es el único ax 2 L(X)con X0ax = c. Pero este estimador no es BLUE ya que este modelo no cumple elrequisito � 2 Vx(necesario en el teorema de Gauss Markov). Es más, tiene sesgoya que

E(b�x) = E(a0xY) = a0x� = a0x(X� +W ) = a0xX� + a0xW = c0� + a0xW =�+a0xW

Sin embargo como X0axw = c y X0ax = c, resulta (axw � ax)?Vx con ax 2 Vx.Esto quiere decir que ax = Pr(axw j Vx), y entonces

V ar(b�x) = V ar(a0xY) = kaxk2 �2 � kaxwk2 �2 = V ar(b�xw)la varianza sería menor. Pero como este estimador tiene sesgo, la elección delestimador pasaría por evaluar el error cuadrático medio bajo los dos modelos, o seacomparar

ECM(b�xw) = kaxwk2 �2 vs ECM(b�x) = kaxk2 �2 + [a0xW ]2

Page 142: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

142 11. INCUMPLIMIENTO DE � 2 C(X)

luego conviene el modelo reducido si ECM(b�x) � ECM(b�xw) o sea sikaxwk2 �2 � kaxk2 �2 � [a0xW ]

2 � 0

y llamando axw � ax = a?, como kaxwk2 � kaxk2 = a? 2 resulta a? 2 �2 � [a0xW ]

2 � 0

pero a0xW = (axw�ax)?0W = a?0x W puesW0axw = 0 luego la condición es

� =

�a?0x W

�2ka?k2 �2

=<W ;a? >2

ka?k2 �2=

Pr(W j a?) 2

�2< 1

como a? 2 V ?x , se puede proyectar primero Pr(W jV ?x ) y luego sobre a?. PeroW = ��X� y entonces Pr(W jV ?x ) = Pr(��X� jV ?x ) = Pr(� jV ?x ) = �?

resultando el requisito

(3.1) � =

Pr(�?j a?) 2�2

< 1

Notar que el máximo de esta proyección se dará cuando �? y a? sean colineales,y en este caso Pr(�?j a?) = �?. Luego se podría exigir el cumplimiento de

(3.2)

�? 2�2

< 1 que equivale a MU < k + 1

si se cumple esto, cualesquiera sea la combinación lineal � = c0� de interés, seríapreferible el modelo reducido (aunque exigir la (3.2), equivale "casi" a pedir que elmodelo no tenga sesgo).

Sin embargo la (3.2) es muy exigente, ya que para alguna combinación lineal,podría cumplirse la (3.1), y no la (3.2).

Resumiendo todo lo anterior, si se usa un modelo sub-especi�cado se tendrá

1) Un modelo no válido (� =2 Vx)2) S2x es sesgado con más grados de libertad3) bYx será estimador sesgado de �4) Intervalos de con�anza sesgados más, o menos amplios5) El E(kexk2) puede aumentar o disminuir6) El R2x disminuirá7) b�x será sesgado8) V ar(b�x) puede aumentar o disminuir

Example 36. Suponga que el modelo verdadero es Yi = �0 + �1xi + 2x2i +

3x3i + "i donde xi = �2;�1; 0; 1; 2, pero el modelo usado es Yi = �0 + �1xi + "i.

Matricialmente el MV es

Y = X� +W + " =

2666641 �2 4 �81 �1 1 �11 0 0 01 1 1 11 2 4 8

3777752664�0�1 2 3

3775+ "

Page 143: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

3. SUB-ESPECIFICACIÓN 143

donde E(Y) = � coincide con X� +W , para ciertos � y , ya que este es elmodelo correcto. Sin embargo en el MU

Y = X� + " =

2666641 �21 �11 01 11 2

377775��0�1

�+ "

pero aquí E(Y) = � 6= X� cualesquiera sea �. Si se usa este modelo, bYx seráestimador insesgado de Pr(� j Vx) = Px� = �x, pero no de �, resultando un sesgode E( bYx)� � = �x � � = ��? = �Pr(� j V ?x ), luego

�? = Pr(� j V ?x ) = Pr(X� +W j V ?x ) = Pr(W j V ?x ) = Px?W

y operando, �? 2 = 0W0Px?W =14 22 + 1:44

23 y entonces

E(S2x) =

�? 2n� k + �2 =

14 22 + 1:44 23

3+ �2

esto quiere decir que el estimador de varianza si bien tiene más grados de libertad(3 contra 1 en el MV), es sesgado, lo que implica una varianza estimada mayor.Además este sesgo puede ser grande si el coe�ciente cuadrático 2 en el modelocorrecto es importante.

Si ahora interesa estimar � =��0�1

�, con el MV

� =

��0�1

�=

�1 0 0 00 1 0 0

�2664�0�1 2 3

3775 = A0��

y entonces llamando [X jW] = Z, se lo estimaría mediante b�xw = A0(Z0Z)�1Z0Y,

resultando

E(b�xw) = A0(Z0Z)�1Z0E(Y) = A

0(Z0Z)

�1Z0Z

��

�= � (insesgado)

con

�b�xw = A0(Z0Z)�1A�2 =

�0:486 00 0:903

��2

Por otro lado, con el MU, b�x = (X0X)�1X0Y, pero

E(b�x) = (X0X)�1X0E(Y) =(X0X)

�1X0(X� +W ) = �+(X0X)

�1X0W

siendo el sesgo, (X0X)�1X0W =

�2 00 3; 4

� � 2 3

�=

�2 23:4 3

�y

�b�x = (X0X)�1�2 =

�0:2 00 0:1

��2

La varianza de b�0 y de b�1 es menor, pero como hay sesgo, se compararán los errorescuadráticos medios de estos estimadores bajo los dos modelos.

MV MUb�0 ecm = 0:486�2 ecm = 0:2�2 + 4 22b�1 ecm = 0:903�2 ecm = 0:1�2 + 11:56 23

Page 144: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

144 11. INCUMPLIMIENTO DE � 2 C(X)

Luego, respecto de b�0, será mejor el MU si 0:2�2 + 4 22 < 0:486�2, o sea si j 2j <0:27�: Y respecto de b�1, será mejor el MU si 0:1�2 + 11:56 23 < 0:903�2, o sea sij 3j < 0:26�.

Page 145: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 12

Incumplimiento de �" = �2In

145

Page 146: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno
Page 147: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

CHAPTER 13

BORRADOR

obtener una base ortogonal. Sea un subespacio V y una base x1;x2 ���xk. LuegoV = L(x1;x2; ��;xk) = C(X): Considérense la sucesión de subespacios V1 = L(x1);V2 = L(x1;x2); V3 = L(x1;x2;x3); ��; Vk = L(x1;x2; ��;xk):que estarán propia-mente incluidos o sea: V1 � V2 � � � Vk:Los pasos son:

Example 37. Análisis de Covarianza: Se analizará un problema propuesto porFischer. Se quieren analalizar tres tratamientos I,II y III, a aplicar en plantas dete. Para ello se dispone de 9 plantas de te, y mediante un sorteo se las divide en tresgrupos, aplicandose al primer grupo el tratamiento I, al segundo el II, y al terceroel III. Posteriormente se mide el rendimiento Y de cada planta. Los datos son

I II IIIY11 Y21 Y31Y12 Y22 Y32Y13 Y23 Y33

y los datos numéricos son

I II III113 136 119124 130 125135 127 138

Si se designa �i al efecto de cada tratamiento(rendimiento medio debido a cadatratamiento) se podría plantear el modelo Yij = �i + "ij con i; j = 1; 2; 3, y "ij �N(0;�2). Si se utilizan los vectores indicadores de columna: c1 = (1; 1; 1; 0; 0; 0; 0; 0; 0)0,c2 = (0; 0; 0; 1; 1; 1; 0; 0; 0)0 y c3 = (0; 0; 0; 0; 0; 0; 1; 1; 1)0 vectorialmente se tiene elmodelo

Y = c1�1 + c2�2 + c3�3 + " con " �N(0;�2I9)que sería un modelo de análisis de varianza simple de un factor. Al ser ortogonal

b�1 = < Y; c1 >

kc1k2= 124 b�2 = < Y; c2 >

kc2k2= 131 b�3 = < Y; c3 >

kc3k2= 127:3

como bY = c1b�1 + c2b�2 + c3b�3 resulta kb"3k2 = Y � bY 2 = 472:66 y entonces

S2 = kb"3k2 =(9� 3) = 78:77. Luego como dV ar(b�i) = S2= kcik2 resultarán: Sb�1 =Sb�2 = Sb�3 = 5:12. Además R23 = 1 � kb"3k2

kY�Yk2 = 1 �472:66546:22 = 0:134. Notar que el

R23 es muy bajo, lo que habla de un ajuste pobre, y como las estimaciones de los b�ison bastante parecidas en relación a sus desvíos Sb�i = 5:12, no está muy claro cualvariedad es la mejor. Sin embargo de dispone de datos del rendimiento xij de cadauna de las 9 plantas en la cosecha del año pasado, cuando no fueron expuestas aningún tratamiento. Los rendimientos obtenidos fueron

68 96 10480 90 11091 77 123

147

Page 148: ifoglia.comifoglia.com/otr/modlineal.pdf · Contents Preface 5 Part 1. Repaso 7 Chapter 1. Algebra Lineal 9 1. Espacios Vectoriales 9 2. Espacios Vectoriales con Producto Interno

148 13. BORRADOR

como se presume que los rendimientos actuales Yij (con los tratamientos) son in-�uídos por estos rendimientos pasados, se propone incluir esta variable en el modelo

Y = c1�1 + c2�2 + c3�3 + x� + " con " �N(0;�2I9)como bx = x1�c1 + x2�c2 + x3�c3 resulta

x? = (�11:66; 0:33; 11:33; 8:33; 2:33;�10:66;�8:33;�2:33; 10:66)y entonces ry;x? = 0:884. Esto quiere decir que el predictor x tiene realmenteinformación útil para aportar al modelo, y recordando que R24 = R23 + r

2y;x? =

0:134+ 0:8842 = 0:915 , la mejora en el ajuste es importante. Se estimará el nuevomodelo para comparar con el anterior. Por de pronto b� = <Y;x?>

kx?k2 = 0:81, y como

Y�b�x = (57:53; 58:74; 60:77; 57:69; 56:59; 64:19; 34:17; 35:27; 37:67)al hallar las coordenadas de este vector según c1, c2, y c3 se obtieneb�1 = 59:02 b�2 = 59:49 b�3 = 35:70en realidad estos b�i conceptualmente son diferentes a los anteriores, ya que ahoramiden realmente el efecto medio de cada tratamiento sobre el rendimiento, habién-dole quitado el rendimiento propio de cada planta(esto último lo absorbe el tér-mino x� del modelo). Como bY = c1b�1 + c2b�2 + c3b�3 + xb� resulta kb"4k2 = Y � bY 2 = 45:522 (menor que antes) y entonces R24 = 1� kb"4k2

kY�Yk2 = 1�45:522546:22 =

0:915 coincidente con el calculado. También S2 = kb"4k2 =(9 � 4) = 9:1. LuegoSb� = S2=

x? 2 = 0:12, y los restantes dan un poco más de trabajo resultando:Sb�1 = 9:64, Sb�2 = 10:58, y Sb�3 = 13:49.


Recommended