Revista Comunicaciones en Estadística Vol. 7 No. 1

FACULTAD DE ESTADÍSTICA

Vol.

7, N

.o 1, E

nero

-Jun

io d

e 20

14

Certificado SC 4289-1

Comunicaciones en

Estadística

Bogotá, D. C.Colombia

Vol. 7, N.o 1 pp. 1-104ISSN:

2027-3335Enero-Junio 2014

Editorial

JORGE IVAN VELEZ & JUAN CARLOS CORREA¿Debemos pensar en un estimador diferente para lamediana?

LUIS ALEJANDRO MASMELA CAITA &EDWIN JAVIER CASTILLO CARRENORelacion entre los procesos de reservas que se generan condos reclamaciones relacionadas en el tiempo

CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO & MARIO PACHECOInferencia Bootstrap bayesiana para una proporción en muestreo con probabilidades desiguales

ALVARO JOSÉ FLÓREZ & JAVIER OLAYAEstudio de simulación para comparar varios estimadores de varianza en el marco de la regresión no paramédica

HÉCTOR HORTÚA & ALEX J. ZAMBRANO Una aplicación estadística de los métodos de clasificación en astronomía

JORGE ORTIZ PINILLA & DIANA GILTransformaciones logarítmicas en regresión simple

Universidad Santo TomásFacultad de Estadística

Centro de Investigaciones y Estudios Estadísticos (CIEES)

Revista Comunicaciones en Estadística

ISSN: 2027-3335 (impresa)

ISSN: 2339-3076 (online)

Enero-junio 2014

Vol. 7, N.° 1

Bogotá, D. C., Colombia

Indexada en IBN Publindex (categoría C)

REVISTA COMUNICACIONES EN ESTADÍSTICA

DirectoraHanwen Zhang, Ph. D.

COMITÉ EDITORIAL

Jorge Eduardo Ortiz, Ph. D.Universidad Santo Tomás

Elkin Castaño, M. Sc.Universidad Nacional de Colombia

Andrés Gutiérrez, Ph. D.Universidad Santo Tomás

Liliam Cardeño Acero, Ph. D.Universidad de Antioquia

Emmanuel Viennet, Ph. D.Université Paris 13

Cristiano Ferraz, Ph. D.Universidad Federal de Pernambuco

Amparo Vallejo Arboleda, Ph. D.Universidad de Antioquia

Santiago Velasco-Forero, Ph. D.National University of Singapore

COMITÉ CIENTÍFICO

Juan Carlos Salazar, Ph. D.Universidad Nacional de Colombia

Jorge I. Vélez, Ph. D. (c)The Australian National University

Brenda Betancourt, M. Sc.University of California, Santa Cruz

José Domingo Restrepo, Ph. D.Universidad de Antioquia

Daniel Andrés Díaz Pachón, Ph. D.University of Miami

Isabel García Arboleda, M. Sc.CIMAT, México

CONSEJO EDITORIAL PARTICULAR

Fr. Carlos Mario Alzate Montes, O. P.Rector General

Fr. Eduardo González Gil, O. P.Vicerrector Académico General

Fr. Jaime Monsalve Trujillo, O. P.Vicerrector Administrativo y Financiero General

María Carolina Suárez SandovalCoordinadora Revistas Científi cas

Dr. Henry Borja OrozcoDirector Unidad de Investigación

Daniel Mauricio Blanco BetancourtDirector Ediciones USTA

Fr. Érico Juan Macchi Céspedes, O. P.Vicerrector General de Universidad Abierta

y a Distancia (VUAD)

Hecho el depósito que establece la leyISSN: 2027-3335 (impresa)ISSN: 2339-3076 (online)

Jenny Jiménez MedinaCorrección de estilo

Panamericana Formas e Impresos S.AImpresión

© Derechos reservadosUniversidad Santo TomásBogotá, D. C., Colombia

UNIVERSIDAD SANTO TOMÁSEdiciones USTACarrera 13 No. 54-39, Bogotá, ColombiaTeléfonos: 235 1975-249 71 21http://[email protected]

Publicación del Centro de Investigaciones y Estudios Estadísticos (CIEES)

Revista Comunicaciones en Estadıstica

Contenido

Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10

JORGE IVAN VELEZ & JUAN CARLOS CORREA

¿Debemos pensar en un estimador diferente para la mediana? . . . . . . . . . . . . . 11-16

LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS-

TILLO CARRENO

Relacion entre los procesos de reservas que se generan con dos reclamaciones rela-

cionadas en el tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19-30

CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO &

MARIO PACHECO

Inferencia Bootstrap bayesiana para una proporcion en muestreo con probabilida-

des desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48

ALVARO JOSE FLOREZ & JAVIER OLAYA

Estudio de simulacion para comparar varios estimadores de varianza en el marco

de la regresion no parametrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66

HECTOR HORTUA & ALEX J. ZAMBRANO

Una aplicacion estadıstica de los metodos de clasificacion en astronomıa . . .67-87

JORGE ORTIZ PINILLA & DIANA GIL

Transformaciones logarıtmicas en regresion simple. . . . . . . . . . . . . . . . . . . . . . . . . 89-98


Content

Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10

JORGE IVAN VELEZ & JUAN CARLOS CORREA

Should we think of a different median estimator? . . . . . . . . . . . . . . . . . . . . . . . . . .11-17

LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS-

TILLO CARRENO

Relationship between booking processes generated two related claims in time 19-30

CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO &

MARIO PACHECO

Bootstrap Bayesian inference for a proportion in unequal probabilities sampling

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48

ALVARO JOSE FLOREZ & JAVIER OLAYA

A simulation study for the comparison of several variance estimators in the non-

parametric regression framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66

HECTOR HORTUA & ALEX J. ZAMBRANO

A statistical application of classification methods in astronomy . . . . . . . . . . . .67-87

JORGE ORTIZ PINILLA & DIANA GIL

Logarithmic transformations in simple regression analysis. . . . . . . . . . . . . . . . . 89-98

Comunicaciones en Estadıstica

Junio 2014, Vol. 7, No. 1, pp. 7–9

Editorial

Hanwen Zhanga

[email protected]

Me es grato presentar el numero 1 del volumen 7 de la revista Comunicaciones en

Estadıtica; por primera vez en la revista, tenemos un artıculo escrito en ingles. Si

bien la revista se centra en la divulgacion de artıculos escritos por la comunidad de

habla hispana, tambien son bienvenidos los escritos en ingles. En este numero, los

artıculos abarcan la estadıstica multivariada, muestreo, tecnicas no parametricas,

entre otras tematicas.

Los investigadores Velez y Correa cuestionan el popular estimador clasico de la

mediana recomendado por la mayorıa de los textos de ensenanza estadıstica. Por

medio de simulaciones recomiendan el uso del estimador de Harrell & Davis que

tiene mejores propiedades.

El segundo artıculo de este numero, escrito por Masmela y Castillo aborda el

problema de dos reclamaciones relacionadas con el tiempo del proceso de reserva

para companıas aseguradoras dentro del ambito de la estadıstica actuarial.

De la rama del muestreo, Tellez, Guerrero & Pacheco proponen la estimacion de

una proporcion en muestreo con probabilidades desiguales vıa bootstrap bayesiano.

Los autores encuentran que el estimador resultante tiene un sesgo despreciable y

una varianza menor comparado con el π-estimador clasico y el estimador BPSP.

El cuarto artıculo lo traen Florez y Olaya desde Cali, donde comparan diferentes

estimadores de varianza en una regresion no parametrica vıa simulaciones. Los

resultados obtenidos pueden ser de gran interes en la ensenanza de estas tecnicas

no parametricas.

Como una aplicacion interesante de la estadıstica multivariada a la astroestadısti-

ca, Hortua y Zambrano realizan una clasificacion a las estrellas del cumulo de las

Hyades. Las interesantes conclusiones obtenidas no solo pueden ser interesantes

para los astronomos sino tambien son un ejemplo bello de la gran utilidad de las

tecnicas multivariadas.

Finalmente, Ortiz y Gil analizan una situacion comun y obviada en una de las

tecnicas estadıstica mas comunes en la practicas: regresion lineal. Los autores

aEditora. Revista Comunicaciones en Estadıstica. Universidad Santo Tomas.

7

8 Hanwen Zhang

muestran que se debe tener mayor cuidado a la hora de transformar las varia-

bles en una regresion, ya que los estimadores de los parametros pierden muchas

propiedades deseadas.

Espero que estos artıculos sean de utilidad en la ensenanza o la practica profesional

de la comunidad estadıstica. Un abrazo y un saludo desde la oficina de la revista

Comunicaciones en Estadıstica a todos nuestros autores y lectores.

Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1

Editorial 9


Junio 2014, Vol. 7, No. 1, pp. 7–9

Editorial

I am proud to present number 1 volume 7 of the journal Comunicaciones en Es-

tadıstica (Communications in Statistics); for the first time in the journal, we have

an article written in English. Although the journal is focused in publishing articles

written by the Spanish-speaking community, articles written in other languages

as English are also welcome. In this number, articles cover multivariate statistics,

sampling, nonparametric techniques, among other topics.

Researchers Velez and Correa question the popular classical estimator of the mean,

recommended by most statistics textbooks. Through simulations they recommend

using the Harrell & Davis estimator which has better properties.

The second article of this number, written by Masmela and Castillo, addresses

the issue of two claims related to the time of the reserves process for insurance

companies, within the field of actuarial statistic.

From the sampling branch, Tellez, Guerrero & Pachecho propose the estimation

of a proportion in sampling with unequal probabilities via Bayesian Boostrapping.

Authors find that the resulting estimator has an insignificant bias and a lower

variance compared to the classical π-estimator and the BPSP estimator

The fourth article is brought by Florez and Olaya from Cali, where they compare

different variance estimators in a nonparametric regression via simulations. Results

obtained can be of great interest in teaching these nonparametric techniques.

As an interesting application of multivariate statistics in astrostatistics, Hortua

and Zambrano make a classification of the stars in the Hyades cluster. The inter-

esting conclusions obtained are not only interesting for astronomers, they are also

a beautiful example of the great usefulness of multivariate techniques.

Finally, Ortiz and Gil analyze a common and avoided situation in one of the most

common statistics technique in the practice: linear regression. Authors show the

greater care that must be taken when transforming variables in a regression, since

the estimators of parameters lose many desired properties.

I hope these articles will be useful in teaching or in professional practicing of the

statistical community. A hug and greetings from the office of our journal Comuni-

caciones en Estadısitica to all our authors and readers.



Junio 2014, Vol. 7, No. 1, pp. 11–17

Should we think of a different median estimator?

¿Debemos pensar en un estimator diferente para la mediana?

Jorge Ivan Veleza

[email protected] Carlos Correab

[email protected]

Resumen

La mediana, una de las medidas de tendencia central mas populares y utilizadas

en la practica, es el valor numerico que separa los datos en dos partes iguales. A

pesar de su popularidad y aplicaciones, muchos desconocen la existencia de dife-

rentes expresiones para calcular este parametro. A continuacion se presentan los

resultados de un estudio de simulacion en el que se comparan el estimador clasi-

co y el propuesto por Harrell & Davis (1982). Mostramos que, comparado con el

estimador de Harrell–Davis, el estimador clasico no tiene un buen desempeno pa-

ra tamanos de muestra pequenos. Basados en los resultados obtenidos, se sugiere

promover la utilizacion de un mejor estimador para la mediana.

Palabras clave: mediana, cuantiles, estimador Harrell-Davis, simulacion estadısti-

ca.

Abstract

The median, one of the most popular measures of central tendency widely-used

in the statistical practice, is often described as the numerical value separating the

higher half of the sample from the lower half. Despite its popularity and applica-

tions, many people are not aware of the existence of several formulas to estimate

this parameter. We present the results of a simulation study comparing the classic

and the Harrell-Davis (Harrell & Davis 1982) estimators of the median for eight

continuous statistical distributions. It is shown that, relatively to the latter, the

classic estimator performs poorly when the sample size is small. Based on these

results, we strongly believe that the use of a better estimator of the median must

be promoted.

Keywords: median, quantiles, Harrell–Davis estimator, statistical simulation.

aTranslational Genomics Group, Genome Biology Department, John Curtin School of Medical

Research, The Australian National University, Canberra, ACT, Australia. Grupo de Neurocien-

cias de Antioquia, Universidad de Antioquia, Colombia. Grupo de Investigacion en Estadıstica,

Universidad Nacional de Colombia, sede Medellın.bGrupo de Investigacion en Estadıstica, Universidad Nacional de Colombia, sede Medellın.

Profesor Asociado, Escuela de Estadıstica, Universidad Nacional de Colombia, sede Medellın.

11

12 Jorge Ivan Velez & Juan Carlos Correa

1. Introduction

LetX1, X2, . . . , Xn be a random sample of size n from a population with absolutely

continuous distribution function F , and let X(i) be the ith order statistic (i =

1, 2, . . . , n), e.g., X(1)

< X(2)

< · · · < X(n). Denote θ as the true median (a

parameter) and any estimator of θ as θ. The most common estimator of the median

is

θ1 =

{X

(n+1)/2 if n is odd,1

2

(X

(n/2) +X(n/2)+1

)if n is even.

(1)

Harrell & Davis (1982) proposed a new distribution-free estimator of the pth per-

centile, denoted as Qp. For the median, the estimator is given by:

θ2 = Q1/2 =

n∑i=1

Wn,iX(i) (2)

with

Wn,i =Γ (n+ 1)

Γ(n+1

2

)2

∫ i/n

(i−1)/n

[z (1− z)](n−1)/2

dz.

Other estimators for the median have also been proposed in the literature, but

their complexity and dependence on arbitrary constants make them less appealing

and difficult to implement (see Ekblom, 1973). Comparative studies have been

performed to evaluate the equivalency and asymptotic properties of θ1 and θ2,

with the work by Yoshizawa (1984) being the first of them. The author showed

that both estimators are asymptotically equivalent, and gave regularity conditions

to guarantee the asymptotic normality of each of them. On the other hand, Bassett

(1991) showed that the traditional estimator of the median is the only equivariant

and monotonic with 50% breakdown, and Zielinski (1995) concluded the θ1 is not

a good estimator under asymmetric distributions.

In this paper we compare the performance of θ1 and θ2 for several continuous

distributions when the sample size n is small, and by considering the skewness as

the main factor (measure) to control. As explained further below, this measure

represents the relative efficiency of one of the estimators when B samples of size

n are draw from a specific distribution F .


¿Debemos pensar en un estimator diferente para la mediana? 13

2. Simulation Study and Results

2.1. Simulation set up

In order to compare the performance of θ1 and θ2, we carried out a simulation

study in which eight continuous distributions were considered (see Table 1). The-

se distributions represent those most frequently encountered in the statistical

practice. For each of these distributions, a total of B = 5000 samples of size

n = {5, 10, 15, . . . , 200} were generated. The choice of theses sample sizes was

driven because of what is often seen in real-world applications.

Tabla 1: Probability distributions considered in this study. Source: compiled by

authors.Distribution F (·) Parameters Median (θ)

Uniform 1

b−a a, ba+b2

Normal 1√2πσ

e− (x−μ)2

2σ2μ, σ μ

Laplace 1

2τ e− |x−μ|

τ μ, τ μ

Cauchy 1

π(1+x2)

– 0

t−StudentΓ(

ν+12 )

Γ(ν/2)√νπ

(1 + x2

ν

)− ν+12

ν 0

Exponential λe−λx

λ λ log(2)

Gamma 1

Γ(α)βαxα−1

e− x

β α, β No closed form

Weibull βαβ x

β−1e−( x

α)β

α, β α(log(2))1β

We compare the performance of θ1 and θ2 using the following measure of relative

efficiency

γ =MSE1

MSE2

(3)

with

MSEj =1

B

B∑i=1

(θij − θ)2

the mean squared error (MSE) for the jth estimator (j = 1, 2), θ the true median,

and B the number of samples of size n that are draw from a specific distribution

function F (see Table 1). Note that the lower the MSE, the better the estimator.

Here, γ = 1 indicates that both estimators perform equally well; γ < 1 indicates

that θ1 outperforms θ2; and γ > 1 indicates that θ2 outperforms θ1. In general, it

is possible to derive closed-form expressions for calculating θ provided F . However,

when this is not the case, the use of computational routines is required. In our

case, the qgamma() function in R (R Core Team 2013) was utilised for estimating

θ for the Gamma(α, β) distribution.

For our simulation study, we implemented the following algorithm in R:



Figura 1: γ as a function of the sample size when (a) n ≤ 50 and (b) n > 50 for

the first six distributions in Table 1. Here, the dotted horizontal line represents

a comparable performance between the classic and the Harrell–Davis estimators.

Note that all probability distributions but the Exponential are symmetric. Source:

elaborated by authors.

1. Generate a sample of size n from F (see Table 1 for details).

2. Calculate θ1 as in (1), and θ2 as in (2).

3. Repeat 1–2, B times, calculate the MSE for each estimator and then the

ratio of the resulting quantities.

2.2. Results

The results of our simulation study are presented in figures 1 and 2. Figure 1

depicts the value of γ as a function of the sample size n for the first six continuous

distributions in Table 1. Figure 2 shows, for fixed n, a 3D representation of γ as a

function of α and β, for the Gamma(α, β) and Weibull(α, β) distributions.

As shown in figure 1, γ is always greater than one except for the t2 distribution

when n < 10, and the t3 distribution when n < 25. Another interesting finding is

that, regardless of n, the highest values of γ were obtained for the U(0, 1) followed

by the N(0, 1) and the Laplace distributions. It is intriguing that, despite not

being a symmetric distribution, the values of γ for the exponential distribution

with parameter λ = 1 were the forth highest. In addition, note that γ → 1 as

n → ∞, which is consistent with the assymptotic equivalency of both estimators

described by Yoshizawa (1984).

In figure 2 we present the results for the Gamma(α, β) and Weibull(α, β) distri-

butions for different values of α and β for n is fixed. These results suggest that,

regardless of n, the Harrell–Davis estimator outperforms the classic estimator, e.g.,

γ > 1. On the other hand, the higher γ values were obtained when n = 5, and the

lowest when n = 200, supporting the assymptotic equivalency of both estimators



Figura 2: γ as a function of n and the parameters (α, β) for the Gamma(α, β) and

Weibull(α, β) distributions. Note that γ > 1 regardless of n, α and β, showing that

the Harrell–Davis estimator of the median outperforms the traditional estimator.

Source: elaborated by authors.

(Yoshizawa 1984).

3. Conclusions

We have shown under a large number of scenarios that the Harrell–Davis estimator

of the median behaves better than the traditional estimator in terms of the MSE.

In particular, it is found that, for small sample sizes, the MSE of the Harrell–

Davis estimator of the median is lower than that of the traditional estimator for

most of the continuous statistical distributions considered in this study, and often



seen by data analysts. Despite the use and popularity of the traditional estimator

of the median, and the fact that it is taught in most of statistics textbooks, we

strongly believe that, with the current computational capability, the use of a better

estimator must be promoted. In Appendix A we provide R code to facilitate this

process.

4. Acknowledgments

We thank Dr. Freddy Hernandez Barajas for critical reading of this manuscript,

and one anonymous reviewer for his useful comments and suggestions. JIV was

supported by the Eccles Scholarship in Medical Sciences, the Fenner Merit Scho-

larship and the Australian National University High Degree Research Scholarship.

JIV thanks Dr. Mauricio Arcos-Burgos for his support.

Recibido: 5 de julio de 2013

Aceptado: 9 de septiembre de 2013

Referencias

Bassett, J. G. W. (1991), ‘Equivariant, monotonic, 50% breakdown estimators’,

The American Statistician 45(2), 135–137.

Harrell, F. E. & Davis, C. E. (1982), ‘A new distribution-free quantile estimator’,

Biometrika 69(3), 635–640.

R Core Team (2013), R: A Language and Environment for Statistical Computing,

R Foundation for Statistical Computing, Vienna, Austria.

*http://www.R-project.org/

Yoshizawa, C. N. (1984), Some Symmetry Tests, Institute of Statistics, Mimeo

Series No. 1460. University of North Carolina, Chapel Hill, USA.

Zielinski, R. (1995), ‘Estimating median and other quantiles in nonparametric

models’, Applicationes Mathematicae 23(3), 363–370.



A. Harrell–Davis estimator in R

A generalisation of the Harrell–Davis estimator for any quantile p ∈ (0, 1) can be

found in the Hmisc package (Harrell, 2012). Our implementation, as follows, deals

only with the case p = 1/2.



Junio 2014, Vol. 7, No. 1, pp. 19–30

Relacion entre los procesos de reservas que se

generan con dos reclamaciones relacionadas en el

tiempo

Relationship between booking processes generated two related claims

in time

Luis Alejandro Masmela Caitaa

[email protected]

Edwin Javier Castillo Carrenob

[email protected]

Resumen

El proceso de reservas es para las companıas aseguradoras una base fundamen-

tal para el control de las carteras que se tienen contratadas; a fin de facilitar la

manipulacion del modelo matematico y probabilıstico en ocasiones se discretiza el

modelo, de manera que los resultados aproximen a la solucion real en el continuo,

en este caso se utiliza el modelo binomial compuesto para dicho proposito. En la

mayorıa de contextos se parte del supuesto de independencia, el caso que aquı se

considera se supone de dependencia entre dos tipos de reclamaciones denomina-

das: la reclamacion principal y la sobre-reclamacion o reclamacion subsecuente,

esta ultima estara asociada siempre que exista una reclamacion principal. El tipo

de modelo con reclamaciones relacionadas en el tiempo genera dos procesos de re-

servas, uno para cuando la reclamacion subsecuente no es retrasada a un siguiente

periodo de tiempo y otro donde se cubre el total reclamado, tanto por la recla-

macion principal como por la subsecuente. Ya que manipular dichos procesos por

separado es innecesario y poco practico, se genera a partir de las probabilidades

de supervivencia de ambos procesos y la manipulacion de funciones generadoras

de probabilidad, una ecuacion que recopila la informacion de los dos procesos de

reservas.

Palabras clave: procesos de reservas, funciones generadoras de probabilidad, pro-

babilidad de ruina, reclamaciones relacionadas en el tiempo, binomial compuesto.

Abstract

For insurance companies the reservation process is the fundamental basis for con-

trolling portfolios contracted to facilitate the manipulation of mathematical and

aProfesor asistente. Facultad de Ciencias y Educacion. Universidad Distrital Francisco Jose de

Caldas. Colombia.bEstudiante. Maestria en Ciencias Estadıstica. Universidad Nacional de Colombia. Colombia.

19

20 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno

probabilistic model. Sometimes the model is discretized so that the results appro-

ximate the real solution in the continuum, in this case the compound binomial

model is used for this purpose. In most contexts the assumption of independence

is assumed, in this article we consider dependence between two types of complaints

referred to the principal claim and over-claim or subsequent claim, the latter will

be involved whenever there is a claim principal. The type of model with time-

related claims process generates two reserves, one for when the subsequent claim

is not delayed to a next time and another where it covers the total claimed by

both the principal and by the subsequent claim. Since manipulate these processes

separately is unnecessary and impractical, we generate from the survival proba-

bilities of both processes and manipulate the probability generating functions, an

equation that collects information from the two processes of reserves.

Keywords: booking processes, probability generating functions, probability of

ruin, claims related in time compound binomial.

1. Introduccion

Las companıas de seguros utilizan el proceso de reservas para hacer predicciones

sobre el comportamiento de los portafolios que se manejan, su principal aplicacion

es el calculo de la probabilidad de ruina.Ya que la probabilidad de ruina para

un proceso de superavit en tiempo continuo puede requerir un manejo matemati-

co dispendioso, algunos autores como Shiu (1989) y Dickson (1994) plantean la

discretizacion del modelo para conseguir resultados aproximados de manera mas

sencilla. Uno de los modelos discretos mas utilizados es el modelo binomial com-

puesto, propuesto por Gerber (1988), debido a que desde este se puede hacer un

paso al modelo en tiempo continuo utilizando un lımite al infinito.

A medida que el tiempo ha avanzado y las companıas aseguradoras han presen-

tado distintos tipos de inconvenientes, donde los modelos clasicos no brindan una

solucion, se ha hecho necesario implementar nuevos modelos matematicos y proba-

bilısticos; sobre todo, para distintos tipos de situaciones donde existe dependencia

entre las reclamaciones que se encuentran en un portafolio. Un modelo donde exis-

te dependencia es el planteado por Guo & Yuen (2001) y estudiado en detalle por

Castillo (2013); en dicho estudio aparecen la relacion entre los procesos de reservas

o superavit que se presentan cuando existe una reclamacion principal y una sobre-

reclamacion o reclamacion subsecuente. La ecuacion de relacion entre procesos de

reservas es utilizada tambien por Guo & Yuen (2001), con el proposito de plantear

formulas recursivas que permiten calcular la probabilidad de ruina en tiempo finito

para este tipo de modelo con reclamaciones relacionadas en el tiempo.

El documento que se desarrolla a continuacion presenta en la Seccion 2 las genera-

lidades del modelo binomial compuesto introducido por Gerber (1988) y tratado

por Rincon (2012) y Kaas et al. (2005). La Seccion 3 presenta los supuestos nece-

sarios y algunas caracterısticas del modelo binomial compuesto con reclamaciones

relacionadas en el tiempo. En la Seccion 4 se presenta el metodo para la obten-


Relacion entre los procesos de reservas 21

cion de la ecuacion que relaciona los procesos de reservas que surgen al estudiar el

modelo planteado en la Seccion 3.

2. Modelo binomial

En la literatura que trata sobre riesgo actuarial los autores presentan el modelo

de Poisson compuesto, dicho modelo es bastante practico ya que la distribucion de

Poisson depende de un unico parametro λ, ası mismo es comun que los montos de

reclamaciones se supongan distribuidos de manera exponencial, esto para facilitar

la estimacion de parametros de una muestra; en este caso se presenta el modelo

binomial compuesto que, aunque evidencia mayor dificultad en modelos practicos,

es mucho mas sencillo para la manipulacion teorica y, ademas, desde este se puede

encontrar una relacion con el proceso de Poisson. Es por ello que se presenta

este modelo que es introducido por Gerber (1988) y mencionado en extension por

Rincon (2012) y Alfredo (2000).

Se dice que si en la funcion de riesgo colectivo

S =

N∑i=1

Yi

donde N es la v.a del numero de siniestros y/o reclamaciones en un intervalo de

tiempo [0, T ] y Yi es el monto de la i-esima reclamacion.

Si la v.a N se distribuye de manera binomial, es decir N ∼ bin(n, p), se dice que

la funcion de riesgo S sigue una distribucion binomial compuesta, que se nota

S ∼ bincomp(n, p,G); en donde G es la funcion de distribucion de cada monto.

Algunas de las caracterısticas mas importantes para este modelo son las siguientes:

Si S se distribuye de manera binomial compuesta se tiene que:

E(S) = npE(Y )

V ar(S) = np((E(Y ))2 − p(E(Y ))2)

Ms(t) = (1− p+ pMY (t))n

3. Modelo binomial compuesto con reclamaciones

relacionadas en el tiempo

Se considera un modelo a tiempo discreto que involucra dos tipos de reclamacio-

nes de seguros, las cuales son la reclamacion principal y la sobre-reclamacion o

reclamacion subsecuente sobre las unidades de tiempo t = 1, 2, 3 . . ., se supone que

cada reclamacion principal induce una reclamacion subsecuente.



En cualquier periodo de tiempo la probabilidad de tener una reclamacion principal

sera p, 0 < p < 1, y de no tenerla es q = 1 − p, la ocurrencia de las reclamacio-

nes principales en diferentes periodos de tiempo son independientes, es decir la

ocurrencia de una reclamacion en el periodo k no depende de la ocurrencia en los

periodos de tiempo anteriores a k; ası mismo esta reclamacion no influira en la

ocurrencia de una reclamacion en los periodos de tiempo siguientes a k. La sobre-

reclamacion que esta asociada a una reclamacion principal ocurre en el mismo

periodo de tiempo con probabilidad θ o puede ser retrasada al siguiente periodo

de tiempo con probabilidad δ = 1 − θ; es aca donde se presenta el tipo de rela-

cion que existe entre la reclamacion principal y la sobre-reclamacion. Los montos

de reclamacion son independientes entre si y son enteros positivos, los montos de

reclamaciones principales X1, X2, X3 . . . son independientes e identicamente dis-

tribuidos con funcion de probabilidad comun

f(m) = fm = Pr(X = m)

para m = 1, 2, 3 . . ., con su correspondiente funcion generadora de probabilidad

dada por

f(z) =

∞∑m=1

fmzm

y con media

μX =

∞∑m=1

mfm.

Sean Y1, Y2, Y3 . . . variables identicamente distribuidas e independientes que repre-

senta los montos para las sobre-reclamaciones, con funcion de probabilidad comun

g(n) = gn = Pr(Y = n)

Para n = 1, 2, 3 . . ., con su correspondiente funcion generadora de probabilidad

dada por

g(z) =

∞∑n=1

gnzn

Y con media

μY =

∞∑n=1

nfn.

Asumase que la prima por periodo de tiempo es de valor 1, que el superavit inicial

es u ∈ Z+ y su proceso de superavit es

S(t) = u+ t− UX − UY (1)

donde UXt y U

Yt es la suma de montos de las reclamaciones principales y sobre-

reclamaciones en los primeros t periodos de tiempo respectivamente, es decir

UXk =

n∑i=1

Xi y UYk =

n∑j=1

Yj .



La probabilidad de Ruina en tiempo finito es

ψ(u, k) = Pr(S(t) ≤ 0; t = 1, 2, 3 . . . , k) (2)

Y con esto la probabilidad de supervivencia sera

φ(u, k) = 1− ψ(u, k)

Este modelo supone el caso donde la ruina ocurre, ya que los fondos de la asegu-

radora son negativos.

Sea Uk la suma de UXk y U

Yk , entonces para el periodo de tiempo t = 1 se tiene

que

E(U1) = E(UX1

+ UY1)

= E(UX1) + E(UY

1)

Y utilizando el teorema de la probabilidad total y el hecho de independencia entre

los montos de los dos tipos de reclamaciones se obtiene

= pμX + pθμY

Pueden existir tres escenarios en los cuales se presenten las reclamaciones relacio-

nadas en cualquier periodo de tiempo, dichos escenarios deben tenerse en cuenta

en el momento de querer planificar sobre ellos y estos se enumeran a continuacion.

1. La reclamacion principal.

2. La reclamacion inicial y la reclamacion subsecuente inducida por la reclama-

cion inicial.

3. La reclamacion subsecuente inducida por la reclamacion inicial ocurrida pre-

viamente.

Bajo los posibles tipos de reclamacion ya mencionados, la esperanza matematica

de la suma de los montos de reclamaciones para un periodo cualquiera viene dada

por

E(Un+1) = E(Un) + pμX + pθμY + p(1− θ)μY

= E(Un) + pμX + pθμY + pδμY

= E(Un−1) + pμX + pθμY + pδμY + E(U1)

= E(Un−1) + 2(pμX + pθμY + pδμY )

donde por induccion

= (n+ 1)p0oμX + pθμY + npδμY

= np(μX + μY ) + pμX + pθμY



Por ultimo, en el planteamiento del modelo se asegura que la tasa de la prima

excede la tasa de reclamaciones netas y por lo tanto la carga de aseguramiento es

positiva, en terminos de la esperanza de la suma de montos reclamados.

p(μX + μY ) < 1 (3)

Ya que para algunos lectores puede parecer extrano plantear este modelo a un

escenario real, se ponen en consideracion las siguientes situaciones donde se puede

presentar este tipo de reclamaciones relacionadas en el tiempo; si se considera que

para una catastrofe, como un terremoto o una tormenta, puede ser muy probable

que ocurran reclamaciones de seguros despues de los hechos inmediatos, o tambien

se puede considerar el caso en que un seguro de accidente tenga despues de cobrada

la reclamacion el agravante posterior del suceso de muerte.

Otra posible interpretacion del modelo puede ser que la reclamacion subsecuen-

te sea tomada como una porcion aleatoria del total de reclamaciones, tomando

algunas unidades de tiempo para ser resuelto.

4. Ecuacion de relacion entre los procesos de reser-

vas que modelan dos reclamaciones relacionadas

en el tiempo

Cuando se presentan reclamaciones que se pueden enmarcar en el modelo mencio-

nado en la seccion 2, a su vez se manifiestan dos escenarios en los cuales difieren

los procesos de reservas, es por ello que a partir de los escenarios que se mencionan

a continuacion se genera una ecuacion que relaciona estos dos procesos.

El primero de los escenarios consiste en que si una reclamacion principal ocurre

en un periodo de tiempo determinado la reclamacion subsecuente tambien ocu-

rrira en el mismo periodo, por lo tanto no existiran reclamaciones para el proximo

periodo de tiempo y de esta manera el proceso de superavit se renueva; en este

caso el proceso de reservas o superavit que modela dicha situacion se presenta en

la ecuacion (2.1).

El segundo escenario es el evento complementario, que se menciono anteriormente,

es decir si existe una reclamacion principal sobre su reclamacion se producira en

el siguiente periodo de tiempo. Ahora, si la reclamacion principal se produce en

el periodo anterior y su reclamacion subsecuente asociada se produce al final del

periodo de tiempo actual, se tiene el siguiente proceso de superavit condicionado

al segundo escenario

S1(t) = u+ t− UXt − U

Yt − Y (4)

para t = 1, 2, 3 . . . y con S1(0) = u. Se nota ademas la probabilidad de supervi-

vencia al proceso condicional en el periodo k como φ1(u, k) y con esto se obtiene



por medio del teorema de la probabilidad total que

φ(u − 1, k) = qφ(u, k − 1) + pθ

∑m+n≤u

φ(u−m− n, k − 1)fmgn

+ p(1− θ)∑m≤u

φ1(u−m, k − 1)fm

= qφ(u, k − 1) + pθ

u∑m+n=1

φ(u −m− n, k − 1)fmgn+

pδ

u∑m=1

φ1(u−m, k − 1)fm (5)

donde cada uno de los sumandos de la ecuacion anterior representa cada posibilidad

en las que se pueden presentar las reclamaciones en el periodo t = k, es decir

1. El primer sumando representa la probabilidad de que no exista reclamacion

principal en el periodo t = k, por la probabilidad de supervivencia del periodo

anterior.

2. El segundo sumando representa la probabilidad de que exista reclamacion

principal y reclamacion subsecuente en el periodo t = k, por la probabilidad

de supervivencia del periodo anterior.

3. El tercer sumando representa la probabilidad de que exista reclamacion prin-

cipal en el periodo t = k y que la reclamacion principal sea retrasada al pe-

riodo k + 1, por la probabilidad de supervivencia del periodo anterior; es de

notar que en esta oportunidad se usa el proceso de superavit definido para

esta situacion en la ecuacion (3.1).

Ademas

φ1(u−1, k) = q

∑n≤u

φ(u−n, k−1)gn+pθ

∑m+n+l≤u

φ(u−m−n− l, k−1)fmgngl

+ p(1− θ)∑

m+n≤u

φ1(u−m− n, k − 1)fmgn

φ1(u−1, k) = q

u∑n=1

φ(u−n, k−1)gn+pθ

u∑m+n+l=1

φ(u−(m+n+ l), k−1)fmgngl

+ pδ

u∑m+n=1

φ1(u− (m+ n), k − 1)fmgn (6)



para u ≥ 1 y k ≥ 1. Es claro que φ(u, 0) = φ1(u, 0) = 1 para todo u ≥ 0. Se define

la funcion generadora ası

φ(z, k) =

∞∑u=0

φ(u, k)zu y φ1(z, k) =

∞∑u=0

φ1(u, k)zu

Para manipular las ecuaciones (5) y (6) mediante las funciones generadoras de

probabilidad es necesario hacer un trabajo previo; para empezar se multiplicara la

ecuacion (3.2) por zu, de donde se tiene

zzu−1

φ(u − 1, k) = zuqφ(u, k − 1) + z

upθ

u∑m+n=1

φ(u−m− n, k − 1)fmgn

+ zupδ

u∑m=1

φ1(u−m, k − 1)fm

zzu−1

φ(u−1, k) = q(zuφ(u, k−1))+pθ(

u∑m+n=1

zu−(m+n)

φ(u−m−n, k−1)zmfmzngn)

+ pδ(

u∑m=1

zu−m

φ1(u−m, k − 1)zmfm)

ahora, si a esta ultima ecuacion la sumamos a cada lado de 1 a infinito sobre u

z

∞∑u=1

zu−1

φ(u − 1, k) = q(

∞∑u=1

zuφ(u, k − 1))

+ pθ(

∞∑u=1

u∑m+n=1

zu−(m+n)

φ(u−m− n, k − 1)zmfmzngn)

+ pδ(

∞∑u=1

u∑m=1

zu−m

φ1(u−m, k − 1)zmfm)

esto es por definicion de las funciones generadoras de probabilidad

zφ(z, k) = q(φ(z, k−1)−φ(0, k−1))+pθφ(z, k−1)f(z)g(z)+pδφ1(z, k−1)f(z) (7)

utilizando los mismos argumentos sobre (3.3) se obtiene

zφ1(z, k) = qφ(z, k − 1)g(z) + pθφ(z, k − 1)fzg2(z) + pδφ1(z, k − 1)f(z)g(z) (8)



Ahora, teniendo en cuenta las funciones generadoras bivariadas

φ(z, t) =

∞∑k=0

φ(z, k)tk, φ1(z, t) =

∞∑k=0

φ1(z, k)tk, y φ0(t) =

∞∑k=0

φ(0, k)tk

y aplicando el mismo metodo que se utilizo para conseguir (3.4) y (3.5) se tiene

z

∞∑k=1

φ(z, k)tk = qt(

∞∑k=1

tk−1

φ(z, k−1)−φ(0, k−1))+ptθ

∞∑k=1

φ(z, k−1)f(z)tk−1

g(z)

+ ptδ

∞∑k=1

φ1(z, k − 1)f(z)tk−1

z(φ(z, t)− φ(z, 0)) = qt(

∞∑k=0

tkφ(z, k)− φ(0, k)) + ptθ

∞∑k=0

φ(z, k)f(z)tkg(z)

+ ptδ

∞∑k=0

φ1(z, k)f(z)tk

z(φ(z, t)− φ(z, 0)) = qt(φ(z, t)− φ0(t)) + pθtf(z)g(z)φ(z, t) + pδtf(z)φ1(z, t) (9)

z(φ1(z, t)− φ1(z, 0)) = qtg(z)φ(z, t) + pθtf(z)g2(z)φ(z, t) + pδtf(z)g(z)φ1(z, t)

= g(z)(qtφ(z, t) + pθtf(z)g(z)φ(z, t) + p(1− θ)tf(z)φ1(z, t)).

(10)

Es de notar que φ1(z, 0) = φ(z, 0), donde por definicion y por propiedades de la

serie geometrica se obtiene

φ1(z, 0) = φ(z, 0) =

∞∑u=0

φ(u, 0)zu =

∞∑u=0

zu =

1

1− z

y con esto (3.6) y (3.7) pueden escribirse como

zφ(z, t)−z

1− z

= (qt+ pθtf(z)g(z))(φ(z, t)) + p(1− θ)tf(z)(φ1(z, t)− qt(φ0(t))

zφ1(z, t)−z

1− z

= g(z)(zφ(z, t)−z

1− z

+ qt(φ0(t)).



Para combinar las dos ecuaciones anteriores, primero se tiene despejando de la

segunda ecuacion φ1(z, t)

φ1(z, t) =1

1− z

+ g(z)φ(z, t)−g(z)

1− z

+qtφ0(t)g(z)

z

y por lo tanto

φ1(z, t)tf(z)p(1−θ) =tf(z)p(1− θ)

1− z

+g(z)tf(z)p(1−θ)φ(z, t)−tf(z)p(1− θ)g(z)

1− z

+tf(z)p(1− θ)qtφ0(t)g(z)

z

y al reemplazar este valor en la primera ecuacion

zφ(z, t)−z

1− z

= (qt+pθtf(z)g(z))φ(z, t)+tf(z)p(1− θ)

1− z

+g(z)tf(z)p(1−θ)φ(z, t)

−tf(z)p(1− θ)g(z)

1− z

+tf(z)p(1− θ)qtφ0(t)g(z)

z

− qt(φ0(t))

donde agrupando terminos semejantes la ecuacion queda escrita como

φ(z, t)[z − t(q + pf(z)g(z))] =z

1− z

+ t(1− g(z))p(1− θ)f(z)

1− z

− qtφ0(t)

(1− p(1− θ)t

f(z)g(z)

z

). (11)

Sea UWk el monto total de reclamaciones en los primeros k periodos en el modelo

binomial compuesto, con monto individual de reclamacionesW = X+Y . Entonces,

para encontrar la funcion generadora de probabilidad de UWk notada como h(z, k)

se procede de la siguiente manera:

Para un periodo de tiempo cualquiera se tiene desde el teorema de la probabilidad

total aplicado al modelo binomial compuesto que

Pr(X + Y = k) = pθPr(X + Y = k) + p(1− θ)Pr(X + Y = k)

si se desea expresar lo anterior mediante la funcion generadora de probabilidad

entonces se tiene



h(z) =

∞∑k=0

Pr(X + Y = k)tk

= qt0 +

∞∑k=1

[pθPr(X + Y = k) + p(1− θ)Pr(X + Y = k)] tk

= q + pf(z)g(z)

Usando la hipotesis de independencia de los montos de reclamaciones para cada

periodo se tiene que para los primeros k periodos la funcion generadora de probabi-

lidad h(z, k) = [q+pf(z)g(z)]k. Ademas se notaran las funciones de densidad y de

distribucion de UWk como h(i, k) y H(i, k) respectivamente. Con esto, si se divide

a ambos lados de (3.8) por z − th(z, 1) es decir se multiplica por (z − th(z, 1))−1,

cuya expresion se puede ver como serie de potencias de la variable t de la siguiente

manera

(z − th(z, 1))−1 =1

z − th(z, 1)

=

∞∑k=0

tk(h(z, 1))k

zk+1

.

Sı se multiplica cada termino de (3.8) por el resultado anterior, se toma la suma∑∞k=0

para todos los sumandos, se toma factor comun tk y se multiplica a ambos

lados de la ecuacion la expresion zk, se obtiene que para k = 1, 2, 3 . . .

zkφ(z, k) =

h(z, k)

1− z

+f(z)(1−g(z))h(z, k−1)p(1− θ)

1− z

−q

k−1∑j=0

φ(0, k−1−j)h(z, j)zk−1−j

+ pq(1− θ)f(z)g(z)

k−2∑j=0

φ(0, k − 2− j)h(z, j)zk−2−j. (12)

La ecuacion (3.9) presenta la informacion que brindan los dos procesos de reservas

expresados bajo funciones generadoras de probabilidad, de las reclamaciones prin-

cipales y sobre-reclamaciones y en terminos de la probabilidad de supervivencia.

Guo & Yuen (2001) hace uso de esta relacion para presentar formulas recursi-

vas para el calculo de la probabilidad de ruina, cuando se tienen reclamaciones

relacionadas en el tiempo bajo el supuesto de el modelo binomial compuesto.



5. Conclusiones

Los supuestos de un modelo binomial compuesto permiten la manipulacion de

diferentes modelos en el area actuarial de manera menos dispendiosa o difıcil, el

caso donde se intentan modelar dos reclamaciones relacionadas en el tiempo no es

atıpico a este hecho. En este escrito se puede evidenciar que desde el trabajo sobre

dicho supuesto y la introduccion de las funciones generadoras de probabilidad de

los montos de reclamaciones, tanto principales como de las sobre-reclamaciones, es

posible encontrar una formula en terminos de la probabilidad de supervivencia y la

funcion generadora de probabilidad comun que recopila los datos de ambos tipos

de reclamacion. Con la ecuacion presentada se puede generar un estudio, bien sea

sobre el comportamiento de la probabilidad de ruina o de supervivencia, o de las

funciones generadoras de probabilidad y por lo tanto de sus momentos factoriales

o sus valores puntuales de probabilidad.

Recibido: 2 de agosto de 2013

Aceptado: 19 de diciembre de 2013

Referencias

Alfredo, D. E. (2000), The compound binomial model revisited, Technical report,

Universidad Tecnica de Lisboa, Lisboa.

Castillo, E. J. (2013), Probabilidad de ruina en el modelo binomial compuesto

para reclamaciones no convencionales, Technical report, Universidad Distrital

Francisco Jose de Caldas.

Dickson, D. C. M. (1994), ‘Some comments on the compound binomial model’,

ASTIN Bulletin 24, 33–45.

Gerber, H. U. (1988), ‘Mathematical fun with the compound poisson process’,


Guo, Y. & Yuen, C. (2001), ‘Ruin Probabilities for Time-Correlated Claims in the

Compound Binomial Model’, Insurance: Mathematics and Economics 29, 47–

57.

Kaas, R., Goovaerts, M. & Denuit, M. (2005), Actuarial Theory for Dependent

Risks, Wiley and Sons, Chichester.

Rincon, L. (2012), Introduccion a la Teorıa de Riesgo, Ciudad universitaria

UNAM, Mexico D.F.

Shiu, E. (1989), ‘The probability of eventual ruin in a compound binomial model’,




Junio 2014, Vol. 7, No. 1, pp. 31–48

Inferencia Bootstrap bayesiana para una

proporcion en muestreo con probabilidades

desiguales

Bootstrap Bayesian inference for a proportion in unequal probabilities

sampling

Cristian Fernando Telleza

[email protected]

Stalyn Yasid Guerrerob

[email protected]

Mario Pachecoc

[email protected]

Resumen

En este artıculo se propone el metodo bootstrap bayesiano para realizar inferencias

sobre una proporcion ρ en una poblacion finita a partir de una muestra con pro-

babilidades desiguales. Vıa simulacion se determino que, a partir de una adecuada

eleccion de la distribucion a priori de ρ, la metodologıa propuesta obtiene estima-

ciones con sesgos tan pequenos como los obtenidos mediante el π-estimador clasico.

Adicional a esto, se obtuvo menor varianza e intervalos de confianza con niveles de

confianza mas altos y de menor longitud en comparacion con el π-estimador clasico

y el estimador BPSP propuesto por Chen et al. (2010). Finalmente se ejemplifica

la implementacion de la metodologıa.

Palabras clave: muestreo probabilıstico, Bootstrap bayesiano, estimacion de una

proporcion, estimador BPSP.

Abstract

This paper describe Bayesian bootstrap method, it is to realize inferences for

finite population proportion ρ based on unequal probability sampling. Through

Simulation we found that based on an appropriate a priori distribution to ρ with

the proposed methodology it is possible to get estimate less-biased like that obtain

by the clasic π-estimator. Also, we get less-variance and confidence intervals with

highest confidence levels and it has fewer length when we compared it with the

aDocente Tiempo completo, Fundacion Universitaria los Libertadores, Colombia.bEgresado Universidad de Codoba, Colombia.cDocente Ocasional Universidad de Codoba, Colombia.

31

32 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco

classic π-estimator and BPSP estimator that was proposed by Chen et al. (2010).

Lastly, an example is performed using the development methodology.

Keywords: probability sampling, Bayesian Bootstrap, proportion estimation.

1. Introduccion

Un parametro de interes considerado en muchos estudios estadısticos (investiga-

ciones sociales, economicas, estudios de mercadeo, entre otros) es la proporcion. La

teorıa de muestreo probabilıstico clasica asociada a la estimacion de dicho parame-

tro, se basa en funciones no lineales de otros parametros (como el total poblacional

y el total de un dominio), mientras que el enfoque bayesiano lo considera como

una variable aleatoria que se puede modelar usando distribuciones de probabilidad

de variables aleatorias en el espacio (0 , 1), como la distribucion uniforme (0 , 1) o

la distribucion beta (α,β), entre otras.

En la literatura especializada es poco lo que se encuentra acerca de la integracion

entre el muestreo probabilıstico y la teorıa bayesiana, de igual forma, lo que se

halla solo lo hace de manera parcial para el muestreo aleatorio simple o muestreo

aleatorio simple estratificado. Por ejemplo, Chen et al. (2010) proponen un estima-

dor spline penalizado predictivo bayesiano (BPSP, por sus siglas en ingles) para

una proporcion en poblaciones finitas bajo muestreo con probabilidades desiguales.

De otro lado, Pfeffermann & Royall (1982), en su trabajo centran toda la atencion

en los supuestos necesarios para la robustez de los procedimientos estadısticos y

ası poder predecir el total de la caracterıstica de interes a la poblacion.

La finalidad de este artıculo es mostrar una herramienta para la estimacion de

proporciones que integre las teorıas de estadıstica bayesiana y el muestreo pro-

babilıstico. La herramienta seleccionada es el metodo bootstrap bayesiano, puesto

que una caracterıstica distintiva de la estadıstica bayesiana es la forma explıcita

de tener en cuenta la informacion previa; sin embargo, uno de sus problemas que

se encuentra en la necesidad de asumir la forma parametrica de la distribucion

que genera los datos. Mediante la tecnica bootstrap bayesiano es posible evitar este

supuesto.

2. Inferencia Bootstrap bayesiana para una

proporcion

Considere U = {u1, u2, ..., uk, ..., uN}, una poblacion finita de tamano N , en donde

cada unidad ui (i = 1, 2, ..., N) tiene asociada una variable dicotoma yi, que toma

el valor 0 cuando la observacion no posee la caracterıstica de interes y 1 cuando la

posee. Una muestra aleatoria s es seleccionada de U , de acuerdo con un diseno de

muestreo probabilıstico. En la muestra, la variable de interes y es observada para

todos los elementos seleccionados. El interes consiste en estimar la distribucion de


Inferencia Bootstrap bayesiana para una Proporcion 33

probabilidad posterior para el parametro ρy definido como ρy =∑

i∈kyi

N , haciendo

uso de los valores de la muestra y de las probabilidades de inclusion inducidas por

el diseno muestral.

La metodologıa bootstrap bayesiana considera que el parametro ρy esta en funcion

de la distribucion acumulada de la que proviene la muestra aleatoria s, la cual ha

sido seleccionada con un diseno muestral particular y con la que se ha estimado

ρy, haciendo uso del estimador de Horvitz-Thompson definido como:

ρyπ = 1

ˆN

∑i∈s

yi/πi

con N =∑

i∈s1πi

y πi = Pr (i ∈ s)

Supongamos entonces que la distribucion de probabilidad condicional ξ(y | ρy) dey existe; esta es, a su vez, la verosimilitud de y en funcion de ρy. Sea ξ(ρy) la

densidad a priori del parametro ρy. Por el teorema de bayes se tiene:

ξ(ρy | y) ∝ ξ(y | ρy)ξ(ρy) (1)

donde ξ (ρy | y) es la distribucion posterior de ρy dada la observacion de y en la

muestra.

Al observar la forma de la distribucion posterior de ρy se debe pensar en la esco-

gencia de una distribucion a priori para ρy, y en un supuesto distribucional para

y condicionado al parametro ρy.

En cuanto a la distribucion a priori para ρy existe una gama de posibilidades entre

distribuciones previas informativas y no informativas, tales como la distribucion

uniforme y la distribucion beta o cualquier distribucion que tenga como soporte

el intervalo (0, 1). En cuanto al supuesto distribucional para y condicionado al

parametro ρy se debe tener en cuenta que en la teorıa de muestreo no se hacen

dichos supuestos, por lo que se dice que son de libre distribucion. Es por esto

ultimo que la metodologıa bootstrap bayesiana juega un papel fundamental en la

metodologıa propuesta, la cual consiste en realizar una obtencion de ξ(y | ρy) y

ξ(ρy | y) de forma empırica.

2.1. Distribucion posterior de ρ con a priori informativa

Segun Shao & Tu (1995), el metodo bootstrap bayesiano evita asumir una for-

ma parametrica de la distribucion que genera los datos. Si se esta interesado en

el parametro ρy y la informacion a priori sobre ρy esta resumida en ξ(ρy) y si

y1, y2, ..., yn representan las observaciones de la variable de interes en la muestra

con densidad desconocida ξ, entonces es posible aproximar a ξ utilizando un esti-

mador de densidades, por ejemplo, ξ(y | ρy) y hallar un estimador de la distribucion

posterior como:

ξ(ρy | y)α ξ(ρy)L(y1, ..., yn | ρy) (2)



donde L(y1, ..., yn | ρy) representa la estimacion bootstrap de la funcion de ve-

rosimilitud, proporcional a ξ. A continuacion se presenta la secuencia de pasos

necesarios para determinar L:

1. Usando los datos muestrales y1, y2,...,yn, se construye una poblacion arti-

ficial U∗. Una forma de construir dicha poblacion consiste en replicar los

yi tantas veces como su factor de expansion ( 1

πi), siguiendo el principio de

representatividad.

2. Seleccionar una serie de muestras bootstrap de U∗ denotadas por s∗ con un

diseno identico al usado para seleccionar la muestra original s de U . Repetir B

veces para cada muestra bootstrap s∗b(b = 1, 2, ..., B), calcular el π estimador

ρ∗yπb:

ρ∗yπb =

1

N∗

∑i∈s∗

y∗ib/π

∗ib.

Donde N∗ =

∑i∈s∗

1

π∗i, π∗i es la probabilidad de inclusion de los elementos

en la muestra bootstrap y y∗ib es el i-esimo elemento de la b-esima muestra

bootstrap.

3. Con los anteriores estimadores ρ∗yπ1, ..., ρ∗yπB calcular el estimador de densi-

dad kernel definido como:

fB(u) =1

BhB

B∑b=1

K

(u− (ρ∗yπb − ρyπ)

hB

)(3)

Donde la funcion K es llamada funcion nucleo (kernell), y en general, es

una funcion de densidad continua, unimodal y simetrica alrededor de 0. El

parametro hb se conoce como parametro suavizador.

Haciendo u = ρ−ρy en la ecuacion anterior, fB(ρ−ρy) es una estimacion de

la densidad muestral de ρyπ dado ρy. Evaluandola en x = ρyπ resulta como

funcion de ρy para ser usada como verosimilitud

LB(ρyπ | ρy) =1

BhB

B∑b=1

K

(2ρyπ − ρ− ρ

∗yπb

hB

)(4)

4. La distribucion posterior resultante ξ(ρyπ | ρy) es entonces proporcional a

ξ(ρy)L((ρyπ | ρy) y la constante de normalizacion se puede hallar mediante

integracion numerica.

De esta forma es posible construir un estimador bayesiano de la distribucion pos-

terior de ρy como:

ξ(ρy | y) = c(y)× ξ(ρy)× L(y1, ..., yn | ρy)



donde c(y) se puede obtener por integracion numerica como

c(y) =1∫

ξ(ρy)× L(y1, ..., yn | ρy)dρy

La funcion K se llama funcion nucleo (o kernel) y, en general, es una funcion

de densidad continua, unimodal y simetrica alrededor de 0. El parametro hB se

conoce como parametro de suavizamiento. Hollander & Wolfe (1999) muestra las

densidades Kernel mas usadas. En este artıculo no se considero la metodologıa

bootstrap con a priori no informativa dado que sus resultados son muy similares

al metodo bootstrap clasico Shao & Tu (1995).

2.2. Inferencia bayesiana sobre la proporcion

Para realizar estimaciones de un parametro mediante inferencia bayesiana, se re-

quiere de una muestra aleatoria obtenida a partir de una distribucion posterior

dada. En este caso, se genera una muestra aleatoria ρ1

y, ρ2

y, ..., ρmy a traves de la

distribucion posterior ξ (ρy | y) de la siguiente manera 1:

1. Generar p1, p2, ..., pm valores a partir de una distribucion con soporte (0, 1),

sin perdida de generalidad, la distribucion uniforme (0, 1).

2. Evaluar cada pi en ξ (ρy | y), con i = 1, 2, ...,m, obteniendo ası, la probabi-

lidad de seleccion de cada valor.

3. Por ultimo, la muestra requerida ρ1

y, ρ2

y, ..., ρmy se obtiene tomando una mues-

tra con reemplazo de p1, p2, ..., pm con probabilidad de seleccion ξ (pi | y)para i = 1, 2, ...,m.

Las funciones comunmente utilizadas para minimizar dichos errores son: la funcion

de perdida cuadratica, funcion de perdida en error absoluto y la funcion escalonada

Box & Tiao (1973).

2.2.1. Funcion de perdida cuadratica para la proporcion

Se considera una cierta funcion L (ρyρc) = (ρc − ρy)2

la cual se denotara como

funcion de perdida cuadratica asociada al parametro ρy, y sea ρc la estimacion

considerada para ρy. Sean ρ1

y, ρ2

y, ..., ρmy una muestra aleatoria de tamano m gene-

rada a traves de la distribucion posterior ξ (ρy | y) mediante el metodo Metropolis

- Hastings. La diferencia entre ρc y el valor real de ρy se hace mınima si pc se

1Con dicha muestra, lo que se pretende es estimar el parametro ρy que considera un error de

estimacion el cual debe ser minimizado. Para lograr lo anterior, se debe disponer de una funcion

que relacione la estimacion del parametro ρy con el valor real de este.



estima empleando la siguiente expresion:

ρc = E (ρy | y) =

∫+∞

−∞ρyξ (ρy | y) dρy (5)

Esta integral se calcula numericamente puesto que ξ (ρy | y) es una funcion empıri-

ca. Por otro lado, la estimacıon vıa Monte Carlo de la media posterior es

ρc = ρy =

∑mj=1

ρjy

m

(6)

y un error estandar estimado es:

seρc=

√√√√∑mj=1

(ρjy − ρc

)2

(m− 1)m(7)

En consecuencia, ρc es el estimador puntual de ρy cuando tomamos como funcion

de perdida la funcion de perdida cuadratica.

3. Estudio de simulacion

Los escenarios de simulacion se dispusieron similares a los realizado en el trabajo de

Chen et al. (2010) para ası poder comparar los resultados entre las estimaciones vıa

metodo clasico, el estimador BPSP y las estimaciones hechas por la metodologıa

propuesta en este trabajo.

3.1. Diseno de la simulacion

El estudio de simulacion pretende evaluar el comportamiento de la metodologıa

propuesta y compararla con el procedimiento clasico y el estimador BPSP en la

estimacion de una proporcion en muestreo probabilıstico. El procedimiento con-

siste en simular dos poblaciones artificiales de tamano 2000, tambien se genera

una medida de tamano X para implementar un diseno de muestreo con probabi-

lidad proporcional al tamano. Los valores que toma esta variable son los enteros

consecutivos 71, 72, 73, ..., 2070.

Por otro lado, las probabilidades de inclusion en la poblacion son calculadas pro-

porcionales a la variable tamano, πi = n × xi/∑

xi, con xi = 71, 71, ..., 2070..

Luego de esto, son generados datos Z de una distribucion normal con estructura

de media f(π) y varianza constante igual a 0.04. Para el proceso de simularon se

tomaron dos estructuras de medias: una funcion de incremento lineal f(πi) = 3πi

y una funcion exponencial f(πi) = exp(−4, 64 + 26πi). En la figura 1 se muestran

las distribuciones normales con las dos estructuras de medias.



0.00 0.04 0.08

−0.

10.

00.

10.

20.

30.

4

3πi

πi

Z

0.00 0.04 0.08−

0.1

0.0

0.1

0.2

exp(− 4.64 + 26π)

πi

Z

Figura 1: Distribucion normal con estructuras de medias lineal y exponencial.

Fuente: elaboracion propia.

De otra parte, las variables respuesta binarias Y1, Y2, Y3 son generadas como sigue:

Y1 es igual a 1 si Z es menor o igual a su percentil 10 y 0 en otro caso. Similarmente,

se generan las respuestas Y2 y Y3 usando los percentiles 50 y 90. El objetivo

inferencial aquı es la proporcion poblacional para Y igual a 1.

En cada simulacion, se genera una poblacion finita y se calcula la verdadera pro-

porcion poblacional, para Y igual a 1. Luego se seleccionan muestras aleatorias, de

tamanos n = 30, 50, 100 , 200 y500 con probabilidades proporcionales al tamano

(πPT) de cada poblacion y se calcula la proporcion estimada ρ clasica y bootstrap

bayesiana basada en la funcion de perdida cuadratica (media posterior).

El anterior proceso se repite 1000 veces y se calcula: el sesgo empırico (B), la raız

del error cuadratico medio (RMSE), las longitudes de los intervalos de credibilidad

y de confianza y las coberturas de los mismos.

Sea ρj una estimacion de ρj basada en la muestra j-esima, el sesgo empırico y la

raız del error cuadratico medio son:

B =1

1000

1000∑j=1

(ρj − ρ) (8)

RMSE =

√√√√ 1

1000

1000∑j=1

(ρj − ρ)2 (9)

Como distribucion a priori se tomo una distribucion beta(α, β) donde α toma los

valores de α = 25, 50, 100 y para la obtencion de los valores del parametro β, lo



0.05 0.10 0.15 0.20 0.25

010

2030

40

Aprioris beta

ρ

Bet

a(α,

β)

β(25, 217)β(50, 442)β(100, 892)

Figura 2: Distribuciones a priori para ρ = 0.1. Fuente: elaboracion propia.

que se realiza es:

1. Fijar α.

2. Igualar la expresion de la media de una distribucion beta (α , β) con los valores

reales de ρy, es decir, ρy = α−1

α+β−2, donde ρy = 0.1 , 0.5 , 0.9.

3. Para cada valor de ρy despejar el valor de β.

Los valores de α permiten que la distribucion beta se concentre en intervalos gra-

dualmente mas pequenos, y eso a su vez permita obtener mejores estimaciones de

ρy.

3.2. Resultado de la simulacion

En este apartado se muestran las tablas que contienen los resultados del proceso

de simulacion antes descrito, con el fin de comparar la metologıa clasica para la

estimacion de la proporcion, el estimador BPSP y la metodologıa aquı propuesta.

El programa de simulacion se desarrollo en el paquete estadıstico R version 2.13.0

(R Core Team 2013).

En la Tabla 1 se compara el sesgo, la RMSE, las longitudes de los intervalos y

sus coberturas para las metodologıa de estimacion clasica y la bootstrap bayesiana



Tabla 1: Sesgo, RMSE, cobertura (%) y nivel de confianza con una estructura de

media lineal. Fuente: elaboracion propia.

n ρ Metodo A priori Sesgo REMC Cobertura Amplitud

30 0.1 B.B. Beta (25, 225) -0.00663 0.00025 87.0 0.06541

Beta (50, 450) -0.00540 0.00020 89.2 0.04777

Beta (100, 900) -0.00338 0.00009 91.8 0.03490

Clasico - 0.00894 0.00494 83.0 0.20805

0.5 Beta (25, 25) 0.00019 0.00048 99.0 0.25094

Beta (50, 50) 0.00010 0.00014 99.0 0.18586

Beta (100, 100) 0.00015 0.00004 99.0 0.13440

Clasico - 0.00260 0.01263 87.0 0.35525

0.9 Beta (225, 25) 0.00193 0.00003 99.4 0.06957

Beta (450, 50) 0.00152 0.00002 99.8 0.05038

Beta (900, 100) 0.00080 0.00001 99.0 0.03621

Clasico - -0.00320 0.00394 81.4 0.18358

50 0.1 B.B. Beta (25, 225) -0.00604 0.00021 92.0 0.06558

Beta (50, 450) -0.00385 0.00012 94.0 0.04859

Beta (100, 900) -0.00230 0.00006 95.6 0.03530

Clasico - 0.00625 0.00414 81.2 0.17462

0.5 Beta (25, 25) -0.00134 0.00052 99.0 0.24102

Beta (50, 50) 0.00123 0.00018 99.0 0.18132

Beta (100, 100) 0.00044 0.00004 99.0 0.13301

Clasico - 0.00575 0.00782 87.8 0.28739

0.9 Beta (225, 25) 0.00277 0.00005 98.0 0.06791

Beta (450, 50) 0.00153 0.00002 99.0 0.05001

Beta (900, 100) 0.00094 0.00001 99.2 0.03605

Clasico - 0.00011 0.00236 83.0 0.14124

100 0.1 B.B. Beta (25, 225) -0.00381 0.00012 96.4 0.06708

Beta (50, 450) -0.00225 0.00005 97.6 0.04954

Beta (100, 900) -0.00164 0.00003 97.0 0.03567

Clasico - 0.00162 0.00231 79.6 0.14307

BPSP - 0.00800 0.04720 91.0 -

0.5 Beta (25, 25) 0.00146 0.00059 99.0 0.22306

Beta (50, 50) -0.00080 0.00021 99.0 0.17336

Beta (100, 100) 0.00044 0.00007 99.0 0.12949

Clasico - 0.00302 0.00470 85.6 0.20770

BPSP - -0.00520 0.04770 95.6 -

0.9 Beta (225, 25) 0.00226 0.00003 99.4 0.06598

Beta (450, 50) 0.00083 0.00001 99.0 0.04939

Beta (900, 100) 0.00072 0.00001 99.8 0.03576

Clasico - 0.00231 0.00088 84.0 0.09108

BPSP - -0.00290 0.02350 94.5 -

en tamanos de muestra n = 30 y 50, cuando el tamano de muestra aumenta a



100 se incluye la metodologıa BPSP en la comparacion. En forma analoga, en la

Tabla 2 se realizan las comparaciones, pero esta vez con tamanos de muestras n =

200 y 500. En ambas tablas se maneja una estructura de media lineal y para cada

escenario se varıan los parametros de la distribucion beta (la cual hace el papel de

la distribucion a priori).

Tabla 2: Sesgo, RSME, cobertura (%) y nivel de confianza con una estructura de

media lineal. Fuente: elaboracion propia.


200 0.1 B.B. Beta (25, 225) -0.00220 0.00005 98.4 0.06726

Beta (50, 450) -0.00151 0.00003 98.4 0.04966

Beta (100, 900) -0.00080 0.00001 99.4 0.03599

Clasico - 0.00111 0.00153 83.6 0.11949

BPSP - 0.00510 0.03200 93.8 -

0.5 Beta (25, 25) 0.00392 0.00061 99.0 0.19618

Beta (50, 50) 0.00302 0.00026 99.0 0.16006

Beta (100, 100) 0.00033 0.00009 99.0 0.12351

Clasico - 0.00076 0.00217 88.4 0.14852

BPSP - -0.00170 0.03280 94.9 -

0.9 Beta (225, 25) 0.00167 0.00003 99.0 0.06088

Beta (450, 50) 0.00117 0.00001 99.0 0.04683

Beta (900, 100) 0.00063 0.00000 99.0 0.03489

Clasico - 0.00279 0.00029 89.0 0.05728

BPSP - -0.00120 0.01550 95.3 -

500 0.1 B.B. Beta (25, 225) 0.00041 0.00002 99.6 0.06756

Beta (50, 450) -0.00011 0.00001 99.6 0.04960

Beta (100, 900) 0.00005 0.00001 99.0 0.03617

Clasico - 0.00873 0.00085 86.8 0.09098

0.5 Beta (25, 25) 0.02158 0.00085 99.4 0.14945

Beta (50, 50) 0.01690 0.00051 99.8 0.13109

Beta (100, 100) 0.01221 0.00026 99.0 0.10813

Clasico - 0.03117 0.00171 70.0 0.08885

0.9 Beta (225, 25) 0.00627 0.00006 99.8 0.04736

Beta (450, 50) 0.00444 0.00003 99.0 0.03947

Beta (900, 100) 0.00270 0.00001 99.0 0.03145

Clasico - 0.00986 0.00017 66.0 0.02844

En general, las estimaciones de ρ obtenidas mediante la metodologıa bootstrap

bayesiana son superiores en las dos tablas en cuanto a un menor RECM, mayor

cobertura, una menor amplitud, un sesgo pequeno en comparacion con el estimador

BPSP y tan pequeno como los obtenidos con el π-estimador clasico. Cabe resaltar

que algunos escenarios la amplitud de los intervalos bayesianos fueron ligeramente

mas grandes que la amplitud de los intervalos clasicos, pero eso es algo menor en

comparacion con la ganancia en cobertura, sesgos y RMSE.

En las Tablas 3 y 4 se presentan de forma similar las comparaciones realizadas en




media exponencial. Fuente: elaboracion propia.


30 0.1 B.B. Beta (25, 225) -0.00627 0.00024 90.1 0.06571

Beta (50, 450) -0.00459 0.00015 90.9 0.04830

Beta (100, 900) -0.00475 0.00016 91.0 0.04811

Clasico - 0.00336 0.00443 81.2 0.18997

0.5 Beta (25, 25) -0.00014 0.00048 99.8 0.25077

Beta (50, 50) 0.00061 0.00016 99.9 0.18540

Beta (100, 100) 0.00013 0,00005 99.0 0.13452

Clasico - 0.00631 0.01285 85.7 0.35371

0.9 Beta (225, 25) 0.00297 0,00005 99.0 0.06862

Beta (450, 50) 0.00161 0,00002 99.4 0.05037

Beta (900, 100) 0.00101 0,00001 99.7 0.03612

Clasico - -0.00521 0.00453 81.0 0.19195

50 0.1 B.B. Beta (25, 225) -0.00586 0.00021 92.2 0.06538

Beta (50, 450) -0.00337 0.00010 95.4 0.04882

Beta (100, 900) -0.00244 0.00007 96.2 0.03533

Clasico - -0.00309 0.00252 80.8 0.14826

0.5 Beta (25, 25) 0.00015 0.00047 99.0 0.24136

Beta (50, 50) 0.00066 0.00019 99.0 0.18110

Beta (100, 100) 0.00010 0.00004 99.0 0.13299

Clasico - 0.00066 0.00712 89.0 0.28565

0.9 Beta (225, 25) 0.00312 0.00007 96.6 0.06810

Beta (450, 50) 0.00191 0.00003 98.4 0.04986

Beta (900, 100) 0.00118 0.00001 99.2 0.03595

Clasico - 0.00130 0.00316 77.2 0.15125

100 0.1 B.B. Beta (25, 225) -0.00270 0.00006 98.0 0.06711

Beta (50, 450) -0.00166 0.00003 98.6 0.04948

Beta (100, 900) -0.00087 0.00001 99.2 0.03582

Clasico - 0.00172 0.00168 82.0 0.11960

BPSP - 0.01700 0.05180 90.8 -

0.5 Beta (25, 25) 0.00214 0.00054 99.0 0.22242

Beta (50, 50) 0.00094 0.00020 99.0 0.17359

Beta (100, 100) -0.00028 0.00007 99.0 0.12962

Clasico - 0.00462 0.00412 89.4 0.20613

BPSP - -0.00140 0.04700 91.1 -

0.9 Beta (225, 25) 0.00242 0.00004 99.0 0.06664

Beta (450, 50) 0.00175 0.00002 99.6 0.04914

Beta (900, 100) 0.00078 0.00001 99.6 0.03585

Clasico - -0.00039 0.00143 83.6 0.10910

BPSP - -0.00100 0.01230 93.0 -

las tablas anteriores, solo que, en este caso, la estructura de media es exponencial.



Los resultados obtenidos son muy similares a los anteriores, lo que implica que el

cambio de estructura de media no los afecta en gran forma.


media exponencial. Fuente: elaboracion propia.


200 0.1 B.B. Beta (25, 225) -0.00178 0.00004 99.0 0.06722

Beta (50, 450) -0.00071 0.00001 99.8 0.04995

Beta (100, 900) -0.00059 0.00001 99.8 0.03592

Clasico - 0.00246 0.00124 85.6 0.10729

BPSP - 0.01340 0.03600 92.5 -

0.5 Beta (25, 25) 0.00382 0.00051 99.0 0.19689

Beta (50, 50) 0.00377 0.00022 99.0 0.15959

Beta (100, 100) 0.00108 0.00010 99.0 0.12383

Clasico - 0.00403 0.00232 85.4 0.14884

BPSP - 0.00001 0.03210 93.8 -

0.9 Beta (225, 25) 0.00247 0.00004 99.0 0.05921

Beta (450, 50) 0.00141 0.00002 99.0 0.04610

Beta (900, 100) 0.00076 0.00001 99.0 0.03457

Clasico - 0.00343 0.00028 86.2 0.05222

BPSP - -0.00007 0.00800 94.5 -

500 0.1 B.B. Beta (25, 225) -0.00007 0.00003 99.8 0.06744

Beta (50, 450) 0.00008 0.00001 99.8 0.04970

Beta (100, 900) 0.00013 0.00001 99.9 0.03618

Clasico - 0.01173 0.00101 87.8 0.09510

0.5 Beta (25, 25) 0.02444 0.00093 99.4 0.14864

Beta (50, 50) 0.01741 0.00054 99.6 0.13042

Beta (100, 100) 0.01304 0.00028 99.0 0.10834

Clasico - 0.03306 0.00182 63.8 0.08829

0.9 Beta (225, 25) 0.00728 0.00008 99.4 0.04629

Beta (450, 50) 0.00534 0.00004 99.8 0.03858

Beta (900, 100) 0.00309 0.00001 99.8 0.03114

Clasico - 0.01094 0.00018 59.4 0.02700

4. Ejemplo de la metodologıa

Con el fin de ilustrar la implementacion de la metodologıa aquı propuesta se exa-

mino la base de calif que esta disponible en la librerıa pps (Gambino 2012) del

software estadıstico R Core Team (2013), la cual contiene el registro de 1077 obser-

vaciones y 6 variables (condado, poblacion, blanco, amerindio, hispano y estrato).

El interes consiste en estimar mediante el π-estimador y la metodologıa bayesiana

la proporcion de blanco (Y ), que superan el lumbral de 148. El valor real, dada la

base de datos, equivale al 5.1067%.



Se realizo la extraccion de una muestra probabilıstica s con un diseno de muestreo

probabilıstico proporcional al tamano de la variable auxiliar (diseno πPT ) por

estrato (o grupos). Como informacion auxiliar se utilizo el logaritmo de la variable

poblacion (Log pob), donde las probabilidades de inclusion de primer y segundo

orden fueron calculadas como en Sarndal et al. (1992).

Se decide dividir las observaciones en 2 grupos (o estratos) de acuerdo a Log pob,

para lo cual se calculo la matriz de distancias y se implemento la funcion dist de

R con el metodo de ‘‘euclidean’’. Los resultados obtenidos de la clasificacion

indican que estos grupos tienen los tamanos de 900 y 177, los cuales denotaremos

como G1 y G2 respectivamente. El tamano de la muestra considerado es de n = 30

observaciones que equivalen a aproximadamente el 2.78% de la poblacion. Para

la obtencion de la muestra se realizo una asignacion proporcional al tamano de

cada grupo, obteniendose 25 y 5 observaciones para los G1 y G2 respectivamente.

Finalmente, a fin de realizar la selecion de las muestras se emplea la funcion S.piPS

del paquete TeachingSampling (Gutierrez 2012).

Para la muestra seleccionada se estima la proporcion mediante el π-estimador;

siendo este ρ = 0.0669 (6.69%), con un intervalo de confianza (0 , 0.1725).

Por otro lado, para estimar la proporcion mediante la tecnica bootstrap bayesiana,

se toman 500 muestras con reemplazo de la muestra original s, cada muestra de

tamano 30, esto es, s∗b = (y∗1, y∗2, . . . , y

∗30), con b = 1, 2, ..., 500 (muestra bootstrap)

y con estas muestras calcular ρ∗1, ρ∗2, ..., ρ

∗500

. (vease la figura (3)).

0 100 200 300 400 500

0.10

0.15

0.20

0.25

Estimación de ρb*

b

ρ b*

Figura 3: Proporciones estimadas en las bootstrap. Fuente: elaboracion propia.

Ahora bien, con los 500 valores estimados se calcula la verosimilitud bootstrap

LB (ρ | ρ) =1

500 (0.0047)

500∑b=1

K

(2 (0.0669)− ρ− ρ

∗b

0.0047

)



y para el calculo de la distribucion posterior de ρ, sin perdida de generalidad,

fijemos α = 25; entonces al resolver ρ = α−1

α+β−2se obtiene que β = 457 por tanto

se toma como distribucion a priori la distribucion beta (25 , 457), la cual es:

ξ (ρ) ≡ beta(25 , 457) ∝ ρ24 (1− ρ)

456

Utilizando un Kernel Gausiano la distribucion posterior de ρ es el producto de la

verosimilitud y la distribucion a priori, siendo esto:

ξ (ρ | y) ∝ LB (ρ | ρ) · ρ24 (1− ρ)456

De forma grafica podemos ver esta distribuciones en la figura (4)

0.05 0.10 0.15 0.20 0.25

030

Apriori Beta(25,457)

ρ

0.05 0.10 0.15 0.20 0.25

020

0

Posteriori ξ(ρ y)

ρ

Figura 4: Distribuciones a priori y a posteriori. Fuente: elaboracion propia.

Como es claro, la distribucion porterior no se tiene de manera explıcita (dado

que la verosimilitud fue aproximada vıa Kernel), por tanto, la media posterior, el

intervalo de credibilidad y su longitud son calculados de manera empırica, siendo

estos respectivamente: 0.0514, (0.032 , 0.071) y 0.038.

A manera de conclusion se puede observar que el intervalo de credibilidad tiene

una menor longitud en comparacion con el intervalo de confianza. Por otro lado,

la estimacion puntual de ρ utilizando la funcion de perdida cuadratica esta mucho

mas cercana al verdadero valor en comparacion con el π-estimador.

Ahora bien, dado que en las simulacion se pudo observar que el π-estimador no

dio buenos resultados en muestras pequenas, se decide aumentar el tamano de



muestra a 200 y poner a prueba las dos metodologıas. Los resultados se muestran

en la Tabla (5).

ρ Intervalo Longitud

π−estimador 0.026 (0.0269, 0.0270) 0.0001

B.B 0.046 (0.0307, 0.0630) 0.0322

Tabla 5: Estimacion para una muestra de 200 observaciones. Fuente: elaboracion

propia.

Se puede observar que el intervalo de credibilidad tiene una mayor longitud en

comparacion con el intervalo de confianza, sin embargo este ultimo no contiene al

parametro. Ası mismo podemos observar la estimacion puntual de ρ utilizando el π-

estimador evidenciando que esta mucho mas alejada del valor real que la estimacion

realizada mediante la metodologıa propuesta, lo que implica nuevamente que las

estimaciones realizadas por el metodo bootstrap bayesiano son mejores.

5. Conclusiones y recomendaciones

El principal hallazgo consiste en que la estimacion de la proporcion, usando teorıa

bootstrap bayesiana, en todos los escenarios probados es mejor en cuanto a: el

sesgo, RMSE, longitud del intervalo y cobertura, frente a la estimacion hecha me-

diante teorıa clasica y el estimador BPSP. Esto quiere decir, que con una adecuada

eleccion de la distribucion a priori se pueden encontrar sesgos tan pequeno como

los obtenidos mediante el π-estimador, y frente al BPSP es mucho menor. Adicio-

nal a esto, se tienen menor RMSE, menor longitud y una mayor cobertura frente

a las estimacion hecha con la metodologıa clasica y mediante el estimador BPSP,

aunque se cuenten con tamanos de muestras pequenos. Cabe resaltar que esta

tecnica no es difıcil de emplear, puesto que el unico supuesto que requiere es tener

informacion previa del parametro (distribucion a priori) para su uso, y el cono-

cimiento previo de una proporcion a sido bastante estudiado y se han propuesto

diferentes metodologıas para la elicitacion de este.

Un paso a seguir a este trabajo serıa el caso en el cual se tengan encuestas multi-

proposito y se desee estimar mas de una proporcion a la vez. Adicional a esto, se

puede estudiar el comportamiento de la metodologıa propuesta cuando se tienen

variables auxiliares en el estudio. Tambien se puede implementar esta metodologıa

en parametros diferentes a la proporcion.

Recibido: 21 de enero de 2014

Aceptado: 16 de abril de 2014



Referencias

Box, G. E. P. & Tiao, G. C. (1973), Bayesian Inference in Statistical Analysis,

Addison-Wesley, Reading, Massachusetts.

Chen, Q., Elliott, M. R. & Little, R. J. (2010), ‘Bayesian penalized spline model-

based inference for finite population proportion in unequal probability sam-

pling’, Survey Methodology 36(1), 23–34.

Gambino, J. G. (2012), pps: Functions for PPS sampling. R package version 0.94.

*http://cran.r-project.org/package=pps

Gutierrez, H. A. (2012), TeachingSampling: Sampling designs and parameter esti-

mation in finite population. R package version 2.0.1.

*http://cran.r-project.org/package=TeachingSampling

Hollander, M. & Wolfe, D. A. (1999), Nonparametric Statistical Methods, Cam-

bridge: University Press, Unite State of America.

Pfeffermann, D. & Royall, R. M. (1982), ‘Balanced samples and robust Bayesian

inference in finite population sampling’, Biometrika 69, 401–409.

R Core Team (2013), R: A Language and Environment for Statistical Computing,

R Foundation for Statistical Computing, Vienna, Austria.

*http://www.r-project.org

Sarndal, C. E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey Sam-

pling, Springer - Verlag, New York.

Shao, J. & Tu, D. (1995), The jackknife and Bootstrap, Springer, New York.

A. Codigos del ejemplo en R

require(MASS); require(hdrcde) ;require(cubature)

require(pps) ; require(TeachingSampling)

data(calif); head(calif)

Y1=ifelse(calif$white<=148,1,0);table(Y1)/1077

Log_pob=log(calif$population) # Variable auxiliar

d=dist(Log_pob, method="e",) # distance matrix

fit=hclust(d, method="mcquitty")

groups=cutree(fit, k=2)

groups=factor(groups)

levels(groups)=c("G1","G2")

table(groups)



Y=Y[order(groups)]

# Estimacion cuando n=30

n=30

round(table(groups)*n/1077,0) # asignacion proporcional al tama~noo del grupo

groups=groups[order(groups)]

pii<-c(Log_pob[groups=="G1"]*25/sum(Log_pob[groups=="G1"]), # Calculo de pi por grupo

Log_pob[groups=="G2"]*5/sum(Log_pob[groups=="G2"]))

Y=cbind(Grupos=groups,pii,Y) # Poblacion ordenada segun grupos

head(Y)

MG1=S.piPS(25,pii[groups=="G1"])# Seleccion de la muestra por grupo

MG2=S.piPS(5,pii[groups=="G2"])

# muestra obtenida

Ym=rbind(Y[MG1[,1],],Y[MG2[,1],])

# estimacion clasica

Nest=sum(1/Ym[,2])

num=sum(Ym[,3]/Ym[,2])

pest1=num/Nest

Li=pest1-qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1))

Ls=pest1+qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1))

# Construccion de la a priori

# alpha=25

# beta=(24/0.05)-23

# a priori beta(25,457)

# Estimacion de rho mediante boot

h=Boot(Ym[,c(3,2)],n,pest1,rho=0.1,alpha1=25,betta1=457)

c(Li=Li,Ls=Ls,lonc=Ls-Li,pest=pest1,Boot=h)

# Estimacion cuando n=200

# repetir secuencia anterior con n=200

# Varianza de la proporcion

varp=function(n,pks,ys,pii,pest)\{

# n numero de observaciones



# ys= de submuestreo

# pii= Probabilidades de inclusion

# pest= proporcion estimada

pij=((n-1)/n)*(pks%*%t(pks))+((n-1)/n^2)*(pks%*%t(pks^2)+

(pks^2%*%t(pks)))-((n-1)/n^3)*pks%*%t(pks)*sum(pii^2)

pipj = pks%*%t(pks)

Vp = 0

for(i in 1:(n-1)){

for(j in (i+1):n){

Vp = Vp + ((pipj[i,j]-pij[i,j])/pij[i,j])*((ys[i]-pest)/pks[i]-

(ys[j]-pest)/pks[j])^2}}

Vp = (sum(1/pks))^(-2)*Vp

}

# p estimado mediante boot

Boot<-function(y,n,pest,alpha1,betta1,rho=0.1,B=500){

booT<-function(y,n){

pos1=sample(1:n,n,replace=T)

y1bos=y[pos1,]

while(length(which(y1bos[,1]==0))==n){pos1=sample(1:n,n)

y1bos=y[pos1,]}

Nestbos1=sum(1/y1bos[,2])

numbos1=sum(y1bos[,1]/y1bos[,2])

numbos1/Nestbos1 }

pestboot=replicate(B,expr=booT(y,n))

h1=bandwidth.nrd(pestboot)

rejilla=seq(0.01,0.99,length=B)

poste=0

for(i in 1:B){

x<-(2*pest-rejilla[i]-pestboot)/h1

kernelx=dnorm(x)

poste[i]<-1/(h1*B)*sum(kernelx) }

apriori=dbeta(rejilla,alpha1,betta1)

posteriori=poste*apriori

phi1<-approxfun(rejilla,posteriori)

consta1<-adaptIntegrate(phi1,0.01,0.99)$integral

posteriori1<-(1/consta1)*phi1(rejilla)

muesb=sample(rejilla,1000, prob=posteriori1, replace=T)

p.est=mean(muesb) # estimacion boot proporcion

intcre1=hdr(muesb,95) # intervalo de credibilidad

cont<-ifelse(rho>intcre1$hdr[1] & rho<intcre1$hdr[2],1,0)

Lon.IC=(intcre1$hdr[2]-intcre1$hdr[1])

c(p.est=p.est,Conteo=cont,LonICboot=Lon.IC) }



Junio 2014, Vol. 7, No. 1, pp. 49–66

Estudio de simulacion para comparar varios

estimadores de varianza en el marco de la

regresion no parametrica

A simulation study for the comparison of several variance estimators

in the nonparametric regression framework

Alvaro Jose Floreza

[email protected]

Javier Olayab

[email protected]

Resumen

En el presente trabajo se prueban varios estimadores de varianza basados en di-

ferencias, en el marco de la regresion no parametrica. Dichos estimadores tienen

la principal ventaja de no depender de los parametros de suavizacion, ademas de

que son poco exigentes en terminos computacionales. Se usan principalmente es-

timadores basados en diferencias ordinarias y basados en las diferencias optimas

de Hall. Se crean escenarios utilizando diferentes funciones de regresion, tamanos

de muestra y distribuciones de los errores y se introduce el uso de la distribucion

semi-normal para probar los estimadores de varianza, en casos de distribuciones

asimetricas de los errores. Los resultados parecen apoyar la idea de que los estima-

dores basados en diferencias optimas de Hall no son mejores en todos los escenarios

planteados.

Palabras clave: estimadores basados en diferencias, diferencias ordinarias, dife-

rencias optimas, distribucion semi-normal.

Abstract

We test several difference-based variance estimators in the nonparametric regres-

sion model. These estimators have the main advantage of not depending on the

smoothing parameters. Furthermore, they also show low computational demand.

We mainly use estimators based on ordinary differences, along with estimators

based on Hall’s optimal differences. We set scenarios using some regression fun-

ctions, some sample sizes, and some error distributions. In particular we bring in

the use of the half-normal distribution to test the variance estimators under some

aProfesor auxiliar. Escuela de Estadıstica, Universidad del Valle, Colombia.bProfesor titular. Escuela de Estadıstica, Universidad del Valle, Colombia.

49

50 Alvaro Jose Florez & Javier Olaya

asymmetric error distributions. Results seem to support the idea that the Hall’s

optimal differences estimators not perform better than the others on all sets of

scenarios.

Keywords: Difference-based estimators, ordinary differences, optimal differences,

half-normal distribution.

1. Introduccion

La estimacion de una funcion f poblacional por medio de modelos de regresion ha

sido ampliamente estudiada durante mucho tiempo y presenta una gran variedad

de herramientas estadısticas, de las cuales la modelacion parametrica es la que mas

ha sido desarrollada y entendida (Draper & Smith 1966, Draper & Smith 1998). Sin

embargo, hay muchos casos donde estos tipos de modelos no son recomendables,

ya sea por el incumplimiento de uno o mas de los supuestos, o por la falta de

informacion que se tenga sobre la relacion funcional de los datos. Lo anterior hace

que la utilizacion de metodos de regresion no parametrica sean una buena opcion

para la estimacion de la funcion f , puesto que estos metodos son menos exigentes,

especialmente en los supuestos, que su contraparte parametrica (Eubank 1998,

Altman 1992, Cleveland 1979).

Dentro del estudio de la regresion no parametrica se han presentado grandes avan-

ces en las ultimas decadas, debido principalmente a los enormes progresos tec-

nologicos que han cubierto la gran demanda computacional que dichos metodos

exigen, donde se han propuesto una variedad de herramientas y tecnicas para el

modelamiento de f , ası como tambien un numero considerable de estimadores de

varianza. Puesto que este parametro no puede ser estimado de la misma forma

como se hace en la regresion parametrica, debido a que las tecnicas de suaviza-

cion producen estimaciones sesgadas de las respuestas, pues lo anterior llevarıa a

una sobreestimacion de la varianza (Hall et al. 1990, Hall & Marron 1990, Gasser

et al. 1986, Dette et al. 1998, Seifert & Gasser 1993, Buckley et al. 1988).

Dada la importancia de la estimacion la varianza de los errores, este trabajo busca

documentar algunos de los estimadores de varianza que se han desarrollado, y

que se usan con mas frecuencia, para los modelos de regresion no parametrica.

Tambien se pretende mostrar el comportamiento que presentan los estimadores

estudiados bajo situaciones diferentes, y ası poder identificar en que casos es mas

conveniente el uso un estimador sobre los demas. Ası, los escenarios donde se ponen

a prueba los estimadores resultan de combinar distintas funciones de regresion

con diferentes distribuciones de los errores y diferentes tamanos de muestra. De

otro lado, los autores que proponen los estimadores han conducido sus propias

simulaciones para comparar los que estan proponiendo con los demas. Sin embargo,

persisten diferencias de opinion sobre cuales son mejores y en que casos. Este

estudio se propone como meta conducir un estudio de simulacion en el cual los

investigadores (Gasser et al. 1986, Hall et al. 1990, Carter & Eagleson 1992, Brown

& Levine 2007) que han propuesto los estimadores que se comparan no intervienen


Comparacion de estimadores de varianza en regresion no parametrica 51

en la construccion de los escenarios de simulacion, ni en la formulacion de las

conclusiones. Se trata entonces de un estudio independiente que busca nuevas

luces sobre el uso de los estimadores bajo diferentes escenarios.

2. Antecedentes

Siempre que se hace una propuesta para un estimador de varianza, en el modelo de

regresion no parametrico, es natural pensar que es necesario ponerlo a prueba de

alguna forma para que se puedan ver sus ventajas y desventajas frente a los otros

estimadores que han sido previamente desarrollados. Este tipo de comparaciones

se conducen generalmente estudiando las propiedades teoricas de los estimado-

res y evaluandolas por simulacion. A continuacion se presentan algunos artıculos

donde se ha hecho algun tipo de comparacion, ya sea teorica o practica, de los

estimadores que se utilizaron en este estudio: el estimador de Rice (Rice 1984) y

los estimadores basados en diferencias ordinarias y en diferencias optimas de Hall,

Kay y Titterington (Hall et al. 1990).

La primera comparacion de los estimadores basados en diferencias fue hecha en la

presentacion del estimador de Gasser, Sroka y Jennen-Steinmetz (estimador GSJS)

(Gasser et al. 1986), quienes compararon el estimador de Rice con un estimador

propuesto por Wahba (1978) y con el estimador GSJS. Dicha comparacion fue

hecha por medio de simulaciones, teniendo en cuenta cambios en la funcion po-

blacional, el tamano de muestra y la varianza de los errores; allı se encontro que

el sesgo en todos los casos es siempre positivo y es proporcionalmente mas grande

para tamanos de muestra y varianza pequenos. Ademas, de acuerdo con sus au-

tores, el sesgo del estimador GSJS es mucho mas pequeno que el de los otros dos

estimadores.

Hall et al. (1990) presentan el estimador de varianza basado en diferencias en

forma general y ademas se hace referencia a tres metodos de asignacion para las

diferencias, llamados asignacion ordinaria, spike y optima de Hall, siendo estas

dos ultimas propuestas por Hall et al. (1990). A fin de hacer las comparaciones

Hall propone un Error Cuadratico Medio (ECM) asintotico para cada uno de estos

estimadores, el cual solo depende del factor de la varianza, mientras que el com-

ponente del sesgo se considera insignificante. En consecuencia el ECM asintotico

es independiente de la funcion de regresion f .

Luego de encontrar el ECM de cada uno, se procedio a calcular la eficiencia teori-

ca de estos estimadores, de orden 2 al 5. Se encontro que los estimadores basados

en diferencias optimas de Hall y los basados en diferencias spike presentaban in-

crementos en la eficiencia al aumentar el orden de los estimadores. Ocurrio lo

contrario con el estimador basado en diferencias ordinarias, siendo el primero de

estos estimadores el que presentaba la mayor eficiencia en todos los casos (Hall

et al. 1990, p. 525).

Dette et al. (1998) redefinen el ECM de estos estimadores y muestran que el ECM

depende no solamente del componente de la varianza, sino tambien de la compo-



nente del sesgo. En esta investigacion se hizo una comparacion bajo simulaciones

de los ECM teoricos de los estimadores basados en diferencias ordinarias y opti-

mas de Hall bajo funciones de regresion distintas (Dette et al. 1998, p.759-763).

De acuerdo con Dette et al. (1998), en pocos casos los estimadores basados en

diferencias optimas de Hall presentaban ECM inferiores a los de los estimadores

basados en diferencias ordinarias, conclusiones que contradicen las formuladas en

Hall et al. (1990).

3. Modelo de regresion no parametrico

Un modelo de regresion, sea parametrico o no parametrico, pretende estimar una

funcion poblacional tomando informacion de n pares de observaciones de una va-

riable Y y de una variable X (en nuestro caso ambas continuas), entre las cuales

se presume la existencia de cierta relacion, tal como se expresa en la ecuacion (1).

yi = f(xi) + εi, i = 1, 2, · · · , n (1)

Donde Y se conoce como variable respuesta y X como variable predictora, expli-

cativa o covariable. Los pares (xi, yi) son un conjunto de n observaciones de X

y Y . Al conjunto de valores de X se le conoce habitualmente como puntos del

diseno. f es la funcion de regresion o curva de regresion y los εi son los llamados

errores, que son variables aleatorias no observables que se asumen independientes

y que satisfacen que E(εi) = 0 y V (εi) = σ2< ∞. Este artıculo se refiere a la

estimacion de σ2, en el caso en que la funcion de regresion f se estime por metodos

de suavizacion.

La principal diferencia que existe entre la regresion parametrica y la no parametri-

ca, radica en que en la regresion parametrica, el investigador debe suponer la forma

de la funcion de regresion y solamente desconoce los valores de los parametros que

componen la funcion. Mientras que, en el ambito no parametrico, no se supone a

priori, un comportamiento de la funcion de regresion f poblacional. En cambio, la

forma de la funcion estimada se crea a partir del comportamiento de los mismos

datos. Por lo tanto, la regresion no parametrica se considera como una coleccion

de tecnicas para ajustar curvas donde se tiene poco conocimiento a priori de su

forma de f .

Dentro de la teorıa de la regresion no parametrica, se debe asumir que f es suave,

lo que quiere decir, que si se desea estimar la funcion f en un punto x, se espera

que las observaciones yi asociadas a los xi cercanos a x, posean informacion de

f en x. Lo cual indica que es posible promediar de alguna forma las respuestas

yi mas cercanas al punto donde se estime f(x). En el marco de la regresion no

parametrica esto es presentado por Eubank (1998) como suavizacion.

Formalmente, se asume que f es una funcion cuadrado integrable que tiene dos de-

rivadas continuas. Si se denota W2

2al espacio de todas las funciones que satisfacen

estas condiciones, se dice que f es suave si pertenece a W2

2.



Para la estimacion de f se encuentran muchos metodos de regresion no parametrica

en la literatura, donde los suavizadores usados comunmente son los estimadores

lineales para regresiones simples, es decir con una sola covariable. Los estimadores

del tipo lineal de f tienen la forma dada por la ecuacion (2).

f(xi) =

n∑i=1

K(x, xi;λ)yi i = 1, 2, · · · , n (2)

Donde K(x, xi;λ) es una coleccion de pesos que dependen de los puntos del diseno

xi y de un λ > 0, el cual es denominado parametro de suavizacion o ancho de

banda, y determina el grado de suavizacion a los datos, el cual es definido por el

usuario (Eubank 1998, Levine 2006, Olaya 2012). Se consideran lineales porque

para un λ dado, los estimadores resultan ser funciones lineales de las respuestas

yi. Dentro de los metodos de suavizacion en modelos de regresion con una sola

variable de prediccion se encuentran: la suavizacion kernel, la regresion LOESS y

la suavizacion por splines.

4. Estimacion de la varianza en un modelo de

regresion no parametrico

En un modelo lineal la suma de cuadrados de los errores brinda las bases para la

estimacion de la varianza de los errores, por lo cual en un enfoque no parametrico

se puede pensar que la estimacion se podrıa hacer de forma analoga. No obstante,

realizar la estimacion de esta forma no es valido debido a la presencia del sesgo

de f (Bowman & Azzalini 1997), el cual tendra el efecto de aumentar el valor de

la suma de cuadrados de los errores y por lo tanto sobreestimar el parametro de

varianza.

Por esta razon, dentro del contexto de la regresion no parametrica existe un numero

considerable de estimadores de σ2, los cuales pueden ser considerados por separado

en dos grupos. En el primer grupo se encuentran los estimadores que dependen del

parametro de suavizacion, los cuales realizan la estimacion de la varianza basando-

se en la suma de cuadrados de los errores de un ajuste no parametrico de f , por

medio de un metodo de suavizacion como Kernel o Splines. Algunos de estos esti-

madores son el estimador de Hall & Marron (1990), que esta basado en suavizacion

Kernel, y los estimadores de Wahba (1978) y de Buckley et al. (1988) que estan

basados en suavizacion Spline.

El segundo grupo esta conformado por los estimadores basados en diferencias, los

cuales se apoyan en las respuestas yi asociadas a una vecindad predeterminada de

x, estos estimadores tienen la ventaja de no depender explıcitamente del parametro

de suavizacion. En este tipo de estimadores se asume el modelo de regresion de

la ecuacion 1, donde f es una funcion desconocida y los errores εi se asumen

independientes e identicamente distribuidos con media 0 y varianza σ2. Ademas,

el diseno se encuentra ordenado de la siguiente forma 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn ≤ 1.



Este tipo de estimadores no requieren ningun parametro de suavizacion. El orden

de los estimadores de diferencias viene dado por el numero de observaciones que

se relacionan para calcular el residual local.

El mas simple de estos estimadores fue propuesto por Rice (3) en 1984. Dicho

estimador puede presentar algunos problemas debido a que la diferencia (yi?yi−1)

puede ser influenciada por las fluctuaciones bruscas que puede presentar la funcion

de regresion f , y por lo tanto la estimacion de la varianza puede inflarse.

σ2

R =1

2(n− 1)

n∑i=2

(yi − yi−1)2 (3)

Gasser et al. (1986) proponen el estimador GSJS, basado en interpolacion lineal, el

cual contrarrestarıa el problema del estimador de Rice. Con este proposito los au-

tores proponen unos seudo-residuales, los cuales se obtienen tomando una tripleta

consecutiva de puntos de diseno xi−1, xi, xi+1, a fin de calcular la diferencia que

hay entre la lınea recta que une las observaciones lımites (xi−1, yi−1) y (xi+1, yi+1)

y la observacion central (xi, yi), de la siguiente manera:

εi =xi+1 − xi

xi+1 − xi−1

yi−1 +xi − xi−1

xi+1 − xi−1

yi+1 − yi

= aiyi−1 + biyi+1 − yi (4)

El estimador GSJS esta definido de la siguiente forma:

σ2

GSJ =1

n− 2

n∑i=3

c2

i ε2

i donde c2

i = (a2i + b2

i + 1)−1 (5)

Hall et al. (1990) introdujeron los estimadores basados en diferencias en forma

general. Una diferencia se define como una sucesion de numeros que cumplen con

las siguientes condiciones:∑di = 0,

∑d2

j = 1, donde dj = 0 (6)

Se asume que dj = 0 para j < −m1 y j > m2, donde los valores m1,m2 ≥ 0

y d−m1dm2 = 0 . El orden de la sucesion viene dado por m = m1 + m2. Por

conveniencia en los calculos se toma m1 = 0 y m2 = m. Entonces el estimador de

σ2 basado en estas diferencias tiene la forma dada por la ecuacion (7):

σ2

HKT =1

n−m

n−m2∑k=m1+1

⎛⎝m2∑

j=0

djyj+k

⎞⎠

2

(7)

Para la diferencia de primer orden, solamente se tiene un resultado valido para

(d0, d1) el cual es d0 = 1√2

y d1 = −d0, que se define como la primera diferencia

�Y =yi−yi−1√

2

, cuyo estimador coincide con el estimador de Rice (3).



Cuando se tienen diferencias de ordenes superiores, se obtiene mas de una solucion

para cada orden, por lo cual se tendran infinitos estimadores de varianza de la

forma (7) por cada orden. Por lo cual determinar el ordenm del estimador, ası como

la escogencia de las diferencias es de gran importancia. Una forma de realizar dicha

asignacion, es por medio de una diferencia ordinaria que se usa comunmente:

dj =

{(2mm

)−1/2(mj

)(−1)j para 0 ≤ j ≤ m,

0 en otro caso(8)

El estimador de la ecuacion (7) con la asignacion de la ecuacion (8) se conoce

como estimador de diferencias ordinarias. Cuando se obtiene dicho estimador con

una diferencia de segundo orden, este coincide con el estimador GSJS (ver ecua-

cion (5)), cuando se tiene un diseno equidistante, los valores de xi se encuentran

igualmente espaciados.

Hall et al. (1990) proponen una asignacion distinta, a la cual denominan diferencias

optimas de Hall, la cual esta basada en una definicion que se propone del ECM

de este estimador y la varianza asintotica (descripcion formal del teorema en Hall

et al. (1990, apendice 1)), los cuales son ambos iguales a n−1

τ2, donde τ2 se define

en la ecuacion (9), en la que kx— denota la kurtosis de ε/σ.

τ2 = var(ε2) + 2σ4

∑k �=0

⎛⎝∑

j

djdj+k

⎞⎠

2

= σ4

⎛⎜⎝k + 2

∑k

⎛⎝∑

j

djdj+k

⎞⎠

2

⎞⎟⎠ (9)

Teniendo en cuenta la definicion del ECM del estimador de Hall, se observa que

este valor solamente depende de los valores de dj , ademas de la distribucion de los

errores. En esta definicion se asume que la funcion f tiene un efecto insignificante

sobre el error cuadratico medio, ya que la funcion f se considera suave y los puntos

de diseno xi adyacentes se encuentran cada vez mas juntos, a medida que el tamano

de la muestra aumenta.

Se sigue que la asignacion optima de los dj se obtiene minimizando la siguiente

expresion:

δ =∑k �=0

⎛⎝∑

j

djdj+k

⎞⎠

2

(10)

Para el m-esimo orden la diferenciacion sucesiva optima y con δ, se tiene que

δ = (2m)−1, por lo tanto:

m∑j=1

djdj+k = −(2m)−1 (1 ≤ |k| ≤ m) (11)

Por lo cual la varianza asintotica mınima que se puede obtener utilizando una

diferencia sucesiva de m-esimo orden es de n−1

τ2, donde:

τ2 = var(ε2) +m

−1

σ4 (12)



En Hall et al. (1990, apendice 3), se plantea el siguiente calculo para encontrar las

diferencias optimas:

Para un m, se observa que:

D(d0, · · · , dm) =1

2

m∑k=1

⎛⎝ k∑

j=0

djdj+k

⎞⎠

2

(13)

D(d0, · · · , dm) = (d0dm)2+(d0dm−1+d1dm)+ · · ·+(d0d1+ · · ·+dm−1dm)2 (14)

Ademas se asume que: s1 = −(d0+dm), s22= 1− (d2

0+d

2

m), t1 = (12− 1

4s2

1− 1

2s2

2)

12 .

Por lo tanto, d0 = − 1

2s1+t1, dm = − 1

2s1−t1. Usando estas formulas para d0 y dm,

ademas de tomar s1 = d1 + · · ·+ dm−1 y s2

2= d

2

1+ · · ·+ d

2

m−1y sustituyendo d0 y

dm en la ecuacion (14), se obtiene una funcion que involucra solamente los valores

d1, · · · , dm. A estas expresiones se les incorpora las restricciones de las diferencias

(ver ecuacion (6)) y se puede obtener los valores que minimizan la ecuacion (13)

por medio de un metodo de optimizacion.

En la Tabla 1 se pueden observar las diferencias optimas para estimadores de orden

1 ≤ m ≤ 5:

Tabla 1: Diferencias optimas de Hall para estimadores de orden 1 ≤ m ≤ 5.

Fuente: Hall et al. 1990.m (d0, · · · , dm)

1 (0.7071,−0.7071)

2 (0.8090,−0.5,−0.309)

3 (0.1942, 0.2809, 0.3832,−0.8582)

4 (0.2708,−0.0142,−0.6909,−0.4858,−0.4617)

5 (0.9064,−0.26,−0.2167,−0.1774,−0.142,−0.1103)

En la Tabla 1 se observa que a medida que el orden aumenta uno de los valores

dj tiende a acercarse a la unidad mientras que los otros convergen a 0; tambien

se observa que este pico se encuentra en el medio de la diferenciacion cuando el

orden es par y en un extremo cuando el orden es impar.

Teniendo en cuenta la observacion anterior, Hall, Kay y Titterington realizaron

una asignacion forzando al dj central de la sucesion a asumir valores cercanos a

la unidad, mientras que a los otros los acercan a 0. Esta asignacion fue llamada

spike (pico). La asignacion de este tipo se hace de la siguiente forma:

Si el orden es par, v = m2

dj =

⎧⎪⎪⎪⎨⎪⎪⎪⎩

(2v

2v + 1

)1/2

para j = v

− [2v(2v + 1)]−1/2

para 0 ≤ j ≤ v − 1 o v + 1 ≤ j ≤ 2v

0 en otros casos

(15)



Si el orden es impar, v = m−1

2

dj =

⎧⎪⎪⎪⎨⎪⎪⎪⎩

(2v + 1

2v

)1/2

para j = v

− [2v(2v − 1)]−1/2

para 0 ≤ j ≤ v − 1 o v + 1 ≤ j ≤ 2v

0 en otros casos

(16)

5. Metodologıa

Para el proceso de simulacion se planteo el siguiente modelo de regresion:

yi = f(xi) + εi, i = 1, 2, · · · , n (17)

Donde los valores yi representan las respuestas, f la funcion de regresion poblacio-

nal, xi la covariable y εi los errores aleatorios. Ademas se deben cumplir en todas

las simulaciones las siguientes condiciones:

El diseno es equidistante, y los valores xi se encuentran ordenados en el

intervalo [0, 1], ademas no se tienen medidas repetidas en ningun valor de xi.

Los valores εi son independientes e identicamente distribuidos con E(εi) = 0

y var(εi) = σ2.

La funcion f es continua y doblemente diferenciable.

El proceso de simulacion se realizo en distintos escenarios, los cuales presentan

diferencias en la funcion de regresion, distribucion de los errores y tamanos de

muestra. A fin de obtener observaciones suficientes para realizar las comparaciones,

se consideraron 1000 repeticiones para cada simulacion.

Los diferentes cambios en cada uno de estos factores son los siguientes:

Funcion poblacional f :

8 sin(0.5πxi)− 4 sin oscilaciones.

4 sin(3πxi) numero de oscilaciones bajo.

4 sin(7πxi) numero de oscilaciones alto.

Varianza de los errores: σ2 = 0.5 (variacion baja), σ2 = 1(variacion alta).

Tamano de muestra: n = 50, 100, 300.

Distribucion de εi:

N(0, σ2), distribucion simetrica.



|N(0, 1)| −(2

π

)1/2

, distribucion asimetrica a la derecha(2

π

)1/2

− |N(0, 1)|, distribucion asimetrica a la izquierda

Las distribuciones asimetricas se definen a partir de una variable que se distribuye

semi-normal, definida como el valor absoluto de una variable que se distribuye

normal estandar (Olmos et al. 2012). En ambos casos el procedimiento empleado

centra las distribuciones semi-normales en 0, pero mantiene una de ellas asimetrica

a la derecha y la otra a la izquierda (ver Figura 1).

Figura 1: Distribucion de los errores (a) distribucion asimetrica a la derecha, (b)

distribucion simetrica, (c) distribucion asimetrica a la izquierda. Fuente: elabora-

cion propia.

Los estimadores que se seleccionaron para realizar las comparaciones son los si-

guientes: el estimador de Rice (Ri), los estimadores HKT basados en diferencias

optimas de Hall, de orden 2 al 5 (Op2, Op3, Op4, Op5) y los estimadores basados

en diferencias ordinarias orden 2 al 5 (Or2, Or3, Or4, Or5). Hay que tener en

cuenta que el estimador de orden 1 de los dos metodos de asignacion seleccionados

coincide con el estimador de Rice. Ademas, cuando se tienen disenos equidistantes,

como en este caso, el estimador basado en diferencias ordinarias de orden 2 es igual

al estimador GSJS.

Como indicador para la comparacion de los estimadores se utiliza el error cuadrati-

co medio (ECM) empırico, calculado de la siguiente forma:

ECM(σ2

j ) =1

1000

1000∑i=1

(σ2

ji − σ2)2 j = 1, · · · , 9 (18)

donde σ2

ji es la estimacion de la varianza por medio del estimador j en la simulacion

i. Este es un indicador que tienen en cuenta no solamente el sesgo del estimador

sino tambien su variabilidad.

Las simulaciones se llevaron a cabo usando el software estadısticos R siguiendo

estos pasos:

1. Se generan los valores de εi teniendo en cuenta la distribucion de los errores,

el valor de varianza y el tamano de muestra propuesto.



2. Se generan los valores de yi siguiendo el modelo de la ecuacion (17), teniendo

en cuenta cada una de las funciones poblacionales f propuestas. Donde xi =i−0.5

n , i = 1, · · · , n.

3. Luego de generar los valores de yi, se procede a estimar la varianza por medio

de cada uno de los estimadores seleccionados.

4. Los pasos anteriores se repiten 1000 veces para obtener la distribucion empıri-

ca de cada estimador y ası poder calcular el sesgo y el error cuadratico medio

(ECM) de cada uno.

Teniendo en cuenta las diferentes distribuciones de los errores, tamanos de muestra

y funciones de regresion se tienen 54 escenarios de simulacion, en los cuales se

realizaron las estimaciones de varianza por medio de los 9 estimadores propuestos.

6. Resultados

En cada una de las situaciones planteadas se estimo la varianza con cada uno

de los estimadores seleccionados para el estudio, luego se encontro el sesgo y el

ECM de cada uno y se observaron sus distribuciones de forma grafica por medio

de diagramas de cajas y alambres; todo ello a fin de realizar las comparaciones y

determinar en que casos es mas recomendable el uso de uno de estos estimadores

sobre los demas. A continuacion se muestran diagramas de cajas y alambres y

tablas del ECM de las tres funciones que se simularon, bajo diferentes cambios en

los tamanos de muestra y varianzas.

Cuando se comparan todos los estimadores bajo la funcion que no presenta osci-

laciones (Figura 2) se observa que los estimadores basados en diferencias optimas

de Hall (Op2, Op3, Op4 y Op5) presentan menor dispersion que los estimadores

basados en diferencias ordinarias (Or2, Or3, Or4 y Or5) en todas las simulacio-

nes, pero los ultimos presentan mejor manejo del sesgo cuando se tienen muestras

pequenas (n=50). Si comparamos el ECM de los estimadores (Tabla 2) se puede

observar que los valores para cada uno son muy parecidos, aunque los menores

valores se observan para los estimadores Op2, Ri y Or2.

Tabla 2: Error cuadratico medio de los estimadores bajo la funcion 8 sin(0.5πx)−4

para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion

propia.Caso Ri Or2 Or3 Or4 Or5 Op2 Op3 Op4 Op5

n = 50, σ2 = 0.5 0.014 0.018 0.023 0.027 0.030 0.013 0.017 0.025 0.044

n = 50, σ2 = 1 0.065 0.087 0.105 0.121 0.136 0.054 0.054 0.061 0.079

n = 300, σ2 = 0.5 0.002 0.003 0.004 0.004 0.005 0.002 0.002 0.002 0.002

n = 300, σ2 = 1 0.010 0.013 0.015 0.017 0.019 0.008 0.008 0.007 0.007

En la Figura 3 y la Tabla 3 se puede observar el comportamiento de los estima-

dores bajo los escenarios que tienen la funcion de regresion que presenta pocas



Figura 2: Diagrama de cajas del sesgo de los estimadores bajo la funcion

8 sin(0.5πx) − 4 para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1.

Fuente: elaboracion propia.

oscilaciones. En la Figura 3 se aprecia que los estimadores basados en diferencias

ordinarias tienen buen control sobre el sesgo sin importar los tamanos de muestra

o el orden usado, a diferencia de los estimadores basados en diferencias optimas

que presentan estimaciones con sesgos positivos, especialmente para tamanos de

muestra de 50, ademas el sesgo es mayor a medida que aumenta el orden. Es im-

portante tener presente que estos sesgos disminuyen considerablemente cuando el

tamano de muestra es de 300, ademas presentan una variabilidad inferior que los

estimadores basados en diferencias ordinarias.

Al observar el ECM (Tabla 3) se aprecia que para tamanos de muestra pequenos

los estimadores basados en diferencias ordinarios son mejores que los estimadores

basados en diferencias optimas, pero para las situaciones con tamano de muestra

de 300 estos ultimos tienen mejor comportamiento.

Tabla 3: Error cuadratico medio de los estimadores bajo la funcion 4 sin(3πx) para

tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion


n = 50, σ2 = 0.5 0.034 0.019 0.023 0.026 0.029 0.128 0.387 0.916 1.850

n = 50, σ2 = 1 0.082 0.080 0.098 0.114 0.130 0.172 0.439 0.975 1.906

n = 300, σ2 = 0.5 0.003 0.003 0.004 0.005 0.005 0.002 0.002 0.002 0.004

n = 300, σ2 = 1 0.010 0.013 0.016 0.018 0.021 0.008 0.008 0.008 0.009



Figura 3: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funcion

4 sin(3πx) para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente:

elaboracion propia.

Cuando se tienen modelos con la funcion de regresion que presenta mayor numero

de oscilaciones, se puede observar en la Figura 4 que los estimadores basados

en diferencias optimas de Hall presentan estimaciones extremadamente sesgadas,

aunque las medianas del sesgo parecen acercarse a 0 cuando el tamano de muestra

es de 300, al igual que en las anteriores simulaciones, pero bajo esta funcion estos

estimadores parece que necesitan tamanos de muestra muchos mas grandes para

que se tenga buen control sobre el sesgo. Los estimadores basados en diferencias

ordinarias presentan comportamientos mas estables, puesto que todas las medianas

estuvieron proximas a 0.

En la Tabla 4 se puede observar los ECM de los estimadores, donde se puede

apreciar que para tamanos de muestra pequenos los estimadores basados en dife-

rencias ordinarias presentan mejor comportamiento que los basados en diferencias

optimas, pero cuando el tamano de muestra aumenta a 300, estos ultimos mejoran

considerablemente, aunque solamente el de orden 2 tiene un resultado similar al

de los estimadores basados en diferencias ordinarias.

Al contrario que ocurre con los anteriores funciones poblacionales planteadas, don-

de en algunos casos los estimadores basados en diferencias optimas de Hall son una

buena alternativa, los estimadores basados en diferencias ordinarias son los unicos

estimadores que presentan el comportamiento deseado para la estimacion de la



Figura 4: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funcion

4 sin(7πx) para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente:

elaboracion propia.

Tabla 4: Error cuadratico medio de los estimadores bajo la funcion 4 sin(7πx) para

tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion


n = 50, σ2 = 0.5 0.583 0.025 0.026 0.030 0.034 3.161 9.608 21.065 38.634

n = 50, σ2 = 1 0.622 0.084 0.097 0.110 0.122 3.230 9.708 21.286 39.117

n = 300, σ2 = 0.5 0.003 0.003 0.004 0.004 0.005 0.005 0.012 0.028 0.056

n = 300, σ2 = 1 0.011 0.014 0.016 0.019 0.021 0.011 0.017 0.032 0.059

varianza, siendo estos los estimadores recomendados cuando se tengan situaciones

similares a esta ultima.

Puesto que todas las situaciones simuladas anteriormente se hicieron bajo una

distribucion de los errores simetrica N(0, σ2), por lo tanto hace falta observar si

existen diferencias en las estimaciones cuando se tiene una distribucion asimetrica

de los errores. Para esto se presenta en la Figura 5, distribucion de los sesgos de tres

estimadores de varianza (el estimador de Rice, el basado en diferencia ordinarias

de orden 2 y el basado en diferencia optimas de Hall de orden 2) por medio de

diagrama de cajas y alambres bajo tres condiciones distintas de distribucion de los

errores (asimetrica a la derecha, simetrica, asimetrica a la izquierda).



Figura 5: Diagrama de cajas y alambres de los estimadores bajo las tres condiciones

de los errores con la funcion 8 sin(0.5πx) − 4 y n = 100. (a) estimador de Rice

(b) estimador de diferencias ordinarias de orden 2 (c) estimador de diferencias

optimas de orden 2. Fuente: elaboracion propia.

En la Figura 5 se observa que los diagramas de cajas y alambres del sesgo del

estimador de Rice bajo las tres distribuciones de los errores no presentan diferen-

cias en sus comportamientos, al igual que ocurre con los otros dos estimadores

evaluados, lo que nos indica que estos estimadores de varianza no se ven afectados

por la distribucion de los errores; ocurre lo contrario con los estimadores que estan

basados en los diferentes metodos de suavizacion, los cuales deben asumir norma-

lidad de los errores. Cuando se simulan los resultados bajo los demas escenarios

planteados se tienen las mismas observaciones mencionadas anteriormente, como

tambien ocurre con los demas estimadores que se tienen en cuenta en este estudio.

7. Conclusiones

De los estimadores basados en diferencias optimas de Hall, el estimador de orden 2

es el que presenta mejor comportamiento, puesto que en las simulaciones plantea-

das se observo que se producıan estimaciones cada vez mas sesgadas y con mayor

ECM cuando el orden de este estimador aumentaba. Por lo cual no es recomen-

dable el uso de los estimadores basados en diferencias optimas de Hall de ordenes

superiores a 2.

En ninguna de las situaciones simuladas se encontro diferencias en las distribu-

ciones de los sesgos de los estimadores basados en diferencias ordinarias, por lo

cual el uso de cualquiera de estos estimadores, sin importar el orden, produce

estimaciones muy similares bajo situaciones parecidas a los escenarios propuestos.

El estimador de Rice presento buen comportamiento en algunas de las situaciones

planteadas, aunque en ninguno de estos escenarios presento el mejor comporta-

miento sobre los demas estimadores. Es decir, el uso del estimador de Rice no se

recomienda en ninguno de los casos.

Cuando se tienen funciones sin cambios u oscilaciones el estimador basado en



diferencias optimas de Hall de orden 2 presenta mejor comportamiento que los es-

timadores basados en diferencias ordinarias, ya que este estimador presenta menor

dispersion que los otros estimadores y tiene buen manejo del sesgo; lo anterior se

ve reflejado en los menores valores del ECM. Al tener funciones con oscilaciones

es necesario que se tenga un tamano de muestra grande, para que este estimador

tenga mejor comportamiento que los estimadores basados en diferencias ordinarias.

Los estimadores basados en diferencias ordinarias tienen un buen manejo del sesgo

en todos los escenarios que se plantearon con las diferentes funciones poblaciona-

les. Pero tiene mejor comportamiento que los estimadores basados en diferencias

optimas de Hall cuando se tienen funciones con oscilaciones, y ademas el tamano

de muestra es pequeno.

No se encontraron diferencias significativas en ninguna de las distribuciones de

los sesgos de los estimadores cuando se plantean diferentes distribuciones de los

errores, por lo cual no es necesario asumir ningun comportamiento de los errores

para el uso de alguno de estos estimadores de varianza.

8. Trabajo futuro

Dado que en este trabajo se usaron disenos equidistantes, una posible extension

serıa estudiar las diferencias que se presentan entre estos estimadores cuando se

tienen disenos aleatorios o disenos no equidistantes. De esta forma tambien se

pueden plantear diferencias entre el estimador basado en diferencias ordinarias y

el estimador GSJS, puesto que en caso de un diseno equidistante estos estimadores

son iguales.

Se podrıa ademas proponer algun criterio para establecer el tipo de estimador

basado en diferencias que se debe usar dependiendo de la situacion que se tenga,

como el tamano de muestra (puesto que se observo que el estimador basado en

diferencias ordinarias presento mejor comportamiento cuando n es pequeno, pero

cuando n es grande los estimadores optimos presentaron mejor comportamiento)

y el tipo de funcion.

Recibido: 22 de noviembre de 2013

Aceptado: 20 de marzo de 2014

Referencias

Altman, N. S. (1992), ‘An introduction to kernel and nearest-neighbor nonpara-

metric regression’, The American Statistician 46(3), 175–185.

Bowman, A. W. & Azzalini, A. (1997), Applied Smoothing Techniques for Data

Analysis. The Kernel Approach with S-plus Illustrations, Oxford University

Press.



Brown, L. D. & Levine, M. (2007), ‘Variance estimation in nonparametric regres-

sion via the difference sequence method’, Annals of Statistics 35(5), 2219–

2232.

Buckley, M. J., Eagleson, G. K. & Silverman, B. W. (1988), ‘The estimation of

residual variance in nonparametric regression’, Biometrika 75(2), 189–199.

Carter, C. K. & Eagleson, G. K. (1992), ‘A Comparison of Variance Estimators in

Nonparametric Regression’, Journal of the Royal Statistical Society, Series B

54(3), 773–780.

Cleveland, W. S. (1979), ‘Robust Locally Weighted Regression and Smoothing

Scatterplots’, Journal of the American Statistical Association 74(368), 829–

836.

Dette, H., Munk, A. & Wagner, T. (1998), ‘Estimating the Variance in Nonpa-

rametric Regression. What is a Reasonable Choice?’, Journal of the Royal

Statistical Society, Series, B 60(4), 751–764.

Draper, N. R. & Smith, H. (1966), Applied Regression Analysis, John Wiley &

Sons, New York.

Draper, N. R. & Smith, H. (1998), Applied Regression Analysis, 3 edn, John Wiley

& Sons, New York.

Eubank, R. L. (1998), Nonparametric Regression and Spline Smoothing, 2 edn,

Marcel Dekker, New York.

Gasser, T., Sroka, L. & Jennen-Steinmetz, C. (1986), ‘Residual variance and resi-

dual pattern in nonlinear regression’, Biometrika 73(3), 625–633.

Hall, P., Kay, J. W. & Titterington, D. M. (1990), ‘Asymptotically optimal

difference-based estimation of variance in nonparametric regression’, Biome-

trika 77(3), 521–528.

Hall, P. & Marron, J. S. (1990), ‘On variance estimation in nonparametric regres-

sion’, Biometrika 77(2), 415–419.

Levine, M. (2006), ‘Bandwidth selection for a class of difference-based variance

estimators in the nonparametric regression: A possible approach’, Journal

Computational Statistics & Data Analysis 50(12), 3405–3431.

Olaya, J. (2012), Metodos de regresion no parametrica, Programa Editorial Uni-

versidad del Valle, Colombia.

Olmos, N. M., Varela, H., Gomez, H. W. & Bolfarine, H. (2012), ‘An extension of

the half-normal distribution’, Statistical Papers 53(4), 875–886.

Rice, J. (1984), ‘Bandwidth choice for nonparametric regression’, Annals of Sta-

tistics 12(4), 1215–1230.



Seifert, B. & Gasser, T. (1993), ‘Nonparametric estimation of residual variance

revisited’, Biometrika 80(2), 373–383.

Wahba, G. (1978), ‘Improper priors, spline smoothing, and the problem of guarding

against model errors in regression’, Journal of the Royal Statistical Society,

Series, B 40(3), 364–372.


Comunicaciones en EstadısticaJunio 2014, Vol. 7, No. 1, pp. 67–87

Una aplicacion estadıstica de los metodos declasificacion en astronomıa

A statistical application of classification methods in astronomy

Hector Hortuaa

[email protected] J. Zambranob

[email protected]

Resumen

En los ultimos anos los avances en la astrofısica y la cosmologıa han sido im-pulsados por grandes conjuntos de datos, los cuales solo pueden ser analizados einterpretados con el uso de metodos estadısticos muy refinados. Lo anterior hallevado a que dichas disciplinas se complementen a fin de formar una rama llama-da la astroestadıstica. En este trabajo se da a conocer un metodo de clasificacionestadıstico usando modelos de mezclas de gausianas. Este metodo se aplicara paraencontrar estrellas que pertenecen al cumulo de las Hyades usando una muestra de2678 estrellas de la base de datos de Hipparcos. Se realiza una descripcion brevede las caracterısticas del cumulo y se estudia la evidencia de valores atıpicos. Coneste metodo se encuentra que la clasificacion arroja tres grupos de los cuales po-demos estudiar la pertenencia al cumulo y se encuentra que la mayorıa de estrellaspertenecientes al mismo estan de acuerdo con la literatura. Tambien se muestrael diagrama de Hertzsprung-Russell obtenido para el cumulo, muy importante enestudios de evolucion estelar. Finalmente, se analiza un tercer grupo obtenido porel metodo el cual fue analizado a traves de filtros considerados a partir de reglas declasificacion y otros metodos estadısticos para el manejo de outliers y determinarcon mas precision la pertenencia de las estrellas en el cumulo de las Hyades.

Palabras clave: cumulos abiertos, diagrama Hertzsprung-Russell, clasificacionbasada en modelos.

Abstract

In recent years, advances in astrophysics and cosmology have been guided by largeand complex data sets, which can only be analyzed and interpreted with the use ofhighly refined statistical methods. This has caused these disciplines complement

aDocente. Semillero de Investigacion en Astronomıa, Departamento de Ciencias Basicas, Fun-dacion Universitaria los Libertadores. Colombia.

bDocente. Facultad de Estadıstica, Universidad Santo Tomas. Colombia.

67

68 Hector Hortua & Alex J. Zambrano

each other forming a research field known as astrostatistics. In this paper we pro-vide a classification method based on Gaussian mixture models. This method isused to find stars that belong to the Hyades cluster using 2678 stars samplingfrom the Hipparcos database. We make a brief description of characteristics ofthe cluster and we explore the evidence of outliers. With this method it is foundthat classification yields to three groups of which we can study the membership,and we show the agreement with literature. We also show the Hertzsprung-Russelldiagram obtained for the cluster, extremely important for studies of stellar evo-lution. Finally, the third group found is analyzed through filters considered fromclassification rules and other statistical methods, for determining the membershipof the stars in the Hyades cluster.

Keywords: open cluster, Hertzsprung-Russell diagram, model-based classifica-tion.

1. Introduccion

El desarrollo y la aplicacion de metodos estadısticos a los problemas de la astro-nomıa viene desde hace mucho tiempo. Se tiene evidencia de que Hipparcos filosofoGriego, hizo una de las primeras aplicaciones de los principios matematicos en elambito de la estadıstica, al hacer mediciones de las duraciones entre solsticios paradefinir el ano. En las ultimas decadas se ha visto un aumento de interes del usode la estadıstica en astronomıa, impulsado por la presencia de grandes conjun-tos de datos en todos los campos de la astronomıa. Por tal motivo, se ha llegadoa que estas disciplinas se complementen para formar una rama de la estadısti-ca llamada la astroestadıstica (Sarro et al. 2012, Feigelson & Babu 2012, Ball &Brunner 2010, Hobson et al. 2010, Loredo 2012).

La astronomıa moderna produce datos que requieren de herramientas estadısti-cas para ser explorados. La investigacion en astronomıa ha visto un cambio deparadigma en los ultimos anos, tratando habitualmente la minerıa de datos conprocesos complejos que exigen un conjunto muy diverso de tecnicas estadısticas. Enparticular, se require de la estimacion de parametros cosmologicos y parametrosorbitales de cuerpos celestes (Liddle 2009). Entre las aplicaicones de la estadısti-ca en la astronomıa se encuentra el analisis multivariado, para hacer estudios decumulos globurales y estudios de rayos cosmicos y GRBs (Gamma-Ray Bursts)(Chilingarian & Vardanyan 2003), las series de tiempo son de alta relevancia en elestudio de manchas solares y variabilidad de rayos X (Vaughan 2013), ası como losmodelos de mezcla para fotometrıa galactica y pertenencia de estrellas, entre otros.Una de las investigaciones en astronomıa es la pertenencia de estrellas en cumulosabiertos (Uribe et al. 2008). Este estudio es de gran importancia en astronomıapara comprender rasgos de la evolucion estelar y edad de cumulos.

En este artıculo se desarrolla un estudio de pertenencia de estrellas analizando losmovimientos propios, centrandonos en el cumulo de las Hyades ubicado en la cons-telacion de Tauro. Usando una muestra de 2678 estrellas tomada del catalogo de


Metodos de clasificacion en astronomıa 69

Hipparcos, se utiliza el metodo de mezclas de densidades gausianas multivariadaspara encontrar cuales de estas estrellas pertenecen al cumulo de las Hyades y deesta forma generar el diagrama Hertzsprung-Russell a fin de revelar propiedadesmuy importantes del mismo. Este artıculo se organiza de la siguiente forma: En laseccion 2 se comenta acerca del estudio de la pertenencia de estrellas en cumulosabiertos a partir de movimientos propios y se describe la importancia del diagra-ma Hertzsprung-Russell en el estudio de la astronomıa estelar. En la seccion 3 sediscute el metodo de clasificacion estadıstica basada en mezcla de gausianas.

En la seccion 4 se implementa una aplicacion utilizando el conjunto de estrellasmencionadas y se presentan los resultados: deteccion de outliers, de igual modose da respuesta a la pregunta como a traves del metodo de mezcla se analizanlas variables de estudio para determinar las posibles estrellas que pertenecen alcumulo, de igual forma, se realizan algunas caracterısticas de la clasificacion, eldiagrama Hertzsprung-Russell y la construccion de filtros a partir de reglas declasificacion y comparacion de resultados. Finalmente en la seccion 5 se describenlas conclusiones y futuros trabajos alrededor del tema.

2. Pertenencia de estrellas y diagrama Hertzsprung-Russell (H-R)

Los cumulos abiertos son regiones que contienen de diez hasta centenares de estre-llas. La distancias de estos cumulos pueden ser obtenidos por metodos fotometricoso espectroscopicos. Para cumulos cercanos como las Hyades se utiliza el metodode paralaje cinetico, donde se supone que las estrellas que pertenecen al cumulotienen la misma velocidad espacial en promedio respecto al sol. Sin embargo, elestudio de la pertenencia de estrellas en cumulos abiertos ha sido muy complejo(Karttunen et al. 2007). A traves del estudio de la pertenencia de estrellas en uncumulo, se puede obtener las caracterısticas de la distribucion estelar y la evolucionde la galaxia donde se encuentra el cumulo. A fin de determinar si una estrellapertenece al cumulo se utiliza los siguientes metodos: metodo fotometrico cuyalimitacion es debida a la absorcion interestelar, metodo de velocidades radialesque tiene dificultad en la medicion por efecto Doppler y metodo de movimientospropios; este ultimo es muy preciso cuando el cumulo no se encuentra lejos denosotros. El movimiento propio de una estrella se define como el cambio angularen la posicion de una estrella, respecto a la lınea de vision del observador, medidaen arco-segundos por ano, es una medida indirecta de la velocidad transversal dela estrella con respecto a la Tierra. Despues de saber la pertenencia de las estrellasen el cumulo, se procede a elaborar el diagrama de Hertzprung-Russell (H-R) conestas estrellas y de este diagrama se infieren las propiedades del cumulo, dinamicay edad.

El diagrama H-R1, es un diagrama estadıstico en el que las estrellas estan clasifi-cadas con base en a su temperatura y luminosidad. El diagrama esta hecho sobre

1Ideado por E. Hertzsprung y H. N Russell entre 1905 y 1913.



un sistema en el que se dispone la temperatura superficial de la estrella sobre el ejehorizontal, en sentido decreciente de izquierda a derecha y la luminosidad sobre eleje vertical, en sentido creciente de abajo hacia arriba (ver Figura 1).

Figura 1:Diagrama H-R. Fuente: http://www.portalplanetasedna.com.ar/estrellas.htm

Aquı se observa que la mayor parte de las estrellas estan ubicadas sobre unadiagonal que cruza el diagrama conocida como secuencia principal. En esta region,se ubican las estrellas mas jovenes (las cuales estan quemando hidrogeno en sunucleo) y en la cual pasan el mayor tiempo de su vida. Las estrellas azules de granmasa y luminosidad se encuentran en la parte superior izquierda. Las estrellasamarillas medianas como el sol, se encuentran en el centro y las rojas pequenasestan ubicadas en la parte inferior derecha. Ademas de la secuencia principal, existeuna rama de las gigantes rojas ubicadas a la derecha de la secuencia principalque se caracterizan por tener gran tamano, brillo y baja temperatura superficial.Finalmente las enanas blancas, en la parte inferior del diagrama son estrellas debaja luminosidad.

3. Clasificacion usando modelos gausianos

El analisis de conglomerados (cluster analysis) es una de las tecnicas mas utili-zadas en el analisis multivariado y hace parte de las tecnicas de clasificacion nosupervisadas. Esta tecnica consiste en ubicar objetos, ıtems, individuos, etc, dentrode ciertos grupos denominados conglomerados, de tal forma que en cada grupo, losobjetos sean semejantes entre sı y, entre grupos, sean diferentes. Existen muchastecnicas de este tipo, en particular las clasificaciones apoyadas en modelos (Everittet al. 2011). Esta ultima, considera la agrupacion usando modelos gausianos mul-tivariados y se describe a continuacion.



Sea X una variable p-dimensional y φ(x) su funcion de densidad de la mezcla degausianos multivariadas. Sea {xi; i = 1, . . . , n} las observaciones de X correspon-dientes a una muestra aleatoria simple de la poblacion objeto en estudio.

Una clasificacion usando modelos, asume que los datos provienen de una funcionde densidad mixta dada por

φ(x) =

G∑k=1

τkφk(x), (1)

donde φk(x) es la funcion de densidad de las observaciones en el grupo k, τk es laprobabilidad de que una observacion haga parte de la componente k-esima (τk ∈(0, 1) y

∑Gk=1 τk = 1), G es el numero de grupos definidos. Cada componente es

usualmente modelada a partir de una funcion de densidad gausiana multivariada.Cada componente se caracteriza por un vector de medias μk y una matriz decovarianzas Σk, cuya funcion de densidad viene dada por

φk(xi;μk,Σk) = (2π)−p2 |Σk|− 1

2 exp

{−1

2(xi − μk)

′Σ−1k (xi − μk)

}. (2)

La matriz de covarianza Σk determina las caracterısticas geometricas tales comoforma, volumen, orientacion de cada uno de los grupos, a partir de la descompo-sicion espectral de la siguiente manera

Σk = λkDkAkD′k, (3)

donde Dk, es la matriz ortogonal de vectores propios, Ak es la matriz diagonalcuyos elementos son los valores propios de Σk, y λk es un valor escalar. La orien-tacion de las componentes principales de Σk es determinada por Dk, mientrasAk determina la forma de los contornos de densidad; λk especifica el volumencorrespondiente al elipsoide, proporcional a λd

k‖A‖, con d la dimension de losdatos.

Las caracterısticas de las distribuciones son usualmente estimadas a partir delos datos, y pueden variar entre conglomerado. Todas las parametrizaciones sonconsideradas en la Tabla 1. Por ejemplo, un modelo EVI denota un modelo en elcual el volumen de todos los conglomerados es igual (E “equal”), la forma de losconglomerados puede variar (V “varying”) y la orientacion es identica (I “iden-tity”) (Fraley et al. 2012).

La verosimilitud para los datos consiste en asumir que las n observaciones provie-nen de un modelo de mezclas finitas de G gausianas multivariadas, es decir

n∏i=1

G∑i=1

τkφk(xi;μk,Σk).

Para un numero fijo de componentes G, los parametros del modelo τk, μk, yΣk pueden ser estimados usando el algoritmo EM (Esperanza y Maximizacion)(Dempster et al. 1977).



Tabla 1: Parametrizaciones de la matriz de covarianzas Σk. Fuente: Fraley &Raftery, 1998.Identificacion Modelo Distribucion Volumen Forma OrientacionE (univariado) igualV (univariado) variableEII λI Esferica igual igual NAVII λkI Esferica variable igual NAEEI λA Diagonal igual igual ejes coordenadosVEI λkA Diagonal variable igual ejes coordenadosEVI λAk Diagonal igual variable ejes coordenadosVVI λkAk Diagonal variable variable ejes coordenadosEEE λDAD′ Elipsoidal igual igual igualEEV λDkAD′k Elipsoidal igual igual variableVEV λkDkAD′k Elipsoidal variable igual variableVVV λkDkAkD

′k Elipsoidal variable variable variable

3.1. Algoritmo EM

Siguiendo a Dasgupta & Raftery (1998), el algoritmo EM fue propuesto original-mente para obtener estimaciones de maxima verosimilitud en presencia de datosincompletos.

Entonces, para n observaciones provenientes de una funcion densidad mixta dadapor (1), los datos “completos” serıan yi = (xi, zi), donde zi = (zi1, . . . , ziG) para

zik =

{1 si la i-esima observacion pertenece al grupo k

0 en otro caso.(4)

El vector zi se distribuye multinomial con parametros (1; τ1, . . . , τG). Teniendo loanterior se tiene la funcion de logarıtmica de verosimilitud para “datos completos”dada por

�(y;μk,Σk) =

n∑i=1

G∑k=1

zik{log τk + log φk(xi;μk,Σk)}. (5)

Segun Fraley & Raftery (1998), el algoritmo comienza con una estimacion inicialde zik, a partir de (4). En el paso M se maximiza la funcion (5) con respecto a los



parametros

nk =

n∑i=1

zik,

τk =nk

n,

μk =

∑ni=1 zikxi

nk,

Σk depende de la forma dada en (3) (Celeux & Govaert 1995).

En el paso E se requiere la estimacion de zik mediante la formula de Bayes,

zik = pik =τkφk(xi; μk, Σk)∑Gl=1 τlφl(xi; μk, Σk)

, (6)

que es la probabilidad posterior de que xi pertenezca al grupo k-esimo. Este pro-ceso es iterativo hasta que converga.

3.2. Algoritmo CEM

Celeux & Govaert (1992), implementa el algoritmo de clasificacion EM llamadoCEM, el cual es una modificacion del algoritmo EM desarrollado especıficamentepara modelos de clasificacion. Este algoritmo consiste en adicionar un paso de C(clasificacion) en el paso E y el paso M. En el paso E se calcula pik segun (6). Elpaso C consiste en calcular

zik =

{1 para max{pij} (j = 1, . . . , G)

0 en otro caso,

esto implica que xi se clasifica en el grupo con mayor probabilidad. El paso Mimplica maximizar la funcion (5).

3.3. Determinando el numero de grupos

La clasificacion basada en modelos se basa en determinar que modelo es mejorpara las diferentes parametrizaciones de la matriz de covarianza dada por (3), yun numero G de grupos definido (Fraley & Raftery 1998).

El criterio de informacion Bayesiano (BIC) permite seleccionar el modelo que mejorse ajusta a los datos entre un conjunto finito de modelos (Schwarz 1978). El BICse calcula mediante la siguiente formula

2 log p(x | G) + c ≈ 2�(x; μk, Σk, G

)−mG log(n),



donde p(x | G) es la probabilidad marginal de los datos observados dados en los G

grupos, �(x; μk, Σk, G

)es el valor maximo de la funcion de logarıtmica de verosi-

militud mixta para los G grupos y mG es el numero de parametros independientespara ser estimados en el modelo de G grupos. Para determinar cual modelo esmejor segun este estadıstico, se escoge el modelo que presente el valor mas grandedel BIC, entre todos los modelos evaluados, siendo este el que muestra el mejorajuste a los datos.

3.4. Estrategia de clasificacion basada en modelos

En la practica la clasificacion basada en modelos gausianos pueden ser buenasiempre y cuando se conozcan el numero de grupos a clasificar. Sin embargo, nosiempre se conocen los grupos. A continuacion siguiendo a Fraley & Raftery (1998)se describe la estrategia para definir los grupos a clasificar

Determine un numero maximo de grupos (G) a trabajar y un conjunto deparametrizaciones candidatas para el modelo gausiano mixto.

Realice clasificacion jerarquica para aproximar la clasificacion basada en mo-delos gausianos de cada grupo, y obtenga la aglomeracion correspondiente alos G grupos.

Aplique el algoritmo EM para cada cada uno de los modelos y cada numerode grupos 2, . . . , G, iniciando con la aglomeracion jerarquica.

Calcule el BIC para cada modelo y para el modelo mixto con los parame-tros optimos del EM para 2, . . . , G grupos. Esto da una matriz de valoresBIC correspondiente a cada posible combinacion de la parametrizacion y elnumero de grupos.

Grafique los valores BIC de cada modelo. El primer valor maximo local indicauna fuerte evidencia de un modelo (parametrizacion+numero de grupos).

4. Aplicacion

Inicialmente se realizo una breve descripcion de las variables y conjunto de datos autilizar. Posteriormente se realiza una identificacion de estrellas atıpicas. Despuesse utiliza la librerıa mclust creada por Fraley et al. (2012) del paquete estadısticoR Core Team (2013) a fin de clasificar las estrellas en diferentes grupos, para luegoidentificar la secuencia de estrellas que pertenecen al cumulo de las Hyades. Porultimo, se caracterizan los resultados estadısticamente y se elabora el diagramaH-R descrito en la seccion 2.



4.1. Descripcion de los datos

Se utilizan 2678 estrellas del catalogo de Hipparcos (los datos fueron obtenidos enhttp://heasarc.gsfc.nasa.gov/W3Browse/all/hipparcos.html), bajo el cri-terio de que el angulo paralactico este entre 20◦ y 25◦ y el grupo de estrellas este auna distancia entre 40 y 50 pc. Ademas, no se tienen en cuenta estrellas que ca-rezcan de informacion en las variables utilizadas. En la tabla 2 se describen lasvariables para cada estrella obtenidas a traves de la base de datos de Hipparcos.

Tabla 2: Variables a utilizar. Fuente: elaboracion propia.Variable DescripcionVmag Magnitud de banda Visual.RA Ascension Recta (grados).DE Declinacion (grados).

Plx Angulo Paralactico (mas = milliarcsseconds).pmRA Movimiento propio en RA (mas/yr).pmDE Movimiento propio en DE (mas/yr).e Plx Error de medicion en Plx (mas).B-V Color de la estrella (mag).

De las variables anteriormente mencionadas, solamente se tendran en cuenta lasque estan relacionadas con los movimientos propios de las estrellas (pmRA, pm-DE). Para el diagrama H-R se tienen en cuenta el color (B-V), magnitud (Vmag)y angulo paralactico (Plx). Por ultimo, para procesos de filtros a partir de reglasde clasificacion se utilizaran las coordenadas espaciales de las estrellas (RA, DE).

4.2. Deteccion de estrellas atıpicas

Con los datos descritos anteriormente, se depura la base eliminando aquellas es-trellas cuyos movimientos propios no se comportan igual que el resto de estrellasdel conjunto..

En Brieva & Uribe (1985) se realiza un proceso de depuracion utilizando filtrospara una aplicacion similar al cumulo de estrellas NGC654, con el proposito dedetectar estrellas atıpicas. Tambien, Fraley & Raftery (2002) sugiere un metodoalternativo para detectar outliers. Por simpleza se utilizo el procedimiento pro-puesto por Johnson & Wichern (1998), el cual consiste en calcular la distancia deMahalanobis

d2i = (xi − x)′s−1(xi − x) i = 1, 2, . . . , n,

donde x y s son la estimacion del vector medias y la matriz de covarianzas demanera usual. Luego de tener todas las distancias estimadas de Mahalanobis detodos los valores se compara estos con un valor crıtico de la tabla de la distribucionp(n+1)(n−1)

n(n−p) F(1−α,p,n−p), donde p es el numero de variables, n el numero de obser-

vaciones y α = 1 − (1 − 0.0027)p. Para nuestro caso se encontraron 58 estrellas,



las cuales se omitieron para este trabajo.

En la Figura 2, se observa el diagrama de dispersion de los movimientos propiosdel catalogo de estrellas sin observaciones atıpicas. Notese que los movimientospropios estan muy agrupados en la parte central, razon por la cual no se observaclaramente cuantos grupos de estrellas se lograrıan obtener.

Figura 2: Diagrama de dispersion de los movimientos propios de 2620 estrellas delcatalogo de Hipparcos sin observaciones atıpicas. Fuente: elaboracion propia.

En la tabla 3 se describen los resultados estadısticos de los movimientos propiosde este conjunto de estrellas.

Tabla 3: Resultados estadısticos de los movimientos propios. Fuente: elaboracionpropia.

pmRA pmDEMin. : -485.880 Min. : -493.1401st Qu.: -86.775 1st Qu.: -125.705Median : 11.120 Median : -48.285Mean : 7.064 Mean : -59.0923rd Qu.: 103.002 3rd Qu.: 8.287Max. : 486.920 Max. : 379.680

4.3. Clasificacion

Se encontro que el mejor modelo que representa los datos cuyas matrices de cova-rianzas estimadas son del tipo VEV y se maximiza con tres grupos (ver Figura 3).



2 4 6 8

−66

300

−66

000

Number of components

BIC EII

VIIEEIVEIEVI

VVIEEEEEVVEVVVV

Figura 3: Calculo del Criterio de Informacion Bayesiano BIC para determinar elmodelo que mejor se ajusta a los datos. Fuente: elaboracion propia.

Con el resultado anterior se puede observar en la Figura 4 como se agrupan lasestrellas en los tres grupos segun sus movimientos propios.

Los tres grupos tienen distribuciones gausianas bivariadas totalmente diferentesen volumen y orientacion. Por otro lado se observa que las estrellas en el grupo decolor negro (clase 1, •) son las estrellas mas dispersas, mientras que las estrellasque se ubican en el grupo de color gris (clase 2, �) presentan menor dispersion.Sin embargo, las estrellas en el grupo del color mas claro (clase 3, �) presenta muypoca dispersion con respecto a los dos grupos de estrellas anteriores. Entonces setiene un grupo de estrellas (clase 3) mucho mas compacto en sus movimientospropios.

En la Figura 5 se observa la funcion de densidad de la mezcla de distribucionesgausianas bivariadas obtenidas. Se observa que la clase 3 es un grupo muy compac-to en sus movimientos propios, mientras que los otros grupos tienen una dispersionmas alta.

4.4. Caracterizacion de los grupos de estrellas obtenidos

Al utilizar este metodo se clasifican 1770 estrellas en la clase 1, 717 estrellas en laclase 2 y 133 estrellas en la clase 3. Cada clase tienen las siguientes probabilidadesτ1 = 0.678, τ2 = 0.280 y τ3 = 0.041. Las distribuciones de φ1, φ2 y φ3 tienenvectores de medias y matrices de covarianzas dadas en la tabla 4, donde notamosque las covarianzas de la clase 1 son las unicas positivas, mientras que las restantesson negativas. Por otro lado, las covarianzas de la clase 3 son mucho mas pequenasque los otros grupos de estrellas. Al calcular las correlaciones entre los movimientospropios de los grupos se observa que los valores son muy pequenos (0.034, -0.02, -



Figura 4: Diagrama de dispersion de los movimientos propios segun los grupos declasificacion obtenidos. Fuente: elaboracion propia.

pmRA

pmD

E

−21

−20

−20

−20

−19

−19 −19

−19 −18

−18 −18

−18 −17

−17

−17

−16

−15

−14

−13

−12

−400 −200 0 200 400

−40

0−

200

020

040

0

log Density Contour Plot

pmR

A

pmDE

Density

Figura 5: Diagrama de los contornos de la funcion de densidad y grafico en 3D dela funcion de densidad obtenida. Fuente: elaboracion propia.



0.09), lo cual corrobora que estos son independientes, como se esperaba fısicamente.

El diagrama de box-plot de la Figura 6, muestra que el grupo de estrellas de laclase 3 tiene muy poca dispersion. Por otro lado, tambien observamos que los tresgrupos tiene comportamientos muy simetricos.

Tabla 4: Vector de medias y matrices de covarianzas de las distribuciones de φ1,φ2 y φ3. Fuente: elaboracion propia.

pmRA pmDEμ′1 1.17 -68.67μ′2 6.72 -40.71μ′3 105.80 -26.71

Σ129581.58 822.32

822.32 19627.19

Σ26157.33 -86.53-86.53 4067.98

Σ393.95 -10.36-10.36 136.39

Figura 6: Diagrama de cajas de los movimientos propios segun grupos de clasifi-cacion. Fuente: elaboracion propia.

En la tabla 5 se describen los estadısticos descriptivos de los movimientos propiosde cada uno de los grupos obtenidos.

Observese que los coeficientes de asimetrıa y curtosis son cercanos a 0, esto nosda entender que los movimientos propios en cada grupo tienden a ser simetri-cos. El coeficiente de variacion resulta ser mas alto en el grupo 1, lo cual indicaque los movimientos propios tiene mucha mas variacion en este grupo. Mientras,que el grupo 3, el coeficiente de variacion es mucho mas pequeno, indicando unadispersion mınima en este grupo de estrellas.



Tabla 5: Estadısticos de los movimientos propios en Declinacion (pmDE) y As-cension Recta (pmRA). Fuente: elaboracion propia.

Variable: pmDEGrupos Media Desviacion IQR variacion asimetrıa curtosis n

1 -71.452 144.708 198.578 2.025 0.102 -0.071 17702 -34.477 41.400 68.770 1.201 0.020 -0.987 7173 -27.298 11.147 14.640 0.408 -0.112 -0.354 133

Variable: pmRAGrupos Media Desviacion IQR variacion asimetrıa curtosis n

1 -0.498 174.736 267.618 351.162 0.088 -0.567 17702 7.347 48.643 77.130 6.621 -0.030 -0.946 7173 106.174 9.197 11.940 0.087 -0.051 -0.277 133

Se ha encontrado ademas que los movimientos propios, tiene una menor dispersionen la clase 3. De esta forma se entiende que todas las estrellas en esta clase tienenpoca variabilidad. Desde el punto de vista estelar, indica que las estrellas de estegrupo, pertenecen al cumulo abierto de las Hyades. Por otra parte, en la clase 1 seencuentra una alta variabilidad en los movimientos propios. Esto indica que cadauna de estas estrellas pertenece al background o foreground del cumulo. Por ultimo,en la clase 2 se observa una gran dispersion respecto a la clase 3 pero menor ala clase 1. De esta forma se llega a un resultado importante, ya que a traves deeste grupo se obtiene una especie de datos atıpicos que indican un sesgo de estasestrellas a pertenecer o no al cumulo. Analizando este grupo se encuentra quealgunas estrellas pueden pertenecer al cumulo, pero debido a sus caracterısticasque difieren del resto de estrellas, no pudieron ser categorizadas como clase 3, esdecir, estrellas tales como gigantes, sistemas binarios, entre otros.

4.5. Diagrama H-R

Despues de encontrar las estrellas que pertenecen al cumulo de Hyades usando elmetodo estadıstico mencionado anteriormente, se procede a ubicar estas estrellasen el diagrama H-R. El resultado obtenido se muestra en la figura 7.

La luminosidad fue calculada usando la expresion dada por

log(L) = (15−Vmag− 5 · log10(Plx))/2.5. (7)

En este diagrama se observa que el cumulo de las Hyades contiene cuatro estrellasdel grupo de las gigantes rojas, las cuales se encuentran localizadas en la partesuperior del diagrama.

Por otra parte, el cumulo contiene en su mayorıa estrellas en la secuencia princi-pal, indicando que este es un cumulo joven (635 millones de anos). En el diagramase muestra con cırculos grandes las estrellas del grupo tres obtenidas durante laclasificacion y de las cuales se concluyen altamente pertenecientes al cumulo. Lasestrellas mostradas en este grupo concuerdan con los resultados encontrados por



Figura 7: Diagrama H-R obtenido para estrellas pertenecientes al cumulo de Hya-des. Fuente: elaboracion propia.

Perryman et al. (1998). Para el grupo dos, se realizara un filtro o un analisis es-tadıstico adicional para determinar si algunas estrellas de este grupo, pertenecenal cumulo de las Hyades. Algunas estrellas de este grupo tienen movimientos pro-pios estadısticamente diferentes respecto al conjunto, debido a su masa o tambiena que forman sistemas binarios. El grupo restante simplemente experimenta unadispersion grande en sus movimientos propios indicando una gran variabilidad ypor tanto no pertenecen al cumulo.

4.6. Construccion de filtros y comparacion

En la Figura 8 se consideran las variables (RA, DE) de las 717 estrellas del grupo2 y 133 del grupo 3 durante el proceso de clasificacion.

Se observa la posicion donde se encuentra el cumulo de las Hyades, de esta formase puede pensar en un filtro a partir de reglas de clasificacion para determinarlas estrellas en el cumulo de las Hyades. Para ello se implementa un arbol declasificacion con la funcion rpart de la librerıa mvpart creada por De’ath (2013)del paquete estadıstico R Core Team (2013)2. Las variables implementadas en elarbol de clasificacion son (RA, DE), donde se determina si la estrella pertenece ono al cumulo de las Hyades encontradas en el proceso de clasificacion.

En la Figura 9 se observa que la gran mayorıa de las estrellas del cumulo de lasHyades se ubican en el nodo 9. Siguiendo el recorrido del arbol se encuentra que60.54 ≤ RA < 72.97 y 10.46 ≤ DE < 22.93.

2Para la visualizacion se utiliza la librerıa partykit creada por Hothorn & Zeileis (2013).



Figura 8: Diagrama de dispersion de las variables (RA, DE) segun pertenencia alcumulo de las Hyades. Fuente: elaboracion propia.

Figura 9: Arbol de clasificacion de las variables (RA, DE) segun pertinencia alcumulo de las Hyades. Fuente: elaboracion propia.



En la Tabla 6, se muestra que solo 5 estrellas que pertenecıan al grupo dos puedenser catalogadas como estrellas del cumulo de las Hyades. Por otro lado, de las133 estrellas del cumulo de Hyades, solo 91 estrellas se encuentran con los filtrosimplementados. La tasa de error de clasificacion es de 5.5%.

Tabla 6: Matriz de confusion de la clasificacion segun filtros implementados. Fuen-te: elaboracion propia.

Predicion/Hyades Falso VerdaderoFalso 712 42

Verdadero 5 91

En Perryman et al. (1998) se realiza un estudio observacional del cumulo de lasHyades basado en distancias, estructuras, dinamicas y edad de las estrellas perte-necientes a este cumulo. Para ello implementa la lectura de una muestra de 282estrellas del catalogo de Hipparcos.

Teniendo en cuenta la ecuacion de la funcion de densidad mixta dada por (1), ylos parametros estimados en la clasificacion obtenida dados en la seccion 4.4, seclasifican estas estrellas utilizando la ecuacion (6) y los filtros a partir de la reglasde clasificacion descritos en la seccion 4.6, para comparar los resultados. Para ellose implementa la lectura de las variables anteriormente mencionadas para estanueva muestra utilizando el numero de la estrella en el catalogo de Hipparcos(HIP)3.

En el diagrama H-R mostrado en la Figura 10 se observa cinco grupos, los cualesse describen a continuacion:

El grupo denominado FALSE, son aquellas 54 estrellas que tanto en la pro-puesta como en el trabajo de Perryman et al. (1998) no se consideran per-tenecientes al cumulo de las Hyades.

El grupo denominado Perryman, son 71 estrellas detectadas por Perrymanet al. (1998) las cuales se consideran del cumulo de Hyades; en nuestro trabajono se consideran del cumulo de las Hyades.

El grupo denominado como Propuesta-0, son veintiun estrellas las cualesse proponen como falsas; en el trabajo de Perryman et al. (1998) no secatalogaron.

El grupo denominado como Propuesta-1, son diez estrellas las cuales seproponen pertenecientes al cumulo de las Hyades; en el trabajo de Perrymanet al. (1998) eran falsas.

El grupo denominado como TRUE, son 126 estrellas las cuales se considerandel cumulo de las Hyades tanto en la propuesta de este trabajo como en el

3Si el lector desea ver los resultados intermedios se recomienda ver el blog Bitacoras enEstadıstica. http://experienceinstatistics.blogspot.com/



Figura 10: Diagrama H-R obtenido para estrellas pertenecientes al cumulo deHyades comparando los resultados obtenidos para el conjunto de Perryman et al.(1998). Fuente: elaboracion propia.

trabajo de Perryman et al. (1998). Este ultimo grupo es el mas numeroso,indicando una alta concordancia entre las dos tecnicas.

5. Conclusiones

En este artıculo se estudia una de las aplicaciones de la estadıstica en el area de laastronomıa, utilizando un metodo de clasificacion usando modelos gaussianos. Elobjetivo principal del trabajo era encontrar la pertenencia de estrellas al cumulode las Hyades analizando el movimiento propio de las estrellas. Los datos fuerontomados de la base de datos de Hipparcos. Usando el metodo de clasificacion seencontro tres grupos en los cuales de acuerdo a la dispersion en los movimientospropios, se catalogo como perteneciente y no perteneciente al cumulo. El primergrupo contiene 133 estrellas cuya correlacion en sus velocidades es muy alta, indi-cando una alta probabilidad de pertenencia al cumulo. El segundo grupo contiene717 estrellas donde la dispersion es mas alta, sin embargo, algunas de estas estrellastiene un movimiento propio similar al primer grupo. Esto indica que los miembrosde dicho grupo puede ser catalogado como outliers, por lo tanto el uso de algunosfiltros a partir de la reglas de clasificacion en la ascension recta (RA), declinacion(DE) y variable e Plx deben ser impuestos a este grupo para poder catalogar lasestrellas que pueden pertenecer al cumulo. Para ello, se uso las variables (RA, DE)para la realizacion de un filtro a partir de las reglas de clasificacion impuestas conarbol de clasificacion con la funcion rpart. Con este filtro se encontro que solo 5estrellas que pertenecıan al grupo dos pueden ser catalogadas como estrellas del



cumulo de las Hyades. Por otro lado, de las 133 estrellas, solo 91 estrellas per-teneces al cumulo de las Hyades. Por ultimo, el tercer grupo contiene una grandispersion en los datos de movimientos propios indicando que los miembros de estegrupo no pertenecen al cumulo. Despues de determinar cuales estrellas pertenecenal cumulo se elaboro el diagrama H-R para estas estrellas encontrando la figura7. En este grafico se observa que la mayorıa de estas estrellas siguen la secuenciaprincipal (lugar donde se encuentran la mayor parte de su vida), concluyendo queeste cumulo es joven. Se observan algunas estrellas atıpicas (outliers) que se ubi-can fuera de la secuencia principal y que corresponde a las gigantes rojas. Por otraparte, al comparar los resultados obtenidos, junto con los encontrados en la litera-tura, se puede decir que el metodo de clasificacion basada en modelos gaussianoses bastante util para determinar la pertenencia de estrellas en cumulos abiertos yse pueden clasificar de forma adecuada datos que sean compactos en sus variablesde estudio. Como trabajos futuros se pretende utilizar otro tipo de tecnicas declasificacion parametricas y no parametricas y comparar los resultados con los ob-tenidos en este trabajo. Tambien se pretendera aislar la secuencia principal de lasHyades en el diagrama H-R y determinar su ajuste mediante tecnicas de regresionno parametrica.

Agradecimientos

Los autores agradecen al profesor Antonio Uribe y a la profesora Luz Angela Garcıapor sus importantes aportes y comentarios a este trabajo. El trabajo fue elaboradoen el semillero de investigacion en Astronomıa, de la Fundacion Universitaria losLibertadores.

Recibido: 22 de enero de 2014Aceptado: 30 de abril de 2014

Referencias

Ball, N. M. & Brunner, R. J. (2010), ‘Data mining and machine learning in astro-nomy’, International Journal of Modern Physics D 19(07), 1049–1106.

Brieva, E. & Uribe, A. (1985), ‘Una aplicacion del metodo de maxima verosimilituden astronomıa galactica’, Revista Colombiana de Estadıstica 12, 1–25.

Celeux, G. & Govaert, G. (1992), ‘A classication em algorithm for clustering andtwo stochastic versions’, Computational Statistics and Data Analysis 14, 315–332.

Celeux, G. & Govaert, G. (1995), ‘Gaussian parsimonious clustering models’, Pat-tern Recognition 28, 781–793.



Chilingarian, A. A. & Vardanyan, A. A. (2003), ‘Multivariate methods of da-ta analysis in cosmic-ray astrophysics’, Nuclear Instruments and Methods inPhysics Research Section A: Accelerators, Spectrometers, Detectors and As-sociated Equipment 502(2), 787–788.

Dasgupta, A. & Raftery, A. E. (1998), ‘Detecting features in spatial point processeswith clutter via model-based clustering’, Journal of the American StatisticalAssociation 93(441), 294–302.

De’ath, G. (2013), mvpart: Multivariate partitioning.URL: http://CRAN.R-project.org/package=mvpart

Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), ‘Maximum likelihood fromincomplete data via the em algorithm’, Journal of the Royal statistical Society39(1), 1–38.

Everitt, B. S., Landau, S., Leese, M. & Stahl, D. (2011), Cluster Analysis, 5 edn,Wiley.

Feigelson, E. D. & Babu, G. J. (2012), Modern Statistical Methods for Astronomy:with R applications, Cambridge: University Press.

Fraley, C. & Raftery, A. E. (1998), ‘How many clusters? which clustering method?answers via model-based cluster analysis’, The computer journal 41(8), 578–588.

Fraley, C. & Raftery, A. E. (2002), ‘Model-based Clustering, Discriminant Analy-sis and Density Estimation’, Journal of the American Statistical Association97, 611–631.

Fraley, C., Raftery, A. E., Murphy, T. B. & Scrucca, L. (2012), mclust version 4for R: Normal Mixture Modeling for Model-Based Clustering, Classification,and Density Estimation, (technical report no. 597), Department of Statistics,University of Washington.

Hobson, M. P., Jaffe, A. H., Liddle, A. R., Mukherjee, P. & Parkinson, D. (2010),Bayesian Methods in Cosmology, Cambridge: University Press.

Hothorn, T. & Zeileis, A. (2013), partykit: A Toolkit for Recursive Partytioning.URL: http://CRAN.R-project.org/package=partykit

Johnson, R. & Wichern, D. (1998), Applied Multivariate Statistical Analysis, 4edn, New Jersey: Prentice Hall.

Karttunen, H., Kroger, P. & Oja, H. (2007), Fundamental astronomy, 5 edn, NewYork: Springer.

Liddle, A. R. (2009), ‘Statistical methods for cosmological parameter selection andestimation’, Annual Review of Nuclear and Particle Science 59(1), 95–114.



Loredo, T. J. (2012), ‘On the future of astrostatistics: statisti-cal foundations and statistical practice’, arXiv preprint, ar-Xiv:1208.3035,http://arxiv.org/abs/1208.3035 .

Perryman, M. A. C., Brown, A. G. A., Lebreton, Y., Gomez, A., Turon, C., Cay-rel de Strobel, G., Mermilliod, J. C., Robichon, N., Kovalevsky, J. & Crifo,F. (1998), ‘The Hyades: distance, structure, dynamics, and age’, Astronomyand Astrophysics 331, 81–120.

R Core Team (2013), R: A Language and Environment for Statistical Computing,R Foundation for Statistical Computing, Vienna, Austria.URL: http://www.R-project.org/

Sarro, L. M., Eyer, L., O’Mullane, W. & De Ridder, J. (2012), Astrostatistics andData Mining, Vol. 2, New York: Springer.

Schwarz, G. (1978), ‘Estimating the dimension of a model’, The Annals of Statistics6, 461–464.

Uribe, A., Barrera-Rojas, R.-S. & Brieva, E. (2008), ‘Membership in the regionof the open cluster m67 via the expectation maximization algorithm and agedetermination using a bag of basti isochrones’, Memorias, COCOA 1, 88–93.

Vaughan, S. (2013), ‘Random time series in astronomy’, Philosophical Transac-tions of the Royal Society A: Mathematical, Physical and Engineering Scien-ces 371, 371–399.



Junio 2014, Vol. 7, No. 1, pp. 89–98

Transformaciones logarıtmicas en regresion simple

Logarithmic transformations in simple regression analysis

Jorge Ortiz Pinillaa

[email protected] Gilb

[email protected]

Resumen

En este artıculo se investiga los efectos de las transformaciones logarıtmicas en un

analisis de regresion simple. En la practica, es muy comun que los parametros de

los modelos conocidos como exponencial y potencial se estimen de manera habi-

tual mediante una transformacion logarıtmica, que los reduce a modelos lineales

y se “regresa” al modelo original aplicando la funcion exponencial a la estimacion

del intercepto. En este trabajo se encuentra que este procedimiento no genera es-

timadores de mınimos cuadrados para el modelo inicial e introduce variaciones en

la forma como se conciben las relaciones entre las variables. La popularidad de las

herramientas de analisis hace que el riesgo de utilizar modelos que no correspon-

dan a los datos pase desapercibido.

Palabras clave: modelo exponencial, modelo potencial, mınimos cuadrados, re-

gresion no lineal, modelos de regresion.

Abstract

In this paper the effect of the logarithmic transformations in simple regression

analysis is investigated. In practice, it is very common that exponential and power

models’ parameters are estimated by means of a logarithmic transformation which

reduces them to a linear form. The estimations in the initial models are obtained

by applying the exponential function to the intercept estimation. In this work,

it is found that this procedure does not generate least squares solutions for the

initial model and introduces variations in the way in which relationships between

variables are conceived. Because of the popularity of software tools, the risk of

using inappropriate models for the data may be unnoticed.

Keywords: exponential model, power model, least squares, non linear regression,

regression models.

aDocente. Facultad de Estadıstica, Universidad Santo Tomas, Colombia.bEstudiante, Carrera de Estadıstica, Universidad Santo Tomas, Colombia.

89

90 Jorge Ortiz Pinilla & Diana Gil

1. Introduccion

Una practica comun en las aplicaciones de los metodos de regresion consiste en

buscar transformaciones que permitan construir modelos lineales para describir

las relaciones entre las variables. La mayorıa de los textos basicos hacen esta reco-

mendacion y dan por resuelto el problema. Por ejemplo, Mendenhall & McClave

(1981, p. 259) escriben

When the transformed model is used to predict the value of log y, the

predicted value of y is the antilog, y = elog y.

Walpole et al. (2012), en el ejemplo 11.9 de la pagina 426, utilizan el mismo

procedimiento de transformar con logaritmos tanto la presion como el volumen de

un gas para estudiar empıricamente la ley del gas ideal. Despues de obtener los

coeficientes del modelo transformado, calculan la funcion exponencial al intercepto

para “regresar” a la forma original del modelo potencial.

Las referencias anteriores han tenido un alto impacto en la ensenanza de la es-

tadıstica en carreras universitarias como ingenierıa, fısica, quımica y economıa.

Una de ellas data de 1981 y la otra de 2012. Durante este periodo, la estadıstica

se ha consolidado como herramienta de uso cotidiano y masivo entre los investiga-

dores, gracias al desarrollo de las computadoras personales y a la disponibilidad

de software que incorpora procedimientos de analisis de datos. Por otra parte, las

hojas electronicas y las calculadoras cientıficas que incluyen analisis de regresion

aplican el procedimiento descrito como la unica opcion: se transforma el modelo en

uno lineal, se obtienen las estimaciones de los parametros por el metodo de mıni-

mos cuadrados y se reconstruye el modelo original aplicando la transformacion

inversa (exponencial) a los elementos que corresponda.

En estas circunstancias, el analista utiliza las herramientas y obtiene resultados

sin ninguna senal de alerta que le advierta sobre el riesgo de tomar decisiones, con

base en modelos que no describan en forma adecuada las tendencias de la nube de

puntos. La popularidad de estas herramientas hace masivo el riesgo.

Por tratarse de la funcion logarıtmica que es una transformacion estrictamente

monotona creciente, efectivamente el modelo transformado es equivalente al mo-

delo original. Esto garantiza una interpretacion adecuada de los coeficientes con

el debido cuidado de las transformaciones requeridas.

No sucede lo mismo con las estimaciones de los parametros. Unas resultan de mi-

nimizar la suma de cuadrados de los errores del modelo en las unidades originales

utilizadas para tomar los datos, y otras, en unidades logarıtmicas que atribuyen

menor importancia a las diferencias entre los valores mas grandes de la variable.

Como consecuencia, el metodo de mınimos cuadrados aplicado al modelo transfor-

mado no produce estimaciones de mınimos cuadrados para el modelo original. Por

lo tanto, el resultado obtenido puede ser inadecuado para pronosticar la respuesta

esperada a partir de valores especıficos de la variable X .


Transformaciones logarıtmicas en regresion simple 91

El proposito de este artıculo es comparar los metodos que se utilizan para obtener

las estimaciones de mınimos cuadrados de los modelos exponencial y potencial

de manera directa con los que se basan en transformaciones logarıtmicas. Como

criterio de comparacion se toma la suma de cuadrados residual, como indicador

de la bondad del ajuste del modelo a los datos observados.

2. Modelo exponencial

Cuando el modelo planteado es de la forma

y = β0eβ1x (1)

las estimaciones de mınimos cuadrados se obtienen buscando b0 y b1 correspon-

dientes al menor valor de la funcion

g(b0, b1) =

n∑i=1

(yi − b0e

b1xi)2

(2)

Se deriva g(b0, b1) con respecto a b0 y a b1 y luego se iguala a cero cada derivada:

∂g(b0, b1)

∂b0

= −2

n∑i=1

(yi − b0e

b1xi)eb1xi

Entonces:

b0 =

n∑i=1

yieb1xi

n∑i=1

e2b1xi

(3)

Haciendo lo mismo para b1,

∂g(b0, b1)

∂b1

= −2

n∑i=1

(yi − b0e

b1xi)b0e

b1xixi

n∑i=1

xiyieb1xi − b0

n∑i=1

xie2b1xi = 0

Reemplazando b0 por la expresion obtenida en (3), se llega a la siguiente ecuacion

que solo tiene b1 como incognita:

n∑i=1

xiyieb1xi −

(∑yie

b1xi∑e2b1xi

) n∑i=1

xie2b1xi = 0 (4)



La complejidad de esta ecuacion solo permite encontrar sus soluciones por meto-

dos numericos. Si las denotamos como β0 y β1, el modelo ajustado por mınimos

cuadrados directos es:

y = β0 e

˜β1 x (5)

Las estimaciones mediante la transformacion logarıtmica se obtienen llevando el

modelo (3) al equivalente:

y∗ = β

∗0+ β

∗1x∗ (6)

en donde

y∗ = ln(y), β

∗0= ln(β0), β

∗1= β1 , x

∗ = x (7)

Como (6) es un modelo lineal, las estimaciones de β0 y β1 son:

b∗1

=cov(x∗, y∗)

var(x∗)(8)

b∗0

= y∗ − b

∗1x∗ (9)

Segun las sugerencias de los autores citados, se “regresa” al modelo original (1)

aplicando las transformaciones inversas acordes con (7):

y = ey∗, b0 = e

b∗0 , b1 = b∗1, x = x

∗ (10)

es decir,

y = eb∗0 e

b∗1 x (11)

Los dos procedimientos proveen soluciones diferentes. Resulta claro que si el pri-

mero es de mınimos cuadrados para el modelo original, el segundo no lo es. Por lo

tanto, si se pasa al plano inferencial, los estimadores de los parametros del modelo

exponencial, obtenidos mediante la transformacion logarıtmica no son de mınimos

cuadrados para el modelo original.

El siguiente ejemplo sirve para ilustrar la situacion planteada:

Ejemplo 2.1. Los siguientes datos fueron obtenidos de un modelo de la forma(1):

x y

6.7 77.414.9 440.27.0 34.05.2 119.87.6 102.6

18.7 2287.011.4 177.39.5 65.0

17.1 1273.18.5 124.1

x y

7.2 38.311.3 101.614.7 457.77.7 4.18.3 24.9

17.0 1186.410.8 109.518.1 1818.212.0 149.29.3 94.5

x y

16.1 743.44.7 38.97.6 9.8

13.8 234.518.7 2367.911.8 167.85.3 24.2

17.0 1201.419.2 2892.612.0 135.4



En la grafica 1, el modelo construido con la transformacion logarıtmica se dibujacon trazos discontinuos y el obtenido por mınimos cuadrados directos con una curvacontinua. Desde el punto de vista de los datos, el primero presenta un desajusteimportante en los valores mas grandes y no describe adecuadamente la tendenciade la nube de puntos.

5 10 15

0

500

1000

1500

2000

2500

3000

x

y

Figura 1: Ajuste de un modelo exponencial por mınimos cuadrados directos (lıneacontinua) y por linealizacion mediante transformacion logarıtmica de la variableY (lınea discontinua). Fuente: elaboracion propia.

Las estimaciones y las sumas de cuadrados residuales en la tabla siguiente mues-tran diferencias importantes en estos valores. En particular, la suma de cuadradosresidual del modelo estimado por transformacion logarıtmica es mas de 24 veces lade mınimos cuadrados.



b0 b1 Suma de cuadrados residualMınimos cuadrados 1.098125 0.4099219 61709.12Transformacion Log. 3.598670 0.3319955 1484642.58

En el modelo exponencial los errores son de la forma:

ε = Y − β0eβ1x (12)

mientras que en el modelo transformado son:

ε = ln(Y )− ln(β0eβ1x)

= ln(

Y

β0eβ1x

)(13)

Por otra parte, el supuesto de normalidad de los errores trae consecuencias muy

diferentes para los dos procedimientos. En el caso de los mınimos cuadrados direc-

tos, los errores son de caracter aditivo para Y y Y ∼ N(β0eβ1x

, σ2). En el modelo

transformado, son aditivos para ln(Y ), es decir, multiplicativos para Y . Si se asu-

me que ε ∼ N(0, σ2), entonces de (13) se deduce queY

β0eβ1x

tiene distribucion

log-normal con valor esperado eσ2/2 y varianza e

σ2

(eσ2

− 1). Por lo tanto, la dis-

tribucion de Y bajo el modelo transformado es log-normal con media β0eβ1x+σ2/2

y varianza (eσ2

− 1)e2 ln β0+2β1x+σ2

.

Es claro que, dependiendo del procedimiento que se utilice, se ajustan modelos

diferentes en cuanto al papel que cumplen los errores y a los supuestos acerca de

su distribucion, y en cuanto a las consecuencias que traen sobre la distribucion

condicional de la variable dependiente.

3. Modelo potencial

El modelo se llama potencial cuando la relacion entre las variables es de la forma:

y = β0xβ1 (14)

Igual que para el modelo exponencial, las estimaciones de mınimos cuadrados se

obtienen buscando b0 y b1 correspondientes al menor valor de la funcion

g(b0, b1) =

n∑i=1

(yi − yi

)2

=

n∑i=1

(yi − b0x

b1i

)2

(15)

Se aplica el metodo tradicional de derivarla con respecto a b0 y a b1 y luego igualar

a 0 cada derivada:

∂g(b0, b1)

∂b0

= −2

n∑i=1

bigl(yi − b0xb1i

)xb1i (16)



Entonces:

b0 =

∑yix

b1i∑

x2b1i

(17)

Haciendo lo mismo para b1,

∂g(b0, b1)

∂b1

= −2

n∑i=1

(yi − b0x

b1i

)b0x

b1i log(xi) (18)

n∑i=1

yixb1i log(xi)− b0

n∑i=1

x2b1i log(xi) = 0 (19)

Reemplazando b0, se obtiene la siguiente ecuacion que se resuelve por metodos

numericos para encontrar el valor de b1.

n∑i=1

yixb1i log(xi)−

(∑yix

b1i∑

x2b1i

) n∑i=1

x2b1i log(xi) = 0 (20)

Ejemplo 3.1. Los datos siguientes son utilizados por Walpole et al. (2012, ejem-plo 11.9, p.420) para ilustrar el uso de la regresion potencial. Segun la ley del gasideal, PV

γ = C, donde P es la presion, V es el volumen y C y γ son constan-tes por estimar. En el ejemplo, P es la variable dependiente y V es la variableindependiente. C asume el papel de β0 y γ el de β1 en el modelo potencial y susestimaciones se denotan como b0 y b1.

x (Volumen) 50 60 70 90 100y (Presion) 64.7 51.3 40.5 25.9 7.8

b0 b1 Suma de cuadrados residualLineal 116.1616 -1.055698 37.53616Mın.Cuadr 112451.3806 -1.894926 164.33431Transf.Log 2568862.8877 -2.653472 399.26979

Aunque las diferencias en las sumas de cuadrados residuales no son tan grandescomo en el ejemplo de la regresion exponencial, la obtenida con el procedimientode la transformacion logarıtmica es mas del doble de la de mınimos cuadradosdirectos.

Se incluyo un ajuste lineal que curiosamente arroja una suma de cuadrados resi-dual menor que las de los modelos potenciales. Este resultado sirve para advertirque no siempre el mejor ajuste corresponde a la respuesta mas adecuada. La orien-tacion del analisis estadıstico debe tener sus bases en los aspectos teoricos de ladisciplina respectiva. Por otra parte, los puntos observados son seguramente in-suficientes para garantizar estimaciones adecuadas de las constantes que indica laley del gas ideal.



50 60 70 80 90 100

10

20

30

40

50

60

Volumen

Pre

sión

Figura 2: Ajuste de un modelo potencial por mınimos cuadrados directos (lıneacontinua) y por linealizacion mediante transformacion logarıtmica de la variable Y

(lınea discontinua). En color gris claro se muestra el modelo lineal que se comentaen el texto. Fuente: elaboracion propia.

Los comentarios del final de la seccion anterior son validos para el modelo po-

tencial. Cuando se aplica el metodo directo de mınimos cuadrados, se considera

que los errores son de la forma ε = Y − β0 xβ1 , es decir, son aditivos. Cuando se

emplea el metodo de la transformacion logarıtmica, los errores se calculan como

ε = ln(Y )− ln(β0 xβ1) = ln

(Y

β0 xβ1

), es decir que son de caracter multiplicativo.

Igualmente, si en un contexto inferencial se asume que ε ∼ N(0, σ2), entonces para

los mınimos cuadrados directos, la variable Y tiene distribucion normal condicio-

nal para cada x, mientras que para la transformacion logarıtmica la distribucion

condicional de Y para cada x es de tipo log-normal.



4. Conclusiones

1. La aplicacion de transformaciones sobre la variable dependiente en los mode-

los con el fin de linealizarlos no conduce a soluciones de mınimos cuadrados.

2. Algunos residuos del modelo pueden resultar falsamente atıpicos.

3. La proporcion de varianza explicada por el modelo puede ser un indicador

inadecuado de la bondad de ajuste.

4. Dependiendo del procedimiento que se utilice, se ajustan modelos diferentes

en cuanto al papel que cumplen los errores y a los supuestos acerca de su

distribucion y en cuanto a las consecuencias que traen sobre la distribucion

condicional de la variable dependiente.

4.1. Recomendaciones

1. La observacion rutinaria de la grafica de puntos con la curva del modelo es

fundamental para ver su calidad.

2. Si se trata de ejercicios de interpolacion dentro del rango de los datos ob-

servados, el procedimiento de mınimos cuadrados directos es mas adecuado

que el de la transformacion logarıtmica.

3. El uso de software no especializado en estadıstica debe ser especialmente

cuidadoso, en particular, las hojas electronicas y las calculadoras cientıficas.

4. En la actualidad, tanto el desarrollo teorico como el computacional permiten

dar respuesta adecuada a la busqueda de modelos conocidos como linealiza-

bles.

4.2. Otros estudios

1. El estudio de propiedades generadas en funcion de supuestos distribucionales

para los errores del modelo, en particular el insesgamiento.

2. La comparacion de los procedimientos cuando se utiliza el metodo de maxima

verosimilitud para estimar los parametros.

3. Las implicaciones del uso de los procedimientos en problemas de regresion

multiple.

4. El uso de otros criterios de comparacion que exigen supuestos distribuciona-

les para los errores, como AIC de Akaike.

5. El estudio de las transformaciones para otros modelos no lineales entre va-

riables, como las de la familia Box-Cox.



Agradecimientos

Los autores agradecen a los evaluadores la dedicacion y el cuidado en la lectura

del artıculo y los comentarios que permitieron corregir algunos errores y mejorar

el contenido.

Recibido: 21 de marzo de 2014

Aceptado: 28 de abril de 2014

Referencias

Mendenhall, W. & McClave, J. (1981), A Second Course in Business Statistics:Regression Analysis, Dellen Publishing Company, Santa Clara, California.

Walpole, R., Myers, R., Myers, S. & Ye, K. (2012), Probability & Statistics forEngineers & Scientists, Prentice Hall, New York.



Informacion para los autores

La revista Comunicaciones en Estadıstica es una publicacion del Centro de Inves-

tigaciones y Estudios Estadısticos (CIEES) adscrito a la Facultad de Estadıstica

de la Universidad Santo Tomas. La periodicidad de esta revista es semestral, el

primer numero se publica en junio y el segundo en diciembre, de cada ano. El

objetivo de esta publicacion es divulgar artıculos originales e ineditos en cualquier

tematica de la estadıstica teorica y aplicada. La finalidad de esta revista es mo-

tivar la cultura de la investigacion estadıstica, y por ende, su publico objetivo

esta en todos aquellos investigadores que utilicen cualquier metodo estadıstico en

el desarrollo de sus proyectos.

La revista Comunicaciones en Estadıstica publica artıculos originales teoricos,

aplicaciones de tecnicas estadısticas en cualquier rama del saber que conlleven a

publicaciones ineditas ası como tambien, cartas al editor surgidas de la discusion

de artıculos ya publicados en esta Revista. A continuacion se presentan algunas

de las caracterısticas principales del proceso editorial en esta publicacion.

Sumision de artıculos

El Comite Editorial de la revista Comunicaciones en Estadıstica sugiere que el for-

mato de los artıculos sometidos sea PDF y preferiblemente en tamano carta. Los

autores deben enviar una version ciega del manuscrito, sin ninguna informacion

de la identidad o afiliacion de estos, usando la plantilla disponible en la pagi-

na webhttp://comunicacionesenestadistica.usta.edu.co/ de la revista. Los

artıculos deberan ser adjuntados y enviados a la direccion de correo electronico1

oficial de la revista y seran socializados por el Editor en el Comite Editorial.

Contenido

La revista Comunicaciones en Estadıstica publica la siguiente clase de artıculos:

Aplicaciones y estudios de caso que presenten analisis estadısticos innovado-

res o implementen ejercicios empıricos para evaluar tecnicas estadısticas en

situaciones particulares reales o simuladas.

Nuevas contribuciones teoricas o metodologicas que conlleven al desarrollo

de procedimientos, algoritmos y metodologıas ineditas desde el punto de

vista teorico. Tambien se incluyen procedimientos computacionales y graficos

ilustrados mediante una aplicacion practica en el caso en que hubiese lugar

para tal implementacion.

[email protected]

Revision exhaustiva de tematicas estadısticas en areas de aplicacion practica

o en campos especıficos de metodos y teorıa estadıstica.

Cartas al editor y correcciones mediante escritos directos y concisos acerca

de la discusion o correccion de algun artıculo publicado con antelacion en

esta revista.

Tıtulo y resumen

El tıtulo del artıculo debe ser especıfico, asimismo, cada artıculo sometido debe

contener un resumen de no mas de 400 palabras y no se deben citar ninguna clase

de referencias bibliograficas en el resumen. Inmediatamente despues del resumen

deben aparecer las palabras clave del artıculo, que deberan describir el contenido

de este.

Por polıticas de la revista Comunicaciones en Estadıstica, el idioma principal de

esta publicacion es el espanol, aunque tambien se publicaran artıculos en el idioma

ingles. Cada artıculo sometido debera contar con el tıtulo en el idioma principal

del artıculo y con su respectiva traduccion al idioma secundario. Lo mismo se debe

hace con el resumen y con las palabras clave. Por ejemplo, si el idioma principal

del artıculo es el espanol, este debera contener el tıtulo principal en espanol y su

respectiva traduccion al ingles. Ademas, el resumen principal debera estar escrito

en espanol y tambien debera ser traducido al ingles junto con las palabras clave.

Figuras y tablas

Al igual que las figuras, las tablas deben ser rotuladas con numeros arabigos.

Cada uno de estos objetos debe contener un tıtulo que lo describa con detalle y

tienen que ser citados dentro del texto del artıculo. Se sugiere a los autores que

las imagenes sean enviadas por aparte en cualquier formato grafico (eps, ps, tif,

jpg o bmp) de alta resolucion, en color y en escala de grises. La version impresa

de la revista contendra solo imagenes en escala de grises; sin embargo, la edicion

virtual de la revista contendra las imagenes a color.

Apendices y referencias bibliograficas

Los apendices del manuscrito deben estar ubicados al final de artıculo, despues de

las referencias bibliograficas. Se sugiere que los apendices correspondan a desarro-

llos teoricos extensos, material suplementario y algoritmos computacionales. Por

otro lado, el sistema de referencia bibliografica que se utiliza en esta publicacion

es el formato autor-ano conocido tambien como formato Harvard. Todas las refe-

rencias bibliograficas que aparezcan en el artıculo deben estar contenidas y citadas

en el texto general o cuerpo del manuscrito. De esta manera, si la referencia forma

parte de una frase, se deben citar los apellidos, colocando en un parentesis el ano

de la publicacion; si la referencia no forma parte de una frase, se deben citar entre

parentesis los apellidos seguidos del ano de publicacion.

Responsabilidad legal

El Comite Editorial de la revista Comunicaciones en Estadıstica asume que los

artıculos sometidos no estan publicados por ningun otro medio impreso o virtual.

Asimismo, se asume que el artıculo es inedito, original y que no se encuentra

en proceso de revision, arbitraje o publicacion en alguna otra revista, magazın o

cualquier sitio virtual. Al momento de recibir un artıculo para revision, los autores

adquieren toda responsabilidad legal acerca de graficas, tablas, datos y texto. De

la misma manera, los autores liberan a la revista Comunicaciones en Estadısticade cualquier accion penal emprendida por un tercero por delitos a derechos de

autor o cualquier otra afrenta. Por otro lado, si el Comite Editorial decide a favor

la publicacion de un artıculo, los autores deberan firmar y aceptar el traspaso

de los derechos de autor del artıculo a la revista. Sin embargo, los autores podran

adjuntar a su sitio web una version del documento final. La revista Comunicacionesen Estadıstica se reserva los derechos de autor o difusion de los contenidos.

Proceso de arbitraje

Los artıculos sometidos a la revista Comunicaciones en Estadıstica seran evalua-

dos en un primer dictamen por el Comite Editorial y luego seran sometidos a

arbitraje tecnico por profesionales especializados en la tematica del manuscrito.

El proceso de arbitraje sera doblemente ciego; es decir, los autores no conoceran

la identidad ni afiliacion de los arbitros y a su vez, los arbitros no conoceran la

identidad ni afiliacion de los autores. De otro lado, la identidad del editor en curso

sera conocida tanto por los autores como por los arbitros. Para facilitar el proce-

so de revision, se les pide a los autores someter dos versiones del manuscrito; la

primera omitiendo las identidades y afiliaciones de los autores y la segunda con-

teniendo tanto las identificaciones como las afiliaciones institucionales. Se asignan

dos arbitros por cada manuscrito y los posibles dictamenes son: aceptar, rechazar o

solicitar modificaciones para una nueva revision. En caso de presentar dictamenes

opuestos por parte de los arbitros se asignara un tercero.

Information for authors

The journal Communications in Statistics is published by the Center for Research

and Statistical Studies (CIEES acronym in Spanish) assigned to the Faculty of

Statistics of Universidad Santo Tomas. The periodicity of this Journal is biannual,

the first issue is published in June and the second in December, of every year. The

intention of this publication is to disseminate original and unpublished articles

on any topic of theoretical and applied statistics. The purpose of this Journal is

to promote a culture of statistical research, and hence, its target audience is in

all those researchers who use any statistical method in the development of their

projects.

The journal Communications in Statistics is publishes original theoretical articles,

applications of statistical techniques in any branch of knowledge that lead to un-

published articles as well as, letters to the editor that arise from the discussion of

articles already published by this Journal. Following are some key features of the

editorial process of this publication.

Submission of articles

The Editorial Committee of the journal Communications in Statistics suggests the

articles be submitted in PDF format and preferably in letter size. Authors must

send a blind copy of the manuscript, without any information of their identity or

affiliation, using the format available in the Journal’s web page2. The articles must

be attached and sent to the Journal’s official e-mail address3 and will be socialized

by the Editor in the Editorial Committee.

Content

The Journal Communications in Statistics publishes the following types of articles:

Applications and case studies that present innovative statistical analysis or

implement empirical exercises to assess statistic techniques in real or simu-

lated specific situations.

New theoretical or methodological contributions that lead to the develop-

ment of procedures, algorithms and unpublished methodologies from the

theoretical point of view. It also includes computational procedures and illus-

trated graphs by a practical application in the event there is space for such

implementation.

Exhaustive review of statistical topics in areas of practical application or

specific fields of statistic methods and theory.

Letters to the editor and corrections through direct and concise writings

2http://comunicacionesenestadistica.usta.edu.co/[email protected]

about the discussion or correction of any article previously published in this

Journal.

Title and abstract

The title of the article must be specific, likewise, each article submitted must

have an abstract of no more than 400 words and no type of type of bibliographic

references should be cited in the abstract. Immediately after the abstract must

appear the article’s keywords, which should describe its content.

By policies of the journal Communications in Statistics, the main language of this

publication is Spanish, although some articles will also be published in English.

Each article submitted shall also have a title in the article’s main language with its

translation to the secondary language. The same must be done with the abstract

and keywords. For instance, if the main language of the article is Spanish, it should

have the main title in Spanish with its translation into English. Moreover, the main

abstract should be written in Spanish and must also be translated into English

along with the keywords.

Figures and charts

Like the figures, charts should be labeled in Arabic numerals. Each one of these

objects must have a title that describes it in detail and have to be cited inside the

text of the article. It is suggested to authors they send images separately in any

graphic format (eps, ps, tif, jpg or bmp), with high resolution, color and gray scale.

The Journal’s printed version will only contain images in grey scale; however, the

virtual edition of the Journal will have color images.

Appendix and bibliographic references

Appendixes of the manuscript must be located at the end of the article, after

the bibliographic references. It is suggested that appendixes refer to extensive

theoretical developments, supplement material and computational algorithms. On

the other hand, the bibliographic reference system used in this publication is the

author-year format also known as the Harvard format. All bibliographic references

that appear in the article should be contained and cited in the general text or body

of the manuscript. Thus, if the reference is part of a phrase, surnames should be

cited, with the year of publication between brackets; if the reference is not part of

a phrase, the surnames followed by the year of publication must be cited between

brackets.

Legal liability

The Editorial Committee of the journal Communications in Statistics assumes

that the articles submitted are not published by any other printed or virtual me-

dia. Likewise, it is assumed that the article is unpublished, original and is not

under review, peer review or publication in any other journal, magazine or any

virtual site. Upon receipt of an article for review, authors acquire all legal liability

on graphs, charts, data and texts. Likewise, authors release from liability the jour-

nal Communications in Statistics in any criminal action brought by a third party,

for crimes related with copyrights or any other offense. On the other hand, if the

Editorial Committee decides in favor of publishing an article, authors must sign

and accept to transfer copyrights of the article to the Journal. However, authors

may attach to their website a version of the final document. The journal Commu-nications in Statistics reserves copyrights or rights to circulate the contents.

Peer review proceeding

Articles submitted to the journal Communications in Statistics will be assessed on

a first opinion by the Editorial Committee and will then be subject to a technical

peer review by professionals specialized on the topic of the manuscript. The peer

review proceeding will be doubly blind, that is, authors will not know the identity

nor affiliation of peer reviewers and in turn, peer reviewers will not know the

identity nor affiliation of the authors. On the other hand, the identity of the current

editor will be known by both authors and peer reviewers. To facilitate the review

process, authors are requested to present two versions of the manuscript: the first

one omitting the identities and affiliations of the author and the second containing

the identity and as well as institutional affiliations. Two peer reviewers are assigned

for each manuscript and the possible opinions are: accept, reject or request changes

for a new review. In the event of opposite opinions by peer reviewers a third one

will be designated.

Date post:	06-Apr-2016
Category:	Documents
Upload:	universidad-santo-tomas
View:	232 times
Download:	7 times

Revista Comunicaciones en Estadística Vol. 7 No. 1

Documents