Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | universidad-santo-tomas |
View: | 232 times |
Download: | 7 times |
FACULTAD DE ESTADÍSTICA
Vol.
7, N
.o 1, E
nero
-Jun
io d
e 20
14
Certificado SC 4289-1
Comunicaciones en
Estadística
Bogotá, D. C.Colombia
Vol. 7, N.o 1 pp. 1-104ISSN:
2027-3335Enero-Junio 2014
Editorial
JORGE IVAN VELEZ & JUAN CARLOS CORREA¿Debemos pensar en un estimador diferente para lamediana?
LUIS ALEJANDRO MASMELA CAITA &EDWIN JAVIER CASTILLO CARRENORelacion entre los procesos de reservas que se generan condos reclamaciones relacionadas en el tiempo
CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO & MARIO PACHECOInferencia Bootstrap bayesiana para una proporción en muestreo con probabilidades desiguales
ALVARO JOSÉ FLÓREZ & JAVIER OLAYAEstudio de simulación para comparar varios estimadores de varianza en el marco de la regresión no paramédica
HÉCTOR HORTÚA & ALEX J. ZAMBRANO Una aplicación estadística de los métodos de clasificación en astronomía
JORGE ORTIZ PINILLA & DIANA GILTransformaciones logarítmicas en regresión simple
Universidad Santo TomásFacultad de Estadística
Centro de Investigaciones y Estudios Estadísticos (CIEES)
Revista Comunicaciones en Estadística
ISSN: 2027-3335 (impresa)
ISSN: 2339-3076 (online)
Enero-junio 2014
Vol. 7, N.° 1
Bogotá, D. C., Colombia
Indexada en IBN Publindex (categoría C)
REVISTA COMUNICACIONES EN ESTADÍSTICA
DirectoraHanwen Zhang, Ph. D.
COMITÉ EDITORIAL
Jorge Eduardo Ortiz, Ph. D.Universidad Santo Tomás
Elkin Castaño, M. Sc.Universidad Nacional de Colombia
Andrés Gutiérrez, Ph. D.Universidad Santo Tomás
Liliam Cardeño Acero, Ph. D.Universidad de Antioquia
Emmanuel Viennet, Ph. D.Université Paris 13
Cristiano Ferraz, Ph. D.Universidad Federal de Pernambuco
Amparo Vallejo Arboleda, Ph. D.Universidad de Antioquia
Santiago Velasco-Forero, Ph. D.National University of Singapore
COMITÉ CIENTÍFICO
Juan Carlos Salazar, Ph. D.Universidad Nacional de Colombia
Jorge I. Vélez, Ph. D. (c)The Australian National University
Brenda Betancourt, M. Sc.University of California, Santa Cruz
José Domingo Restrepo, Ph. D.Universidad de Antioquia
Daniel Andrés Díaz Pachón, Ph. D.University of Miami
Isabel García Arboleda, M. Sc.CIMAT, México
CONSEJO EDITORIAL PARTICULAR
Fr. Carlos Mario Alzate Montes, O. P.Rector General
Fr. Eduardo González Gil, O. P.Vicerrector Académico General
Fr. Jaime Monsalve Trujillo, O. P.Vicerrector Administrativo y Financiero General
María Carolina Suárez SandovalCoordinadora Revistas Científi cas
Dr. Henry Borja OrozcoDirector Unidad de Investigación
Daniel Mauricio Blanco BetancourtDirector Ediciones USTA
Fr. Érico Juan Macchi Céspedes, O. P.Vicerrector General de Universidad Abierta
y a Distancia (VUAD)
Hecho el depósito que establece la leyISSN: 2027-3335 (impresa)ISSN: 2339-3076 (online)
Jenny Jiménez MedinaCorrección de estilo
Panamericana Formas e Impresos S.AImpresión
© Derechos reservadosUniversidad Santo TomásBogotá, D. C., Colombia
UNIVERSIDAD SANTO TOMÁSEdiciones USTACarrera 13 No. 54-39, Bogotá, ColombiaTeléfonos: 235 1975-249 71 21http://[email protected]
Publicación del Centro de Investigaciones y Estudios Estadísticos (CIEES)
Revista Comunicaciones en Estadıstica
Contenido
Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10
JORGE IVAN VELEZ & JUAN CARLOS CORREA
¿Debemos pensar en un estimador diferente para la mediana? . . . . . . . . . . . . . 11-16
LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS-
TILLO CARRENO
Relacion entre los procesos de reservas que se generan con dos reclamaciones rela-
cionadas en el tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19-30
CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO &
MARIO PACHECO
Inferencia Bootstrap bayesiana para una proporcion en muestreo con probabilida-
des desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48
ALVARO JOSE FLOREZ & JAVIER OLAYA
Estudio de simulacion para comparar varios estimadores de varianza en el marco
de la regresion no parametrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66
HECTOR HORTUA & ALEX J. ZAMBRANO
Una aplicacion estadıstica de los metodos de clasificacion en astronomıa . . .67-87
JORGE ORTIZ PINILLA & DIANA GIL
Transformaciones logarıtmicas en regresion simple. . . . . . . . . . . . . . . . . . . . . . . . . 89-98
Revista Comunicaciones en Estadıstica
Content
Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10
JORGE IVAN VELEZ & JUAN CARLOS CORREA
Should we think of a different median estimator? . . . . . . . . . . . . . . . . . . . . . . . . . .11-17
LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS-
TILLO CARRENO
Relationship between booking processes generated two related claims in time 19-30
CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO &
MARIO PACHECO
Bootstrap Bayesian inference for a proportion in unequal probabilities sampling
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48
ALVARO JOSE FLOREZ & JAVIER OLAYA
A simulation study for the comparison of several variance estimators in the non-
parametric regression framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66
HECTOR HORTUA & ALEX J. ZAMBRANO
A statistical application of classification methods in astronomy . . . . . . . . . . . .67-87
JORGE ORTIZ PINILLA & DIANA GIL
Logarithmic transformations in simple regression analysis. . . . . . . . . . . . . . . . . 89-98
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 7–9
Editorial
Hanwen Zhanga
Me es grato presentar el numero 1 del volumen 7 de la revista Comunicaciones en
Estadıtica; por primera vez en la revista, tenemos un artıculo escrito en ingles. Si
bien la revista se centra en la divulgacion de artıculos escritos por la comunidad de
habla hispana, tambien son bienvenidos los escritos en ingles. En este numero, los
artıculos abarcan la estadıstica multivariada, muestreo, tecnicas no parametricas,
entre otras tematicas.
Los investigadores Velez y Correa cuestionan el popular estimador clasico de la
mediana recomendado por la mayorıa de los textos de ensenanza estadıstica. Por
medio de simulaciones recomiendan el uso del estimador de Harrell & Davis que
tiene mejores propiedades.
El segundo artıculo de este numero, escrito por Masmela y Castillo aborda el
problema de dos reclamaciones relacionadas con el tiempo del proceso de reserva
para companıas aseguradoras dentro del ambito de la estadıstica actuarial.
De la rama del muestreo, Tellez, Guerrero & Pacheco proponen la estimacion de
una proporcion en muestreo con probabilidades desiguales vıa bootstrap bayesiano.
Los autores encuentran que el estimador resultante tiene un sesgo despreciable y
una varianza menor comparado con el π-estimador clasico y el estimador BPSP.
El cuarto artıculo lo traen Florez y Olaya desde Cali, donde comparan diferentes
estimadores de varianza en una regresion no parametrica vıa simulaciones. Los
resultados obtenidos pueden ser de gran interes en la ensenanza de estas tecnicas
no parametricas.
Como una aplicacion interesante de la estadıstica multivariada a la astroestadısti-
ca, Hortua y Zambrano realizan una clasificacion a las estrellas del cumulo de las
Hyades. Las interesantes conclusiones obtenidas no solo pueden ser interesantes
para los astronomos sino tambien son un ejemplo bello de la gran utilidad de las
tecnicas multivariadas.
Finalmente, Ortiz y Gil analizan una situacion comun y obviada en una de las
tecnicas estadıstica mas comunes en la practicas: regresion lineal. Los autores
aEditora. Revista Comunicaciones en Estadıstica. Universidad Santo Tomas.
7
8 Hanwen Zhang
muestran que se debe tener mayor cuidado a la hora de transformar las varia-
bles en una regresion, ya que los estimadores de los parametros pierden muchas
propiedades deseadas.
Espero que estos artıculos sean de utilidad en la ensenanza o la practica profesional
de la comunidad estadıstica. Un abrazo y un saludo desde la oficina de la revista
Comunicaciones en Estadıstica a todos nuestros autores y lectores.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Editorial 9
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 7–9
Editorial
I am proud to present number 1 volume 7 of the journal Comunicaciones en Es-
tadıstica (Communications in Statistics); for the first time in the journal, we have
an article written in English. Although the journal is focused in publishing articles
written by the Spanish-speaking community, articles written in other languages
as English are also welcome. In this number, articles cover multivariate statistics,
sampling, nonparametric techniques, among other topics.
Researchers Velez and Correa question the popular classical estimator of the mean,
recommended by most statistics textbooks. Through simulations they recommend
using the Harrell & Davis estimator which has better properties.
The second article of this number, written by Masmela and Castillo, addresses
the issue of two claims related to the time of the reserves process for insurance
companies, within the field of actuarial statistic.
From the sampling branch, Tellez, Guerrero & Pachecho propose the estimation
of a proportion in sampling with unequal probabilities via Bayesian Boostrapping.
Authors find that the resulting estimator has an insignificant bias and a lower
variance compared to the classical π-estimator and the BPSP estimator
The fourth article is brought by Florez and Olaya from Cali, where they compare
different variance estimators in a nonparametric regression via simulations. Results
obtained can be of great interest in teaching these nonparametric techniques.
As an interesting application of multivariate statistics in astrostatistics, Hortua
and Zambrano make a classification of the stars in the Hyades cluster. The inter-
esting conclusions obtained are not only interesting for astronomers, they are also
a beautiful example of the great usefulness of multivariate techniques.
Finally, Ortiz and Gil analyze a common and avoided situation in one of the most
common statistics technique in the practice: linear regression. Authors show the
greater care that must be taken when transforming variables in a regression, since
the estimators of parameters lose many desired properties.
I hope these articles will be useful in teaching or in professional practicing of the
statistical community. A hug and greetings from the office of our journal Comuni-
caciones en Estadısitica to all our authors and readers.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 11–17
Should we think of a different median estimator?
¿Debemos pensar en un estimator diferente para la mediana?
Jorge Ivan Veleza
[email protected] Carlos Correab
Resumen
La mediana, una de las medidas de tendencia central mas populares y utilizadas
en la practica, es el valor numerico que separa los datos en dos partes iguales. A
pesar de su popularidad y aplicaciones, muchos desconocen la existencia de dife-
rentes expresiones para calcular este parametro. A continuacion se presentan los
resultados de un estudio de simulacion en el que se comparan el estimador clasi-
co y el propuesto por Harrell & Davis (1982). Mostramos que, comparado con el
estimador de Harrell–Davis, el estimador clasico no tiene un buen desempeno pa-
ra tamanos de muestra pequenos. Basados en los resultados obtenidos, se sugiere
promover la utilizacion de un mejor estimador para la mediana.
Palabras clave: mediana, cuantiles, estimador Harrell-Davis, simulacion estadısti-
ca.
Abstract
The median, one of the most popular measures of central tendency widely-used
in the statistical practice, is often described as the numerical value separating the
higher half of the sample from the lower half. Despite its popularity and applica-
tions, many people are not aware of the existence of several formulas to estimate
this parameter. We present the results of a simulation study comparing the classic
and the Harrell-Davis (Harrell & Davis 1982) estimators of the median for eight
continuous statistical distributions. It is shown that, relatively to the latter, the
classic estimator performs poorly when the sample size is small. Based on these
results, we strongly believe that the use of a better estimator of the median must
be promoted.
Keywords: median, quantiles, Harrell–Davis estimator, statistical simulation.
aTranslational Genomics Group, Genome Biology Department, John Curtin School of Medical
Research, The Australian National University, Canberra, ACT, Australia. Grupo de Neurocien-
cias de Antioquia, Universidad de Antioquia, Colombia. Grupo de Investigacion en Estadıstica,
Universidad Nacional de Colombia, sede Medellın.bGrupo de Investigacion en Estadıstica, Universidad Nacional de Colombia, sede Medellın.
Profesor Asociado, Escuela de Estadıstica, Universidad Nacional de Colombia, sede Medellın.
11
12 Jorge Ivan Velez & Juan Carlos Correa
1. Introduction
LetX1, X2, . . . , Xn be a random sample of size n from a population with absolutely
continuous distribution function F , and let X(i) be the ith order statistic (i =
1, 2, . . . , n), e.g., X(1)
< X(2)
< · · · < X(n). Denote θ as the true median (a
parameter) and any estimator of θ as θ. The most common estimator of the median
is
θ1 =
{X
(n+1)/2 if n is odd,1
2
(X
(n/2) +X(n/2)+1
)if n is even.
(1)
Harrell & Davis (1982) proposed a new distribution-free estimator of the pth per-
centile, denoted as Qp. For the median, the estimator is given by:
θ2 = Q1/2 =
n∑i=1
Wn,iX(i) (2)
with
Wn,i =Γ (n+ 1)
Γ(n+1
2
)2
∫ i/n
(i−1)/n
[z (1− z)](n−1)/2
dz.
Other estimators for the median have also been proposed in the literature, but
their complexity and dependence on arbitrary constants make them less appealing
and difficult to implement (see Ekblom, 1973). Comparative studies have been
performed to evaluate the equivalency and asymptotic properties of θ1 and θ2,
with the work by Yoshizawa (1984) being the first of them. The author showed
that both estimators are asymptotically equivalent, and gave regularity conditions
to guarantee the asymptotic normality of each of them. On the other hand, Bassett
(1991) showed that the traditional estimator of the median is the only equivariant
and monotonic with 50% breakdown, and Zielinski (1995) concluded the θ1 is not
a good estimator under asymmetric distributions.
In this paper we compare the performance of θ1 and θ2 for several continuous
distributions when the sample size n is small, and by considering the skewness as
the main factor (measure) to control. As explained further below, this measure
represents the relative efficiency of one of the estimators when B samples of size
n are draw from a specific distribution F .
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
¿Debemos pensar en un estimator diferente para la mediana? 13
2. Simulation Study and Results
2.1. Simulation set up
In order to compare the performance of θ1 and θ2, we carried out a simulation
study in which eight continuous distributions were considered (see Table 1). The-
se distributions represent those most frequently encountered in the statistical
practice. For each of these distributions, a total of B = 5000 samples of size
n = {5, 10, 15, . . . , 200} were generated. The choice of theses sample sizes was
driven because of what is often seen in real-world applications.
Tabla 1: Probability distributions considered in this study. Source: compiled by
authors.Distribution F (·) Parameters Median (θ)
Uniform 1
b−a a, ba+b2
Normal 1√2πσ
e− (x−μ)2
2σ2μ, σ μ
Laplace 1
2τ e− |x−μ|
τ μ, τ μ
Cauchy 1
π(1+x2)
– 0
t−StudentΓ(
ν+12 )
Γ(ν/2)√νπ
(1 + x2
ν
)− ν+12
ν 0
Exponential λe−λx
λ λ log(2)
Gamma 1
Γ(α)βαxα−1
e− x
β α, β No closed form
Weibull βαβ x
β−1e−( x
α)β
α, β α(log(2))1β
We compare the performance of θ1 and θ2 using the following measure of relative
efficiency
γ =MSE1
MSE2
(3)
with
MSEj =1
B
B∑i=1
(θij − θ)2
the mean squared error (MSE) for the jth estimator (j = 1, 2), θ the true median,
and B the number of samples of size n that are draw from a specific distribution
function F (see Table 1). Note that the lower the MSE, the better the estimator.
Here, γ = 1 indicates that both estimators perform equally well; γ < 1 indicates
that θ1 outperforms θ2; and γ > 1 indicates that θ2 outperforms θ1. In general, it
is possible to derive closed-form expressions for calculating θ provided F . However,
when this is not the case, the use of computational routines is required. In our
case, the qgamma() function in R (R Core Team 2013) was utilised for estimating
θ for the Gamma(α, β) distribution.
For our simulation study, we implemented the following algorithm in R:
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
14 Jorge Ivan Velez & Juan Carlos Correa
Figura 1: γ as a function of the sample size when (a) n ≤ 50 and (b) n > 50 for
the first six distributions in Table 1. Here, the dotted horizontal line represents
a comparable performance between the classic and the Harrell–Davis estimators.
Note that all probability distributions but the Exponential are symmetric. Source:
elaborated by authors.
1. Generate a sample of size n from F (see Table 1 for details).
2. Calculate θ1 as in (1), and θ2 as in (2).
3. Repeat 1–2, B times, calculate the MSE for each estimator and then the
ratio of the resulting quantities.
2.2. Results
The results of our simulation study are presented in figures 1 and 2. Figure 1
depicts the value of γ as a function of the sample size n for the first six continuous
distributions in Table 1. Figure 2 shows, for fixed n, a 3D representation of γ as a
function of α and β, for the Gamma(α, β) and Weibull(α, β) distributions.
As shown in figure 1, γ is always greater than one except for the t2 distribution
when n < 10, and the t3 distribution when n < 25. Another interesting finding is
that, regardless of n, the highest values of γ were obtained for the U(0, 1) followed
by the N(0, 1) and the Laplace distributions. It is intriguing that, despite not
being a symmetric distribution, the values of γ for the exponential distribution
with parameter λ = 1 were the forth highest. In addition, note that γ → 1 as
n → ∞, which is consistent with the assymptotic equivalency of both estimators
described by Yoshizawa (1984).
In figure 2 we present the results for the Gamma(α, β) and Weibull(α, β) distri-
butions for different values of α and β for n is fixed. These results suggest that,
regardless of n, the Harrell–Davis estimator outperforms the classic estimator, e.g.,
γ > 1. On the other hand, the higher γ values were obtained when n = 5, and the
lowest when n = 200, supporting the assymptotic equivalency of both estimators
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
¿Debemos pensar en un estimator diferente para la mediana? 15
Figura 2: γ as a function of n and the parameters (α, β) for the Gamma(α, β) and
Weibull(α, β) distributions. Note that γ > 1 regardless of n, α and β, showing that
the Harrell–Davis estimator of the median outperforms the traditional estimator.
Source: elaborated by authors.
(Yoshizawa 1984).
3. Conclusions
We have shown under a large number of scenarios that the Harrell–Davis estimator
of the median behaves better than the traditional estimator in terms of the MSE.
In particular, it is found that, for small sample sizes, the MSE of the Harrell–
Davis estimator of the median is lower than that of the traditional estimator for
most of the continuous statistical distributions considered in this study, and often
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
16 Jorge Ivan Velez & Juan Carlos Correa
seen by data analysts. Despite the use and popularity of the traditional estimator
of the median, and the fact that it is taught in most of statistics textbooks, we
strongly believe that, with the current computational capability, the use of a better
estimator must be promoted. In Appendix A we provide R code to facilitate this
process.
4. Acknowledgments
We thank Dr. Freddy Hernandez Barajas for critical reading of this manuscript,
and one anonymous reviewer for his useful comments and suggestions. JIV was
supported by the Eccles Scholarship in Medical Sciences, the Fenner Merit Scho-
larship and the Australian National University High Degree Research Scholarship.
JIV thanks Dr. Mauricio Arcos-Burgos for his support.
Recibido: 5 de julio de 2013
Aceptado: 9 de septiembre de 2013
Referencias
Bassett, J. G. W. (1991), ‘Equivariant, monotonic, 50% breakdown estimators’,
The American Statistician 45(2), 135–137.
Harrell, F. E. & Davis, C. E. (1982), ‘A new distribution-free quantile estimator’,
Biometrika 69(3), 635–640.
R Core Team (2013), R: A Language and Environment for Statistical Computing,
R Foundation for Statistical Computing, Vienna, Austria.
*http://www.R-project.org/
Yoshizawa, C. N. (1984), Some Symmetry Tests, Institute of Statistics, Mimeo
Series No. 1460. University of North Carolina, Chapel Hill, USA.
Zielinski, R. (1995), ‘Estimating median and other quantiles in nonparametric
models’, Applicationes Mathematicae 23(3), 363–370.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
¿Debemos pensar en un estimator diferente para la mediana? 17
A. Harrell–Davis estimator in R
A generalisation of the Harrell–Davis estimator for any quantile p ∈ (0, 1) can be
found in the Hmisc package (Harrell, 2012). Our implementation, as follows, deals
only with the case p = 1/2.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 19–30
Relacion entre los procesos de reservas que se
generan con dos reclamaciones relacionadas en el
tiempo
Relationship between booking processes generated two related claims
in time
Luis Alejandro Masmela Caitaa
Edwin Javier Castillo Carrenob
Resumen
El proceso de reservas es para las companıas aseguradoras una base fundamen-
tal para el control de las carteras que se tienen contratadas; a fin de facilitar la
manipulacion del modelo matematico y probabilıstico en ocasiones se discretiza el
modelo, de manera que los resultados aproximen a la solucion real en el continuo,
en este caso se utiliza el modelo binomial compuesto para dicho proposito. En la
mayorıa de contextos se parte del supuesto de independencia, el caso que aquı se
considera se supone de dependencia entre dos tipos de reclamaciones denomina-
das: la reclamacion principal y la sobre-reclamacion o reclamacion subsecuente,
esta ultima estara asociada siempre que exista una reclamacion principal. El tipo
de modelo con reclamaciones relacionadas en el tiempo genera dos procesos de re-
servas, uno para cuando la reclamacion subsecuente no es retrasada a un siguiente
periodo de tiempo y otro donde se cubre el total reclamado, tanto por la recla-
macion principal como por la subsecuente. Ya que manipular dichos procesos por
separado es innecesario y poco practico, se genera a partir de las probabilidades
de supervivencia de ambos procesos y la manipulacion de funciones generadoras
de probabilidad, una ecuacion que recopila la informacion de los dos procesos de
reservas.
Palabras clave: procesos de reservas, funciones generadoras de probabilidad, pro-
babilidad de ruina, reclamaciones relacionadas en el tiempo, binomial compuesto.
Abstract
For insurance companies the reservation process is the fundamental basis for con-
trolling portfolios contracted to facilitate the manipulation of mathematical and
aProfesor asistente. Facultad de Ciencias y Educacion. Universidad Distrital Francisco Jose de
Caldas. Colombia.bEstudiante. Maestria en Ciencias Estadıstica. Universidad Nacional de Colombia. Colombia.
19
20 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
probabilistic model. Sometimes the model is discretized so that the results appro-
ximate the real solution in the continuum, in this case the compound binomial
model is used for this purpose. In most contexts the assumption of independence
is assumed, in this article we consider dependence between two types of complaints
referred to the principal claim and over-claim or subsequent claim, the latter will
be involved whenever there is a claim principal. The type of model with time-
related claims process generates two reserves, one for when the subsequent claim
is not delayed to a next time and another where it covers the total claimed by
both the principal and by the subsequent claim. Since manipulate these processes
separately is unnecessary and impractical, we generate from the survival proba-
bilities of both processes and manipulate the probability generating functions, an
equation that collects information from the two processes of reserves.
Keywords: booking processes, probability generating functions, probability of
ruin, claims related in time compound binomial.
1. Introduccion
Las companıas de seguros utilizan el proceso de reservas para hacer predicciones
sobre el comportamiento de los portafolios que se manejan, su principal aplicacion
es el calculo de la probabilidad de ruina.Ya que la probabilidad de ruina para
un proceso de superavit en tiempo continuo puede requerir un manejo matemati-
co dispendioso, algunos autores como Shiu (1989) y Dickson (1994) plantean la
discretizacion del modelo para conseguir resultados aproximados de manera mas
sencilla. Uno de los modelos discretos mas utilizados es el modelo binomial com-
puesto, propuesto por Gerber (1988), debido a que desde este se puede hacer un
paso al modelo en tiempo continuo utilizando un lımite al infinito.
A medida que el tiempo ha avanzado y las companıas aseguradoras han presen-
tado distintos tipos de inconvenientes, donde los modelos clasicos no brindan una
solucion, se ha hecho necesario implementar nuevos modelos matematicos y proba-
bilısticos; sobre todo, para distintos tipos de situaciones donde existe dependencia
entre las reclamaciones que se encuentran en un portafolio. Un modelo donde exis-
te dependencia es el planteado por Guo & Yuen (2001) y estudiado en detalle por
Castillo (2013); en dicho estudio aparecen la relacion entre los procesos de reservas
o superavit que se presentan cuando existe una reclamacion principal y una sobre-
reclamacion o reclamacion subsecuente. La ecuacion de relacion entre procesos de
reservas es utilizada tambien por Guo & Yuen (2001), con el proposito de plantear
formulas recursivas que permiten calcular la probabilidad de ruina en tiempo finito
para este tipo de modelo con reclamaciones relacionadas en el tiempo.
El documento que se desarrolla a continuacion presenta en la Seccion 2 las genera-
lidades del modelo binomial compuesto introducido por Gerber (1988) y tratado
por Rincon (2012) y Kaas et al. (2005). La Seccion 3 presenta los supuestos nece-
sarios y algunas caracterısticas del modelo binomial compuesto con reclamaciones
relacionadas en el tiempo. En la Seccion 4 se presenta el metodo para la obten-
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Relacion entre los procesos de reservas 21
cion de la ecuacion que relaciona los procesos de reservas que surgen al estudiar el
modelo planteado en la Seccion 3.
2. Modelo binomial
En la literatura que trata sobre riesgo actuarial los autores presentan el modelo
de Poisson compuesto, dicho modelo es bastante practico ya que la distribucion de
Poisson depende de un unico parametro λ, ası mismo es comun que los montos de
reclamaciones se supongan distribuidos de manera exponencial, esto para facilitar
la estimacion de parametros de una muestra; en este caso se presenta el modelo
binomial compuesto que, aunque evidencia mayor dificultad en modelos practicos,
es mucho mas sencillo para la manipulacion teorica y, ademas, desde este se puede
encontrar una relacion con el proceso de Poisson. Es por ello que se presenta
este modelo que es introducido por Gerber (1988) y mencionado en extension por
Rincon (2012) y Alfredo (2000).
Se dice que si en la funcion de riesgo colectivo
S =
N∑i=1
Yi
donde N es la v.a del numero de siniestros y/o reclamaciones en un intervalo de
tiempo [0, T ] y Yi es el monto de la i-esima reclamacion.
Si la v.a N se distribuye de manera binomial, es decir N ∼ bin(n, p), se dice que
la funcion de riesgo S sigue una distribucion binomial compuesta, que se nota
S ∼ bincomp(n, p,G); en donde G es la funcion de distribucion de cada monto.
Algunas de las caracterısticas mas importantes para este modelo son las siguientes:
Si S se distribuye de manera binomial compuesta se tiene que:
E(S) = npE(Y )
V ar(S) = np((E(Y ))2 − p(E(Y ))2)
Ms(t) = (1− p+ pMY (t))n
3. Modelo binomial compuesto con reclamaciones
relacionadas en el tiempo
Se considera un modelo a tiempo discreto que involucra dos tipos de reclamacio-
nes de seguros, las cuales son la reclamacion principal y la sobre-reclamacion o
reclamacion subsecuente sobre las unidades de tiempo t = 1, 2, 3 . . ., se supone que
cada reclamacion principal induce una reclamacion subsecuente.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
22 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
En cualquier periodo de tiempo la probabilidad de tener una reclamacion principal
sera p, 0 < p < 1, y de no tenerla es q = 1 − p, la ocurrencia de las reclamacio-
nes principales en diferentes periodos de tiempo son independientes, es decir la
ocurrencia de una reclamacion en el periodo k no depende de la ocurrencia en los
periodos de tiempo anteriores a k; ası mismo esta reclamacion no influira en la
ocurrencia de una reclamacion en los periodos de tiempo siguientes a k. La sobre-
reclamacion que esta asociada a una reclamacion principal ocurre en el mismo
periodo de tiempo con probabilidad θ o puede ser retrasada al siguiente periodo
de tiempo con probabilidad δ = 1 − θ; es aca donde se presenta el tipo de rela-
cion que existe entre la reclamacion principal y la sobre-reclamacion. Los montos
de reclamacion son independientes entre si y son enteros positivos, los montos de
reclamaciones principales X1, X2, X3 . . . son independientes e identicamente dis-
tribuidos con funcion de probabilidad comun
f(m) = fm = Pr(X = m)
para m = 1, 2, 3 . . ., con su correspondiente funcion generadora de probabilidad
dada por
f(z) =
∞∑m=1
fmzm
y con media
μX =
∞∑m=1
mfm.
Sean Y1, Y2, Y3 . . . variables identicamente distribuidas e independientes que repre-
senta los montos para las sobre-reclamaciones, con funcion de probabilidad comun
g(n) = gn = Pr(Y = n)
Para n = 1, 2, 3 . . ., con su correspondiente funcion generadora de probabilidad
dada por
g(z) =
∞∑n=1
gnzn
Y con media
μY =
∞∑n=1
nfn.
Asumase que la prima por periodo de tiempo es de valor 1, que el superavit inicial
es u ∈ Z+ y su proceso de superavit es
S(t) = u+ t− UX − UY (1)
donde UXt y U
Yt es la suma de montos de las reclamaciones principales y sobre-
reclamaciones en los primeros t periodos de tiempo respectivamente, es decir
UXk =
n∑i=1
Xi y UYk =
n∑j=1
Yj .
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Relacion entre los procesos de reservas 23
La probabilidad de Ruina en tiempo finito es
ψ(u, k) = Pr(S(t) ≤ 0; t = 1, 2, 3 . . . , k) (2)
Y con esto la probabilidad de supervivencia sera
φ(u, k) = 1− ψ(u, k)
Este modelo supone el caso donde la ruina ocurre, ya que los fondos de la asegu-
radora son negativos.
Sea Uk la suma de UXk y U
Yk , entonces para el periodo de tiempo t = 1 se tiene
que
E(U1) = E(UX1
+ UY1)
= E(UX1) + E(UY
1)
Y utilizando el teorema de la probabilidad total y el hecho de independencia entre
los montos de los dos tipos de reclamaciones se obtiene
= pμX + pθμY
Pueden existir tres escenarios en los cuales se presenten las reclamaciones relacio-
nadas en cualquier periodo de tiempo, dichos escenarios deben tenerse en cuenta
en el momento de querer planificar sobre ellos y estos se enumeran a continuacion.
1. La reclamacion principal.
2. La reclamacion inicial y la reclamacion subsecuente inducida por la reclama-
cion inicial.
3. La reclamacion subsecuente inducida por la reclamacion inicial ocurrida pre-
viamente.
Bajo los posibles tipos de reclamacion ya mencionados, la esperanza matematica
de la suma de los montos de reclamaciones para un periodo cualquiera viene dada
por
E(Un+1) = E(Un) + pμX + pθμY + p(1− θ)μY
= E(Un) + pμX + pθμY + pδμY
= E(Un−1) + pμX + pθμY + pδμY + E(U1)
= E(Un−1) + 2(pμX + pθμY + pδμY )
donde por induccion
= (n+ 1)p0oμX + pθμY + npδμY
= np(μX + μY ) + pμX + pθμY
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
24 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
Por ultimo, en el planteamiento del modelo se asegura que la tasa de la prima
excede la tasa de reclamaciones netas y por lo tanto la carga de aseguramiento es
positiva, en terminos de la esperanza de la suma de montos reclamados.
p(μX + μY ) < 1 (3)
Ya que para algunos lectores puede parecer extrano plantear este modelo a un
escenario real, se ponen en consideracion las siguientes situaciones donde se puede
presentar este tipo de reclamaciones relacionadas en el tiempo; si se considera que
para una catastrofe, como un terremoto o una tormenta, puede ser muy probable
que ocurran reclamaciones de seguros despues de los hechos inmediatos, o tambien
se puede considerar el caso en que un seguro de accidente tenga despues de cobrada
la reclamacion el agravante posterior del suceso de muerte.
Otra posible interpretacion del modelo puede ser que la reclamacion subsecuen-
te sea tomada como una porcion aleatoria del total de reclamaciones, tomando
algunas unidades de tiempo para ser resuelto.
4. Ecuacion de relacion entre los procesos de reser-
vas que modelan dos reclamaciones relacionadas
en el tiempo
Cuando se presentan reclamaciones que se pueden enmarcar en el modelo mencio-
nado en la seccion 2, a su vez se manifiestan dos escenarios en los cuales difieren
los procesos de reservas, es por ello que a partir de los escenarios que se mencionan
a continuacion se genera una ecuacion que relaciona estos dos procesos.
El primero de los escenarios consiste en que si una reclamacion principal ocurre
en un periodo de tiempo determinado la reclamacion subsecuente tambien ocu-
rrira en el mismo periodo, por lo tanto no existiran reclamaciones para el proximo
periodo de tiempo y de esta manera el proceso de superavit se renueva; en este
caso el proceso de reservas o superavit que modela dicha situacion se presenta en
la ecuacion (2.1).
El segundo escenario es el evento complementario, que se menciono anteriormente,
es decir si existe una reclamacion principal sobre su reclamacion se producira en
el siguiente periodo de tiempo. Ahora, si la reclamacion principal se produce en
el periodo anterior y su reclamacion subsecuente asociada se produce al final del
periodo de tiempo actual, se tiene el siguiente proceso de superavit condicionado
al segundo escenario
S1(t) = u+ t− UXt − U
Yt − Y (4)
para t = 1, 2, 3 . . . y con S1(0) = u. Se nota ademas la probabilidad de supervi-
vencia al proceso condicional en el periodo k como φ1(u, k) y con esto se obtiene
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Relacion entre los procesos de reservas 25
por medio del teorema de la probabilidad total que
φ(u − 1, k) = qφ(u, k − 1) + pθ
∑m+n≤u
φ(u−m− n, k − 1)fmgn
+ p(1− θ)∑m≤u
φ1(u−m, k − 1)fm
= qφ(u, k − 1) + pθ
u∑m+n=1
φ(u −m− n, k − 1)fmgn+
pδ
u∑m=1
φ1(u−m, k − 1)fm (5)
donde cada uno de los sumandos de la ecuacion anterior representa cada posibilidad
en las que se pueden presentar las reclamaciones en el periodo t = k, es decir
1. El primer sumando representa la probabilidad de que no exista reclamacion
principal en el periodo t = k, por la probabilidad de supervivencia del periodo
anterior.
2. El segundo sumando representa la probabilidad de que exista reclamacion
principal y reclamacion subsecuente en el periodo t = k, por la probabilidad
de supervivencia del periodo anterior.
3. El tercer sumando representa la probabilidad de que exista reclamacion prin-
cipal en el periodo t = k y que la reclamacion principal sea retrasada al pe-
riodo k + 1, por la probabilidad de supervivencia del periodo anterior; es de
notar que en esta oportunidad se usa el proceso de superavit definido para
esta situacion en la ecuacion (3.1).
Ademas
φ1(u−1, k) = q
∑n≤u
φ(u−n, k−1)gn+pθ
∑m+n+l≤u
φ(u−m−n− l, k−1)fmgngl
+ p(1− θ)∑
m+n≤u
φ1(u−m− n, k − 1)fmgn
φ1(u−1, k) = q
u∑n=1
φ(u−n, k−1)gn+pθ
u∑m+n+l=1
φ(u−(m+n+ l), k−1)fmgngl
+ pδ
u∑m+n=1
φ1(u− (m+ n), k − 1)fmgn (6)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
26 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
para u ≥ 1 y k ≥ 1. Es claro que φ(u, 0) = φ1(u, 0) = 1 para todo u ≥ 0. Se define
la funcion generadora ası
φ(z, k) =
∞∑u=0
φ(u, k)zu y φ1(z, k) =
∞∑u=0
φ1(u, k)zu
Para manipular las ecuaciones (5) y (6) mediante las funciones generadoras de
probabilidad es necesario hacer un trabajo previo; para empezar se multiplicara la
ecuacion (3.2) por zu, de donde se tiene
zzu−1
φ(u − 1, k) = zuqφ(u, k − 1) + z
upθ
u∑m+n=1
φ(u−m− n, k − 1)fmgn
+ zupδ
u∑m=1
φ1(u−m, k − 1)fm
zzu−1
φ(u−1, k) = q(zuφ(u, k−1))+pθ(
u∑m+n=1
zu−(m+n)
φ(u−m−n, k−1)zmfmzngn)
+ pδ(
u∑m=1
zu−m
φ1(u−m, k − 1)zmfm)
ahora, si a esta ultima ecuacion la sumamos a cada lado de 1 a infinito sobre u
z
∞∑u=1
zu−1
φ(u − 1, k) = q(
∞∑u=1
zuφ(u, k − 1))
+ pθ(
∞∑u=1
u∑m+n=1
zu−(m+n)
φ(u−m− n, k − 1)zmfmzngn)
+ pδ(
∞∑u=1
u∑m=1
zu−m
φ1(u−m, k − 1)zmfm)
esto es por definicion de las funciones generadoras de probabilidad
zφ(z, k) = q(φ(z, k−1)−φ(0, k−1))+pθφ(z, k−1)f(z)g(z)+pδφ1(z, k−1)f(z) (7)
utilizando los mismos argumentos sobre (3.3) se obtiene
zφ1(z, k) = qφ(z, k − 1)g(z) + pθφ(z, k − 1)fzg2(z) + pδφ1(z, k − 1)f(z)g(z) (8)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Relacion entre los procesos de reservas 27
Ahora, teniendo en cuenta las funciones generadoras bivariadas
φ(z, t) =
∞∑k=0
φ(z, k)tk, φ1(z, t) =
∞∑k=0
φ1(z, k)tk, y φ0(t) =
∞∑k=0
φ(0, k)tk
y aplicando el mismo metodo que se utilizo para conseguir (3.4) y (3.5) se tiene
z
∞∑k=1
φ(z, k)tk = qt(
∞∑k=1
tk−1
φ(z, k−1)−φ(0, k−1))+ptθ
∞∑k=1
φ(z, k−1)f(z)tk−1
g(z)
+ ptδ
∞∑k=1
φ1(z, k − 1)f(z)tk−1
z(φ(z, t)− φ(z, 0)) = qt(
∞∑k=0
tkφ(z, k)− φ(0, k)) + ptθ
∞∑k=0
φ(z, k)f(z)tkg(z)
+ ptδ
∞∑k=0
φ1(z, k)f(z)tk
z(φ(z, t)− φ(z, 0)) = qt(φ(z, t)− φ0(t)) + pθtf(z)g(z)φ(z, t) + pδtf(z)φ1(z, t) (9)
z(φ1(z, t)− φ1(z, 0)) = qtg(z)φ(z, t) + pθtf(z)g2(z)φ(z, t) + pδtf(z)g(z)φ1(z, t)
= g(z)(qtφ(z, t) + pθtf(z)g(z)φ(z, t) + p(1− θ)tf(z)φ1(z, t)).
(10)
Es de notar que φ1(z, 0) = φ(z, 0), donde por definicion y por propiedades de la
serie geometrica se obtiene
φ1(z, 0) = φ(z, 0) =
∞∑u=0
φ(u, 0)zu =
∞∑u=0
zu =
1
1− z
y con esto (3.6) y (3.7) pueden escribirse como
zφ(z, t)−z
1− z
= (qt+ pθtf(z)g(z))(φ(z, t)) + p(1− θ)tf(z)(φ1(z, t)− qt(φ0(t))
zφ1(z, t)−z
1− z
= g(z)(zφ(z, t)−z
1− z
+ qt(φ0(t)).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
28 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
Para combinar las dos ecuaciones anteriores, primero se tiene despejando de la
segunda ecuacion φ1(z, t)
φ1(z, t) =1
1− z
+ g(z)φ(z, t)−g(z)
1− z
+qtφ0(t)g(z)
z
y por lo tanto
φ1(z, t)tf(z)p(1−θ) =tf(z)p(1− θ)
1− z
+g(z)tf(z)p(1−θ)φ(z, t)−tf(z)p(1− θ)g(z)
1− z
+tf(z)p(1− θ)qtφ0(t)g(z)
z
y al reemplazar este valor en la primera ecuacion
zφ(z, t)−z
1− z
= (qt+pθtf(z)g(z))φ(z, t)+tf(z)p(1− θ)
1− z
+g(z)tf(z)p(1−θ)φ(z, t)
−tf(z)p(1− θ)g(z)
1− z
+tf(z)p(1− θ)qtφ0(t)g(z)
z
− qt(φ0(t))
donde agrupando terminos semejantes la ecuacion queda escrita como
φ(z, t)[z − t(q + pf(z)g(z))] =z
1− z
+ t(1− g(z))p(1− θ)f(z)
1− z
− qtφ0(t)
(1− p(1− θ)t
f(z)g(z)
z
). (11)
Sea UWk el monto total de reclamaciones en los primeros k periodos en el modelo
binomial compuesto, con monto individual de reclamacionesW = X+Y . Entonces,
para encontrar la funcion generadora de probabilidad de UWk notada como h(z, k)
se procede de la siguiente manera:
Para un periodo de tiempo cualquiera se tiene desde el teorema de la probabilidad
total aplicado al modelo binomial compuesto que
Pr(X + Y = k) = pθPr(X + Y = k) + p(1− θ)Pr(X + Y = k)
si se desea expresar lo anterior mediante la funcion generadora de probabilidad
entonces se tiene
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Relacion entre los procesos de reservas 29
h(z) =
∞∑k=0
Pr(X + Y = k)tk
= qt0 +
∞∑k=1
[pθPr(X + Y = k) + p(1− θ)Pr(X + Y = k)] tk
= q + pf(z)g(z)
Usando la hipotesis de independencia de los montos de reclamaciones para cada
periodo se tiene que para los primeros k periodos la funcion generadora de probabi-
lidad h(z, k) = [q+pf(z)g(z)]k. Ademas se notaran las funciones de densidad y de
distribucion de UWk como h(i, k) y H(i, k) respectivamente. Con esto, si se divide
a ambos lados de (3.8) por z − th(z, 1) es decir se multiplica por (z − th(z, 1))−1,
cuya expresion se puede ver como serie de potencias de la variable t de la siguiente
manera
(z − th(z, 1))−1 =1
z − th(z, 1)
=
∞∑k=0
tk(h(z, 1))k
zk+1
.
Sı se multiplica cada termino de (3.8) por el resultado anterior, se toma la suma∑∞k=0
para todos los sumandos, se toma factor comun tk y se multiplica a ambos
lados de la ecuacion la expresion zk, se obtiene que para k = 1, 2, 3 . . .
zkφ(z, k) =
h(z, k)
1− z
+f(z)(1−g(z))h(z, k−1)p(1− θ)
1− z
−q
k−1∑j=0
φ(0, k−1−j)h(z, j)zk−1−j
+ pq(1− θ)f(z)g(z)
k−2∑j=0
φ(0, k − 2− j)h(z, j)zk−2−j. (12)
La ecuacion (3.9) presenta la informacion que brindan los dos procesos de reservas
expresados bajo funciones generadoras de probabilidad, de las reclamaciones prin-
cipales y sobre-reclamaciones y en terminos de la probabilidad de supervivencia.
Guo & Yuen (2001) hace uso de esta relacion para presentar formulas recursi-
vas para el calculo de la probabilidad de ruina, cuando se tienen reclamaciones
relacionadas en el tiempo bajo el supuesto de el modelo binomial compuesto.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
30 Luis Alejandro Masmela Caita & Edwin Javier Castillo Carreno
5. Conclusiones
Los supuestos de un modelo binomial compuesto permiten la manipulacion de
diferentes modelos en el area actuarial de manera menos dispendiosa o difıcil, el
caso donde se intentan modelar dos reclamaciones relacionadas en el tiempo no es
atıpico a este hecho. En este escrito se puede evidenciar que desde el trabajo sobre
dicho supuesto y la introduccion de las funciones generadoras de probabilidad de
los montos de reclamaciones, tanto principales como de las sobre-reclamaciones, es
posible encontrar una formula en terminos de la probabilidad de supervivencia y la
funcion generadora de probabilidad comun que recopila los datos de ambos tipos
de reclamacion. Con la ecuacion presentada se puede generar un estudio, bien sea
sobre el comportamiento de la probabilidad de ruina o de supervivencia, o de las
funciones generadoras de probabilidad y por lo tanto de sus momentos factoriales
o sus valores puntuales de probabilidad.
Recibido: 2 de agosto de 2013
Aceptado: 19 de diciembre de 2013
Referencias
Alfredo, D. E. (2000), The compound binomial model revisited, Technical report,
Universidad Tecnica de Lisboa, Lisboa.
Castillo, E. J. (2013), Probabilidad de ruina en el modelo binomial compuesto
para reclamaciones no convencionales, Technical report, Universidad Distrital
Francisco Jose de Caldas.
Dickson, D. C. M. (1994), ‘Some comments on the compound binomial model’,
ASTIN Bulletin 24, 33–45.
Gerber, H. U. (1988), ‘Mathematical fun with the compound poisson process’,
ASTIN Bulletin 18, 161–168.
Guo, Y. & Yuen, C. (2001), ‘Ruin Probabilities for Time-Correlated Claims in the
Compound Binomial Model’, Insurance: Mathematics and Economics 29, 47–
57.
Kaas, R., Goovaerts, M. & Denuit, M. (2005), Actuarial Theory for Dependent
Risks, Wiley and Sons, Chichester.
Rincon, L. (2012), Introduccion a la Teorıa de Riesgo, Ciudad universitaria
UNAM, Mexico D.F.
Shiu, E. (1989), ‘The probability of eventual ruin in a compound binomial model’,
ASTIN Bulletin 19, 179–190.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 31–48
Inferencia Bootstrap bayesiana para una
proporcion en muestreo con probabilidades
desiguales
Bootstrap Bayesian inference for a proportion in unequal probabilities
sampling
Cristian Fernando Telleza
Stalyn Yasid Guerrerob
Mario Pachecoc
Resumen
En este artıculo se propone el metodo bootstrap bayesiano para realizar inferencias
sobre una proporcion ρ en una poblacion finita a partir de una muestra con pro-
babilidades desiguales. Vıa simulacion se determino que, a partir de una adecuada
eleccion de la distribucion a priori de ρ, la metodologıa propuesta obtiene estima-
ciones con sesgos tan pequenos como los obtenidos mediante el π-estimador clasico.
Adicional a esto, se obtuvo menor varianza e intervalos de confianza con niveles de
confianza mas altos y de menor longitud en comparacion con el π-estimador clasico
y el estimador BPSP propuesto por Chen et al. (2010). Finalmente se ejemplifica
la implementacion de la metodologıa.
Palabras clave: muestreo probabilıstico, Bootstrap bayesiano, estimacion de una
proporcion, estimador BPSP.
Abstract
This paper describe Bayesian bootstrap method, it is to realize inferences for
finite population proportion ρ based on unequal probability sampling. Through
Simulation we found that based on an appropriate a priori distribution to ρ with
the proposed methodology it is possible to get estimate less-biased like that obtain
by the clasic π-estimator. Also, we get less-variance and confidence intervals with
highest confidence levels and it has fewer length when we compared it with the
aDocente Tiempo completo, Fundacion Universitaria los Libertadores, Colombia.bEgresado Universidad de Codoba, Colombia.cDocente Ocasional Universidad de Codoba, Colombia.
31
32 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
classic π-estimator and BPSP estimator that was proposed by Chen et al. (2010).
Lastly, an example is performed using the development methodology.
Keywords: probability sampling, Bayesian Bootstrap, proportion estimation.
1. Introduccion
Un parametro de interes considerado en muchos estudios estadısticos (investiga-
ciones sociales, economicas, estudios de mercadeo, entre otros) es la proporcion. La
teorıa de muestreo probabilıstico clasica asociada a la estimacion de dicho parame-
tro, se basa en funciones no lineales de otros parametros (como el total poblacional
y el total de un dominio), mientras que el enfoque bayesiano lo considera como
una variable aleatoria que se puede modelar usando distribuciones de probabilidad
de variables aleatorias en el espacio (0 , 1), como la distribucion uniforme (0 , 1) o
la distribucion beta (α,β), entre otras.
En la literatura especializada es poco lo que se encuentra acerca de la integracion
entre el muestreo probabilıstico y la teorıa bayesiana, de igual forma, lo que se
halla solo lo hace de manera parcial para el muestreo aleatorio simple o muestreo
aleatorio simple estratificado. Por ejemplo, Chen et al. (2010) proponen un estima-
dor spline penalizado predictivo bayesiano (BPSP, por sus siglas en ingles) para
una proporcion en poblaciones finitas bajo muestreo con probabilidades desiguales.
De otro lado, Pfeffermann & Royall (1982), en su trabajo centran toda la atencion
en los supuestos necesarios para la robustez de los procedimientos estadısticos y
ası poder predecir el total de la caracterıstica de interes a la poblacion.
La finalidad de este artıculo es mostrar una herramienta para la estimacion de
proporciones que integre las teorıas de estadıstica bayesiana y el muestreo pro-
babilıstico. La herramienta seleccionada es el metodo bootstrap bayesiano, puesto
que una caracterıstica distintiva de la estadıstica bayesiana es la forma explıcita
de tener en cuenta la informacion previa; sin embargo, uno de sus problemas que
se encuentra en la necesidad de asumir la forma parametrica de la distribucion
que genera los datos. Mediante la tecnica bootstrap bayesiano es posible evitar este
supuesto.
2. Inferencia Bootstrap bayesiana para una
proporcion
Considere U = {u1, u2, ..., uk, ..., uN}, una poblacion finita de tamano N , en donde
cada unidad ui (i = 1, 2, ..., N) tiene asociada una variable dicotoma yi, que toma
el valor 0 cuando la observacion no posee la caracterıstica de interes y 1 cuando la
posee. Una muestra aleatoria s es seleccionada de U , de acuerdo con un diseno de
muestreo probabilıstico. En la muestra, la variable de interes y es observada para
todos los elementos seleccionados. El interes consiste en estimar la distribucion de
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 33
probabilidad posterior para el parametro ρy definido como ρy =∑
i∈kyi
N , haciendo
uso de los valores de la muestra y de las probabilidades de inclusion inducidas por
el diseno muestral.
La metodologıa bootstrap bayesiana considera que el parametro ρy esta en funcion
de la distribucion acumulada de la que proviene la muestra aleatoria s, la cual ha
sido seleccionada con un diseno muestral particular y con la que se ha estimado
ρy, haciendo uso del estimador de Horvitz-Thompson definido como:
ρyπ = 1
ˆN
∑i∈s
yi/πi
con N =∑
i∈s1πi
y πi = Pr (i ∈ s)
Supongamos entonces que la distribucion de probabilidad condicional ξ(y | ρy) dey existe; esta es, a su vez, la verosimilitud de y en funcion de ρy. Sea ξ(ρy) la
densidad a priori del parametro ρy. Por el teorema de bayes se tiene:
ξ(ρy | y) ∝ ξ(y | ρy)ξ(ρy) (1)
donde ξ (ρy | y) es la distribucion posterior de ρy dada la observacion de y en la
muestra.
Al observar la forma de la distribucion posterior de ρy se debe pensar en la esco-
gencia de una distribucion a priori para ρy, y en un supuesto distribucional para
y condicionado al parametro ρy.
En cuanto a la distribucion a priori para ρy existe una gama de posibilidades entre
distribuciones previas informativas y no informativas, tales como la distribucion
uniforme y la distribucion beta o cualquier distribucion que tenga como soporte
el intervalo (0, 1). En cuanto al supuesto distribucional para y condicionado al
parametro ρy se debe tener en cuenta que en la teorıa de muestreo no se hacen
dichos supuestos, por lo que se dice que son de libre distribucion. Es por esto
ultimo que la metodologıa bootstrap bayesiana juega un papel fundamental en la
metodologıa propuesta, la cual consiste en realizar una obtencion de ξ(y | ρy) y
ξ(ρy | y) de forma empırica.
2.1. Distribucion posterior de ρ con a priori informativa
Segun Shao & Tu (1995), el metodo bootstrap bayesiano evita asumir una for-
ma parametrica de la distribucion que genera los datos. Si se esta interesado en
el parametro ρy y la informacion a priori sobre ρy esta resumida en ξ(ρy) y si
y1, y2, ..., yn representan las observaciones de la variable de interes en la muestra
con densidad desconocida ξ, entonces es posible aproximar a ξ utilizando un esti-
mador de densidades, por ejemplo, ξ(y | ρy) y hallar un estimador de la distribucion
posterior como:
ξ(ρy | y)α ξ(ρy)L(y1, ..., yn | ρy) (2)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
34 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
donde L(y1, ..., yn | ρy) representa la estimacion bootstrap de la funcion de ve-
rosimilitud, proporcional a ξ. A continuacion se presenta la secuencia de pasos
necesarios para determinar L:
1. Usando los datos muestrales y1, y2,...,yn, se construye una poblacion arti-
ficial U∗. Una forma de construir dicha poblacion consiste en replicar los
yi tantas veces como su factor de expansion ( 1
πi), siguiendo el principio de
representatividad.
2. Seleccionar una serie de muestras bootstrap de U∗ denotadas por s∗ con un
diseno identico al usado para seleccionar la muestra original s de U . Repetir B
veces para cada muestra bootstrap s∗b(b = 1, 2, ..., B), calcular el π estimador
ρ∗yπb:
ρ∗yπb =
1
N∗
∑i∈s∗
y∗ib/π
∗ib.
Donde N∗ =
∑i∈s∗
1
π∗i, π∗i es la probabilidad de inclusion de los elementos
en la muestra bootstrap y y∗ib es el i-esimo elemento de la b-esima muestra
bootstrap.
3. Con los anteriores estimadores ρ∗yπ1, ..., ρ∗yπB calcular el estimador de densi-
dad kernel definido como:
fB(u) =1
BhB
B∑b=1
K
(u− (ρ∗yπb − ρyπ)
hB
)(3)
Donde la funcion K es llamada funcion nucleo (kernell), y en general, es
una funcion de densidad continua, unimodal y simetrica alrededor de 0. El
parametro hb se conoce como parametro suavizador.
Haciendo u = ρ−ρy en la ecuacion anterior, fB(ρ−ρy) es una estimacion de
la densidad muestral de ρyπ dado ρy. Evaluandola en x = ρyπ resulta como
funcion de ρy para ser usada como verosimilitud
LB(ρyπ | ρy) =1
BhB
B∑b=1
K
(2ρyπ − ρ− ρ
∗yπb
hB
)(4)
4. La distribucion posterior resultante ξ(ρyπ | ρy) es entonces proporcional a
ξ(ρy)L((ρyπ | ρy) y la constante de normalizacion se puede hallar mediante
integracion numerica.
De esta forma es posible construir un estimador bayesiano de la distribucion pos-
terior de ρy como:
ξ(ρy | y) = c(y)× ξ(ρy)× L(y1, ..., yn | ρy)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 35
donde c(y) se puede obtener por integracion numerica como
c(y) =1∫
ξ(ρy)× L(y1, ..., yn | ρy)dρy
La funcion K se llama funcion nucleo (o kernel) y, en general, es una funcion
de densidad continua, unimodal y simetrica alrededor de 0. El parametro hB se
conoce como parametro de suavizamiento. Hollander & Wolfe (1999) muestra las
densidades Kernel mas usadas. En este artıculo no se considero la metodologıa
bootstrap con a priori no informativa dado que sus resultados son muy similares
al metodo bootstrap clasico Shao & Tu (1995).
2.2. Inferencia bayesiana sobre la proporcion
Para realizar estimaciones de un parametro mediante inferencia bayesiana, se re-
quiere de una muestra aleatoria obtenida a partir de una distribucion posterior
dada. En este caso, se genera una muestra aleatoria ρ1
y, ρ2
y, ..., ρmy a traves de la
distribucion posterior ξ (ρy | y) de la siguiente manera 1:
1. Generar p1, p2, ..., pm valores a partir de una distribucion con soporte (0, 1),
sin perdida de generalidad, la distribucion uniforme (0, 1).
2. Evaluar cada pi en ξ (ρy | y), con i = 1, 2, ...,m, obteniendo ası, la probabi-
lidad de seleccion de cada valor.
3. Por ultimo, la muestra requerida ρ1
y, ρ2
y, ..., ρmy se obtiene tomando una mues-
tra con reemplazo de p1, p2, ..., pm con probabilidad de seleccion ξ (pi | y)para i = 1, 2, ...,m.
Las funciones comunmente utilizadas para minimizar dichos errores son: la funcion
de perdida cuadratica, funcion de perdida en error absoluto y la funcion escalonada
Box & Tiao (1973).
2.2.1. Funcion de perdida cuadratica para la proporcion
Se considera una cierta funcion L (ρyρc) = (ρc − ρy)2
la cual se denotara como
funcion de perdida cuadratica asociada al parametro ρy, y sea ρc la estimacion
considerada para ρy. Sean ρ1
y, ρ2
y, ..., ρmy una muestra aleatoria de tamano m gene-
rada a traves de la distribucion posterior ξ (ρy | y) mediante el metodo Metropolis
- Hastings. La diferencia entre ρc y el valor real de ρy se hace mınima si pc se
1Con dicha muestra, lo que se pretende es estimar el parametro ρy que considera un error de
estimacion el cual debe ser minimizado. Para lograr lo anterior, se debe disponer de una funcion
que relacione la estimacion del parametro ρy con el valor real de este.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
36 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
estima empleando la siguiente expresion:
ρc = E (ρy | y) =
∫+∞
−∞ρyξ (ρy | y) dρy (5)
Esta integral se calcula numericamente puesto que ξ (ρy | y) es una funcion empıri-
ca. Por otro lado, la estimacıon vıa Monte Carlo de la media posterior es
ρc = ρy =
∑mj=1
ρjy
m
(6)
y un error estandar estimado es:
seρc=
√√√√∑mj=1
(ρjy − ρc
)2
(m− 1)m(7)
En consecuencia, ρc es el estimador puntual de ρy cuando tomamos como funcion
de perdida la funcion de perdida cuadratica.
3. Estudio de simulacion
Los escenarios de simulacion se dispusieron similares a los realizado en el trabajo de
Chen et al. (2010) para ası poder comparar los resultados entre las estimaciones vıa
metodo clasico, el estimador BPSP y las estimaciones hechas por la metodologıa
propuesta en este trabajo.
3.1. Diseno de la simulacion
El estudio de simulacion pretende evaluar el comportamiento de la metodologıa
propuesta y compararla con el procedimiento clasico y el estimador BPSP en la
estimacion de una proporcion en muestreo probabilıstico. El procedimiento con-
siste en simular dos poblaciones artificiales de tamano 2000, tambien se genera
una medida de tamano X para implementar un diseno de muestreo con probabi-
lidad proporcional al tamano. Los valores que toma esta variable son los enteros
consecutivos 71, 72, 73, ..., 2070.
Por otro lado, las probabilidades de inclusion en la poblacion son calculadas pro-
porcionales a la variable tamano, πi = n × xi/∑
xi, con xi = 71, 71, ..., 2070..
Luego de esto, son generados datos Z de una distribucion normal con estructura
de media f(π) y varianza constante igual a 0.04. Para el proceso de simularon se
tomaron dos estructuras de medias: una funcion de incremento lineal f(πi) = 3πi
y una funcion exponencial f(πi) = exp(−4, 64 + 26πi). En la figura 1 se muestran
las distribuciones normales con las dos estructuras de medias.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 37
0.00 0.04 0.08
−0.
10.
00.
10.
20.
30.
4
3πi
πi
Z
0.00 0.04 0.08−
0.1
0.0
0.1
0.2
exp(− 4.64 + 26π)
πi
Z
Figura 1: Distribucion normal con estructuras de medias lineal y exponencial.
Fuente: elaboracion propia.
De otra parte, las variables respuesta binarias Y1, Y2, Y3 son generadas como sigue:
Y1 es igual a 1 si Z es menor o igual a su percentil 10 y 0 en otro caso. Similarmente,
se generan las respuestas Y2 y Y3 usando los percentiles 50 y 90. El objetivo
inferencial aquı es la proporcion poblacional para Y igual a 1.
En cada simulacion, se genera una poblacion finita y se calcula la verdadera pro-
porcion poblacional, para Y igual a 1. Luego se seleccionan muestras aleatorias, de
tamanos n = 30, 50, 100 , 200 y500 con probabilidades proporcionales al tamano
(πPT) de cada poblacion y se calcula la proporcion estimada ρ clasica y bootstrap
bayesiana basada en la funcion de perdida cuadratica (media posterior).
El anterior proceso se repite 1000 veces y se calcula: el sesgo empırico (B), la raız
del error cuadratico medio (RMSE), las longitudes de los intervalos de credibilidad
y de confianza y las coberturas de los mismos.
Sea ρj una estimacion de ρj basada en la muestra j-esima, el sesgo empırico y la
raız del error cuadratico medio son:
B =1
1000
1000∑j=1
(ρj − ρ) (8)
RMSE =
√√√√ 1
1000
1000∑j=1
(ρj − ρ)2 (9)
Como distribucion a priori se tomo una distribucion beta(α, β) donde α toma los
valores de α = 25, 50, 100 y para la obtencion de los valores del parametro β, lo
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
38 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
0.05 0.10 0.15 0.20 0.25
010
2030
40
Aprioris beta
ρ
Bet
a(α,
β)
β(25, 217)β(50, 442)β(100, 892)
Figura 2: Distribuciones a priori para ρ = 0.1. Fuente: elaboracion propia.
que se realiza es:
1. Fijar α.
2. Igualar la expresion de la media de una distribucion beta (α , β) con los valores
reales de ρy, es decir, ρy = α−1
α+β−2, donde ρy = 0.1 , 0.5 , 0.9.
3. Para cada valor de ρy despejar el valor de β.
Los valores de α permiten que la distribucion beta se concentre en intervalos gra-
dualmente mas pequenos, y eso a su vez permita obtener mejores estimaciones de
ρy.
3.2. Resultado de la simulacion
En este apartado se muestran las tablas que contienen los resultados del proceso
de simulacion antes descrito, con el fin de comparar la metologıa clasica para la
estimacion de la proporcion, el estimador BPSP y la metodologıa aquı propuesta.
El programa de simulacion se desarrollo en el paquete estadıstico R version 2.13.0
(R Core Team 2013).
En la Tabla 1 se compara el sesgo, la RMSE, las longitudes de los intervalos y
sus coberturas para las metodologıa de estimacion clasica y la bootstrap bayesiana
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 39
Tabla 1: Sesgo, RMSE, cobertura (%) y nivel de confianza con una estructura de
media lineal. Fuente: elaboracion propia.
n ρ Metodo A priori Sesgo REMC Cobertura Amplitud
30 0.1 B.B. Beta (25, 225) -0.00663 0.00025 87.0 0.06541
Beta (50, 450) -0.00540 0.00020 89.2 0.04777
Beta (100, 900) -0.00338 0.00009 91.8 0.03490
Clasico - 0.00894 0.00494 83.0 0.20805
0.5 Beta (25, 25) 0.00019 0.00048 99.0 0.25094
Beta (50, 50) 0.00010 0.00014 99.0 0.18586
Beta (100, 100) 0.00015 0.00004 99.0 0.13440
Clasico - 0.00260 0.01263 87.0 0.35525
0.9 Beta (225, 25) 0.00193 0.00003 99.4 0.06957
Beta (450, 50) 0.00152 0.00002 99.8 0.05038
Beta (900, 100) 0.00080 0.00001 99.0 0.03621
Clasico - -0.00320 0.00394 81.4 0.18358
50 0.1 B.B. Beta (25, 225) -0.00604 0.00021 92.0 0.06558
Beta (50, 450) -0.00385 0.00012 94.0 0.04859
Beta (100, 900) -0.00230 0.00006 95.6 0.03530
Clasico - 0.00625 0.00414 81.2 0.17462
0.5 Beta (25, 25) -0.00134 0.00052 99.0 0.24102
Beta (50, 50) 0.00123 0.00018 99.0 0.18132
Beta (100, 100) 0.00044 0.00004 99.0 0.13301
Clasico - 0.00575 0.00782 87.8 0.28739
0.9 Beta (225, 25) 0.00277 0.00005 98.0 0.06791
Beta (450, 50) 0.00153 0.00002 99.0 0.05001
Beta (900, 100) 0.00094 0.00001 99.2 0.03605
Clasico - 0.00011 0.00236 83.0 0.14124
100 0.1 B.B. Beta (25, 225) -0.00381 0.00012 96.4 0.06708
Beta (50, 450) -0.00225 0.00005 97.6 0.04954
Beta (100, 900) -0.00164 0.00003 97.0 0.03567
Clasico - 0.00162 0.00231 79.6 0.14307
BPSP - 0.00800 0.04720 91.0 -
0.5 Beta (25, 25) 0.00146 0.00059 99.0 0.22306
Beta (50, 50) -0.00080 0.00021 99.0 0.17336
Beta (100, 100) 0.00044 0.00007 99.0 0.12949
Clasico - 0.00302 0.00470 85.6 0.20770
BPSP - -0.00520 0.04770 95.6 -
0.9 Beta (225, 25) 0.00226 0.00003 99.4 0.06598
Beta (450, 50) 0.00083 0.00001 99.0 0.04939
Beta (900, 100) 0.00072 0.00001 99.8 0.03576
Clasico - 0.00231 0.00088 84.0 0.09108
BPSP - -0.00290 0.02350 94.5 -
en tamanos de muestra n = 30 y 50, cuando el tamano de muestra aumenta a
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
40 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
100 se incluye la metodologıa BPSP en la comparacion. En forma analoga, en la
Tabla 2 se realizan las comparaciones, pero esta vez con tamanos de muestras n =
200 y 500. En ambas tablas se maneja una estructura de media lineal y para cada
escenario se varıan los parametros de la distribucion beta (la cual hace el papel de
la distribucion a priori).
Tabla 2: Sesgo, RSME, cobertura (%) y nivel de confianza con una estructura de
media lineal. Fuente: elaboracion propia.
n ρ Metodo A priori Sesgo REMC Cobertura Amplitud
200 0.1 B.B. Beta (25, 225) -0.00220 0.00005 98.4 0.06726
Beta (50, 450) -0.00151 0.00003 98.4 0.04966
Beta (100, 900) -0.00080 0.00001 99.4 0.03599
Clasico - 0.00111 0.00153 83.6 0.11949
BPSP - 0.00510 0.03200 93.8 -
0.5 Beta (25, 25) 0.00392 0.00061 99.0 0.19618
Beta (50, 50) 0.00302 0.00026 99.0 0.16006
Beta (100, 100) 0.00033 0.00009 99.0 0.12351
Clasico - 0.00076 0.00217 88.4 0.14852
BPSP - -0.00170 0.03280 94.9 -
0.9 Beta (225, 25) 0.00167 0.00003 99.0 0.06088
Beta (450, 50) 0.00117 0.00001 99.0 0.04683
Beta (900, 100) 0.00063 0.00000 99.0 0.03489
Clasico - 0.00279 0.00029 89.0 0.05728
BPSP - -0.00120 0.01550 95.3 -
500 0.1 B.B. Beta (25, 225) 0.00041 0.00002 99.6 0.06756
Beta (50, 450) -0.00011 0.00001 99.6 0.04960
Beta (100, 900) 0.00005 0.00001 99.0 0.03617
Clasico - 0.00873 0.00085 86.8 0.09098
0.5 Beta (25, 25) 0.02158 0.00085 99.4 0.14945
Beta (50, 50) 0.01690 0.00051 99.8 0.13109
Beta (100, 100) 0.01221 0.00026 99.0 0.10813
Clasico - 0.03117 0.00171 70.0 0.08885
0.9 Beta (225, 25) 0.00627 0.00006 99.8 0.04736
Beta (450, 50) 0.00444 0.00003 99.0 0.03947
Beta (900, 100) 0.00270 0.00001 99.0 0.03145
Clasico - 0.00986 0.00017 66.0 0.02844
En general, las estimaciones de ρ obtenidas mediante la metodologıa bootstrap
bayesiana son superiores en las dos tablas en cuanto a un menor RECM, mayor
cobertura, una menor amplitud, un sesgo pequeno en comparacion con el estimador
BPSP y tan pequeno como los obtenidos con el π-estimador clasico. Cabe resaltar
que algunos escenarios la amplitud de los intervalos bayesianos fueron ligeramente
mas grandes que la amplitud de los intervalos clasicos, pero eso es algo menor en
comparacion con la ganancia en cobertura, sesgos y RMSE.
En las Tablas 3 y 4 se presentan de forma similar las comparaciones realizadas en
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 41
Tabla 3: Sesgo, RSME, cobertura (%) y nivel de confianza con una estructura de
media exponencial. Fuente: elaboracion propia.
n ρ Metodo A priori Sesgo REMC Cobertura Amplitud
30 0.1 B.B. Beta (25, 225) -0.00627 0.00024 90.1 0.06571
Beta (50, 450) -0.00459 0.00015 90.9 0.04830
Beta (100, 900) -0.00475 0.00016 91.0 0.04811
Clasico - 0.00336 0.00443 81.2 0.18997
0.5 Beta (25, 25) -0.00014 0.00048 99.8 0.25077
Beta (50, 50) 0.00061 0.00016 99.9 0.18540
Beta (100, 100) 0.00013 0,00005 99.0 0.13452
Clasico - 0.00631 0.01285 85.7 0.35371
0.9 Beta (225, 25) 0.00297 0,00005 99.0 0.06862
Beta (450, 50) 0.00161 0,00002 99.4 0.05037
Beta (900, 100) 0.00101 0,00001 99.7 0.03612
Clasico - -0.00521 0.00453 81.0 0.19195
50 0.1 B.B. Beta (25, 225) -0.00586 0.00021 92.2 0.06538
Beta (50, 450) -0.00337 0.00010 95.4 0.04882
Beta (100, 900) -0.00244 0.00007 96.2 0.03533
Clasico - -0.00309 0.00252 80.8 0.14826
0.5 Beta (25, 25) 0.00015 0.00047 99.0 0.24136
Beta (50, 50) 0.00066 0.00019 99.0 0.18110
Beta (100, 100) 0.00010 0.00004 99.0 0.13299
Clasico - 0.00066 0.00712 89.0 0.28565
0.9 Beta (225, 25) 0.00312 0.00007 96.6 0.06810
Beta (450, 50) 0.00191 0.00003 98.4 0.04986
Beta (900, 100) 0.00118 0.00001 99.2 0.03595
Clasico - 0.00130 0.00316 77.2 0.15125
100 0.1 B.B. Beta (25, 225) -0.00270 0.00006 98.0 0.06711
Beta (50, 450) -0.00166 0.00003 98.6 0.04948
Beta (100, 900) -0.00087 0.00001 99.2 0.03582
Clasico - 0.00172 0.00168 82.0 0.11960
BPSP - 0.01700 0.05180 90.8 -
0.5 Beta (25, 25) 0.00214 0.00054 99.0 0.22242
Beta (50, 50) 0.00094 0.00020 99.0 0.17359
Beta (100, 100) -0.00028 0.00007 99.0 0.12962
Clasico - 0.00462 0.00412 89.4 0.20613
BPSP - -0.00140 0.04700 91.1 -
0.9 Beta (225, 25) 0.00242 0.00004 99.0 0.06664
Beta (450, 50) 0.00175 0.00002 99.6 0.04914
Beta (900, 100) 0.00078 0.00001 99.6 0.03585
Clasico - -0.00039 0.00143 83.6 0.10910
BPSP - -0.00100 0.01230 93.0 -
las tablas anteriores, solo que, en este caso, la estructura de media es exponencial.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
42 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
Los resultados obtenidos son muy similares a los anteriores, lo que implica que el
cambio de estructura de media no los afecta en gran forma.
Tabla 4: Sesgo, RSME, cobertura (%) y nivel de confianza con una estructura de
media exponencial. Fuente: elaboracion propia.
n ρ Metodo A priori Sesgo REMC Cobertura Amplitud
200 0.1 B.B. Beta (25, 225) -0.00178 0.00004 99.0 0.06722
Beta (50, 450) -0.00071 0.00001 99.8 0.04995
Beta (100, 900) -0.00059 0.00001 99.8 0.03592
Clasico - 0.00246 0.00124 85.6 0.10729
BPSP - 0.01340 0.03600 92.5 -
0.5 Beta (25, 25) 0.00382 0.00051 99.0 0.19689
Beta (50, 50) 0.00377 0.00022 99.0 0.15959
Beta (100, 100) 0.00108 0.00010 99.0 0.12383
Clasico - 0.00403 0.00232 85.4 0.14884
BPSP - 0.00001 0.03210 93.8 -
0.9 Beta (225, 25) 0.00247 0.00004 99.0 0.05921
Beta (450, 50) 0.00141 0.00002 99.0 0.04610
Beta (900, 100) 0.00076 0.00001 99.0 0.03457
Clasico - 0.00343 0.00028 86.2 0.05222
BPSP - -0.00007 0.00800 94.5 -
500 0.1 B.B. Beta (25, 225) -0.00007 0.00003 99.8 0.06744
Beta (50, 450) 0.00008 0.00001 99.8 0.04970
Beta (100, 900) 0.00013 0.00001 99.9 0.03618
Clasico - 0.01173 0.00101 87.8 0.09510
0.5 Beta (25, 25) 0.02444 0.00093 99.4 0.14864
Beta (50, 50) 0.01741 0.00054 99.6 0.13042
Beta (100, 100) 0.01304 0.00028 99.0 0.10834
Clasico - 0.03306 0.00182 63.8 0.08829
0.9 Beta (225, 25) 0.00728 0.00008 99.4 0.04629
Beta (450, 50) 0.00534 0.00004 99.8 0.03858
Beta (900, 100) 0.00309 0.00001 99.8 0.03114
Clasico - 0.01094 0.00018 59.4 0.02700
4. Ejemplo de la metodologıa
Con el fin de ilustrar la implementacion de la metodologıa aquı propuesta se exa-
mino la base de calif que esta disponible en la librerıa pps (Gambino 2012) del
software estadıstico R Core Team (2013), la cual contiene el registro de 1077 obser-
vaciones y 6 variables (condado, poblacion, blanco, amerindio, hispano y estrato).
El interes consiste en estimar mediante el π-estimador y la metodologıa bayesiana
la proporcion de blanco (Y ), que superan el lumbral de 148. El valor real, dada la
base de datos, equivale al 5.1067%.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 43
Se realizo la extraccion de una muestra probabilıstica s con un diseno de muestreo
probabilıstico proporcional al tamano de la variable auxiliar (diseno πPT ) por
estrato (o grupos). Como informacion auxiliar se utilizo el logaritmo de la variable
poblacion (Log pob), donde las probabilidades de inclusion de primer y segundo
orden fueron calculadas como en Sarndal et al. (1992).
Se decide dividir las observaciones en 2 grupos (o estratos) de acuerdo a Log pob,
para lo cual se calculo la matriz de distancias y se implemento la funcion dist de
R con el metodo de ‘‘euclidean’’. Los resultados obtenidos de la clasificacion
indican que estos grupos tienen los tamanos de 900 y 177, los cuales denotaremos
como G1 y G2 respectivamente. El tamano de la muestra considerado es de n = 30
observaciones que equivalen a aproximadamente el 2.78% de la poblacion. Para
la obtencion de la muestra se realizo una asignacion proporcional al tamano de
cada grupo, obteniendose 25 y 5 observaciones para los G1 y G2 respectivamente.
Finalmente, a fin de realizar la selecion de las muestras se emplea la funcion S.piPS
del paquete TeachingSampling (Gutierrez 2012).
Para la muestra seleccionada se estima la proporcion mediante el π-estimador;
siendo este ρ = 0.0669 (6.69%), con un intervalo de confianza (0 , 0.1725).
Por otro lado, para estimar la proporcion mediante la tecnica bootstrap bayesiana,
se toman 500 muestras con reemplazo de la muestra original s, cada muestra de
tamano 30, esto es, s∗b = (y∗1, y∗2, . . . , y
∗30), con b = 1, 2, ..., 500 (muestra bootstrap)
y con estas muestras calcular ρ∗1, ρ∗2, ..., ρ
∗500
. (vease la figura (3)).
0 100 200 300 400 500
0.10
0.15
0.20
0.25
Estimación de ρb*
b
ρ b*
Figura 3: Proporciones estimadas en las bootstrap. Fuente: elaboracion propia.
Ahora bien, con los 500 valores estimados se calcula la verosimilitud bootstrap
LB (ρ | ρ) =1
500 (0.0047)
500∑b=1
K
(2 (0.0669)− ρ− ρ
∗b
0.0047
)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
44 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
y para el calculo de la distribucion posterior de ρ, sin perdida de generalidad,
fijemos α = 25; entonces al resolver ρ = α−1
α+β−2se obtiene que β = 457 por tanto
se toma como distribucion a priori la distribucion beta (25 , 457), la cual es:
ξ (ρ) ≡ beta(25 , 457) ∝ ρ24 (1− ρ)
456
Utilizando un Kernel Gausiano la distribucion posterior de ρ es el producto de la
verosimilitud y la distribucion a priori, siendo esto:
ξ (ρ | y) ∝ LB (ρ | ρ) · ρ24 (1− ρ)456
De forma grafica podemos ver esta distribuciones en la figura (4)
0.05 0.10 0.15 0.20 0.25
030
Apriori Beta(25,457)
ρ
0.05 0.10 0.15 0.20 0.25
020
0
Posteriori ξ(ρ y)
ρ
Figura 4: Distribuciones a priori y a posteriori. Fuente: elaboracion propia.
Como es claro, la distribucion porterior no se tiene de manera explıcita (dado
que la verosimilitud fue aproximada vıa Kernel), por tanto, la media posterior, el
intervalo de credibilidad y su longitud son calculados de manera empırica, siendo
estos respectivamente: 0.0514, (0.032 , 0.071) y 0.038.
A manera de conclusion se puede observar que el intervalo de credibilidad tiene
una menor longitud en comparacion con el intervalo de confianza. Por otro lado,
la estimacion puntual de ρ utilizando la funcion de perdida cuadratica esta mucho
mas cercana al verdadero valor en comparacion con el π-estimador.
Ahora bien, dado que en las simulacion se pudo observar que el π-estimador no
dio buenos resultados en muestras pequenas, se decide aumentar el tamano de
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 45
muestra a 200 y poner a prueba las dos metodologıas. Los resultados se muestran
en la Tabla (5).
ρ Intervalo Longitud
π−estimador 0.026 (0.0269, 0.0270) 0.0001
B.B 0.046 (0.0307, 0.0630) 0.0322
Tabla 5: Estimacion para una muestra de 200 observaciones. Fuente: elaboracion
propia.
Se puede observar que el intervalo de credibilidad tiene una mayor longitud en
comparacion con el intervalo de confianza, sin embargo este ultimo no contiene al
parametro. Ası mismo podemos observar la estimacion puntual de ρ utilizando el π-
estimador evidenciando que esta mucho mas alejada del valor real que la estimacion
realizada mediante la metodologıa propuesta, lo que implica nuevamente que las
estimaciones realizadas por el metodo bootstrap bayesiano son mejores.
5. Conclusiones y recomendaciones
El principal hallazgo consiste en que la estimacion de la proporcion, usando teorıa
bootstrap bayesiana, en todos los escenarios probados es mejor en cuanto a: el
sesgo, RMSE, longitud del intervalo y cobertura, frente a la estimacion hecha me-
diante teorıa clasica y el estimador BPSP. Esto quiere decir, que con una adecuada
eleccion de la distribucion a priori se pueden encontrar sesgos tan pequeno como
los obtenidos mediante el π-estimador, y frente al BPSP es mucho menor. Adicio-
nal a esto, se tienen menor RMSE, menor longitud y una mayor cobertura frente
a las estimacion hecha con la metodologıa clasica y mediante el estimador BPSP,
aunque se cuenten con tamanos de muestras pequenos. Cabe resaltar que esta
tecnica no es difıcil de emplear, puesto que el unico supuesto que requiere es tener
informacion previa del parametro (distribucion a priori) para su uso, y el cono-
cimiento previo de una proporcion a sido bastante estudiado y se han propuesto
diferentes metodologıas para la elicitacion de este.
Un paso a seguir a este trabajo serıa el caso en el cual se tengan encuestas multi-
proposito y se desee estimar mas de una proporcion a la vez. Adicional a esto, se
puede estudiar el comportamiento de la metodologıa propuesta cuando se tienen
variables auxiliares en el estudio. Tambien se puede implementar esta metodologıa
en parametros diferentes a la proporcion.
Recibido: 21 de enero de 2014
Aceptado: 16 de abril de 2014
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
46 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
Referencias
Box, G. E. P. & Tiao, G. C. (1973), Bayesian Inference in Statistical Analysis,
Addison-Wesley, Reading, Massachusetts.
Chen, Q., Elliott, M. R. & Little, R. J. (2010), ‘Bayesian penalized spline model-
based inference for finite population proportion in unequal probability sam-
pling’, Survey Methodology 36(1), 23–34.
Gambino, J. G. (2012), pps: Functions for PPS sampling. R package version 0.94.
*http://cran.r-project.org/package=pps
Gutierrez, H. A. (2012), TeachingSampling: Sampling designs and parameter esti-
mation in finite population. R package version 2.0.1.
*http://cran.r-project.org/package=TeachingSampling
Hollander, M. & Wolfe, D. A. (1999), Nonparametric Statistical Methods, Cam-
bridge: University Press, Unite State of America.
Pfeffermann, D. & Royall, R. M. (1982), ‘Balanced samples and robust Bayesian
inference in finite population sampling’, Biometrika 69, 401–409.
R Core Team (2013), R: A Language and Environment for Statistical Computing,
R Foundation for Statistical Computing, Vienna, Austria.
*http://www.r-project.org
Sarndal, C. E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey Sam-
pling, Springer - Verlag, New York.
Shao, J. & Tu, D. (1995), The jackknife and Bootstrap, Springer, New York.
A. Codigos del ejemplo en R
require(MASS); require(hdrcde) ;require(cubature)
require(pps) ; require(TeachingSampling)
data(calif); head(calif)
Y1=ifelse(calif$white<=148,1,0);table(Y1)/1077
Log_pob=log(calif$population) # Variable auxiliar
d=dist(Log_pob, method="e",) # distance matrix
fit=hclust(d, method="mcquitty")
groups=cutree(fit, k=2)
groups=factor(groups)
levels(groups)=c("G1","G2")
table(groups)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporcion 47
Y=Y[order(groups)]
# Estimacion cuando n=30
n=30
round(table(groups)*n/1077,0) # asignacion proporcional al tama~noo del grupo
groups=groups[order(groups)]
pii<-c(Log_pob[groups=="G1"]*25/sum(Log_pob[groups=="G1"]), # Calculo de pi por grupo
Log_pob[groups=="G2"]*5/sum(Log_pob[groups=="G2"]))
Y=cbind(Grupos=groups,pii,Y) # Poblacion ordenada segun grupos
head(Y)
MG1=S.piPS(25,pii[groups=="G1"])# Seleccion de la muestra por grupo
MG2=S.piPS(5,pii[groups=="G2"])
# muestra obtenida
Ym=rbind(Y[MG1[,1],],Y[MG2[,1],])
# estimacion clasica
Nest=sum(1/Ym[,2])
num=sum(Ym[,3]/Ym[,2])
pest1=num/Nest
Li=pest1-qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1))
Ls=pest1+qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1))
# Construccion de la a priori
# alpha=25
# beta=(24/0.05)-23
# a priori beta(25,457)
# Estimacion de rho mediante boot
h=Boot(Ym[,c(3,2)],n,pest1,rho=0.1,alpha1=25,betta1=457)
c(Li=Li,Ls=Ls,lonc=Ls-Li,pest=pest1,Boot=h)
# Estimacion cuando n=200
# repetir secuencia anterior con n=200
# Varianza de la proporcion
varp=function(n,pks,ys,pii,pest)\{
# n numero de observaciones
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
48 Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
# ys= de submuestreo
# pii= Probabilidades de inclusion
# pest= proporcion estimada
pij=((n-1)/n)*(pks%*%t(pks))+((n-1)/n^2)*(pks%*%t(pks^2)+
(pks^2%*%t(pks)))-((n-1)/n^3)*pks%*%t(pks)*sum(pii^2)
pipj = pks%*%t(pks)
Vp = 0
for(i in 1:(n-1)){
for(j in (i+1):n){
Vp = Vp + ((pipj[i,j]-pij[i,j])/pij[i,j])*((ys[i]-pest)/pks[i]-
(ys[j]-pest)/pks[j])^2}}
Vp = (sum(1/pks))^(-2)*Vp
}
# p estimado mediante boot
Boot<-function(y,n,pest,alpha1,betta1,rho=0.1,B=500){
booT<-function(y,n){
pos1=sample(1:n,n,replace=T)
y1bos=y[pos1,]
while(length(which(y1bos[,1]==0))==n){pos1=sample(1:n,n)
y1bos=y[pos1,]}
Nestbos1=sum(1/y1bos[,2])
numbos1=sum(y1bos[,1]/y1bos[,2])
numbos1/Nestbos1 }
pestboot=replicate(B,expr=booT(y,n))
h1=bandwidth.nrd(pestboot)
rejilla=seq(0.01,0.99,length=B)
poste=0
for(i in 1:B){
x<-(2*pest-rejilla[i]-pestboot)/h1
kernelx=dnorm(x)
poste[i]<-1/(h1*B)*sum(kernelx) }
apriori=dbeta(rejilla,alpha1,betta1)
posteriori=poste*apriori
phi1<-approxfun(rejilla,posteriori)
consta1<-adaptIntegrate(phi1,0.01,0.99)$integral
posteriori1<-(1/consta1)*phi1(rejilla)
muesb=sample(rejilla,1000, prob=posteriori1, replace=T)
p.est=mean(muesb) # estimacion boot proporcion
intcre1=hdr(muesb,95) # intervalo de credibilidad
cont<-ifelse(rho>intcre1$hdr[1] & rho<intcre1$hdr[2],1,0)
Lon.IC=(intcre1$hdr[2]-intcre1$hdr[1])
c(p.est=p.est,Conteo=cont,LonICboot=Lon.IC) }
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 49–66
Estudio de simulacion para comparar varios
estimadores de varianza en el marco de la
regresion no parametrica
A simulation study for the comparison of several variance estimators
in the nonparametric regression framework
Alvaro Jose Floreza
Javier Olayab
Resumen
En el presente trabajo se prueban varios estimadores de varianza basados en di-
ferencias, en el marco de la regresion no parametrica. Dichos estimadores tienen
la principal ventaja de no depender de los parametros de suavizacion, ademas de
que son poco exigentes en terminos computacionales. Se usan principalmente es-
timadores basados en diferencias ordinarias y basados en las diferencias optimas
de Hall. Se crean escenarios utilizando diferentes funciones de regresion, tamanos
de muestra y distribuciones de los errores y se introduce el uso de la distribucion
semi-normal para probar los estimadores de varianza, en casos de distribuciones
asimetricas de los errores. Los resultados parecen apoyar la idea de que los estima-
dores basados en diferencias optimas de Hall no son mejores en todos los escenarios
planteados.
Palabras clave: estimadores basados en diferencias, diferencias ordinarias, dife-
rencias optimas, distribucion semi-normal.
Abstract
We test several difference-based variance estimators in the nonparametric regres-
sion model. These estimators have the main advantage of not depending on the
smoothing parameters. Furthermore, they also show low computational demand.
We mainly use estimators based on ordinary differences, along with estimators
based on Hall’s optimal differences. We set scenarios using some regression fun-
ctions, some sample sizes, and some error distributions. In particular we bring in
the use of the half-normal distribution to test the variance estimators under some
aProfesor auxiliar. Escuela de Estadıstica, Universidad del Valle, Colombia.bProfesor titular. Escuela de Estadıstica, Universidad del Valle, Colombia.
49
50 Alvaro Jose Florez & Javier Olaya
asymmetric error distributions. Results seem to support the idea that the Hall’s
optimal differences estimators not perform better than the others on all sets of
scenarios.
Keywords: Difference-based estimators, ordinary differences, optimal differences,
half-normal distribution.
1. Introduccion
La estimacion de una funcion f poblacional por medio de modelos de regresion ha
sido ampliamente estudiada durante mucho tiempo y presenta una gran variedad
de herramientas estadısticas, de las cuales la modelacion parametrica es la que mas
ha sido desarrollada y entendida (Draper & Smith 1966, Draper & Smith 1998). Sin
embargo, hay muchos casos donde estos tipos de modelos no son recomendables,
ya sea por el incumplimiento de uno o mas de los supuestos, o por la falta de
informacion que se tenga sobre la relacion funcional de los datos. Lo anterior hace
que la utilizacion de metodos de regresion no parametrica sean una buena opcion
para la estimacion de la funcion f , puesto que estos metodos son menos exigentes,
especialmente en los supuestos, que su contraparte parametrica (Eubank 1998,
Altman 1992, Cleveland 1979).
Dentro del estudio de la regresion no parametrica se han presentado grandes avan-
ces en las ultimas decadas, debido principalmente a los enormes progresos tec-
nologicos que han cubierto la gran demanda computacional que dichos metodos
exigen, donde se han propuesto una variedad de herramientas y tecnicas para el
modelamiento de f , ası como tambien un numero considerable de estimadores de
varianza. Puesto que este parametro no puede ser estimado de la misma forma
como se hace en la regresion parametrica, debido a que las tecnicas de suaviza-
cion producen estimaciones sesgadas de las respuestas, pues lo anterior llevarıa a
una sobreestimacion de la varianza (Hall et al. 1990, Hall & Marron 1990, Gasser
et al. 1986, Dette et al. 1998, Seifert & Gasser 1993, Buckley et al. 1988).
Dada la importancia de la estimacion la varianza de los errores, este trabajo busca
documentar algunos de los estimadores de varianza que se han desarrollado, y
que se usan con mas frecuencia, para los modelos de regresion no parametrica.
Tambien se pretende mostrar el comportamiento que presentan los estimadores
estudiados bajo situaciones diferentes, y ası poder identificar en que casos es mas
conveniente el uso un estimador sobre los demas. Ası, los escenarios donde se ponen
a prueba los estimadores resultan de combinar distintas funciones de regresion
con diferentes distribuciones de los errores y diferentes tamanos de muestra. De
otro lado, los autores que proponen los estimadores han conducido sus propias
simulaciones para comparar los que estan proponiendo con los demas. Sin embargo,
persisten diferencias de opinion sobre cuales son mejores y en que casos. Este
estudio se propone como meta conducir un estudio de simulacion en el cual los
investigadores (Gasser et al. 1986, Hall et al. 1990, Carter & Eagleson 1992, Brown
& Levine 2007) que han propuesto los estimadores que se comparan no intervienen
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 51
en la construccion de los escenarios de simulacion, ni en la formulacion de las
conclusiones. Se trata entonces de un estudio independiente que busca nuevas
luces sobre el uso de los estimadores bajo diferentes escenarios.
2. Antecedentes
Siempre que se hace una propuesta para un estimador de varianza, en el modelo de
regresion no parametrico, es natural pensar que es necesario ponerlo a prueba de
alguna forma para que se puedan ver sus ventajas y desventajas frente a los otros
estimadores que han sido previamente desarrollados. Este tipo de comparaciones
se conducen generalmente estudiando las propiedades teoricas de los estimado-
res y evaluandolas por simulacion. A continuacion se presentan algunos artıculos
donde se ha hecho algun tipo de comparacion, ya sea teorica o practica, de los
estimadores que se utilizaron en este estudio: el estimador de Rice (Rice 1984) y
los estimadores basados en diferencias ordinarias y en diferencias optimas de Hall,
Kay y Titterington (Hall et al. 1990).
La primera comparacion de los estimadores basados en diferencias fue hecha en la
presentacion del estimador de Gasser, Sroka y Jennen-Steinmetz (estimador GSJS)
(Gasser et al. 1986), quienes compararon el estimador de Rice con un estimador
propuesto por Wahba (1978) y con el estimador GSJS. Dicha comparacion fue
hecha por medio de simulaciones, teniendo en cuenta cambios en la funcion po-
blacional, el tamano de muestra y la varianza de los errores; allı se encontro que
el sesgo en todos los casos es siempre positivo y es proporcionalmente mas grande
para tamanos de muestra y varianza pequenos. Ademas, de acuerdo con sus au-
tores, el sesgo del estimador GSJS es mucho mas pequeno que el de los otros dos
estimadores.
Hall et al. (1990) presentan el estimador de varianza basado en diferencias en
forma general y ademas se hace referencia a tres metodos de asignacion para las
diferencias, llamados asignacion ordinaria, spike y optima de Hall, siendo estas
dos ultimas propuestas por Hall et al. (1990). A fin de hacer las comparaciones
Hall propone un Error Cuadratico Medio (ECM) asintotico para cada uno de estos
estimadores, el cual solo depende del factor de la varianza, mientras que el com-
ponente del sesgo se considera insignificante. En consecuencia el ECM asintotico
es independiente de la funcion de regresion f .
Luego de encontrar el ECM de cada uno, se procedio a calcular la eficiencia teori-
ca de estos estimadores, de orden 2 al 5. Se encontro que los estimadores basados
en diferencias optimas de Hall y los basados en diferencias spike presentaban in-
crementos en la eficiencia al aumentar el orden de los estimadores. Ocurrio lo
contrario con el estimador basado en diferencias ordinarias, siendo el primero de
estos estimadores el que presentaba la mayor eficiencia en todos los casos (Hall
et al. 1990, p. 525).
Dette et al. (1998) redefinen el ECM de estos estimadores y muestran que el ECM
depende no solamente del componente de la varianza, sino tambien de la compo-
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
52 Alvaro Jose Florez & Javier Olaya
nente del sesgo. En esta investigacion se hizo una comparacion bajo simulaciones
de los ECM teoricos de los estimadores basados en diferencias ordinarias y opti-
mas de Hall bajo funciones de regresion distintas (Dette et al. 1998, p.759-763).
De acuerdo con Dette et al. (1998), en pocos casos los estimadores basados en
diferencias optimas de Hall presentaban ECM inferiores a los de los estimadores
basados en diferencias ordinarias, conclusiones que contradicen las formuladas en
Hall et al. (1990).
3. Modelo de regresion no parametrico
Un modelo de regresion, sea parametrico o no parametrico, pretende estimar una
funcion poblacional tomando informacion de n pares de observaciones de una va-
riable Y y de una variable X (en nuestro caso ambas continuas), entre las cuales
se presume la existencia de cierta relacion, tal como se expresa en la ecuacion (1).
yi = f(xi) + εi, i = 1, 2, · · · , n (1)
Donde Y se conoce como variable respuesta y X como variable predictora, expli-
cativa o covariable. Los pares (xi, yi) son un conjunto de n observaciones de X
y Y . Al conjunto de valores de X se le conoce habitualmente como puntos del
diseno. f es la funcion de regresion o curva de regresion y los εi son los llamados
errores, que son variables aleatorias no observables que se asumen independientes
y que satisfacen que E(εi) = 0 y V (εi) = σ2< ∞. Este artıculo se refiere a la
estimacion de σ2, en el caso en que la funcion de regresion f se estime por metodos
de suavizacion.
La principal diferencia que existe entre la regresion parametrica y la no parametri-
ca, radica en que en la regresion parametrica, el investigador debe suponer la forma
de la funcion de regresion y solamente desconoce los valores de los parametros que
componen la funcion. Mientras que, en el ambito no parametrico, no se supone a
priori, un comportamiento de la funcion de regresion f poblacional. En cambio, la
forma de la funcion estimada se crea a partir del comportamiento de los mismos
datos. Por lo tanto, la regresion no parametrica se considera como una coleccion
de tecnicas para ajustar curvas donde se tiene poco conocimiento a priori de su
forma de f .
Dentro de la teorıa de la regresion no parametrica, se debe asumir que f es suave,
lo que quiere decir, que si se desea estimar la funcion f en un punto x, se espera
que las observaciones yi asociadas a los xi cercanos a x, posean informacion de
f en x. Lo cual indica que es posible promediar de alguna forma las respuestas
yi mas cercanas al punto donde se estime f(x). En el marco de la regresion no
parametrica esto es presentado por Eubank (1998) como suavizacion.
Formalmente, se asume que f es una funcion cuadrado integrable que tiene dos de-
rivadas continuas. Si se denota W2
2al espacio de todas las funciones que satisfacen
estas condiciones, se dice que f es suave si pertenece a W2
2.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 53
Para la estimacion de f se encuentran muchos metodos de regresion no parametrica
en la literatura, donde los suavizadores usados comunmente son los estimadores
lineales para regresiones simples, es decir con una sola covariable. Los estimadores
del tipo lineal de f tienen la forma dada por la ecuacion (2).
f(xi) =
n∑i=1
K(x, xi;λ)yi i = 1, 2, · · · , n (2)
Donde K(x, xi;λ) es una coleccion de pesos que dependen de los puntos del diseno
xi y de un λ > 0, el cual es denominado parametro de suavizacion o ancho de
banda, y determina el grado de suavizacion a los datos, el cual es definido por el
usuario (Eubank 1998, Levine 2006, Olaya 2012). Se consideran lineales porque
para un λ dado, los estimadores resultan ser funciones lineales de las respuestas
yi. Dentro de los metodos de suavizacion en modelos de regresion con una sola
variable de prediccion se encuentran: la suavizacion kernel, la regresion LOESS y
la suavizacion por splines.
4. Estimacion de la varianza en un modelo de
regresion no parametrico
En un modelo lineal la suma de cuadrados de los errores brinda las bases para la
estimacion de la varianza de los errores, por lo cual en un enfoque no parametrico
se puede pensar que la estimacion se podrıa hacer de forma analoga. No obstante,
realizar la estimacion de esta forma no es valido debido a la presencia del sesgo
de f (Bowman & Azzalini 1997), el cual tendra el efecto de aumentar el valor de
la suma de cuadrados de los errores y por lo tanto sobreestimar el parametro de
varianza.
Por esta razon, dentro del contexto de la regresion no parametrica existe un numero
considerable de estimadores de σ2, los cuales pueden ser considerados por separado
en dos grupos. En el primer grupo se encuentran los estimadores que dependen del
parametro de suavizacion, los cuales realizan la estimacion de la varianza basando-
se en la suma de cuadrados de los errores de un ajuste no parametrico de f , por
medio de un metodo de suavizacion como Kernel o Splines. Algunos de estos esti-
madores son el estimador de Hall & Marron (1990), que esta basado en suavizacion
Kernel, y los estimadores de Wahba (1978) y de Buckley et al. (1988) que estan
basados en suavizacion Spline.
El segundo grupo esta conformado por los estimadores basados en diferencias, los
cuales se apoyan en las respuestas yi asociadas a una vecindad predeterminada de
x, estos estimadores tienen la ventaja de no depender explıcitamente del parametro
de suavizacion. En este tipo de estimadores se asume el modelo de regresion de
la ecuacion 1, donde f es una funcion desconocida y los errores εi se asumen
independientes e identicamente distribuidos con media 0 y varianza σ2. Ademas,
el diseno se encuentra ordenado de la siguiente forma 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn ≤ 1.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
54 Alvaro Jose Florez & Javier Olaya
Este tipo de estimadores no requieren ningun parametro de suavizacion. El orden
de los estimadores de diferencias viene dado por el numero de observaciones que
se relacionan para calcular el residual local.
El mas simple de estos estimadores fue propuesto por Rice (3) en 1984. Dicho
estimador puede presentar algunos problemas debido a que la diferencia (yi?yi−1)
puede ser influenciada por las fluctuaciones bruscas que puede presentar la funcion
de regresion f , y por lo tanto la estimacion de la varianza puede inflarse.
σ2
R =1
2(n− 1)
n∑i=2
(yi − yi−1)2 (3)
Gasser et al. (1986) proponen el estimador GSJS, basado en interpolacion lineal, el
cual contrarrestarıa el problema del estimador de Rice. Con este proposito los au-
tores proponen unos seudo-residuales, los cuales se obtienen tomando una tripleta
consecutiva de puntos de diseno xi−1, xi, xi+1, a fin de calcular la diferencia que
hay entre la lınea recta que une las observaciones lımites (xi−1, yi−1) y (xi+1, yi+1)
y la observacion central (xi, yi), de la siguiente manera:
εi =xi+1 − xi
xi+1 − xi−1
yi−1 +xi − xi−1
xi+1 − xi−1
yi+1 − yi
= aiyi−1 + biyi+1 − yi (4)
El estimador GSJS esta definido de la siguiente forma:
σ2
GSJ =1
n− 2
n∑i=3
c2
i ε2
i donde c2
i = (a2i + b2
i + 1)−1 (5)
Hall et al. (1990) introdujeron los estimadores basados en diferencias en forma
general. Una diferencia se define como una sucesion de numeros que cumplen con
las siguientes condiciones:∑di = 0,
∑d2
j = 1, donde dj = 0 (6)
Se asume que dj = 0 para j < −m1 y j > m2, donde los valores m1,m2 ≥ 0
y d−m1dm2 = 0 . El orden de la sucesion viene dado por m = m1 + m2. Por
conveniencia en los calculos se toma m1 = 0 y m2 = m. Entonces el estimador de
σ2 basado en estas diferencias tiene la forma dada por la ecuacion (7):
σ2
HKT =1
n−m
n−m2∑k=m1+1
⎛⎝m2∑
j=0
djyj+k
⎞⎠
2
(7)
Para la diferencia de primer orden, solamente se tiene un resultado valido para
(d0, d1) el cual es d0 = 1√2
y d1 = −d0, que se define como la primera diferencia
�Y =yi−yi−1√
2
, cuyo estimador coincide con el estimador de Rice (3).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 55
Cuando se tienen diferencias de ordenes superiores, se obtiene mas de una solucion
para cada orden, por lo cual se tendran infinitos estimadores de varianza de la
forma (7) por cada orden. Por lo cual determinar el ordenm del estimador, ası como
la escogencia de las diferencias es de gran importancia. Una forma de realizar dicha
asignacion, es por medio de una diferencia ordinaria que se usa comunmente:
dj =
{(2mm
)−1/2(mj
)(−1)j para 0 ≤ j ≤ m,
0 en otro caso(8)
El estimador de la ecuacion (7) con la asignacion de la ecuacion (8) se conoce
como estimador de diferencias ordinarias. Cuando se obtiene dicho estimador con
una diferencia de segundo orden, este coincide con el estimador GSJS (ver ecua-
cion (5)), cuando se tiene un diseno equidistante, los valores de xi se encuentran
igualmente espaciados.
Hall et al. (1990) proponen una asignacion distinta, a la cual denominan diferencias
optimas de Hall, la cual esta basada en una definicion que se propone del ECM
de este estimador y la varianza asintotica (descripcion formal del teorema en Hall
et al. (1990, apendice 1)), los cuales son ambos iguales a n−1
τ2, donde τ2 se define
en la ecuacion (9), en la que kx— denota la kurtosis de ε/σ.
τ2 = var(ε2) + 2σ4
∑k �=0
⎛⎝∑
j
djdj+k
⎞⎠
2
= σ4
⎛⎜⎝k + 2
∑k
⎛⎝∑
j
djdj+k
⎞⎠
2
⎞⎟⎠ (9)
Teniendo en cuenta la definicion del ECM del estimador de Hall, se observa que
este valor solamente depende de los valores de dj , ademas de la distribucion de los
errores. En esta definicion se asume que la funcion f tiene un efecto insignificante
sobre el error cuadratico medio, ya que la funcion f se considera suave y los puntos
de diseno xi adyacentes se encuentran cada vez mas juntos, a medida que el tamano
de la muestra aumenta.
Se sigue que la asignacion optima de los dj se obtiene minimizando la siguiente
expresion:
δ =∑k �=0
⎛⎝∑
j
djdj+k
⎞⎠
2
(10)
Para el m-esimo orden la diferenciacion sucesiva optima y con δ, se tiene que
δ = (2m)−1, por lo tanto:
m∑j=1
djdj+k = −(2m)−1 (1 ≤ |k| ≤ m) (11)
Por lo cual la varianza asintotica mınima que se puede obtener utilizando una
diferencia sucesiva de m-esimo orden es de n−1
τ2, donde:
τ2 = var(ε2) +m
−1
σ4 (12)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
56 Alvaro Jose Florez & Javier Olaya
En Hall et al. (1990, apendice 3), se plantea el siguiente calculo para encontrar las
diferencias optimas:
Para un m, se observa que:
D(d0, · · · , dm) =1
2
m∑k=1
⎛⎝ k∑
j=0
djdj+k
⎞⎠
2
(13)
D(d0, · · · , dm) = (d0dm)2+(d0dm−1+d1dm)+ · · ·+(d0d1+ · · ·+dm−1dm)2 (14)
Ademas se asume que: s1 = −(d0+dm), s22= 1− (d2
0+d
2
m), t1 = (12− 1
4s2
1− 1
2s2
2)
12 .
Por lo tanto, d0 = − 1
2s1+t1, dm = − 1
2s1−t1. Usando estas formulas para d0 y dm,
ademas de tomar s1 = d1 + · · ·+ dm−1 y s2
2= d
2
1+ · · ·+ d
2
m−1y sustituyendo d0 y
dm en la ecuacion (14), se obtiene una funcion que involucra solamente los valores
d1, · · · , dm. A estas expresiones se les incorpora las restricciones de las diferencias
(ver ecuacion (6)) y se puede obtener los valores que minimizan la ecuacion (13)
por medio de un metodo de optimizacion.
En la Tabla 1 se pueden observar las diferencias optimas para estimadores de orden
1 ≤ m ≤ 5:
Tabla 1: Diferencias optimas de Hall para estimadores de orden 1 ≤ m ≤ 5.
Fuente: Hall et al. 1990.m (d0, · · · , dm)
1 (0.7071,−0.7071)
2 (0.8090,−0.5,−0.309)
3 (0.1942, 0.2809, 0.3832,−0.8582)
4 (0.2708,−0.0142,−0.6909,−0.4858,−0.4617)
5 (0.9064,−0.26,−0.2167,−0.1774,−0.142,−0.1103)
En la Tabla 1 se observa que a medida que el orden aumenta uno de los valores
dj tiende a acercarse a la unidad mientras que los otros convergen a 0; tambien
se observa que este pico se encuentra en el medio de la diferenciacion cuando el
orden es par y en un extremo cuando el orden es impar.
Teniendo en cuenta la observacion anterior, Hall, Kay y Titterington realizaron
una asignacion forzando al dj central de la sucesion a asumir valores cercanos a
la unidad, mientras que a los otros los acercan a 0. Esta asignacion fue llamada
spike (pico). La asignacion de este tipo se hace de la siguiente forma:
Si el orden es par, v = m2
dj =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
(2v
2v + 1
)1/2
para j = v
− [2v(2v + 1)]−1/2
para 0 ≤ j ≤ v − 1 o v + 1 ≤ j ≤ 2v
0 en otros casos
(15)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 57
Si el orden es impar, v = m−1
2
dj =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
(2v + 1
2v
)1/2
para j = v
− [2v(2v − 1)]−1/2
para 0 ≤ j ≤ v − 1 o v + 1 ≤ j ≤ 2v
0 en otros casos
(16)
5. Metodologıa
Para el proceso de simulacion se planteo el siguiente modelo de regresion:
yi = f(xi) + εi, i = 1, 2, · · · , n (17)
Donde los valores yi representan las respuestas, f la funcion de regresion poblacio-
nal, xi la covariable y εi los errores aleatorios. Ademas se deben cumplir en todas
las simulaciones las siguientes condiciones:
El diseno es equidistante, y los valores xi se encuentran ordenados en el
intervalo [0, 1], ademas no se tienen medidas repetidas en ningun valor de xi.
Los valores εi son independientes e identicamente distribuidos con E(εi) = 0
y var(εi) = σ2.
La funcion f es continua y doblemente diferenciable.
El proceso de simulacion se realizo en distintos escenarios, los cuales presentan
diferencias en la funcion de regresion, distribucion de los errores y tamanos de
muestra. A fin de obtener observaciones suficientes para realizar las comparaciones,
se consideraron 1000 repeticiones para cada simulacion.
Los diferentes cambios en cada uno de estos factores son los siguientes:
Funcion poblacional f :
8 sin(0.5πxi)− 4 sin oscilaciones.
4 sin(3πxi) numero de oscilaciones bajo.
4 sin(7πxi) numero de oscilaciones alto.
Varianza de los errores: σ2 = 0.5 (variacion baja), σ2 = 1(variacion alta).
Tamano de muestra: n = 50, 100, 300.
Distribucion de εi:
N(0, σ2), distribucion simetrica.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
58 Alvaro Jose Florez & Javier Olaya
|N(0, 1)| −(2
π
)1/2
, distribucion asimetrica a la derecha(2
π
)1/2
− |N(0, 1)|, distribucion asimetrica a la izquierda
Las distribuciones asimetricas se definen a partir de una variable que se distribuye
semi-normal, definida como el valor absoluto de una variable que se distribuye
normal estandar (Olmos et al. 2012). En ambos casos el procedimiento empleado
centra las distribuciones semi-normales en 0, pero mantiene una de ellas asimetrica
a la derecha y la otra a la izquierda (ver Figura 1).
Figura 1: Distribucion de los errores (a) distribucion asimetrica a la derecha, (b)
distribucion simetrica, (c) distribucion asimetrica a la izquierda. Fuente: elabora-
cion propia.
Los estimadores que se seleccionaron para realizar las comparaciones son los si-
guientes: el estimador de Rice (Ri), los estimadores HKT basados en diferencias
optimas de Hall, de orden 2 al 5 (Op2, Op3, Op4, Op5) y los estimadores basados
en diferencias ordinarias orden 2 al 5 (Or2, Or3, Or4, Or5). Hay que tener en
cuenta que el estimador de orden 1 de los dos metodos de asignacion seleccionados
coincide con el estimador de Rice. Ademas, cuando se tienen disenos equidistantes,
como en este caso, el estimador basado en diferencias ordinarias de orden 2 es igual
al estimador GSJS.
Como indicador para la comparacion de los estimadores se utiliza el error cuadrati-
co medio (ECM) empırico, calculado de la siguiente forma:
ECM(σ2
j ) =1
1000
1000∑i=1
(σ2
ji − σ2)2 j = 1, · · · , 9 (18)
donde σ2
ji es la estimacion de la varianza por medio del estimador j en la simulacion
i. Este es un indicador que tienen en cuenta no solamente el sesgo del estimador
sino tambien su variabilidad.
Las simulaciones se llevaron a cabo usando el software estadısticos R siguiendo
estos pasos:
1. Se generan los valores de εi teniendo en cuenta la distribucion de los errores,
el valor de varianza y el tamano de muestra propuesto.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 59
2. Se generan los valores de yi siguiendo el modelo de la ecuacion (17), teniendo
en cuenta cada una de las funciones poblacionales f propuestas. Donde xi =i−0.5
n , i = 1, · · · , n.
3. Luego de generar los valores de yi, se procede a estimar la varianza por medio
de cada uno de los estimadores seleccionados.
4. Los pasos anteriores se repiten 1000 veces para obtener la distribucion empıri-
ca de cada estimador y ası poder calcular el sesgo y el error cuadratico medio
(ECM) de cada uno.
Teniendo en cuenta las diferentes distribuciones de los errores, tamanos de muestra
y funciones de regresion se tienen 54 escenarios de simulacion, en los cuales se
realizaron las estimaciones de varianza por medio de los 9 estimadores propuestos.
6. Resultados
En cada una de las situaciones planteadas se estimo la varianza con cada uno
de los estimadores seleccionados para el estudio, luego se encontro el sesgo y el
ECM de cada uno y se observaron sus distribuciones de forma grafica por medio
de diagramas de cajas y alambres; todo ello a fin de realizar las comparaciones y
determinar en que casos es mas recomendable el uso de uno de estos estimadores
sobre los demas. A continuacion se muestran diagramas de cajas y alambres y
tablas del ECM de las tres funciones que se simularon, bajo diferentes cambios en
los tamanos de muestra y varianzas.
Cuando se comparan todos los estimadores bajo la funcion que no presenta osci-
laciones (Figura 2) se observa que los estimadores basados en diferencias optimas
de Hall (Op2, Op3, Op4 y Op5) presentan menor dispersion que los estimadores
basados en diferencias ordinarias (Or2, Or3, Or4 y Or5) en todas las simulacio-
nes, pero los ultimos presentan mejor manejo del sesgo cuando se tienen muestras
pequenas (n=50). Si comparamos el ECM de los estimadores (Tabla 2) se puede
observar que los valores para cada uno son muy parecidos, aunque los menores
valores se observan para los estimadores Op2, Ri y Or2.
Tabla 2: Error cuadratico medio de los estimadores bajo la funcion 8 sin(0.5πx)−4
para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion
propia.Caso Ri Or2 Or3 Or4 Or5 Op2 Op3 Op4 Op5
n = 50, σ2 = 0.5 0.014 0.018 0.023 0.027 0.030 0.013 0.017 0.025 0.044
n = 50, σ2 = 1 0.065 0.087 0.105 0.121 0.136 0.054 0.054 0.061 0.079
n = 300, σ2 = 0.5 0.002 0.003 0.004 0.004 0.005 0.002 0.002 0.002 0.002
n = 300, σ2 = 1 0.010 0.013 0.015 0.017 0.019 0.008 0.008 0.007 0.007
En la Figura 3 y la Tabla 3 se puede observar el comportamiento de los estima-
dores bajo los escenarios que tienen la funcion de regresion que presenta pocas
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
60 Alvaro Jose Florez & Javier Olaya
Figura 2: Diagrama de cajas del sesgo de los estimadores bajo la funcion
8 sin(0.5πx) − 4 para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1.
Fuente: elaboracion propia.
oscilaciones. En la Figura 3 se aprecia que los estimadores basados en diferencias
ordinarias tienen buen control sobre el sesgo sin importar los tamanos de muestra
o el orden usado, a diferencia de los estimadores basados en diferencias optimas
que presentan estimaciones con sesgos positivos, especialmente para tamanos de
muestra de 50, ademas el sesgo es mayor a medida que aumenta el orden. Es im-
portante tener presente que estos sesgos disminuyen considerablemente cuando el
tamano de muestra es de 300, ademas presentan una variabilidad inferior que los
estimadores basados en diferencias ordinarias.
Al observar el ECM (Tabla 3) se aprecia que para tamanos de muestra pequenos
los estimadores basados en diferencias ordinarios son mejores que los estimadores
basados en diferencias optimas, pero para las situaciones con tamano de muestra
de 300 estos ultimos tienen mejor comportamiento.
Tabla 3: Error cuadratico medio de los estimadores bajo la funcion 4 sin(3πx) para
tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion
propia.Caso Ri Or2 Or3 Or4 Or5 Op2 Op3 Op4 Op5
n = 50, σ2 = 0.5 0.034 0.019 0.023 0.026 0.029 0.128 0.387 0.916 1.850
n = 50, σ2 = 1 0.082 0.080 0.098 0.114 0.130 0.172 0.439 0.975 1.906
n = 300, σ2 = 0.5 0.003 0.003 0.004 0.005 0.005 0.002 0.002 0.002 0.004
n = 300, σ2 = 1 0.010 0.013 0.016 0.018 0.021 0.008 0.008 0.008 0.009
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 61
Figura 3: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funcion
4 sin(3πx) para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente:
elaboracion propia.
Cuando se tienen modelos con la funcion de regresion que presenta mayor numero
de oscilaciones, se puede observar en la Figura 4 que los estimadores basados
en diferencias optimas de Hall presentan estimaciones extremadamente sesgadas,
aunque las medianas del sesgo parecen acercarse a 0 cuando el tamano de muestra
es de 300, al igual que en las anteriores simulaciones, pero bajo esta funcion estos
estimadores parece que necesitan tamanos de muestra muchos mas grandes para
que se tenga buen control sobre el sesgo. Los estimadores basados en diferencias
ordinarias presentan comportamientos mas estables, puesto que todas las medianas
estuvieron proximas a 0.
En la Tabla 4 se puede observar los ECM de los estimadores, donde se puede
apreciar que para tamanos de muestra pequenos los estimadores basados en dife-
rencias ordinarias presentan mejor comportamiento que los basados en diferencias
optimas, pero cuando el tamano de muestra aumenta a 300, estos ultimos mejoran
considerablemente, aunque solamente el de orden 2 tiene un resultado similar al
de los estimadores basados en diferencias ordinarias.
Al contrario que ocurre con los anteriores funciones poblacionales planteadas, don-
de en algunos casos los estimadores basados en diferencias optimas de Hall son una
buena alternativa, los estimadores basados en diferencias ordinarias son los unicos
estimadores que presentan el comportamiento deseado para la estimacion de la
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
62 Alvaro Jose Florez & Javier Olaya
Figura 4: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funcion
4 sin(7πx) para tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente:
elaboracion propia.
Tabla 4: Error cuadratico medio de los estimadores bajo la funcion 4 sin(7πx) para
tamanos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboracion
propia.Caso Ri Or2 Or3 Or4 Or5 Op2 Op3 Op4 Op5
n = 50, σ2 = 0.5 0.583 0.025 0.026 0.030 0.034 3.161 9.608 21.065 38.634
n = 50, σ2 = 1 0.622 0.084 0.097 0.110 0.122 3.230 9.708 21.286 39.117
n = 300, σ2 = 0.5 0.003 0.003 0.004 0.004 0.005 0.005 0.012 0.028 0.056
n = 300, σ2 = 1 0.011 0.014 0.016 0.019 0.021 0.011 0.017 0.032 0.059
varianza, siendo estos los estimadores recomendados cuando se tengan situaciones
similares a esta ultima.
Puesto que todas las situaciones simuladas anteriormente se hicieron bajo una
distribucion de los errores simetrica N(0, σ2), por lo tanto hace falta observar si
existen diferencias en las estimaciones cuando se tiene una distribucion asimetrica
de los errores. Para esto se presenta en la Figura 5, distribucion de los sesgos de tres
estimadores de varianza (el estimador de Rice, el basado en diferencia ordinarias
de orden 2 y el basado en diferencia optimas de Hall de orden 2) por medio de
diagrama de cajas y alambres bajo tres condiciones distintas de distribucion de los
errores (asimetrica a la derecha, simetrica, asimetrica a la izquierda).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 63
Figura 5: Diagrama de cajas y alambres de los estimadores bajo las tres condiciones
de los errores con la funcion 8 sin(0.5πx) − 4 y n = 100. (a) estimador de Rice
(b) estimador de diferencias ordinarias de orden 2 (c) estimador de diferencias
optimas de orden 2. Fuente: elaboracion propia.
En la Figura 5 se observa que los diagramas de cajas y alambres del sesgo del
estimador de Rice bajo las tres distribuciones de los errores no presentan diferen-
cias en sus comportamientos, al igual que ocurre con los otros dos estimadores
evaluados, lo que nos indica que estos estimadores de varianza no se ven afectados
por la distribucion de los errores; ocurre lo contrario con los estimadores que estan
basados en los diferentes metodos de suavizacion, los cuales deben asumir norma-
lidad de los errores. Cuando se simulan los resultados bajo los demas escenarios
planteados se tienen las mismas observaciones mencionadas anteriormente, como
tambien ocurre con los demas estimadores que se tienen en cuenta en este estudio.
7. Conclusiones
De los estimadores basados en diferencias optimas de Hall, el estimador de orden 2
es el que presenta mejor comportamiento, puesto que en las simulaciones plantea-
das se observo que se producıan estimaciones cada vez mas sesgadas y con mayor
ECM cuando el orden de este estimador aumentaba. Por lo cual no es recomen-
dable el uso de los estimadores basados en diferencias optimas de Hall de ordenes
superiores a 2.
En ninguna de las situaciones simuladas se encontro diferencias en las distribu-
ciones de los sesgos de los estimadores basados en diferencias ordinarias, por lo
cual el uso de cualquiera de estos estimadores, sin importar el orden, produce
estimaciones muy similares bajo situaciones parecidas a los escenarios propuestos.
El estimador de Rice presento buen comportamiento en algunas de las situaciones
planteadas, aunque en ninguno de estos escenarios presento el mejor comporta-
miento sobre los demas estimadores. Es decir, el uso del estimador de Rice no se
recomienda en ninguno de los casos.
Cuando se tienen funciones sin cambios u oscilaciones el estimador basado en
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
64 Alvaro Jose Florez & Javier Olaya
diferencias optimas de Hall de orden 2 presenta mejor comportamiento que los es-
timadores basados en diferencias ordinarias, ya que este estimador presenta menor
dispersion que los otros estimadores y tiene buen manejo del sesgo; lo anterior se
ve reflejado en los menores valores del ECM. Al tener funciones con oscilaciones
es necesario que se tenga un tamano de muestra grande, para que este estimador
tenga mejor comportamiento que los estimadores basados en diferencias ordinarias.
Los estimadores basados en diferencias ordinarias tienen un buen manejo del sesgo
en todos los escenarios que se plantearon con las diferentes funciones poblaciona-
les. Pero tiene mejor comportamiento que los estimadores basados en diferencias
optimas de Hall cuando se tienen funciones con oscilaciones, y ademas el tamano
de muestra es pequeno.
No se encontraron diferencias significativas en ninguna de las distribuciones de
los sesgos de los estimadores cuando se plantean diferentes distribuciones de los
errores, por lo cual no es necesario asumir ningun comportamiento de los errores
para el uso de alguno de estos estimadores de varianza.
8. Trabajo futuro
Dado que en este trabajo se usaron disenos equidistantes, una posible extension
serıa estudiar las diferencias que se presentan entre estos estimadores cuando se
tienen disenos aleatorios o disenos no equidistantes. De esta forma tambien se
pueden plantear diferencias entre el estimador basado en diferencias ordinarias y
el estimador GSJS, puesto que en caso de un diseno equidistante estos estimadores
son iguales.
Se podrıa ademas proponer algun criterio para establecer el tipo de estimador
basado en diferencias que se debe usar dependiendo de la situacion que se tenga,
como el tamano de muestra (puesto que se observo que el estimador basado en
diferencias ordinarias presento mejor comportamiento cuando n es pequeno, pero
cuando n es grande los estimadores optimos presentaron mejor comportamiento)
y el tipo de funcion.
Recibido: 22 de noviembre de 2013
Aceptado: 20 de marzo de 2014
Referencias
Altman, N. S. (1992), ‘An introduction to kernel and nearest-neighbor nonpara-
metric regression’, The American Statistician 46(3), 175–185.
Bowman, A. W. & Azzalini, A. (1997), Applied Smoothing Techniques for Data
Analysis. The Kernel Approach with S-plus Illustrations, Oxford University
Press.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comparacion de estimadores de varianza en regresion no parametrica 65
Brown, L. D. & Levine, M. (2007), ‘Variance estimation in nonparametric regres-
sion via the difference sequence method’, Annals of Statistics 35(5), 2219–
2232.
Buckley, M. J., Eagleson, G. K. & Silverman, B. W. (1988), ‘The estimation of
residual variance in nonparametric regression’, Biometrika 75(2), 189–199.
Carter, C. K. & Eagleson, G. K. (1992), ‘A Comparison of Variance Estimators in
Nonparametric Regression’, Journal of the Royal Statistical Society, Series B
54(3), 773–780.
Cleveland, W. S. (1979), ‘Robust Locally Weighted Regression and Smoothing
Scatterplots’, Journal of the American Statistical Association 74(368), 829–
836.
Dette, H., Munk, A. & Wagner, T. (1998), ‘Estimating the Variance in Nonpa-
rametric Regression. What is a Reasonable Choice?’, Journal of the Royal
Statistical Society, Series, B 60(4), 751–764.
Draper, N. R. & Smith, H. (1966), Applied Regression Analysis, John Wiley &
Sons, New York.
Draper, N. R. & Smith, H. (1998), Applied Regression Analysis, 3 edn, John Wiley
& Sons, New York.
Eubank, R. L. (1998), Nonparametric Regression and Spline Smoothing, 2 edn,
Marcel Dekker, New York.
Gasser, T., Sroka, L. & Jennen-Steinmetz, C. (1986), ‘Residual variance and resi-
dual pattern in nonlinear regression’, Biometrika 73(3), 625–633.
Hall, P., Kay, J. W. & Titterington, D. M. (1990), ‘Asymptotically optimal
difference-based estimation of variance in nonparametric regression’, Biome-
trika 77(3), 521–528.
Hall, P. & Marron, J. S. (1990), ‘On variance estimation in nonparametric regres-
sion’, Biometrika 77(2), 415–419.
Levine, M. (2006), ‘Bandwidth selection for a class of difference-based variance
estimators in the nonparametric regression: A possible approach’, Journal
Computational Statistics & Data Analysis 50(12), 3405–3431.
Olaya, J. (2012), Metodos de regresion no parametrica, Programa Editorial Uni-
versidad del Valle, Colombia.
Olmos, N. M., Varela, H., Gomez, H. W. & Bolfarine, H. (2012), ‘An extension of
the half-normal distribution’, Statistical Papers 53(4), 875–886.
Rice, J. (1984), ‘Bandwidth choice for nonparametric regression’, Annals of Sta-
tistics 12(4), 1215–1230.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
66 Alvaro Jose Florez & Javier Olaya
Seifert, B. & Gasser, T. (1993), ‘Nonparametric estimation of residual variance
revisited’, Biometrika 80(2), 373–383.
Wahba, G. (1978), ‘Improper priors, spline smoothing, and the problem of guarding
against model errors in regression’, Journal of the Royal Statistical Society,
Series, B 40(3), 364–372.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en EstadısticaJunio 2014, Vol. 7, No. 1, pp. 67–87
Una aplicacion estadıstica de los metodos declasificacion en astronomıa
A statistical application of classification methods in astronomy
Hector Hortuaa
[email protected] J. Zambranob
Resumen
En los ultimos anos los avances en la astrofısica y la cosmologıa han sido im-pulsados por grandes conjuntos de datos, los cuales solo pueden ser analizados einterpretados con el uso de metodos estadısticos muy refinados. Lo anterior hallevado a que dichas disciplinas se complementen a fin de formar una rama llama-da la astroestadıstica. En este trabajo se da a conocer un metodo de clasificacionestadıstico usando modelos de mezclas de gausianas. Este metodo se aplicara paraencontrar estrellas que pertenecen al cumulo de las Hyades usando una muestra de2678 estrellas de la base de datos de Hipparcos. Se realiza una descripcion brevede las caracterısticas del cumulo y se estudia la evidencia de valores atıpicos. Coneste metodo se encuentra que la clasificacion arroja tres grupos de los cuales po-demos estudiar la pertenencia al cumulo y se encuentra que la mayorıa de estrellaspertenecientes al mismo estan de acuerdo con la literatura. Tambien se muestrael diagrama de Hertzsprung-Russell obtenido para el cumulo, muy importante enestudios de evolucion estelar. Finalmente, se analiza un tercer grupo obtenido porel metodo el cual fue analizado a traves de filtros considerados a partir de reglas declasificacion y otros metodos estadısticos para el manejo de outliers y determinarcon mas precision la pertenencia de las estrellas en el cumulo de las Hyades.
Palabras clave: cumulos abiertos, diagrama Hertzsprung-Russell, clasificacionbasada en modelos.
Abstract
In recent years, advances in astrophysics and cosmology have been guided by largeand complex data sets, which can only be analyzed and interpreted with the use ofhighly refined statistical methods. This has caused these disciplines complement
aDocente. Semillero de Investigacion en Astronomıa, Departamento de Ciencias Basicas, Fun-dacion Universitaria los Libertadores. Colombia.
bDocente. Facultad de Estadıstica, Universidad Santo Tomas. Colombia.
67
68 Hector Hortua & Alex J. Zambrano
each other forming a research field known as astrostatistics. In this paper we pro-vide a classification method based on Gaussian mixture models. This method isused to find stars that belong to the Hyades cluster using 2678 stars samplingfrom the Hipparcos database. We make a brief description of characteristics ofthe cluster and we explore the evidence of outliers. With this method it is foundthat classification yields to three groups of which we can study the membership,and we show the agreement with literature. We also show the Hertzsprung-Russelldiagram obtained for the cluster, extremely important for studies of stellar evo-lution. Finally, the third group found is analyzed through filters considered fromclassification rules and other statistical methods, for determining the membershipof the stars in the Hyades cluster.
Keywords: open cluster, Hertzsprung-Russell diagram, model-based classifica-tion.
1. Introduccion
El desarrollo y la aplicacion de metodos estadısticos a los problemas de la astro-nomıa viene desde hace mucho tiempo. Se tiene evidencia de que Hipparcos filosofoGriego, hizo una de las primeras aplicaciones de los principios matematicos en elambito de la estadıstica, al hacer mediciones de las duraciones entre solsticios paradefinir el ano. En las ultimas decadas se ha visto un aumento de interes del usode la estadıstica en astronomıa, impulsado por la presencia de grandes conjun-tos de datos en todos los campos de la astronomıa. Por tal motivo, se ha llegadoa que estas disciplinas se complementen para formar una rama de la estadısti-ca llamada la astroestadıstica (Sarro et al. 2012, Feigelson & Babu 2012, Ball &Brunner 2010, Hobson et al. 2010, Loredo 2012).
La astronomıa moderna produce datos que requieren de herramientas estadısti-cas para ser explorados. La investigacion en astronomıa ha visto un cambio deparadigma en los ultimos anos, tratando habitualmente la minerıa de datos conprocesos complejos que exigen un conjunto muy diverso de tecnicas estadısticas. Enparticular, se require de la estimacion de parametros cosmologicos y parametrosorbitales de cuerpos celestes (Liddle 2009). Entre las aplicaicones de la estadısti-ca en la astronomıa se encuentra el analisis multivariado, para hacer estudios decumulos globurales y estudios de rayos cosmicos y GRBs (Gamma-Ray Bursts)(Chilingarian & Vardanyan 2003), las series de tiempo son de alta relevancia en elestudio de manchas solares y variabilidad de rayos X (Vaughan 2013), ası como losmodelos de mezcla para fotometrıa galactica y pertenencia de estrellas, entre otros.Una de las investigaciones en astronomıa es la pertenencia de estrellas en cumulosabiertos (Uribe et al. 2008). Este estudio es de gran importancia en astronomıapara comprender rasgos de la evolucion estelar y edad de cumulos.
En este artıculo se desarrolla un estudio de pertenencia de estrellas analizando losmovimientos propios, centrandonos en el cumulo de las Hyades ubicado en la cons-telacion de Tauro. Usando una muestra de 2678 estrellas tomada del catalogo de
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 69
Hipparcos, se utiliza el metodo de mezclas de densidades gausianas multivariadaspara encontrar cuales de estas estrellas pertenecen al cumulo de las Hyades y deesta forma generar el diagrama Hertzsprung-Russell a fin de revelar propiedadesmuy importantes del mismo. Este artıculo se organiza de la siguiente forma: En laseccion 2 se comenta acerca del estudio de la pertenencia de estrellas en cumulosabiertos a partir de movimientos propios y se describe la importancia del diagra-ma Hertzsprung-Russell en el estudio de la astronomıa estelar. En la seccion 3 sediscute el metodo de clasificacion estadıstica basada en mezcla de gausianas.
En la seccion 4 se implementa una aplicacion utilizando el conjunto de estrellasmencionadas y se presentan los resultados: deteccion de outliers, de igual modose da respuesta a la pregunta como a traves del metodo de mezcla se analizanlas variables de estudio para determinar las posibles estrellas que pertenecen alcumulo, de igual forma, se realizan algunas caracterısticas de la clasificacion, eldiagrama Hertzsprung-Russell y la construccion de filtros a partir de reglas declasificacion y comparacion de resultados. Finalmente en la seccion 5 se describenlas conclusiones y futuros trabajos alrededor del tema.
2. Pertenencia de estrellas y diagrama Hertzsprung-Russell (H-R)
Los cumulos abiertos son regiones que contienen de diez hasta centenares de estre-llas. La distancias de estos cumulos pueden ser obtenidos por metodos fotometricoso espectroscopicos. Para cumulos cercanos como las Hyades se utiliza el metodode paralaje cinetico, donde se supone que las estrellas que pertenecen al cumulotienen la misma velocidad espacial en promedio respecto al sol. Sin embargo, elestudio de la pertenencia de estrellas en cumulos abiertos ha sido muy complejo(Karttunen et al. 2007). A traves del estudio de la pertenencia de estrellas en uncumulo, se puede obtener las caracterısticas de la distribucion estelar y la evolucionde la galaxia donde se encuentra el cumulo. A fin de determinar si una estrellapertenece al cumulo se utiliza los siguientes metodos: metodo fotometrico cuyalimitacion es debida a la absorcion interestelar, metodo de velocidades radialesque tiene dificultad en la medicion por efecto Doppler y metodo de movimientospropios; este ultimo es muy preciso cuando el cumulo no se encuentra lejos denosotros. El movimiento propio de una estrella se define como el cambio angularen la posicion de una estrella, respecto a la lınea de vision del observador, medidaen arco-segundos por ano, es una medida indirecta de la velocidad transversal dela estrella con respecto a la Tierra. Despues de saber la pertenencia de las estrellasen el cumulo, se procede a elaborar el diagrama de Hertzprung-Russell (H-R) conestas estrellas y de este diagrama se infieren las propiedades del cumulo, dinamicay edad.
El diagrama H-R1, es un diagrama estadıstico en el que las estrellas estan clasifi-cadas con base en a su temperatura y luminosidad. El diagrama esta hecho sobre
1Ideado por E. Hertzsprung y H. N Russell entre 1905 y 1913.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
70 Hector Hortua & Alex J. Zambrano
un sistema en el que se dispone la temperatura superficial de la estrella sobre el ejehorizontal, en sentido decreciente de izquierda a derecha y la luminosidad sobre eleje vertical, en sentido creciente de abajo hacia arriba (ver Figura 1).
Figura 1:Diagrama H-R. Fuente: http://www.portalplanetasedna.com.ar/estrellas.htm
Aquı se observa que la mayor parte de las estrellas estan ubicadas sobre unadiagonal que cruza el diagrama conocida como secuencia principal. En esta region,se ubican las estrellas mas jovenes (las cuales estan quemando hidrogeno en sunucleo) y en la cual pasan el mayor tiempo de su vida. Las estrellas azules de granmasa y luminosidad se encuentran en la parte superior izquierda. Las estrellasamarillas medianas como el sol, se encuentran en el centro y las rojas pequenasestan ubicadas en la parte inferior derecha. Ademas de la secuencia principal, existeuna rama de las gigantes rojas ubicadas a la derecha de la secuencia principalque se caracterizan por tener gran tamano, brillo y baja temperatura superficial.Finalmente las enanas blancas, en la parte inferior del diagrama son estrellas debaja luminosidad.
3. Clasificacion usando modelos gausianos
El analisis de conglomerados (cluster analysis) es una de las tecnicas mas utili-zadas en el analisis multivariado y hace parte de las tecnicas de clasificacion nosupervisadas. Esta tecnica consiste en ubicar objetos, ıtems, individuos, etc, dentrode ciertos grupos denominados conglomerados, de tal forma que en cada grupo, losobjetos sean semejantes entre sı y, entre grupos, sean diferentes. Existen muchastecnicas de este tipo, en particular las clasificaciones apoyadas en modelos (Everittet al. 2011). Esta ultima, considera la agrupacion usando modelos gausianos mul-tivariados y se describe a continuacion.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 71
Sea X una variable p-dimensional y φ(x) su funcion de densidad de la mezcla degausianos multivariadas. Sea {xi; i = 1, . . . , n} las observaciones de X correspon-dientes a una muestra aleatoria simple de la poblacion objeto en estudio.
Una clasificacion usando modelos, asume que los datos provienen de una funcionde densidad mixta dada por
φ(x) =
G∑k=1
τkφk(x), (1)
donde φk(x) es la funcion de densidad de las observaciones en el grupo k, τk es laprobabilidad de que una observacion haga parte de la componente k-esima (τk ∈(0, 1) y
∑Gk=1 τk = 1), G es el numero de grupos definidos. Cada componente es
usualmente modelada a partir de una funcion de densidad gausiana multivariada.Cada componente se caracteriza por un vector de medias μk y una matriz decovarianzas Σk, cuya funcion de densidad viene dada por
φk(xi;μk,Σk) = (2π)−p2 |Σk|− 1
2 exp
{−1
2(xi − μk)
′Σ−1k (xi − μk)
}. (2)
La matriz de covarianza Σk determina las caracterısticas geometricas tales comoforma, volumen, orientacion de cada uno de los grupos, a partir de la descompo-sicion espectral de la siguiente manera
Σk = λkDkAkD′k, (3)
donde Dk, es la matriz ortogonal de vectores propios, Ak es la matriz diagonalcuyos elementos son los valores propios de Σk, y λk es un valor escalar. La orien-tacion de las componentes principales de Σk es determinada por Dk, mientrasAk determina la forma de los contornos de densidad; λk especifica el volumencorrespondiente al elipsoide, proporcional a λd
k‖A‖, con d la dimension de losdatos.
Las caracterısticas de las distribuciones son usualmente estimadas a partir delos datos, y pueden variar entre conglomerado. Todas las parametrizaciones sonconsideradas en la Tabla 1. Por ejemplo, un modelo EVI denota un modelo en elcual el volumen de todos los conglomerados es igual (E “equal”), la forma de losconglomerados puede variar (V “varying”) y la orientacion es identica (I “iden-tity”) (Fraley et al. 2012).
La verosimilitud para los datos consiste en asumir que las n observaciones provie-nen de un modelo de mezclas finitas de G gausianas multivariadas, es decir
n∏i=1
G∑i=1
τkφk(xi;μk,Σk).
Para un numero fijo de componentes G, los parametros del modelo τk, μk, yΣk pueden ser estimados usando el algoritmo EM (Esperanza y Maximizacion)(Dempster et al. 1977).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
72 Hector Hortua & Alex J. Zambrano
Tabla 1: Parametrizaciones de la matriz de covarianzas Σk. Fuente: Fraley &Raftery, 1998.Identificacion Modelo Distribucion Volumen Forma OrientacionE (univariado) igualV (univariado) variableEII λI Esferica igual igual NAVII λkI Esferica variable igual NAEEI λA Diagonal igual igual ejes coordenadosVEI λkA Diagonal variable igual ejes coordenadosEVI λAk Diagonal igual variable ejes coordenadosVVI λkAk Diagonal variable variable ejes coordenadosEEE λDAD′ Elipsoidal igual igual igualEEV λDkAD′k Elipsoidal igual igual variableVEV λkDkAD′k Elipsoidal variable igual variableVVV λkDkAkD
′k Elipsoidal variable variable variable
3.1. Algoritmo EM
Siguiendo a Dasgupta & Raftery (1998), el algoritmo EM fue propuesto original-mente para obtener estimaciones de maxima verosimilitud en presencia de datosincompletos.
Entonces, para n observaciones provenientes de una funcion densidad mixta dadapor (1), los datos “completos” serıan yi = (xi, zi), donde zi = (zi1, . . . , ziG) para
zik =
{1 si la i-esima observacion pertenece al grupo k
0 en otro caso.(4)
El vector zi se distribuye multinomial con parametros (1; τ1, . . . , τG). Teniendo loanterior se tiene la funcion de logarıtmica de verosimilitud para “datos completos”dada por
�(y;μk,Σk) =
n∑i=1
G∑k=1
zik{log τk + log φk(xi;μk,Σk)}. (5)
Segun Fraley & Raftery (1998), el algoritmo comienza con una estimacion inicialde zik, a partir de (4). En el paso M se maximiza la funcion (5) con respecto a los
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 73
parametros
nk =
n∑i=1
zik,
τk =nk
n,
μk =
∑ni=1 zikxi
nk,
Σk depende de la forma dada en (3) (Celeux & Govaert 1995).
En el paso E se requiere la estimacion de zik mediante la formula de Bayes,
zik = pik =τkφk(xi; μk, Σk)∑Gl=1 τlφl(xi; μk, Σk)
, (6)
que es la probabilidad posterior de que xi pertenezca al grupo k-esimo. Este pro-ceso es iterativo hasta que converga.
3.2. Algoritmo CEM
Celeux & Govaert (1992), implementa el algoritmo de clasificacion EM llamadoCEM, el cual es una modificacion del algoritmo EM desarrollado especıficamentepara modelos de clasificacion. Este algoritmo consiste en adicionar un paso de C(clasificacion) en el paso E y el paso M. En el paso E se calcula pik segun (6). Elpaso C consiste en calcular
zik =
{1 para max{pij} (j = 1, . . . , G)
0 en otro caso,
esto implica que xi se clasifica en el grupo con mayor probabilidad. El paso Mimplica maximizar la funcion (5).
3.3. Determinando el numero de grupos
La clasificacion basada en modelos se basa en determinar que modelo es mejorpara las diferentes parametrizaciones de la matriz de covarianza dada por (3), yun numero G de grupos definido (Fraley & Raftery 1998).
El criterio de informacion Bayesiano (BIC) permite seleccionar el modelo que mejorse ajusta a los datos entre un conjunto finito de modelos (Schwarz 1978). El BICse calcula mediante la siguiente formula
2 log p(x | G) + c ≈ 2�(x; μk, Σk, G
)−mG log(n),
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
74 Hector Hortua & Alex J. Zambrano
donde p(x | G) es la probabilidad marginal de los datos observados dados en los G
grupos, �(x; μk, Σk, G
)es el valor maximo de la funcion de logarıtmica de verosi-
militud mixta para los G grupos y mG es el numero de parametros independientespara ser estimados en el modelo de G grupos. Para determinar cual modelo esmejor segun este estadıstico, se escoge el modelo que presente el valor mas grandedel BIC, entre todos los modelos evaluados, siendo este el que muestra el mejorajuste a los datos.
3.4. Estrategia de clasificacion basada en modelos
En la practica la clasificacion basada en modelos gausianos pueden ser buenasiempre y cuando se conozcan el numero de grupos a clasificar. Sin embargo, nosiempre se conocen los grupos. A continuacion siguiendo a Fraley & Raftery (1998)se describe la estrategia para definir los grupos a clasificar
Determine un numero maximo de grupos (G) a trabajar y un conjunto deparametrizaciones candidatas para el modelo gausiano mixto.
Realice clasificacion jerarquica para aproximar la clasificacion basada en mo-delos gausianos de cada grupo, y obtenga la aglomeracion correspondiente alos G grupos.
Aplique el algoritmo EM para cada cada uno de los modelos y cada numerode grupos 2, . . . , G, iniciando con la aglomeracion jerarquica.
Calcule el BIC para cada modelo y para el modelo mixto con los parame-tros optimos del EM para 2, . . . , G grupos. Esto da una matriz de valoresBIC correspondiente a cada posible combinacion de la parametrizacion y elnumero de grupos.
Grafique los valores BIC de cada modelo. El primer valor maximo local indicauna fuerte evidencia de un modelo (parametrizacion+numero de grupos).
4. Aplicacion
Inicialmente se realizo una breve descripcion de las variables y conjunto de datos autilizar. Posteriormente se realiza una identificacion de estrellas atıpicas. Despuesse utiliza la librerıa mclust creada por Fraley et al. (2012) del paquete estadısticoR Core Team (2013) a fin de clasificar las estrellas en diferentes grupos, para luegoidentificar la secuencia de estrellas que pertenecen al cumulo de las Hyades. Porultimo, se caracterizan los resultados estadısticamente y se elabora el diagramaH-R descrito en la seccion 2.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 75
4.1. Descripcion de los datos
Se utilizan 2678 estrellas del catalogo de Hipparcos (los datos fueron obtenidos enhttp://heasarc.gsfc.nasa.gov/W3Browse/all/hipparcos.html), bajo el cri-terio de que el angulo paralactico este entre 20◦ y 25◦ y el grupo de estrellas este auna distancia entre 40 y 50 pc. Ademas, no se tienen en cuenta estrellas que ca-rezcan de informacion en las variables utilizadas. En la tabla 2 se describen lasvariables para cada estrella obtenidas a traves de la base de datos de Hipparcos.
Tabla 2: Variables a utilizar. Fuente: elaboracion propia.Variable DescripcionVmag Magnitud de banda Visual.RA Ascension Recta (grados).DE Declinacion (grados).
Plx Angulo Paralactico (mas = milliarcsseconds).pmRA Movimiento propio en RA (mas/yr).pmDE Movimiento propio en DE (mas/yr).e Plx Error de medicion en Plx (mas).B-V Color de la estrella (mag).
De las variables anteriormente mencionadas, solamente se tendran en cuenta lasque estan relacionadas con los movimientos propios de las estrellas (pmRA, pm-DE). Para el diagrama H-R se tienen en cuenta el color (B-V), magnitud (Vmag)y angulo paralactico (Plx). Por ultimo, para procesos de filtros a partir de reglasde clasificacion se utilizaran las coordenadas espaciales de las estrellas (RA, DE).
4.2. Deteccion de estrellas atıpicas
Con los datos descritos anteriormente, se depura la base eliminando aquellas es-trellas cuyos movimientos propios no se comportan igual que el resto de estrellasdel conjunto..
En Brieva & Uribe (1985) se realiza un proceso de depuracion utilizando filtrospara una aplicacion similar al cumulo de estrellas NGC654, con el proposito dedetectar estrellas atıpicas. Tambien, Fraley & Raftery (2002) sugiere un metodoalternativo para detectar outliers. Por simpleza se utilizo el procedimiento pro-puesto por Johnson & Wichern (1998), el cual consiste en calcular la distancia deMahalanobis
d2i = (xi − x)′s−1(xi − x) i = 1, 2, . . . , n,
donde x y s son la estimacion del vector medias y la matriz de covarianzas demanera usual. Luego de tener todas las distancias estimadas de Mahalanobis detodos los valores se compara estos con un valor crıtico de la tabla de la distribucionp(n+1)(n−1)
n(n−p) F(1−α,p,n−p), donde p es el numero de variables, n el numero de obser-
vaciones y α = 1 − (1 − 0.0027)p. Para nuestro caso se encontraron 58 estrellas,
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
76 Hector Hortua & Alex J. Zambrano
las cuales se omitieron para este trabajo.
En la Figura 2, se observa el diagrama de dispersion de los movimientos propiosdel catalogo de estrellas sin observaciones atıpicas. Notese que los movimientospropios estan muy agrupados en la parte central, razon por la cual no se observaclaramente cuantos grupos de estrellas se lograrıan obtener.
Figura 2: Diagrama de dispersion de los movimientos propios de 2620 estrellas delcatalogo de Hipparcos sin observaciones atıpicas. Fuente: elaboracion propia.
En la tabla 3 se describen los resultados estadısticos de los movimientos propiosde este conjunto de estrellas.
Tabla 3: Resultados estadısticos de los movimientos propios. Fuente: elaboracionpropia.
pmRA pmDEMin. : -485.880 Min. : -493.1401st Qu.: -86.775 1st Qu.: -125.705Median : 11.120 Median : -48.285Mean : 7.064 Mean : -59.0923rd Qu.: 103.002 3rd Qu.: 8.287Max. : 486.920 Max. : 379.680
4.3. Clasificacion
Se encontro que el mejor modelo que representa los datos cuyas matrices de cova-rianzas estimadas son del tipo VEV y se maximiza con tres grupos (ver Figura 3).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 77
2 4 6 8
−66
300
−66
000
Number of components
BIC EII
VIIEEIVEIEVI
VVIEEEEEVVEVVVV
Figura 3: Calculo del Criterio de Informacion Bayesiano BIC para determinar elmodelo que mejor se ajusta a los datos. Fuente: elaboracion propia.
Con el resultado anterior se puede observar en la Figura 4 como se agrupan lasestrellas en los tres grupos segun sus movimientos propios.
Los tres grupos tienen distribuciones gausianas bivariadas totalmente diferentesen volumen y orientacion. Por otro lado se observa que las estrellas en el grupo decolor negro (clase 1, •) son las estrellas mas dispersas, mientras que las estrellasque se ubican en el grupo de color gris (clase 2, �) presentan menor dispersion.Sin embargo, las estrellas en el grupo del color mas claro (clase 3, �) presenta muypoca dispersion con respecto a los dos grupos de estrellas anteriores. Entonces setiene un grupo de estrellas (clase 3) mucho mas compacto en sus movimientospropios.
En la Figura 5 se observa la funcion de densidad de la mezcla de distribucionesgausianas bivariadas obtenidas. Se observa que la clase 3 es un grupo muy compac-to en sus movimientos propios, mientras que los otros grupos tienen una dispersionmas alta.
4.4. Caracterizacion de los grupos de estrellas obtenidos
Al utilizar este metodo se clasifican 1770 estrellas en la clase 1, 717 estrellas en laclase 2 y 133 estrellas en la clase 3. Cada clase tienen las siguientes probabilidadesτ1 = 0.678, τ2 = 0.280 y τ3 = 0.041. Las distribuciones de φ1, φ2 y φ3 tienenvectores de medias y matrices de covarianzas dadas en la tabla 4, donde notamosque las covarianzas de la clase 1 son las unicas positivas, mientras que las restantesson negativas. Por otro lado, las covarianzas de la clase 3 son mucho mas pequenasque los otros grupos de estrellas. Al calcular las correlaciones entre los movimientospropios de los grupos se observa que los valores son muy pequenos (0.034, -0.02, -
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
78 Hector Hortua & Alex J. Zambrano
Figura 4: Diagrama de dispersion de los movimientos propios segun los grupos declasificacion obtenidos. Fuente: elaboracion propia.
pmRA
pmD
E
−21
−20
−20
−20
−19
−19 −19
−19 −18
−18 −18
−18 −17
−17
−17
−16
−15
−14
−13
−12
−400 −200 0 200 400
−40
0−
200
020
040
0
log Density Contour Plot
pmR
A
pmDE
Density
Figura 5: Diagrama de los contornos de la funcion de densidad y grafico en 3D dela funcion de densidad obtenida. Fuente: elaboracion propia.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 79
0.09), lo cual corrobora que estos son independientes, como se esperaba fısicamente.
El diagrama de box-plot de la Figura 6, muestra que el grupo de estrellas de laclase 3 tiene muy poca dispersion. Por otro lado, tambien observamos que los tresgrupos tiene comportamientos muy simetricos.
Tabla 4: Vector de medias y matrices de covarianzas de las distribuciones de φ1,φ2 y φ3. Fuente: elaboracion propia.
pmRA pmDEμ′1 1.17 -68.67μ′2 6.72 -40.71μ′3 105.80 -26.71
Σ129581.58 822.32
822.32 19627.19
Σ26157.33 -86.53-86.53 4067.98
Σ393.95 -10.36-10.36 136.39
Figura 6: Diagrama de cajas de los movimientos propios segun grupos de clasifi-cacion. Fuente: elaboracion propia.
En la tabla 5 se describen los estadısticos descriptivos de los movimientos propiosde cada uno de los grupos obtenidos.
Observese que los coeficientes de asimetrıa y curtosis son cercanos a 0, esto nosda entender que los movimientos propios en cada grupo tienden a ser simetri-cos. El coeficiente de variacion resulta ser mas alto en el grupo 1, lo cual indicaque los movimientos propios tiene mucha mas variacion en este grupo. Mientras,que el grupo 3, el coeficiente de variacion es mucho mas pequeno, indicando unadispersion mınima en este grupo de estrellas.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
80 Hector Hortua & Alex J. Zambrano
Tabla 5: Estadısticos de los movimientos propios en Declinacion (pmDE) y As-cension Recta (pmRA). Fuente: elaboracion propia.
Variable: pmDEGrupos Media Desviacion IQR variacion asimetrıa curtosis n
1 -71.452 144.708 198.578 2.025 0.102 -0.071 17702 -34.477 41.400 68.770 1.201 0.020 -0.987 7173 -27.298 11.147 14.640 0.408 -0.112 -0.354 133
Variable: pmRAGrupos Media Desviacion IQR variacion asimetrıa curtosis n
1 -0.498 174.736 267.618 351.162 0.088 -0.567 17702 7.347 48.643 77.130 6.621 -0.030 -0.946 7173 106.174 9.197 11.940 0.087 -0.051 -0.277 133
Se ha encontrado ademas que los movimientos propios, tiene una menor dispersionen la clase 3. De esta forma se entiende que todas las estrellas en esta clase tienenpoca variabilidad. Desde el punto de vista estelar, indica que las estrellas de estegrupo, pertenecen al cumulo abierto de las Hyades. Por otra parte, en la clase 1 seencuentra una alta variabilidad en los movimientos propios. Esto indica que cadauna de estas estrellas pertenece al background o foreground del cumulo. Por ultimo,en la clase 2 se observa una gran dispersion respecto a la clase 3 pero menor ala clase 1. De esta forma se llega a un resultado importante, ya que a traves deeste grupo se obtiene una especie de datos atıpicos que indican un sesgo de estasestrellas a pertenecer o no al cumulo. Analizando este grupo se encuentra quealgunas estrellas pueden pertenecer al cumulo, pero debido a sus caracterısticasque difieren del resto de estrellas, no pudieron ser categorizadas como clase 3, esdecir, estrellas tales como gigantes, sistemas binarios, entre otros.
4.5. Diagrama H-R
Despues de encontrar las estrellas que pertenecen al cumulo de Hyades usando elmetodo estadıstico mencionado anteriormente, se procede a ubicar estas estrellasen el diagrama H-R. El resultado obtenido se muestra en la figura 7.
La luminosidad fue calculada usando la expresion dada por
log(L) = (15−Vmag− 5 · log10(Plx))/2.5. (7)
En este diagrama se observa que el cumulo de las Hyades contiene cuatro estrellasdel grupo de las gigantes rojas, las cuales se encuentran localizadas en la partesuperior del diagrama.
Por otra parte, el cumulo contiene en su mayorıa estrellas en la secuencia princi-pal, indicando que este es un cumulo joven (635 millones de anos). En el diagramase muestra con cırculos grandes las estrellas del grupo tres obtenidas durante laclasificacion y de las cuales se concluyen altamente pertenecientes al cumulo. Lasestrellas mostradas en este grupo concuerdan con los resultados encontrados por
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 81
Figura 7: Diagrama H-R obtenido para estrellas pertenecientes al cumulo de Hya-des. Fuente: elaboracion propia.
Perryman et al. (1998). Para el grupo dos, se realizara un filtro o un analisis es-tadıstico adicional para determinar si algunas estrellas de este grupo, pertenecenal cumulo de las Hyades. Algunas estrellas de este grupo tienen movimientos pro-pios estadısticamente diferentes respecto al conjunto, debido a su masa o tambiena que forman sistemas binarios. El grupo restante simplemente experimenta unadispersion grande en sus movimientos propios indicando una gran variabilidad ypor tanto no pertenecen al cumulo.
4.6. Construccion de filtros y comparacion
En la Figura 8 se consideran las variables (RA, DE) de las 717 estrellas del grupo2 y 133 del grupo 3 durante el proceso de clasificacion.
Se observa la posicion donde se encuentra el cumulo de las Hyades, de esta formase puede pensar en un filtro a partir de reglas de clasificacion para determinarlas estrellas en el cumulo de las Hyades. Para ello se implementa un arbol declasificacion con la funcion rpart de la librerıa mvpart creada por De’ath (2013)del paquete estadıstico R Core Team (2013)2. Las variables implementadas en elarbol de clasificacion son (RA, DE), donde se determina si la estrella pertenece ono al cumulo de las Hyades encontradas en el proceso de clasificacion.
En la Figura 9 se observa que la gran mayorıa de las estrellas del cumulo de lasHyades se ubican en el nodo 9. Siguiendo el recorrido del arbol se encuentra que60.54 ≤ RA < 72.97 y 10.46 ≤ DE < 22.93.
2Para la visualizacion se utiliza la librerıa partykit creada por Hothorn & Zeileis (2013).
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
82 Hector Hortua & Alex J. Zambrano
Figura 8: Diagrama de dispersion de las variables (RA, DE) segun pertenencia alcumulo de las Hyades. Fuente: elaboracion propia.
Figura 9: Arbol de clasificacion de las variables (RA, DE) segun pertinencia alcumulo de las Hyades. Fuente: elaboracion propia.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 83
En la Tabla 6, se muestra que solo 5 estrellas que pertenecıan al grupo dos puedenser catalogadas como estrellas del cumulo de las Hyades. Por otro lado, de las133 estrellas del cumulo de Hyades, solo 91 estrellas se encuentran con los filtrosimplementados. La tasa de error de clasificacion es de 5.5%.
Tabla 6: Matriz de confusion de la clasificacion segun filtros implementados. Fuen-te: elaboracion propia.
Predicion/Hyades Falso VerdaderoFalso 712 42
Verdadero 5 91
En Perryman et al. (1998) se realiza un estudio observacional del cumulo de lasHyades basado en distancias, estructuras, dinamicas y edad de las estrellas perte-necientes a este cumulo. Para ello implementa la lectura de una muestra de 282estrellas del catalogo de Hipparcos.
Teniendo en cuenta la ecuacion de la funcion de densidad mixta dada por (1), ylos parametros estimados en la clasificacion obtenida dados en la seccion 4.4, seclasifican estas estrellas utilizando la ecuacion (6) y los filtros a partir de la reglasde clasificacion descritos en la seccion 4.6, para comparar los resultados. Para ellose implementa la lectura de las variables anteriormente mencionadas para estanueva muestra utilizando el numero de la estrella en el catalogo de Hipparcos(HIP)3.
En el diagrama H-R mostrado en la Figura 10 se observa cinco grupos, los cualesse describen a continuacion:
El grupo denominado FALSE, son aquellas 54 estrellas que tanto en la pro-puesta como en el trabajo de Perryman et al. (1998) no se consideran per-tenecientes al cumulo de las Hyades.
El grupo denominado Perryman, son 71 estrellas detectadas por Perrymanet al. (1998) las cuales se consideran del cumulo de Hyades; en nuestro trabajono se consideran del cumulo de las Hyades.
El grupo denominado como Propuesta-0, son veintiun estrellas las cualesse proponen como falsas; en el trabajo de Perryman et al. (1998) no secatalogaron.
El grupo denominado como Propuesta-1, son diez estrellas las cuales seproponen pertenecientes al cumulo de las Hyades; en el trabajo de Perrymanet al. (1998) eran falsas.
El grupo denominado como TRUE, son 126 estrellas las cuales se considerandel cumulo de las Hyades tanto en la propuesta de este trabajo como en el
3Si el lector desea ver los resultados intermedios se recomienda ver el blog Bitacoras enEstadıstica. http://experienceinstatistics.blogspot.com/
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
84 Hector Hortua & Alex J. Zambrano
Figura 10: Diagrama H-R obtenido para estrellas pertenecientes al cumulo deHyades comparando los resultados obtenidos para el conjunto de Perryman et al.(1998). Fuente: elaboracion propia.
trabajo de Perryman et al. (1998). Este ultimo grupo es el mas numeroso,indicando una alta concordancia entre las dos tecnicas.
5. Conclusiones
En este artıculo se estudia una de las aplicaciones de la estadıstica en el area de laastronomıa, utilizando un metodo de clasificacion usando modelos gaussianos. Elobjetivo principal del trabajo era encontrar la pertenencia de estrellas al cumulode las Hyades analizando el movimiento propio de las estrellas. Los datos fuerontomados de la base de datos de Hipparcos. Usando el metodo de clasificacion seencontro tres grupos en los cuales de acuerdo a la dispersion en los movimientospropios, se catalogo como perteneciente y no perteneciente al cumulo. El primergrupo contiene 133 estrellas cuya correlacion en sus velocidades es muy alta, indi-cando una alta probabilidad de pertenencia al cumulo. El segundo grupo contiene717 estrellas donde la dispersion es mas alta, sin embargo, algunas de estas estrellastiene un movimiento propio similar al primer grupo. Esto indica que los miembrosde dicho grupo puede ser catalogado como outliers, por lo tanto el uso de algunosfiltros a partir de la reglas de clasificacion en la ascension recta (RA), declinacion(DE) y variable e Plx deben ser impuestos a este grupo para poder catalogar lasestrellas que pueden pertenecer al cumulo. Para ello, se uso las variables (RA, DE)para la realizacion de un filtro a partir de las reglas de clasificacion impuestas conarbol de clasificacion con la funcion rpart. Con este filtro se encontro que solo 5estrellas que pertenecıan al grupo dos pueden ser catalogadas como estrellas del
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 85
cumulo de las Hyades. Por otro lado, de las 133 estrellas, solo 91 estrellas per-teneces al cumulo de las Hyades. Por ultimo, el tercer grupo contiene una grandispersion en los datos de movimientos propios indicando que los miembros de estegrupo no pertenecen al cumulo. Despues de determinar cuales estrellas pertenecenal cumulo se elaboro el diagrama H-R para estas estrellas encontrando la figura7. En este grafico se observa que la mayorıa de estas estrellas siguen la secuenciaprincipal (lugar donde se encuentran la mayor parte de su vida), concluyendo queeste cumulo es joven. Se observan algunas estrellas atıpicas (outliers) que se ubi-can fuera de la secuencia principal y que corresponde a las gigantes rojas. Por otraparte, al comparar los resultados obtenidos, junto con los encontrados en la litera-tura, se puede decir que el metodo de clasificacion basada en modelos gaussianoses bastante util para determinar la pertenencia de estrellas en cumulos abiertos yse pueden clasificar de forma adecuada datos que sean compactos en sus variablesde estudio. Como trabajos futuros se pretende utilizar otro tipo de tecnicas declasificacion parametricas y no parametricas y comparar los resultados con los ob-tenidos en este trabajo. Tambien se pretendera aislar la secuencia principal de lasHyades en el diagrama H-R y determinar su ajuste mediante tecnicas de regresionno parametrica.
Agradecimientos
Los autores agradecen al profesor Antonio Uribe y a la profesora Luz Angela Garcıapor sus importantes aportes y comentarios a este trabajo. El trabajo fue elaboradoen el semillero de investigacion en Astronomıa, de la Fundacion Universitaria losLibertadores.
Recibido: 22 de enero de 2014Aceptado: 30 de abril de 2014
Referencias
Ball, N. M. & Brunner, R. J. (2010), ‘Data mining and machine learning in astro-nomy’, International Journal of Modern Physics D 19(07), 1049–1106.
Brieva, E. & Uribe, A. (1985), ‘Una aplicacion del metodo de maxima verosimilituden astronomıa galactica’, Revista Colombiana de Estadıstica 12, 1–25.
Celeux, G. & Govaert, G. (1992), ‘A classication em algorithm for clustering andtwo stochastic versions’, Computational Statistics and Data Analysis 14, 315–332.
Celeux, G. & Govaert, G. (1995), ‘Gaussian parsimonious clustering models’, Pat-tern Recognition 28, 781–793.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
86 Hector Hortua & Alex J. Zambrano
Chilingarian, A. A. & Vardanyan, A. A. (2003), ‘Multivariate methods of da-ta analysis in cosmic-ray astrophysics’, Nuclear Instruments and Methods inPhysics Research Section A: Accelerators, Spectrometers, Detectors and As-sociated Equipment 502(2), 787–788.
Dasgupta, A. & Raftery, A. E. (1998), ‘Detecting features in spatial point processeswith clutter via model-based clustering’, Journal of the American StatisticalAssociation 93(441), 294–302.
De’ath, G. (2013), mvpart: Multivariate partitioning.URL: http://CRAN.R-project.org/package=mvpart
Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), ‘Maximum likelihood fromincomplete data via the em algorithm’, Journal of the Royal statistical Society39(1), 1–38.
Everitt, B. S., Landau, S., Leese, M. & Stahl, D. (2011), Cluster Analysis, 5 edn,Wiley.
Feigelson, E. D. & Babu, G. J. (2012), Modern Statistical Methods for Astronomy:with R applications, Cambridge: University Press.
Fraley, C. & Raftery, A. E. (1998), ‘How many clusters? which clustering method?answers via model-based cluster analysis’, The computer journal 41(8), 578–588.
Fraley, C. & Raftery, A. E. (2002), ‘Model-based Clustering, Discriminant Analy-sis and Density Estimation’, Journal of the American Statistical Association97, 611–631.
Fraley, C., Raftery, A. E., Murphy, T. B. & Scrucca, L. (2012), mclust version 4for R: Normal Mixture Modeling for Model-Based Clustering, Classification,and Density Estimation, (technical report no. 597), Department of Statistics,University of Washington.
Hobson, M. P., Jaffe, A. H., Liddle, A. R., Mukherjee, P. & Parkinson, D. (2010),Bayesian Methods in Cosmology, Cambridge: University Press.
Hothorn, T. & Zeileis, A. (2013), partykit: A Toolkit for Recursive Partytioning.URL: http://CRAN.R-project.org/package=partykit
Johnson, R. & Wichern, D. (1998), Applied Multivariate Statistical Analysis, 4edn, New Jersey: Prentice Hall.
Karttunen, H., Kroger, P. & Oja, H. (2007), Fundamental astronomy, 5 edn, NewYork: Springer.
Liddle, A. R. (2009), ‘Statistical methods for cosmological parameter selection andestimation’, Annual Review of Nuclear and Particle Science 59(1), 95–114.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Metodos de clasificacion en astronomıa 87
Loredo, T. J. (2012), ‘On the future of astrostatistics: statisti-cal foundations and statistical practice’, arXiv preprint, ar-Xiv:1208.3035,http://arxiv.org/abs/1208.3035 .
Perryman, M. A. C., Brown, A. G. A., Lebreton, Y., Gomez, A., Turon, C., Cay-rel de Strobel, G., Mermilliod, J. C., Robichon, N., Kovalevsky, J. & Crifo,F. (1998), ‘The Hyades: distance, structure, dynamics, and age’, Astronomyand Astrophysics 331, 81–120.
R Core Team (2013), R: A Language and Environment for Statistical Computing,R Foundation for Statistical Computing, Vienna, Austria.URL: http://www.R-project.org/
Sarro, L. M., Eyer, L., O’Mullane, W. & De Ridder, J. (2012), Astrostatistics andData Mining, Vol. 2, New York: Springer.
Schwarz, G. (1978), ‘Estimating the dimension of a model’, The Annals of Statistics6, 461–464.
Uribe, A., Barrera-Rojas, R.-S. & Brieva, E. (2008), ‘Membership in the regionof the open cluster m67 via the expectation maximization algorithm and agedetermination using a bag of basti isochrones’, Memorias, COCOA 1, 88–93.
Vaughan, S. (2013), ‘Random time series in astronomy’, Philosophical Transac-tions of the Royal Society A: Mathematical, Physical and Engineering Scien-ces 371, 371–399.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estadıstica
Junio 2014, Vol. 7, No. 1, pp. 89–98
Transformaciones logarıtmicas en regresion simple
Logarithmic transformations in simple regression analysis
Jorge Ortiz Pinillaa
[email protected] Gilb
Resumen
En este artıculo se investiga los efectos de las transformaciones logarıtmicas en un
analisis de regresion simple. En la practica, es muy comun que los parametros de
los modelos conocidos como exponencial y potencial se estimen de manera habi-
tual mediante una transformacion logarıtmica, que los reduce a modelos lineales
y se “regresa” al modelo original aplicando la funcion exponencial a la estimacion
del intercepto. En este trabajo se encuentra que este procedimiento no genera es-
timadores de mınimos cuadrados para el modelo inicial e introduce variaciones en
la forma como se conciben las relaciones entre las variables. La popularidad de las
herramientas de analisis hace que el riesgo de utilizar modelos que no correspon-
dan a los datos pase desapercibido.
Palabras clave: modelo exponencial, modelo potencial, mınimos cuadrados, re-
gresion no lineal, modelos de regresion.
Abstract
In this paper the effect of the logarithmic transformations in simple regression
analysis is investigated. In practice, it is very common that exponential and power
models’ parameters are estimated by means of a logarithmic transformation which
reduces them to a linear form. The estimations in the initial models are obtained
by applying the exponential function to the intercept estimation. In this work,
it is found that this procedure does not generate least squares solutions for the
initial model and introduces variations in the way in which relationships between
variables are conceived. Because of the popularity of software tools, the risk of
using inappropriate models for the data may be unnoticed.
Keywords: exponential model, power model, least squares, non linear regression,
regression models.
aDocente. Facultad de Estadıstica, Universidad Santo Tomas, Colombia.bEstudiante, Carrera de Estadıstica, Universidad Santo Tomas, Colombia.
89
90 Jorge Ortiz Pinilla & Diana Gil
1. Introduccion
Una practica comun en las aplicaciones de los metodos de regresion consiste en
buscar transformaciones que permitan construir modelos lineales para describir
las relaciones entre las variables. La mayorıa de los textos basicos hacen esta reco-
mendacion y dan por resuelto el problema. Por ejemplo, Mendenhall & McClave
(1981, p. 259) escriben
When the transformed model is used to predict the value of log y, the
predicted value of y is the antilog, y = elog y.
Walpole et al. (2012), en el ejemplo 11.9 de la pagina 426, utilizan el mismo
procedimiento de transformar con logaritmos tanto la presion como el volumen de
un gas para estudiar empıricamente la ley del gas ideal. Despues de obtener los
coeficientes del modelo transformado, calculan la funcion exponencial al intercepto
para “regresar” a la forma original del modelo potencial.
Las referencias anteriores han tenido un alto impacto en la ensenanza de la es-
tadıstica en carreras universitarias como ingenierıa, fısica, quımica y economıa.
Una de ellas data de 1981 y la otra de 2012. Durante este periodo, la estadıstica
se ha consolidado como herramienta de uso cotidiano y masivo entre los investiga-
dores, gracias al desarrollo de las computadoras personales y a la disponibilidad
de software que incorpora procedimientos de analisis de datos. Por otra parte, las
hojas electronicas y las calculadoras cientıficas que incluyen analisis de regresion
aplican el procedimiento descrito como la unica opcion: se transforma el modelo en
uno lineal, se obtienen las estimaciones de los parametros por el metodo de mıni-
mos cuadrados y se reconstruye el modelo original aplicando la transformacion
inversa (exponencial) a los elementos que corresponda.
En estas circunstancias, el analista utiliza las herramientas y obtiene resultados
sin ninguna senal de alerta que le advierta sobre el riesgo de tomar decisiones, con
base en modelos que no describan en forma adecuada las tendencias de la nube de
puntos. La popularidad de estas herramientas hace masivo el riesgo.
Por tratarse de la funcion logarıtmica que es una transformacion estrictamente
monotona creciente, efectivamente el modelo transformado es equivalente al mo-
delo original. Esto garantiza una interpretacion adecuada de los coeficientes con
el debido cuidado de las transformaciones requeridas.
No sucede lo mismo con las estimaciones de los parametros. Unas resultan de mi-
nimizar la suma de cuadrados de los errores del modelo en las unidades originales
utilizadas para tomar los datos, y otras, en unidades logarıtmicas que atribuyen
menor importancia a las diferencias entre los valores mas grandes de la variable.
Como consecuencia, el metodo de mınimos cuadrados aplicado al modelo transfor-
mado no produce estimaciones de mınimos cuadrados para el modelo original. Por
lo tanto, el resultado obtenido puede ser inadecuado para pronosticar la respuesta
esperada a partir de valores especıficos de la variable X .
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Transformaciones logarıtmicas en regresion simple 91
El proposito de este artıculo es comparar los metodos que se utilizan para obtener
las estimaciones de mınimos cuadrados de los modelos exponencial y potencial
de manera directa con los que se basan en transformaciones logarıtmicas. Como
criterio de comparacion se toma la suma de cuadrados residual, como indicador
de la bondad del ajuste del modelo a los datos observados.
2. Modelo exponencial
Cuando el modelo planteado es de la forma
y = β0eβ1x (1)
las estimaciones de mınimos cuadrados se obtienen buscando b0 y b1 correspon-
dientes al menor valor de la funcion
g(b0, b1) =
n∑i=1
(yi − b0e
b1xi)2
(2)
Se deriva g(b0, b1) con respecto a b0 y a b1 y luego se iguala a cero cada derivada:
∂g(b0, b1)
∂b0
= −2
n∑i=1
(yi − b0e
b1xi)eb1xi
Entonces:
b0 =
n∑i=1
yieb1xi
n∑i=1
e2b1xi
(3)
Haciendo lo mismo para b1,
∂g(b0, b1)
∂b1
= −2
n∑i=1
(yi − b0e
b1xi)b0e
b1xixi
n∑i=1
xiyieb1xi − b0
n∑i=1
xie2b1xi = 0
Reemplazando b0 por la expresion obtenida en (3), se llega a la siguiente ecuacion
que solo tiene b1 como incognita:
n∑i=1
xiyieb1xi −
(∑yie
b1xi∑e2b1xi
) n∑i=1
xie2b1xi = 0 (4)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
92 Jorge Ortiz Pinilla & Diana Gil
La complejidad de esta ecuacion solo permite encontrar sus soluciones por meto-
dos numericos. Si las denotamos como β0 y β1, el modelo ajustado por mınimos
cuadrados directos es:
y = β0 e
˜β1 x (5)
Las estimaciones mediante la transformacion logarıtmica se obtienen llevando el
modelo (3) al equivalente:
y∗ = β
∗0+ β
∗1x∗ (6)
en donde
y∗ = ln(y), β
∗0= ln(β0), β
∗1= β1 , x
∗ = x (7)
Como (6) es un modelo lineal, las estimaciones de β0 y β1 son:
b∗1
=cov(x∗, y∗)
var(x∗)(8)
b∗0
= y∗ − b
∗1x∗ (9)
Segun las sugerencias de los autores citados, se “regresa” al modelo original (1)
aplicando las transformaciones inversas acordes con (7):
y = ey∗, b0 = e
b∗0 , b1 = b∗1, x = x
∗ (10)
es decir,
y = eb∗0 e
b∗1 x (11)
Los dos procedimientos proveen soluciones diferentes. Resulta claro que si el pri-
mero es de mınimos cuadrados para el modelo original, el segundo no lo es. Por lo
tanto, si se pasa al plano inferencial, los estimadores de los parametros del modelo
exponencial, obtenidos mediante la transformacion logarıtmica no son de mınimos
cuadrados para el modelo original.
El siguiente ejemplo sirve para ilustrar la situacion planteada:
Ejemplo 2.1. Los siguientes datos fueron obtenidos de un modelo de la forma(1):
x y
6.7 77.414.9 440.27.0 34.05.2 119.87.6 102.6
18.7 2287.011.4 177.39.5 65.0
17.1 1273.18.5 124.1
x y
7.2 38.311.3 101.614.7 457.77.7 4.18.3 24.9
17.0 1186.410.8 109.518.1 1818.212.0 149.29.3 94.5
x y
16.1 743.44.7 38.97.6 9.8
13.8 234.518.7 2367.911.8 167.85.3 24.2
17.0 1201.419.2 2892.612.0 135.4
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Transformaciones logarıtmicas en regresion simple 93
En la grafica 1, el modelo construido con la transformacion logarıtmica se dibujacon trazos discontinuos y el obtenido por mınimos cuadrados directos con una curvacontinua. Desde el punto de vista de los datos, el primero presenta un desajusteimportante en los valores mas grandes y no describe adecuadamente la tendenciade la nube de puntos.
5 10 15
0
500
1000
1500
2000
2500
3000
x
y
Figura 1: Ajuste de un modelo exponencial por mınimos cuadrados directos (lıneacontinua) y por linealizacion mediante transformacion logarıtmica de la variableY (lınea discontinua). Fuente: elaboracion propia.
Las estimaciones y las sumas de cuadrados residuales en la tabla siguiente mues-tran diferencias importantes en estos valores. En particular, la suma de cuadradosresidual del modelo estimado por transformacion logarıtmica es mas de 24 veces lade mınimos cuadrados.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
94 Jorge Ortiz Pinilla & Diana Gil
b0 b1 Suma de cuadrados residualMınimos cuadrados 1.098125 0.4099219 61709.12Transformacion Log. 3.598670 0.3319955 1484642.58
En el modelo exponencial los errores son de la forma:
ε = Y − β0eβ1x (12)
mientras que en el modelo transformado son:
ε = ln(Y )− ln(β0eβ1x)
= ln(
Y
β0eβ1x
)(13)
Por otra parte, el supuesto de normalidad de los errores trae consecuencias muy
diferentes para los dos procedimientos. En el caso de los mınimos cuadrados direc-
tos, los errores son de caracter aditivo para Y y Y ∼ N(β0eβ1x
, σ2). En el modelo
transformado, son aditivos para ln(Y ), es decir, multiplicativos para Y . Si se asu-
me que ε ∼ N(0, σ2), entonces de (13) se deduce queY
β0eβ1x
tiene distribucion
log-normal con valor esperado eσ2/2 y varianza e
σ2
(eσ2
− 1). Por lo tanto, la dis-
tribucion de Y bajo el modelo transformado es log-normal con media β0eβ1x+σ2/2
y varianza (eσ2
− 1)e2 ln β0+2β1x+σ2
.
Es claro que, dependiendo del procedimiento que se utilice, se ajustan modelos
diferentes en cuanto al papel que cumplen los errores y a los supuestos acerca de
su distribucion, y en cuanto a las consecuencias que traen sobre la distribucion
condicional de la variable dependiente.
3. Modelo potencial
El modelo se llama potencial cuando la relacion entre las variables es de la forma:
y = β0xβ1 (14)
Igual que para el modelo exponencial, las estimaciones de mınimos cuadrados se
obtienen buscando b0 y b1 correspondientes al menor valor de la funcion
g(b0, b1) =
n∑i=1
(yi − yi
)2
=
n∑i=1
(yi − b0x
b1i
)2
(15)
Se aplica el metodo tradicional de derivarla con respecto a b0 y a b1 y luego igualar
a 0 cada derivada:
∂g(b0, b1)
∂b0
= −2
n∑i=1
bigl(yi − b0xb1i
)xb1i (16)
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Transformaciones logarıtmicas en regresion simple 95
Entonces:
b0 =
∑yix
b1i∑
x2b1i
(17)
Haciendo lo mismo para b1,
∂g(b0, b1)
∂b1
= −2
n∑i=1
(yi − b0x
b1i
)b0x
b1i log(xi) (18)
n∑i=1
yixb1i log(xi)− b0
n∑i=1
x2b1i log(xi) = 0 (19)
Reemplazando b0, se obtiene la siguiente ecuacion que se resuelve por metodos
numericos para encontrar el valor de b1.
n∑i=1
yixb1i log(xi)−
(∑yix
b1i∑
x2b1i
) n∑i=1
x2b1i log(xi) = 0 (20)
Ejemplo 3.1. Los datos siguientes son utilizados por Walpole et al. (2012, ejem-plo 11.9, p.420) para ilustrar el uso de la regresion potencial. Segun la ley del gasideal, PV
γ = C, donde P es la presion, V es el volumen y C y γ son constan-tes por estimar. En el ejemplo, P es la variable dependiente y V es la variableindependiente. C asume el papel de β0 y γ el de β1 en el modelo potencial y susestimaciones se denotan como b0 y b1.
x (Volumen) 50 60 70 90 100y (Presion) 64.7 51.3 40.5 25.9 7.8
b0 b1 Suma de cuadrados residualLineal 116.1616 -1.055698 37.53616Mın.Cuadr 112451.3806 -1.894926 164.33431Transf.Log 2568862.8877 -2.653472 399.26979
Aunque las diferencias en las sumas de cuadrados residuales no son tan grandescomo en el ejemplo de la regresion exponencial, la obtenida con el procedimientode la transformacion logarıtmica es mas del doble de la de mınimos cuadradosdirectos.
Se incluyo un ajuste lineal que curiosamente arroja una suma de cuadrados resi-dual menor que las de los modelos potenciales. Este resultado sirve para advertirque no siempre el mejor ajuste corresponde a la respuesta mas adecuada. La orien-tacion del analisis estadıstico debe tener sus bases en los aspectos teoricos de ladisciplina respectiva. Por otra parte, los puntos observados son seguramente in-suficientes para garantizar estimaciones adecuadas de las constantes que indica laley del gas ideal.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
96 Jorge Ortiz Pinilla & Diana Gil
50 60 70 80 90 100
10
20
30
40
50
60
Volumen
Pre
sión
Figura 2: Ajuste de un modelo potencial por mınimos cuadrados directos (lıneacontinua) y por linealizacion mediante transformacion logarıtmica de la variable Y
(lınea discontinua). En color gris claro se muestra el modelo lineal que se comentaen el texto. Fuente: elaboracion propia.
Los comentarios del final de la seccion anterior son validos para el modelo po-
tencial. Cuando se aplica el metodo directo de mınimos cuadrados, se considera
que los errores son de la forma ε = Y − β0 xβ1 , es decir, son aditivos. Cuando se
emplea el metodo de la transformacion logarıtmica, los errores se calculan como
ε = ln(Y )− ln(β0 xβ1) = ln
(Y
β0 xβ1
), es decir que son de caracter multiplicativo.
Igualmente, si en un contexto inferencial se asume que ε ∼ N(0, σ2), entonces para
los mınimos cuadrados directos, la variable Y tiene distribucion normal condicio-
nal para cada x, mientras que para la transformacion logarıtmica la distribucion
condicional de Y para cada x es de tipo log-normal.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Transformaciones logarıtmicas en regresion simple 97
4. Conclusiones
1. La aplicacion de transformaciones sobre la variable dependiente en los mode-
los con el fin de linealizarlos no conduce a soluciones de mınimos cuadrados.
2. Algunos residuos del modelo pueden resultar falsamente atıpicos.
3. La proporcion de varianza explicada por el modelo puede ser un indicador
inadecuado de la bondad de ajuste.
4. Dependiendo del procedimiento que se utilice, se ajustan modelos diferentes
en cuanto al papel que cumplen los errores y a los supuestos acerca de su
distribucion y en cuanto a las consecuencias que traen sobre la distribucion
condicional de la variable dependiente.
4.1. Recomendaciones
1. La observacion rutinaria de la grafica de puntos con la curva del modelo es
fundamental para ver su calidad.
2. Si se trata de ejercicios de interpolacion dentro del rango de los datos ob-
servados, el procedimiento de mınimos cuadrados directos es mas adecuado
que el de la transformacion logarıtmica.
3. El uso de software no especializado en estadıstica debe ser especialmente
cuidadoso, en particular, las hojas electronicas y las calculadoras cientıficas.
4. En la actualidad, tanto el desarrollo teorico como el computacional permiten
dar respuesta adecuada a la busqueda de modelos conocidos como linealiza-
bles.
4.2. Otros estudios
1. El estudio de propiedades generadas en funcion de supuestos distribucionales
para los errores del modelo, en particular el insesgamiento.
2. La comparacion de los procedimientos cuando se utiliza el metodo de maxima
verosimilitud para estimar los parametros.
3. Las implicaciones del uso de los procedimientos en problemas de regresion
multiple.
4. El uso de otros criterios de comparacion que exigen supuestos distribuciona-
les para los errores, como AIC de Akaike.
5. El estudio de las transformaciones para otros modelos no lineales entre va-
riables, como las de la familia Box-Cox.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
98 Jorge Ortiz Pinilla & Diana Gil
Agradecimientos
Los autores agradecen a los evaluadores la dedicacion y el cuidado en la lectura
del artıculo y los comentarios que permitieron corregir algunos errores y mejorar
el contenido.
Recibido: 21 de marzo de 2014
Aceptado: 28 de abril de 2014
Referencias
Mendenhall, W. & McClave, J. (1981), A Second Course in Business Statistics:Regression Analysis, Dellen Publishing Company, Santa Clara, California.
Walpole, R., Myers, R., Myers, S. & Ye, K. (2012), Probability & Statistics forEngineers & Scientists, Prentice Hall, New York.
Comunicaciones en Estadıstica, junio 2014, Vol. 7, No. 1
Revista Comunicaciones en Estadıstica
Informacion para los autores
La revista Comunicaciones en Estadıstica es una publicacion del Centro de Inves-
tigaciones y Estudios Estadısticos (CIEES) adscrito a la Facultad de Estadıstica
de la Universidad Santo Tomas. La periodicidad de esta revista es semestral, el
primer numero se publica en junio y el segundo en diciembre, de cada ano. El
objetivo de esta publicacion es divulgar artıculos originales e ineditos en cualquier
tematica de la estadıstica teorica y aplicada. La finalidad de esta revista es mo-
tivar la cultura de la investigacion estadıstica, y por ende, su publico objetivo
esta en todos aquellos investigadores que utilicen cualquier metodo estadıstico en
el desarrollo de sus proyectos.
La revista Comunicaciones en Estadıstica publica artıculos originales teoricos,
aplicaciones de tecnicas estadısticas en cualquier rama del saber que conlleven a
publicaciones ineditas ası como tambien, cartas al editor surgidas de la discusion
de artıculos ya publicados en esta Revista. A continuacion se presentan algunas
de las caracterısticas principales del proceso editorial en esta publicacion.
Sumision de artıculos
El Comite Editorial de la revista Comunicaciones en Estadıstica sugiere que el for-
mato de los artıculos sometidos sea PDF y preferiblemente en tamano carta. Los
autores deben enviar una version ciega del manuscrito, sin ninguna informacion
de la identidad o afiliacion de estos, usando la plantilla disponible en la pagi-
na webhttp://comunicacionesenestadistica.usta.edu.co/ de la revista. Los
artıculos deberan ser adjuntados y enviados a la direccion de correo electronico1
oficial de la revista y seran socializados por el Editor en el Comite Editorial.
Contenido
La revista Comunicaciones en Estadıstica publica la siguiente clase de artıculos:
Aplicaciones y estudios de caso que presenten analisis estadısticos innovado-
res o implementen ejercicios empıricos para evaluar tecnicas estadısticas en
situaciones particulares reales o simuladas.
Nuevas contribuciones teoricas o metodologicas que conlleven al desarrollo
de procedimientos, algoritmos y metodologıas ineditas desde el punto de
vista teorico. Tambien se incluyen procedimientos computacionales y graficos
ilustrados mediante una aplicacion practica en el caso en que hubiese lugar
para tal implementacion.
Revision exhaustiva de tematicas estadısticas en areas de aplicacion practica
o en campos especıficos de metodos y teorıa estadıstica.
Cartas al editor y correcciones mediante escritos directos y concisos acerca
de la discusion o correccion de algun artıculo publicado con antelacion en
esta revista.
Tıtulo y resumen
El tıtulo del artıculo debe ser especıfico, asimismo, cada artıculo sometido debe
contener un resumen de no mas de 400 palabras y no se deben citar ninguna clase
de referencias bibliograficas en el resumen. Inmediatamente despues del resumen
deben aparecer las palabras clave del artıculo, que deberan describir el contenido
de este.
Por polıticas de la revista Comunicaciones en Estadıstica, el idioma principal de
esta publicacion es el espanol, aunque tambien se publicaran artıculos en el idioma
ingles. Cada artıculo sometido debera contar con el tıtulo en el idioma principal
del artıculo y con su respectiva traduccion al idioma secundario. Lo mismo se debe
hace con el resumen y con las palabras clave. Por ejemplo, si el idioma principal
del artıculo es el espanol, este debera contener el tıtulo principal en espanol y su
respectiva traduccion al ingles. Ademas, el resumen principal debera estar escrito
en espanol y tambien debera ser traducido al ingles junto con las palabras clave.
Figuras y tablas
Al igual que las figuras, las tablas deben ser rotuladas con numeros arabigos.
Cada uno de estos objetos debe contener un tıtulo que lo describa con detalle y
tienen que ser citados dentro del texto del artıculo. Se sugiere a los autores que
las imagenes sean enviadas por aparte en cualquier formato grafico (eps, ps, tif,
jpg o bmp) de alta resolucion, en color y en escala de grises. La version impresa
de la revista contendra solo imagenes en escala de grises; sin embargo, la edicion
virtual de la revista contendra las imagenes a color.
Apendices y referencias bibliograficas
Los apendices del manuscrito deben estar ubicados al final de artıculo, despues de
las referencias bibliograficas. Se sugiere que los apendices correspondan a desarro-
llos teoricos extensos, material suplementario y algoritmos computacionales. Por
otro lado, el sistema de referencia bibliografica que se utiliza en esta publicacion
es el formato autor-ano conocido tambien como formato Harvard. Todas las refe-
rencias bibliograficas que aparezcan en el artıculo deben estar contenidas y citadas
en el texto general o cuerpo del manuscrito. De esta manera, si la referencia forma
parte de una frase, se deben citar los apellidos, colocando en un parentesis el ano
de la publicacion; si la referencia no forma parte de una frase, se deben citar entre
parentesis los apellidos seguidos del ano de publicacion.
Responsabilidad legal
El Comite Editorial de la revista Comunicaciones en Estadıstica asume que los
artıculos sometidos no estan publicados por ningun otro medio impreso o virtual.
Asimismo, se asume que el artıculo es inedito, original y que no se encuentra
en proceso de revision, arbitraje o publicacion en alguna otra revista, magazın o
cualquier sitio virtual. Al momento de recibir un artıculo para revision, los autores
adquieren toda responsabilidad legal acerca de graficas, tablas, datos y texto. De
la misma manera, los autores liberan a la revista Comunicaciones en Estadısticade cualquier accion penal emprendida por un tercero por delitos a derechos de
autor o cualquier otra afrenta. Por otro lado, si el Comite Editorial decide a favor
la publicacion de un artıculo, los autores deberan firmar y aceptar el traspaso
de los derechos de autor del artıculo a la revista. Sin embargo, los autores podran
adjuntar a su sitio web una version del documento final. La revista Comunicacionesen Estadıstica se reserva los derechos de autor o difusion de los contenidos.
Proceso de arbitraje
Los artıculos sometidos a la revista Comunicaciones en Estadıstica seran evalua-
dos en un primer dictamen por el Comite Editorial y luego seran sometidos a
arbitraje tecnico por profesionales especializados en la tematica del manuscrito.
El proceso de arbitraje sera doblemente ciego; es decir, los autores no conoceran
la identidad ni afiliacion de los arbitros y a su vez, los arbitros no conoceran la
identidad ni afiliacion de los autores. De otro lado, la identidad del editor en curso
sera conocida tanto por los autores como por los arbitros. Para facilitar el proce-
so de revision, se les pide a los autores someter dos versiones del manuscrito; la
primera omitiendo las identidades y afiliaciones de los autores y la segunda con-
teniendo tanto las identificaciones como las afiliaciones institucionales. Se asignan
dos arbitros por cada manuscrito y los posibles dictamenes son: aceptar, rechazar o
solicitar modificaciones para una nueva revision. En caso de presentar dictamenes
opuestos por parte de los arbitros se asignara un tercero.
Information for authors
The journal Communications in Statistics is published by the Center for Research
and Statistical Studies (CIEES acronym in Spanish) assigned to the Faculty of
Statistics of Universidad Santo Tomas. The periodicity of this Journal is biannual,
the first issue is published in June and the second in December, of every year. The
intention of this publication is to disseminate original and unpublished articles
on any topic of theoretical and applied statistics. The purpose of this Journal is
to promote a culture of statistical research, and hence, its target audience is in
all those researchers who use any statistical method in the development of their
projects.
The journal Communications in Statistics is publishes original theoretical articles,
applications of statistical techniques in any branch of knowledge that lead to un-
published articles as well as, letters to the editor that arise from the discussion of
articles already published by this Journal. Following are some key features of the
editorial process of this publication.
Submission of articles
The Editorial Committee of the journal Communications in Statistics suggests the
articles be submitted in PDF format and preferably in letter size. Authors must
send a blind copy of the manuscript, without any information of their identity or
affiliation, using the format available in the Journal’s web page2. The articles must
be attached and sent to the Journal’s official e-mail address3 and will be socialized
by the Editor in the Editorial Committee.
Content
The Journal Communications in Statistics publishes the following types of articles:
Applications and case studies that present innovative statistical analysis or
implement empirical exercises to assess statistic techniques in real or simu-
lated specific situations.
New theoretical or methodological contributions that lead to the develop-
ment of procedures, algorithms and unpublished methodologies from the
theoretical point of view. It also includes computational procedures and illus-
trated graphs by a practical application in the event there is space for such
implementation.
Exhaustive review of statistical topics in areas of practical application or
specific fields of statistic methods and theory.
Letters to the editor and corrections through direct and concise writings
2http://comunicacionesenestadistica.usta.edu.co/[email protected]
about the discussion or correction of any article previously published in this
Journal.
Title and abstract
The title of the article must be specific, likewise, each article submitted must
have an abstract of no more than 400 words and no type of type of bibliographic
references should be cited in the abstract. Immediately after the abstract must
appear the article’s keywords, which should describe its content.
By policies of the journal Communications in Statistics, the main language of this
publication is Spanish, although some articles will also be published in English.
Each article submitted shall also have a title in the article’s main language with its
translation to the secondary language. The same must be done with the abstract
and keywords. For instance, if the main language of the article is Spanish, it should
have the main title in Spanish with its translation into English. Moreover, the main
abstract should be written in Spanish and must also be translated into English
along with the keywords.
Figures and charts
Like the figures, charts should be labeled in Arabic numerals. Each one of these
objects must have a title that describes it in detail and have to be cited inside the
text of the article. It is suggested to authors they send images separately in any
graphic format (eps, ps, tif, jpg or bmp), with high resolution, color and gray scale.
The Journal’s printed version will only contain images in grey scale; however, the
virtual edition of the Journal will have color images.
Appendix and bibliographic references
Appendixes of the manuscript must be located at the end of the article, after
the bibliographic references. It is suggested that appendixes refer to extensive
theoretical developments, supplement material and computational algorithms. On
the other hand, the bibliographic reference system used in this publication is the
author-year format also known as the Harvard format. All bibliographic references
that appear in the article should be contained and cited in the general text or body
of the manuscript. Thus, if the reference is part of a phrase, surnames should be
cited, with the year of publication between brackets; if the reference is not part of
a phrase, the surnames followed by the year of publication must be cited between
brackets.
Legal liability
The Editorial Committee of the journal Communications in Statistics assumes
that the articles submitted are not published by any other printed or virtual me-
dia. Likewise, it is assumed that the article is unpublished, original and is not
under review, peer review or publication in any other journal, magazine or any
virtual site. Upon receipt of an article for review, authors acquire all legal liability
on graphs, charts, data and texts. Likewise, authors release from liability the jour-
nal Communications in Statistics in any criminal action brought by a third party,
for crimes related with copyrights or any other offense. On the other hand, if the
Editorial Committee decides in favor of publishing an article, authors must sign
and accept to transfer copyrights of the article to the Journal. However, authors
may attach to their website a version of the final document. The journal Commu-nications in Statistics reserves copyrights or rights to circulate the contents.
Peer review proceeding
Articles submitted to the journal Communications in Statistics will be assessed on
a first opinion by the Editorial Committee and will then be subject to a technical
peer review by professionals specialized on the topic of the manuscript. The peer
review proceeding will be doubly blind, that is, authors will not know the identity
nor affiliation of peer reviewers and in turn, peer reviewers will not know the
identity nor affiliation of the authors. On the other hand, the identity of the current
editor will be known by both authors and peer reviewers. To facilitate the review
process, authors are requested to present two versions of the manuscript: the first
one omitting the identities and affiliations of the author and the second containing
the identity and as well as institutional affiliations. Two peer reviewers are assigned
for each manuscript and the possible opinions are: accept, reject or request changes
for a new review. In the event of opposite opinions by peer reviewers a third one
will be designated.