UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Fundada en 1551
FACULTAD DE CIENCIAS MATEMÁTICAS
E.A.P. DE ESTADÍSTICA
“ESTIMACIÓN DE LA OCURRENCIA DE INCIDENCIAS EN DECLARACIONES
DE PÓLIZAS DE IMPORTACIÓN”
INFORME PROFESIONAL
Para optar el Título Profesional de:
LICENCIADA EN ESTADÍSTICA
AUTORA
CELIA MERCEDES SALCEDO POMA
LIMA – PERÚ 2002
Agradezco a mi familia por su apoyo incondicional en esta tarea. A mi asesora por su orientación y generosidad al compartir sus conocimientos conmigo. A la escuela de Estadística y a sus profesores por habernos formado en esta carrera.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
RESUMEN
En este trabajo se aplica el método de Regresión Logística con el fin de obtener un modelo que permita estimar la probabilidad de ocurrencia en una operación de Importación de la Aduana Peruana. Se efectúa un análisis exploratorio previo de los datos para las diferentes variables y se analizan usando el paquete estadístico SPSS varios modelos alternativos, eligiendo aquel cuyas características permiten predecir mejor la ocurrencia de una incidencia. PALABRAS CLAVES: REGRESION LOGISTICA MULTIPLE MAXIMO VEROSIMILITUD PRUEBA DE HIPOTESIS ANALISIS DE RESIDUOS MEDIDAS DE INFLUENCIA ANALISIS EXPLORATORIO SELECCIÓN DE MODELOS
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
SUMMARY
In this work the method of Logistical Regression is applied with the purpose of obtaining a model that allows to estimate the occurrence probability in an operation of Import of the Peruvian Customs. A previous exploratory analysis of the data is made for the different variables and they are analyzed using the statistical package alternative model several SPSS, eligiendo that whose characteristics allow to predict the occurrence of an incidence better. KEY WORDS: MULTIPLE LOGISTICAL REGRESSION MAXIMUM VERISIMILITUDE TEST OF HYPOTHESIS ANALYSIS OF RESIDUALS MEASURES OF INFLUENCES EXPLORATORY ANALYSIS SELECTION OF MODELS
ÍNDICE
Introducción............................................................................................... 1 CAPITULO 1: Planteamiento del problema............. ............................... 3
1.1 Antecedentes.................................................................................... 3 1.2 Objetivo............................................................................................ 5 1.3 Alcance............................................................................................ 5 1.4 Justificación..................................................................................... 6
CAPITULO 2: Modelo de Regresión Logística........................................ 8 2.1 Introducción...................................................................................... 8 2.2 Objetivos de la Regresión Logística................................................. 9
2.3 Regresión Logística y otros métodos relacionados.......................... 9 2.4 Revisión del Modelo de Regresión Lineal Múltiple....................... 10
2.5 Regresión Logística Simple.............................................................16 2.6 Regresión Logística Múltiple........................................................... 19
2.6.1 Modelo de Regresión Logística Múltiple................................. 19 2.6.2 Ajuste del modelo de Regresión Logística Múltiple................. 20 2.6.3 Método de Newton - Raphson para estimar los parámetros del modelo de Regresión Logística...................... 28
2.6.4 Interpretación de los coeficiente del modelo estimado........... 32 2.6.5 Prueba de Hipótesis para los coeficientes del Modelo de
Regresión Logística................................................................. 33 2.6.5.1 Prueba de Wald .......................................................... 33
2.6.5.2 Prueba Chi-Cuadrado ................................................ 36 2.6.5.3 Estadística Chi-Cuadrada de Pearson......................... 36 2.6.5.4 Desvianza ................................................................... 37 2.6.5.5 Tabla de Clasificación ................................................. 39 2.6.5.6 Contraste de Bondad de Ajuste de Hosmer-Lemeshow .................................................... 40
2.6.6 Diagnóstico del Modelo........................................................... 41 2.6.6.1 Residuos del Modelo................................................... 41
2.6.6.2 Medidas de Influencia ..................................................... 41 2.6.7 Variables Explicativas Categoricas-Variables Dummy............ 42
CAPITULO 3: Desarrollo del Estudio...................................................... 45 3.1 Diseño.............................................................................................. 45 3.2 Procedimiento de Selección de la Muestra....................................... 47 3.3 Análisis de los datos......................................................................... 49
3.3.1 Análisis Exploratorio Previo..................................................... 49 3.3.1.1 Variables Cuantitativas................................................. 49 3.3.1.2 Variables Categóricas.................................................. 58
3.3.2 Análisis de Regresión Logística............................................... 60 3.3.2.1 Ajuste Inicial del Modelo de regresión Logística a las
Variables en Estudio................................................... 60 3.3.2.2 Análisis de Residuos.................................................. 62 3.3.2.3 Ajuste de Regresión Logística Retirando Datos con
Residuos Altos........................................................... 64 3.3.2.4 Ajuste de Regresión Logística Retirando Datos con
Distancia de Cook Atípicos ....................................... 66 3.3.2.5 Ajuste de Regresión Logística Retirando todas las variables Dummy de productos, Excepto la Variable de las transmiciones Cardánicas............................... 68 3.3.2.6 Interpretación de los Coeficientes del Modelo ........... 70
3.4 Conclusiones................................................................................... 75 3.5 Recomendaciones........................................................................... 76 ANEXOS 1 Glosario de Términos.......................................................................... 78
2 Salidas del SPSS.. ....................................................................... 82 2.1 Módelo de Regresión Logística con todas las Variables. Tamaño de Muestra ................................................................... 82
2.2 Módelo de Regresión Logística con todas las Variables. Tamaño de Muestra 823. Eliminando Datos Discordantes........ 84
2.3 Módelo de Regresión Logística. Tamaño de Muestra 837. Eliminando solo los Datos con Distancia de Cook Atípicos......... 86 2.4 Módelo de Regresión Logística eliminando todas las Variables
Dummy de productos excepto, la correspondiente a las Transmiciones Cardánicas.......................................................... 87
3. Ejemplo de los Datos......................................................................... 89
BIBLIOGRAFÍA......................................................................................... 90
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
INTRODUCCIÓN
En las aduanas del Perú se realizan operaciones de Importación de
diferentes productos, estas operaciones son sustentadas por los Agentes de
Aduanas ante el Estado a través de las llamadas Declaraciones de
Importación, documentos en los cuales se consignan los productos, su
cantidad, procedencia, precio, peso, y demás características que permiten
calcular los tributos a cobrar por derecho de ingreso al país.
Muchas veces ocurre que se adultera la información real como el tipo de
producto, o el precio, o la cantidad con el fin de pagar menos tributos, es a
estas adulteraciones que se denomina Incidencias. Como es obvio estas
Incidencias constituyen un desmedro para el Estado, pues este deja de
percibir ingresos por este motivo.
Una de las funciones de la Aduana Peruana es la de fiscalizar estas
operaciones a fin de evitar las incidencias o bien de recuperar lo no
recaudado a consecuencia de una de ellas. Con este fin se revisan,
verifican o aforan las mercancías de algunas operaciones. Actualmente la
selección de operaciones a revisar es aleatoria o discrecional dependiendo
del tipo de producto, lo cual permite que muchas veces no se revisen las
operaciones con incidencias, pasando estas por alto.
Este estudio ha sido motivado por la necesidad de disminuir la ocurrencia de
estas incidencias usando un método que permita determinar la probabilidad
de ocurrencia de una incidencia en una Declaración de Importación a fin de
seleccionarlas para la revisión.
Se ha buscado construir un modelo de Regresión Logística que nos de la
probabilidad de ocurrencia de una incidencia en base a características tales
como Tipo de Producto, Precio FOB, Peso, País de Origen del Producto
entre otras.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Dado que existe una gran variedad de productos, cada uno con
características observables muy distintas, se ha limitado este estudio a un
tipo de productos con un alto porcentaje de Incidencias (36.%), los
Repuestos para Vehículos.
En el primer capítulo se muestran los antecedentes del presente estudio, en
el segundo capitulo se incluye la base teórica que nos permite construir un
modelo de regresión logística y evaluar sus resultados. En el tercer capítulo
se presenta el desarrollo práctico del estudio, se han evaluado hasta cuatro
modelos, comparando sus estadísticas de bondad de ajuste, tanto globales
como parciales, analizando sus residuos y se ha encontrado el
estadísticamente más adecuado de acuerdo a los objetivos. Esto a
permitido además determinar cuales son las variables que más contribuyen
a la estimación de los parámetros del modelo, finalmente en el mismo
capitulo se encuentran las conclusiones y recomendaciones. Se ha incluido
en los anexos un glosario de términos y las salidas del SPSS a fin de facilitar
la comprensión del lenguaje utilizado y de comprobar los resultados referidos
en el presente.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
CAPÍTULO 1
PLANTEAMIENTO DEL PROBLEMA
1.1 ANTECEDENTES
La Superintendencia Nacional de Aduanas - ADUANAS es una
institución pública descentralizada del Sector Economía y Finanzas, con
personería jurídica de Derecho Público, creada por Ley 24829 del 08 de
Junio de 1988, que tiene como funciones:
• El Despacho Aduanero de las mercancías que entran (Importación) y
salen del país (Exportación).
• La Recaudación de los tributos generados por las operaciones de
Importación.
• La Fiscalización de las operaciones de Importación y Exportación.
• La Prevención y Represión del Contrabando.
ADUANAS, opera en todo el territorio de la República, a través de las
Intendencias de Aduana, Agencias Aduaneras y los Puestos de Control, que
dependen de las primeras. ADUANAS tiene en la actualidad 20
Intendencias de Aduana y 82 Puestos de Control. Las Intendencias de la
República son las siguientes:
Tumbes , Paita, Chiclayo, Salaverry, Chimbote, Marítima del Callao, Aérea
del Callao, Postal de Lima, Pisco, Mollendo, Arequipa, Ilo, Tacna, Iquitos,
Pucallpa, Cusco, Puerto Maldonado, Puno, Tarapoto y La Tina.
El registro de cada una de las operaciones de Importación y Exportación
se efectúa a través del Sistema de Gestión Aduanera - SIGAD en las
Declaraciones Unicas de Aduanas – DUA desde el mes de Noviembre de
1992.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
El monto a recaudar por cada operación de Importación se calcula en
base al Arancel de Aduanas, el cual asigna un porcentaje del valor FOB por
grupos de productos denominados Partidas Arancelarias, con una fórmula
determinada por el Ministerio de Economía.
El precio FOB de los productos es consignado por los importadores en
las Declaraciones Unicas de Aduanas, este precio se respalda en un
informe de Empresas Supervisoras Internacionales que certifican que el
precio consignado es el precio del mercado internacional.
Para cumplir la función fiscalizadora ADUANAS debe verificar el
cumplimiento de las disposiciones aduaneras y/o tributario - aduaneras por
parte de los operadores de comercio exterior; a este efecto realiza controles
previos, concurrentes y posteriores al Despacho Aduanero, así como
operativos y patrullajes realizados en todo el territorio de la República.
De esta manera, la acción fiscalizadora se canaliza a través de tres etapas:
1. La verificación física de la mercancía en el momento del Despacho
Aduanero, que en promedio no excede el 15% de la Declaraciones
tramitadas de acuerdo al reglamento de la Ley de Aduanas.
2. La ejecución de auditorias a una muestra representativa de
Operadores de Comercio Exterior (Empresas, Agencias de Aduana,
Almacenes Aduaneros, Empresas de Mensajería, etc).
3. La realización de operativos y patrullajes a nivel nacional a fin de
reprimir el Contrabando.
Dado que es potestad de ADUANAS verificar que dicha información es
correcta, se aforan (inspeccionan) las mercancías de las Declaraciones , y
de encontrarse alguna Incidencia (error o subvaluación), se genera un
documento de cobro por el monto de la diferencia no declarada.
La mercancía se afora en un porcentaje que varía de acuerdo a cada
Aduana, del 100 al 5 por ciento, el porcentaje es menor cuanto más
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
operaciones se tramiten por cada Aduana así en la Aduana Marítima es el
5%.
Se utilizan dos métodos para determinar las mercancías que serán
sujetas a revisión por personal de Aduanas:
1. Selección debido a que un producto se encuentra en las Listas de
productos y países con antecedentes de subvaluación
2. Selección aleatoria, de esta manera pueden dejarse de inspeccionar
operaciones que si tienen incidencias.
Para las mercancías embarcadas a partir del 02.07.2000 rige el
Convenio de la OMC Organización mundial del Comercio, lo cual ha
generado una disminución del número de Incidencias debido a que las
condiciones de sustentación del valor ante ADUANAS es más flexible.
1.2 OBJETIVO:
General
Determinar la probabilidad de ocurrencia de una incidencia en base a
características de la operación de importación definitiva.
Específico
Determinar la probabilidad de ocurrencia de una incidencia en los
Repuestos de Vehículos en base a características de las operaciones de
importación definitiva correspondientes.
1.3 ALCANCE
El propósito del presente estudio es obtener una herramienta que permita
predecir si una operación de importación definitiva puede ser o no una
incidencia.
Se sabe que el número de incidencias en las aduanas de la República solo
es significativo en Aduana Marítima del Callao, Tacna y Aduana Aérea del
Callao, tal como se muestra en la figura 1.1.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Así mismo existe una gran variedad de productos que se importa y cada
uno de ellos posee diferentes valores de las características Precio FOB,
Peso Bruto, Advalorem, Importador, Agente y demás, esto ocasiona que la
variabilidad de los datos referidos a las operaciones de importación sea muy
grande. No es posible obtener un modelo general a nivel nacional, tampoco
es posible obtener un modelo por cada aduana, es por ello que se toma la
medida de obtener modelos por tipo de producto, priorizando los productos
con mayor número de incidencias. Debido a ello se ha escogido un tipo de
producto que tiene un alto porcentaje de incidencias. Así el presente
estudio estará limitado a las Declaraciones de Importación Definitiva
correspondientes a los Repuestos para vehículos, registradas en el SIGAD
entre el 01.01.1997 y el 31.12.2002, en la Aduana Marítima del Callao.
1.4 JUSTIFICACIÓN
La participación de los diferentes tipos de ingresos por impuestos fiscales
respecto al PBI evidencia que los impuestos aplicables a las importaciones
constituyen una importante fuente de ingresos para el erario en nuestro país.
En lo que concierne a los impuestos que se recaudan por la actividad de
importación, ello no solo esta constituido por los aranceles, sino también por
FIGURA Nº 1.1
Cantidad de Incidencias por Aduana
A D U A N A S
280
271
262
244
235
226
190
181
172
163
154
145
127
118
9 1
8 2
4 6
2 8
1 9
Nro .
D e
I nc .
12000
10000
8 0 0 0
6 0 0 0
4 0 0 0
2 0 0 0
0
Mar i t ima
Tacna
Aére
FIGURA Nº 1.1
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
los impuestos internos recaudados, tal como se aprecia en el siguiente
cuadro.
Tabla 1.1: Ingresos Fiscales por Impuestos a la importación / Año
2001
Arancel 1.3 % PBI
IGV 2.7 % PBI
ISC 0.3 % PBI
Total 4.3 % PBI
Fuente: Ministerio de Economía y Finanzas/ Diario Gestión (25/06/2002)
Estas cifras explican que en la estructura actual de recaudación de
impuestos en el Perú, las importaciones tiene una gran participación en
materia tributaria, puesto que representan el 4.3% del PBI. En ese sentido, la
labor del control aduanero de las importaciones juegan un rol importante,
para garantizar una adecuada recaudación.
La obtención de este modelo permitirá la detección más eficiente de las
incidencias en el rubro Repuestos para vehículos, lo cual significará una
mejora en la recaudación.
Una mejora en la recaudación permitirá al Estado contar con más ingresos y
por lo tanto poder ampliar el presupuesto de los sectores como Educación,
Salud, Seguridad, etc., a fin de mejorar la calidad de vida de la sociedad
peruana.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
CAPÍTULO 2
MODELO DE REGRESIÓN LOGÍSTICA
2.1 INTRODUCCIÓN
La Regresión Logística es una técnica estadística multivariante que nos
permite estimar la relación existente entre una variable dependiente no
métrica, en particular dicotómica y un conjunto de variables independientes
métricas o no métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis
de Regresión Lineal Múltiple, el cual se diferencia esencialmente del
Análisis de Regresión Logística por que la variable dependiente es métrica;
en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque
sus enfoques matemáticos son diferentes.
La variable dependiente o respuesta no es continua, sino discreta
(generalmente toma valores 1,0). Las variables explicativas pueden ser
cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal
de partida, sino exponencial; si bien, por sencilla transformación logarítmica,
puede finalmente presentarse como una función lineal.
Así pues el modelo será útil en frecuentes situaciones prácticas de
investigación en que la respuesta puede tomar únicamente dos valores: 1,
presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p).
El modelo será de utilidad puesto que, muchas veces, el perfil de variables
puede estar formado por caracteres cuantitativos y cualitativos; y se
pretende hacer participar a todos ellos en una única ecuación conjunta.
El modelo puede acercarse mas a la realidad ya que muchos fenómenos,
como los del campo epidemiológico, se asemejan más a una curva que a
una recta. Además la curva exponencial elegida como mejor ajuste, puede
ser transformada logarítmicamente en una ecuación lineal de todas las
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
variables, siendo así que el aparato matemático estudiado para la regresión
lineal múltiple será aplicable; aunque el investigador tenga, al final, que
deshacer la transformación para interpretar sus conclusiones.
Si para el Modelo de Regresión Logística una variable regresora de tipo
categórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)
a fin que todas las posibilidades de la variable queden bien representadas en
el modelo logístico.
Cuando todas las variables regresoras son categóricas entonces se usa el
modelo Log lineal, ver Mc Cullagh (1983).
2.2 OBJETIVOS DE LA REGRESIÓN LOGÍSTICA
El objetivo primordial de esta técnica es el de modelar como influyen las
variables regresoras en la probabilidad de ocurrencia de un suceso
particular.
Sistemáticamente tiene dos objetivos:
1. Investigar como influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.
2. Determinar el modelo más parsimonioso y mejor ajustado que siendo
razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.
2.3 REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de
un evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Se pueden usar varios métodos multivariantes para predecir una variable
respuesta de naturaleza dicotómica a partir de un grupo de variables
regresoras.
El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos
métodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.
En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta
toma solo dos valores, se violan los supuestos de necesarios para efectuar
inferencias, los problemas que se plantean son:
1. La distribución de los errores aleatorios no es normal.
2. Los valores predictados no pueden ser interpretados como
probabilidades como en la Regresión Logística, porque no toman
valores dentro del intervalo [0,1].
El Análisis Discriminante permite la predicción de pertenencia de la unidad
de análisis a uno de los dos grupos pre-establecidos, pero se requiere que
se cumplan los supuestos de multinormalidad de las variables regresoras y
la igualdad de matrices de covarianzas de los dos grupos, pueden ser
diferentes también; para que la regla de predicción sea óptima, Johnson
(1982).
La Regresión Logística requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresión
Logística trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y
la Regresión Logística, debido a que ambos tienen el mismo objetivo,
predecir la variable respuesta a partir de las variables regresoras.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.4 REVISIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
La diferencia básica entre los modelos del Análisis de Regresión Lineal
Múltiple y de la Regresión Logística es naturaleza de la relación entre la
variable respuesta y las variables regresoras.
Para el Análisis de Regresión Lineal Múltiple, consideremos y una variable
respuesta cuantitativa y kxxx ,....,, 21 variables regresoras o llamadas
también explicativas; y se desea describir la relación que hay entre la
variable respuesta y las variables explicativas, si entre la variable respuesta
y las regresoras hay una relación lineal se espera que:
( ) ikkiii xxxyE ββββ ++++= ......22110 , (2.1)
para i=1, 2, ..., n
donde:
iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.
jβ ; j = 0, 1, 2,....,k son los parámetros.
Siendo n el número de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las
variables regresoras, esto es:
( ) ikkiiii xxxxyE ββββ ++++= ......| 22110ρ
,
para i=1, 2, ..., n
(2.2)
siendo ( )iniiiTi xxxxx ,...,,, 210=ρ
la i-ésima observación, con 10 =ix ,
(2.2) toma valores reales y en forma vectorial es:
( ) βρρρ T
iii xxyE =| (2.3)
donde ( )kT βββββ ,...,,, 210=
ρ es el vector de parámetros.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a
esa variación lo denotamos con iε , esto es:
( )β
ερρ
ρ
Tii
iiii
xy
xyEy
−=
−= |(2.4)
de (2.4):
iTii xy εβ +=
ρρ (2.5)
iikkiii xxxy εββββ +++++= ......22110 ,
para i=1, 2, ..., n
(2.6)
llamado Modelo de Regresión Lineal Múltiple poblacional, a iε se le llama
error aleatorio y tiene las siguientes propiedades:
(( ))(( ))
(( ))(( )) 0,
0,
2
0
==
≠≠∀∀====
==
jXiCov
jijiCoviV
iE
ε
εεσε
ε
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de
y es la respuestas a aquellas, así mismo iε es una variable aleatoria no
observable.
Generalizando el Modelo de Regresión Lineal Múltiple, (2.6), mediante el
álgebra matricial está dada por:
εβ ρρρ += Xy (2.8)
donde:
( )nT yyyy ,....,, 21=ρ
, vector de variables respuestas observadas
( )kxxxX ρρρ ,.....,,,1 21= matriz de rango completo y con
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )ikiiTi xxxx ,...,,,1 21=ρ
( )kT ββββ ,.....,, 10=
ρ
( )nT εεεε ,....,, 21=ρ
así mismo (2.1) en forma matricial es:
( ) βρρ XyE = (2.9)
el objetivo es estimar los parámetros del modelo (2.6), los mismos que son
estimados mediante el método de mínimos cuadrados.
Sea iy la estimación de iy , entonces:
ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= ,
para i=1, 2, ..., n (2.10)
o equivalentemente:
βˆρρT
ii xy = (2.11)
siendo:
( )kT ββββ ˆ,.....,ˆ,ˆˆ 10=
ρ, el vector de parámetros estimados.
(2.10) en su forma matricial es:
βˆρρ Xy = (2.12)
los residuos ordinarios ir es la contraparte muestral de iε y está dado por:
iii yyr ˆ−= para i=1, 2, ...., n (2.13)
en forma vectorial es:
yyr ρρρ −= (2.14)
El estimador de βρ
se obtiene usando el método de mínimos cuadrados, ver
que consiste en minimizar la suma de cuadrados del error y está dada por:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( ) ( )yyyyeeeSCETn
i
Ti ˆˆ
1
2 ρρρρρρ −−=== ∑=
con respecto a βρ
, esta suma de cuadrados se expresa en forma
cuadrática como::
( ) ( )ββρρρρ XyXy T −− (2.15)
al minimizarlo se obtiene que:
( ) yXXX TT ρρ=β (2.16)
llamada ecuaciones normales.
Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y
de rango completo, entonces la solución del sistema lineal es:
( ) yXXX TT ρρ 1ˆ −=β (2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
El vector (2.12) de valores estimados para el vector de variables respuesta
es:
βˆρρ Xy =
( ) yXXXXy TT ρρ 1ˆ
−= (2.18)
a la matriz ( ) yXXXX TT ρ1− , se le llama matriz de cambio o de
proyección denotada por H , entonces (2.18) es:
yHy ρρ =ˆ (2.19)
El vector de residuos es:
yyr ρρρ −=
yHyr ρρρ −= (2.20)
( )yHIr ρρ −= (2.21)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
yMr ρρ = (2.22)
El vector rρ describe las desviaciones de los valores observados de los
ajustados y la matriz M es el subespacio en el cual cae rρ .
El vector residual es importante para detectar puntos ´extraños¨. A la matriz
H se le llama matriz sombrero o de proyección, ver Cook y Weisberg
(1982). Ahora veamos como queda expresado la suma de cuadrados de los
residuos, denotada por SCE :
( ) ( )yyyySCE T ˆˆ ρρρρ −−= (2.23)
Reemplazando yρ por βρ
X : (2.23) es:
( ) ( )ββ ˆˆ ρρρρ −−= yXySCET
(2.24)
Y reemplazando βρ
por ( ) yXXX TT ρ1−:
( ) yXXXXyyySCE TTTT ρρρρ 1−−= (2.25)
La matriz ( ) TT XXXXH1−
= , entonces:
yHyyySCE TT ρρρρ −= (2.26)
( )yHIySCE T ρρ −= (2.27)
Sea HIM −= , entonces (2.27) es:
yMySCE T ρρ= (2.28)
Bajo el supuesto que ( )nIN 2,0~ σερρ
, las observaciones nyyy ,...,, 21
son independientes y distribuidas cono una Normal n-variada con
( ) βρρ XyE = con matriz de varianzas y covarianzas nI2σ .
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
En la Regresión Logística, se estima la probabilidad de que un evento
ocurra; es decir, el valor esperado de y dado las variables regresoras, debe
tomar valores entre 0 y 1. La relación entre las variables regresoras y la
dependiente no es lineal. Las estimaciones de probabilidad estarán siempre
entre 0 y 1, así, el valor de la variable respuesta se puede definir como una
probabilidad de que ocurra o no un evento sujeto a control.
En la Regresión Logística, se seleccionan los coeficientes, del modelo, que
hacen que los resultados sean los más “probables”. Como el modelo de
Regresión Logística no es lineal, se requiere de un algoritmo iterativo para
estimar los parámetros.
En las secciones siguientes se detallarán los aspectos teóricos y la
aplicación de la Regresión Logística.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.5 REGRESIÓN LOGÍSTICA SIMPLE
Este modelo tiene la forma:
iixiy εββ ++++== 10 para ni ,,2,1== (2.29)
De esto se deduce que:
Si 1==y , ixi 101 ββε −−−−== (2.30)
Si 0==y , ixi 10 ββε −−−−== (2.31)
Por tanto iε , no puede tener distribución normal debido a que toma valores
discretos, el Modelo de Regresión Lineal Simple, no es aplicable para el
caso de variable respuesta de tipo dicotómico.
En el Análisis de Regresión Lineal simple, el punto inicial del proceso de
estimación del modelo es un gráfico de dispersión de la variable respuesta
versus la regresora, pero este gráfico resulta limitado cuando sólo hay dos
valores posibles para la variable respuesta, por tanto se debe usar otros
gráficos, éstos resultan de la suavización de los valores de la variable
respuesta, representando después los valores de la variable respuesta
versus la regresora.
La notación que se usará en el presente trabajo para la Regresión Logística
es misma que emplea Hosmer y Lemeshow (2000).
Sea (( )) (( ))xyEx ==π (2.32)
Que representa la media condicional de 1==y dado x , donde (( ))xπ
representa la probabilidad de que ocurra 1==y , ciertamente no se espera
que (2.32) tenga relación lineal dentro del rango de la variable regresora.
¿Qué hay de la relación entre (( ))xπ y x para valores intermedios de x ? Se
espera una relación curvilínea. Para cualquier valor grande de x , (( ))xπ
tomará valores cercanos a 1 y para valores pequeños de x , (( ))xπ tomará
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
valores cercanos a cero. El gráfico que muestra el comportamiento de (( ))xπ
versus x es:
FIGURA Nº 2.1
curva en forma de S o sigmoide que tiene las propiedades requeridas para
(( ))xπ y que tiene las propiedades de una función de distribución de
probabilidad acumulada, para esta probabilidad se usa la función de
distribución acumulada de la distribución logística dada por:
(( ))xe
xex101
10
ββ
ββπ
++++
++== (2.33)
(2.33) tiene un gráfico similar a la Figura Nº 2.1, cuando 00 <<β y
01 >>β , además este modelo toma valores en el intervalo [[ ]]1,0 .
Cuando , [[ ]] 5.01 ====yP el valor de x es: 10
ββ−−
, que brinda información
muy útil.
Una transformación de (( ))xπ que es lo central del estudio de la Regresión
Logística es la transformación logit, transformación que se define en
términos (( ))xπ como:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
(( )) (( ))(( ))
xx
xLnxg
10
1ββ
ππ
++==
−−
== (2.34)
Lo importante de esta transformación es que tiene muchas propiedades
semejantes al Modelo de Regresión Lineal simple, por ejemplo es lineal en
sus parámetros, puede ser continua y puede tomar cualquier valor real
dependiendo de x .
Para el Modelo de Regresión Lineal simple, la variable respuesta, de (2.4) se
expresa como:
(( )) ε++== xyEy (2.35)
para la variable respuesta dicotómica lo expresamos como:
(( )) επ ++== xy (2.36)
veamos que ocurre con este modelo:
Si 1==y , (( ))xi πε −−== 1 y tiene probabilidad (( ))xπ
Si 0==y , (( ))xi πε −−== y tiene probabilidad (( ))xπ−−1
Entonces iε tiene distribución binomial con media cero y varianza
(( )) (( ))[[ ]]xx ππ −−1 . Por tanto la distribución condicional de la variable
respuesta tiene distribución de probabilidad binomial con media (( ))xπ .
El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o
razón de probabilidades de 1==y contra 0==y , especificamente:
(( ))(( ))x
xRATIOODDSπ
π−−
==1
(2.37)
o también llamado razón de ventaja a favor de éxito.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6 REGRESIÓN LOGÍSTICA MÚLTIPLE
En esta sección se generaliza el Modelo de Regresión Logística Simple
tratado en la sección anterior, es decir consideraremos más de una variable
regresora, en donde por lo menos una es de tipo cuantitativo.
2.6.1 MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
Sea el vector de variables regresoras (( ))kxxxTx ,....,2,1==ρ por el
momento asumiremos que están medidas por lo menos bajo escala
intervalar. Sea la probabilidad condicional para que la variable respuesta sea
igual a 1, denotado por:
(( )) (( ))xxyP ρρ π==== 1 (2.39)
el logaritmo del Modelo de Regresión Logística Múltiple está dado por:
(( )) ikxkixixixg ββββ ++++++++== ......22110ρ
, para i=1, 2, ..., n
(2.40)
entonces el Modelo de Regresión Logística Múltiple es:
(( ))(( ))
(( ))xge
xgex ρ
ρρ
++==
1π (2.41)
Al igual que en el caso de Regresión Lineal Múltiple si es necesario usar
variables regresoras categóricas, por ejemplo si una tiene c niveles será
necesario incorporar c-1 variables ficticias o llamadas dummy., así entonces
el logit para un modelo con k variables regresoras y una variable categórica,
por ejemplo la j-ésima es:
(( )) ikxkc
ljlDjlixxg ββββ ∑∑
−−
==++++++++==
1
1......110
ρ ,
para i=1, 2, ..., n
(2.42)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.2 AJUSTE DEL MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
El ajuste se efectúa a través del uso de los métodos de máxima
verosimilitud, los mismos que se encuentran en los softwares estadísticos
que permiten analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observaciones
independientes
(( ))iyix ,ρ, i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar
( )kT ββββ ,...,, 10=
ρ que es el vector de parámetros
desconocidos.
Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos
Cuadrados para estimar βρ
, el cual minimiza la suma de cuadrados del
error, pero cuando la variable respuesta es binaria aplicar este método no
provee las mismas propiedades cuando es usado en variables respuestas
continuas.
Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos
parámetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La función de verosimilitud expresa la probabilidad de los datos observados
como una función de parámetros desconocidos. Los Estimadores de Máxima
Verosimilitud de esos parámetros son aquellos que están en concordancia
con los datos observados.
Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,
supongamos que se dispone de n objetos u observaciones donde para cada
uno de ellos existe una respuesta que puede ser:
10 == ii yoy
Sea ( )nT yyyy ,...,, 21=ϖ
donde ( )ii By π,1~ y sea
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )kiiT
i xxx .,....,,1 1=ρ la i-ésima observación para las k variables
explicativas.
Así el Modelo de Regresión Logística está dada por la expresión (2.40):
[[ ]] (( ))(( ))
(( ))ixge
ixgeixixiyP ρ
ρρρ
++======
1|1 π (2.43)
equivalentemente
[[ ]]
==++++
==++
====
∑∑
∑∑
k
jijxjExp
k
jijxjExp
ixiyP
101
10
|1
ββ
ββρ
(2.44)
y la probabilidad de que iy sea igual a cero es:
[[ ]] [[ ]][[ ]]
==++++
====
==−−====
∑∑k
jijxjExp
ixiyP
:entoncesixiyPixiyP
101
10
,110
ββ
ρ
ρρ
(2.45)
para facilitar la notación usaremos la variable indicadora
nixi ,...,2,1,10 == .
Entonces (2.44) y (2.45) son respectivamente:
[[ ]] (( ))Tix
e
Tix
eixixiyP
ρρ
ρρ
ρρ
β
βπ
++
======
1
|1 (2.46)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
[[ ]] (( ))Tix
e
ixixiyPρρ
ρρ
βπ
++
==−−====
1
11|0 (2.47)
donde: ( )ikiiTi xxxx ,....,, 10=ρ
, es el vector que contiene los valores de las
variables explicativas
( )kT ββββ ,...,, 10=
ρ es el vector de parámetros a ser estimado.
El i-ésimo logito es:
∑∑==
==
−−
==k
jijxj
iiLni
01β
ππ
λ (2.48)
como vemos, (2.48) es una función lineal simple del vector de observaciones
ixρ llamada transformación logística de la probabilidad iπ o simplemente
Logit o Logito de la ecuación, a la expresión (2.48) también se le llama
Modelo Logístico Lineal.
A fin de obtener la estimación máximo verosímil para el vector βρ
,
escribimos la función de densidad de probabilidad del vector yρ el cual es
proporcional a n funciones ( )iB π,1 , esto es:
( ) ( )
( )
( )
( )
−
−=
−
−=
−
−
=
−=
∑∏
∏∏
∏
∏
==
==
=
=
−
n
i i
ii
n
ii
n
i
iy
i
in
ii
n
ii
iy
i
i
n
i
iyi
iyiii
LnyExp
LnExp
yf
11
11
1
1
1
11
11
11
1;
ππ
π
ππ
π
ππ
π
πππ
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
(( )) (( ))
(( ))
==
==
====
== ==
====
∑∑ ∑∑∏∏
∑∑ ∑∑∏∏
k
jj
n
iijxiyExp
n
1ii-1
n
i
k
0jijxjiyExp
n
1ii-1iiyf
0 1
1;
βπ
βππ
(2.50)
El logaritmo natural de la función (2.50), llamado función soporte es:
( ) ( )∑ ∑∑= ==
−+
=
k
j
n
iij
n
iijiii xyyl
0 11
1ln; πβπ (2.51)
( )[ ]( ) ( )[ ]i
Ti
iT
xExpLn
xExpρρ
ρρ
βπ
βπ
+−=
+=−
1-1Ln
entonces ,1-1 :(2.47) pero1
i
( )
+−= ∑
=ij
k
jji xExpLn
0
1-1Ln βπ (2,52)
reemplazando (2.52) en (2.51), se obtiene:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijjj
k
j
n
iijii xExpLnxyy
1 00 1i 1;l ββπ (2.53)
como vemos (2.53) es una función que ya no depende de iπ sino de jβ
solamente, entonces lo denotamos como:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijj
k
jj
n
iiji xExpLnxyL
1 00 11 βββ
ρ (2.54)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
es una función que depende exclusivamente del vector βρ
.
Definamos como:
∑=
=n
iijij xyt
1 (2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( ) ∑ ∑∑= ==
+−=
n
i
k
jijj
k
jjj xExpLntL
1 001 βββ
ρ(2.56)
Como (2.56) es una función exclusiva del vector de parámetros βρ
, por el
Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se
tiene que k0,1,....,jpara =jt son estadísticas suficientes para los
parámetros ,jβ para j = 0,1,...,k.,
La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos
de los términos de la matriz de diseño X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1=y .
Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto
a los elementos de βρ
e igualando a cero:
∑ ∑∑
∑
= =
=
=
+
−=∂∂ n
i
n
ik
jijj
k
jijj
ijijij xExp
xExpxxyL
1 1
0
0
1 β
β
β (2.57)
las ecuaciones de verosimilitud de (2.57) son:
kjxxyn
iiij
n
iiji .....,2,1,00ˆ
11==− ∑∑
==π (2.58)
siendo 10 =ix , equivalentemente (2.58) es:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( ) kjyxn
iiiij .....,2,1,00ˆ
1==−∑
=π (2.59)
donde:
ˆ1
ˆ
ˆ
0
0
+
=
∑
∑
=
=
k
jijj
k
jijj
i
xExp
xExp
β
β
π ; para i=1,2,...,n
es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el
vector ixρ
La expresión (2.58) en su forma matricial es:
( ) 0ˆρρρρ ==− SXyX T π (2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el Modelo de Regresión Lineal Múltiple, pero son no lineales en βρ
,
lo cual hace que se use un método iterativo para determinar los valores del
vector βρ
.
La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se
tratará en la siguiente sección, ahora obtendremos la varianza y covarianza
de βρ
.
Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
=
nknn
k
k
xxx
xxx
xxx
X
..1................
....1
....1
21
22221
11211
Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):
πXyX TT ρρ = (2.61)
donde ( )nππππ ˆ,...,ˆ,ˆˆ21
T =ρ
( ) 01
=−∑=
n
iiiij yx π (2.62)
El método de estimación de las varianzas y covarianzas lo obtendremos de
la matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )iin
iij
j
xL
ππβ
−−=∂
∂∑=
11
22
2 (2.63)
para j=0, 1, 2, ....., k
reemplazando: la ecuación para iπ en (2.63)
k., . . . 0,1, para
11 2
0
0
2
2
2
=
+
−=∂
∂∑
∑
∑
=
=
=
j
xExp
xExpxL n
i k
jijj
k
jijjij
jβ
β
β (2.64)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )
k,0,1,2,....lj, para
11
2
=
−−=∂∂
∂∑=
n
iiiilij
ljxx
Lππ
ββ (2.65)
reemplazando:
∑∑
∑
=
=
=
+
−=∂∂
∂ n
i k
jijj
k
jijj
ilijlj
xExp
xExpxx
L
12
0
02
1 β
β
ββ(2.66)
Tanto (2.64) como (2.65) no son funciones de iy , entonces la matriz de
observación y la matriz de segunda derivada esperada son idénticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y
(2.66) se denota con ( )βρ
Ι , llamada Matriz de Información; las varianzas y
covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:
( ) ( )ββρρ
1−Ι=Cov (2.67)
ver Cordeiro (1992).
Los estimadores de la varianza y covarianza, denotada por ,ˆˆ
βρ
ovC se
obtiene evaluando
Entonces la matriz de información estimada, matricialmente tiene la forma:
VXX 'ˆˆ =
Ι βρ
(2.68)
V es una matriz diagonal, esto es:
(( ))[[ ]]iiDiagV ππ ˆ1ˆ −−==
( ) .ˆen ββρρ
Cov
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
de tamaño nxn, además (2.68) es:
( ) ( ) 1'ˆˆ −= VXXovC βρ
(2.69)
y es de tamaño (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)
( )
( ) ( ) ( )( ) ( )
( )
=
k
k
k
ovC
βσ
ββσβσ
ββσββσβσ
β
ˆˆ.......
........
........
ˆ,ˆˆ......ˆˆ.
ˆ,ˆˆ.....ˆ,ˆˆˆˆ
ˆˆ
2
11
01002
ρ
donde:
( )jβσ 2ˆ es la varianza estimada de jβ
( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ
( )jβσ ˆˆ es el error estandar de jβ
La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del
Modelo de Regresión Logística.
2.6.3 MÉTODO DE NEWTON – RAPHSON PARA ESTIMAR LOS
PARÁMETROS DEL MODELO DE REGRESIÓN LOGÍSTICA.
Este es un método para resolver ecuaciones no lineales, como las obtenidas
en (2.57) o equivalentemente en (2.58), y requieren una solución mediante
métodos iterativos para hallar la estimación de los parámetros que es el
máximo de la función (2.54).
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Uno de los métodos más usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rápidamente. En la figura
Nº 2.2 se ilustra el método.
Tomando como estimación inicial 1x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto 2x , entonces se toma a 2x como la siguiente aproximación.
Este proceso continua hasta que un valor de 2x haga que la función sea
nula o suficientemente cercana a cero.
Para la estimación del vector βρ
se quiere hallar el máximo de una función;
entonces usa la primera derivada, porque se anula en el punto máximo y la
segunda derivada para calcular las tangentes. En nuestro caso es necesario
hallar la segunda derivada para obtener la matriz de varianzas y covarianzas
de los parámetros estimados.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Figura Nº 2.2 Interpretación Geométrica del Método Iterativo de Newton
Raphson.
F(x)
Entonces se usa el siguiente esquema iterativo:
( ) ( ) ( )( )[ ] ( )( )tttt S ββββ ˆˆˆˆ 11 ρρρρ −+ Ι+== (2.70)
donde:
( )βρ
S y ( )βρ
Ι son las funciones de Score y de Información
respectivamente.
La función Score es un vector de tamaño k+1, donde el j-ésimo elemento de
acuerdo a (2.57) es:
f(x2)
f(x1)
x2 x1 x
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )( )∑=
−=∂∂ n
iij
tii
jxy
L
1π
β (2.71)
La cual es similar a la expresión (2.59):
( ) kjyxi
iiij ...,,2,10ˆ ==−∑ π
La Función de información es una matriz de tamaño (k+1)(k+1) donde el i-j
ésimo elemento (l,j) es:
( )
−
∂∂
−=∂∂
∂∑=
n
iiiij
lljyx
l
1
2π
βββ
+−
∂∂−= ∑ ∑
= =
n
i ixT
ixTn
iijiij
l e
exyx
1 1 1ρρ
ρρ
β
β
β
+
−
+
= ∑= 21
1
1
ixT
ixTilixT
ixTilixT
n
iij
e
exeexex
ρρ
ρρρρρρρρ
β
ββββ
∑=
+
=n
i ixT
ixTilij
e
exx
1 21
ρρ
ρρ
β
β
( )∑=
−=n
iiiilij xx
11 ππ j=0,1,....,k ; l =0,1,....,k
(2.72)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
donde ( )tπρ , es la t-ésima aproximación para πρ , obtenida de
( )tβρ
mediante:
( )( )
( )
+
=
∑
∑
=
=
ijk
j
tj
ijk
j
tj
ti
xExp
xExp
0
0
1 β
β
π (2.73)
Entonces el próximo valor reemplazando en (2.70) es:
( ) ( ) ( ){ } ( )( )tTtTtt yXXVX πββ ρρρρ−−=
−+ 11 (2.74)
donde ( ) ( ) ( )( )[ ]t
it
it DiagV ππ −= 1
La expresión (2.70) se usa para obtener ( )1+tπρ y así sucesivamente.
Después de dar un valor inicial ( )0β
ρ, se usa (2.70) para obtener
( )0πρ y
para t>0 las iteraciones siguientes se efectúan usando (2.70) y (2.71).
En el límite, ( )tπρ y
( )tβρ
converge a los EMV de πρ y converge en general
en 5 o 6 iteraciones.
Existen software estadísticos como el SAS y el SPSS con programas para
estimar una regresión logística usando el método descrito. Una ventaja de
este método es que en el paso final del proceso iterativo se obtiene la
inversa de la función de información, que es asintóticamente la matriz de
varianzas y covarianzas del vector βϖ
y permiten efectuar inferencias sobre
los parámetros basado en la teoría normal. Para mayor información se
recomienda a Affifi y Clark (1998).
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.4 INTERPRETACIÓN DE LOS COEFICIENTES DEL MODELO
ESTIMADO
Recordamos del modelo de regresión múltiple que el valor de un coeficiente
significaba el cambio en unidades de la variable dependiente por cada
unidad de la variable independiente a que se refiere el coeficiente,
permaneciendo invariantes los valores del resto de variables independientes
del modelo.
A nivel de coeficientes estimados exponencialmente la interpretación es muy
similar y la diferencia estriba en que en este caso no se trata del cambio
(incremento o disminución) de la probabilidad de la variable dependiente por
cada unidad de cambio en las independientes, sino del incremento o
disminución que se produce en el cociente entre P(Y=1) / P(Y=0), expresado
por:
e KXKBBXXBB
YPYP ++++=
== . . . . .2110
)0()1(
(2.75)
Más aún, están expresados en logaritmos, por lo que sería necesario
transformarlos (tomando los valores del antilogaritmo) de tal forma que se
evalúe más fácilmente su efecto sobre la probabilidad. Los programas de
computador lo hacen automáticamente calculando tanto el coeficiente real
como el transformado. Utilizar este procedimiento no cambia en modo
alguno la forma de interpretar el signo del coeficiente. Un coeficiente
positivo aumenta la probabilidad, mientras que un valor negativo disminuye
la probabilidad. Así pues si β es positivo, su transformación (antilog) será
mayor a 1, y el odds ratio aumentará. Este aumento se produce cuando la
probabilidad prevista de ocurrencia de un suceso aumenta y la probabilidad
prevista de su no ocurrencia disminuye. Por lo tanto, el modelo tiene una
elevada probabilidad de ocurrencia. De la misma forma, si β es negativo, el
antilogaritmo es menor que 1 y el odds ratio disminuye. Un valor de cero
equivale a un valor de 1, lo que no produce cambio en el odds. Hair (1999)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.4 PRUEBA DE HIPÓTESIS PARA LOS COEFICIENTES DEL
MODELO DE REGRESIÓN LOGÍSTICA.
Usualmente en la estimación del Modelo de Regresión Logística, como en el
Modelo de Regresión Lineal Múltiple se efectúan pruebas con objetivos
diferentes, siendo estos:
1. Determinar si una variable explicativa tiene coeficiente igual a cero.
2. Determinar si un conjunto de variables explicativas tienen coeficientes
igual a cero.
3. Determinar la calidad del ajuste global del modelo.
Veamos para cada objetivo, como se efectúa el análisis.
2.6.5.1 PRUEBA DE WALD
Wald(1943) estudio una prueba asintótica para estimaciones máximos
verosímiles, y aseveró que los parámetros estimados en los modelos
logísticos tiene una Distribución Normal para muestras grandes.
Esta prueba se usa para evaluar la significancia estadística de cada variable
explicativa o regresora.
Sea ( )tπρ que converge a los EMV de πρ y. nyyy ,,........., 21 variables
respuesta binaria independientes cuyas probabilidades satisfacen.
( ) βπρρT
ii xLogit =
donde [ ]iii xyP ρ1==π
Siendo ixρ una observación que contiene los valores de las k variables
explicativas con ( )ikiiTi xxxx ,......,,,1 21=ρ
.
Sin perdida de generalidad, seleccionaremos jβ como el parámetro de
interés.
Supóngase que las hipótesis son:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
01
00
:
:
jj
jj
H
H
ββ
ββ
≠
= (2.76)
sea jβ un EMV de jβ y sea:
( ) 11 −− = VXXI T la inversa de la matriz de información muestral,
entonces la estadística de Wald para dócimar (2.75) es:
( )( )j
jjWβσ
ββ
ˆˆ
ˆ
2
20−
= (2.77)
donde ( )jβσ ˆˆ es la estimación del error estándar de jβ .
Bajo 0H , ( )21~ χW y para n suficientemente grande se tiene que:
( ) ( )
−−= 1,
ˆˆ
ˆ~
ˆˆ
ˆ 00
j
jj
j
jj Nzβσ
ββ
βσ
ββ (2.78)
por tanto:
( )2
1,2 ~ ξχz , es
2χ con parámetro de no centralización:
( )( )j
jjβσ
ββξ
ˆˆ
20−
= (2.79)
ver Hanck y Donner (1977)
Pero la estadística W , tiene la propiedad que cuando el valor absoluto del
coeficiente de Regresión es grande, el error estándar también lo es; esta
situación hace que la estadística W sea pequeña y por tanto se puede
rechazar jβ igual a cero, cuando en realidad no debería rechazarse.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Por tanto, cuando se encuentra que un coeficiente es grande, es preferible
no usar la estadística de Wald para efectuar dócima individual. Sino se
recomienda construir un modelo con y sin esa variable y basarse en la
prueba de hipótesis de la diferencia entre los dos modelos, ver Hanck y
Donner (1977).
Para las hipótesis estadísticas:
0:
0:
1
0
≠
=
j
j
H
H
β
β (2.80)
La estadística (2.77) es:
( )( )j
jWβσ
β
ˆˆ
ˆ
2
2
= (2.81)
Bajo ( )210 ~, χWH y para n suficientemente grande se tiene que:
( ) ( )
= 1,
ˆˆ
ˆ~
ˆˆ
ˆ
j
j
j
jNz
βσ
β
βσ
β (2.82)
por tanto:
( )2
1,2 ~ ξχz
2z se distribuye como una 2
)1,(ξχ con parámetro de no centralización:
( )( )j
j
βσ
βξ
ˆˆ 2
2= (2.83)
si la variable explicativa es categórica, los grados de libertad es igual al
número de categorías o niveles de la variable menos uno.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.5.2 PRUEBA CHI-CUADRADO
Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la
sección 2.6.4 y sirve para docimar los coeficientes del modelo logístico.
Para elegir un modelo, se usa la prueba de razón de verosimilitud, Bickel y
Docksum (1977), para probar la hipótesis de que los coeficientes jβ
correspondientes a las variables explicativas retiradas, digamos q variables
explicativas, del modelo son iguales a cero, siendo la hipótesis estadísticas:
qjunmenosloporparaH
H
j
q
,...,2,1,0:
0....:
1
210
=≠
====
β
βββ
.Esta prueba se basa en la siguiente estadística:
[ ]pqpq LLnLLn −−= −22χ (2.84)
Bajo la hipótesis de que los coeficientes de las variables retiradas son
iguales a cero, la estadística (2.84) tiene una distribución asintótica ( )2qχ .
Valores altos para esta estadística indican que una o más de las q variables
retiradas tienen coeficiente de regresión distinto de cero.
La estadística 2qχ se usa también para probar si una variable explicativa
determinada, por ejemplo kx , muestra una asociación significativa (como
factor de riesgo cuando se aplica a casos de enfermedades) para con la
variable respuesta en la presencia de las demás variables 121 ,...,, −kxxx .
2.6.5.3 ESTADISTICA CHI-CUADRADA DE PEARSON
Esta estadística sirve para lograr el objetivo número 3, es decir evaluar el
modelo ajustado en forma global. La estadística se basa en la comparación
de los valores observados, iy ; y sus respectivas probabilidades estimadas,
iπ .
Las hipótesis estadísticas para usar esta estadística son:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
kjunmenosloporparaH
H
j
ko
,...,2,.,1,0,0:
0....:
1
10
=≠
====
β
βββ
esta prueba se basa en la estadística Chi-cuadrado de Pearson, que está
dada por:
( )( )∑
= −−
=n
i ii
iiy
1
22
ˆ1ˆˆππ
πχ (2.85)
o equivalentemente ∑=
=n
i ii
ivr
1
22χ (2.86)
donde:
( )( ) ( )iiii
iii
VDiagv
yr
ππ
π
ˆ1ˆˆ
ˆ
−==
−=
como observamos la estadística (2.86) es igual a (1.52).
Bajo la hipótesis nula, de que el modelo se ajusta bien a los valores
observados, la
estadística (2.86) tiene distribución asintótica Chi-cuadrado ( )( )2
1+− knχ .
Valores altos de la estadística Chi-cuadrado de Pearson indican
discrepancias con el modelo teórico, Cordeiro (1992).
La estadística (2.86) es inestable cuando iπ toma valores cercanos a cero o
uno, por ello tomar en cuenta esta observación, cuando se realiza el análisis.
2.6.5.4 DESVIANZA
Otra forma de probar el ajuste global del modelo, es mediante la estadística
llamada Desvianza, propuesta por Nelder y Wederburn (1982), es análogo a
la suma de cuadrados de los residuales del Modelo de Regresión Lineal
Múltiple.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Las hipótesis estadísticas son:
kjunmenosloporparaH
H
j
k,...,2,.,1,0:
0....:
1
10=≠
===β
ββ
Esta estadística se usa para evitar la inestabilidad de la estadística Chi-
cuadrado de Pearson. La Desvianza esta dada por:
∑=
=n
iip dD
1
2 (2.87)
donde :
njysip
ysipd
ii
ii
i ,...,2,1;0)ˆ1log(2
1ˆlog2=
=−−
=−=
La Desvianza bajo la hipótesis nula, asintóticamente, es la misma que la
distribución Chi-cuadrado de Pearson, es decir se distribuye ( )( )2
1+− knχ y
mide la discrepancia o el desvio entre el modelo bajo investigación o actual y
el modelo saturado.
La estadística (2.87) para el modelo de regresión logística eta dada por:
( ) ( ) ( )( )∑ −−+−= iiii yyD ππ ˆ1log1ˆlog2 (2.88)
Cuando el modelo bajo investigación es verdadero se compara el valor D
con el valor crítico 2
)( pn−χ de una distribución 2χ a un nivel de
significación igual a α , por tanto :
Si 2)( pnD −> χ el modelo se rechaza y
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Si 2)( pnD −≤ χ el modelo no se rechaza.
donde 1+= kp
2.6.5.5 TABLA DE CLASIFICACION
También llamada Matriz de Confusión, es una forma sencilla de evaluar el
ajuste del Modelo de Regresión Logística, no es tan objetiva pero se usa
como indicador de bondad de ajuste.
Es una tabla sencilla de 2x2, en el cual se muestra la distribución de los
objetos que pertenecen a las categorías 1 y 2, es decir cuando 0=y y
cuando 1=y , conjuntamente con la clasificación a cualquiera de las 2
categorías de acuerdo a la probabilidad estimada.
Para interpretar se hace mediante el porcentaje de objetos bien clasificados,
esto es, aquellos que mediante la probabilidad estimada permanecen en su
respectiva categoría. También se interpreta mediante el porcentaje de
objetos mal clasificados, esto es, aquellos que mediante la probabilidad
estimada se asignan a categorías diferentes del cual fueron observados.
TABLA DE CLASIFICACION
GRUPO ESTIMADO GRUPO
ACTUAL 0 1
TOTAL
MARGINAL
0 11n 12n 1211 nn +
1 21n 22n 2221 nn +
TOTAL
MAGINAL 2111 nn + 2212 nn + n
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
%1002211 xn
nn + es el porcentaje de objetos bien clasificados
mediante el Modelo de Regresión Logística estimado.
Por tanto, lo que se debe esperar es que este porcentaje sea lo más alto
posible, a fin de concluir que el modelo obtenido clasifica bien a los objetos o
individuos.
2.6.5.6 CONTRASTE DE BONDAD DE AJUSTE DE HOSMER –
LEMESHOW
Este contraste evalúa la bondad de ajuste del modelo, es decir el grado en
que la probabilidad predicha coincide con la observada, construyendo una
tabla de contingencia a la que aplica un contraste ÷2. Para ello calcula los
deciles de las probabilidades estimadas ( nipi ,...2,1;ˆ = ) , D1,D2,....D9 y
divide los datos observados en 10 categorías dadas por :
10,..,2,1;}},...,2,1{/)[ˆ{ ,1 =∈∈= − jniDDpA jjij
donde D0 = 0 , D10 = 1.
Sean:
nJ = número de casos en Aj ; j=1,2,...,10
oj = número de yi =1 en Aj ; j=1,2,...,10
10,...2,1;ˆ1 == ∑∈
jpn
pjAi
ij
j
El estadístico del contraste viene dado por :
∑= −
−=
10
1
2
)1(
)(
j jjj
jjj
ppn
pnoT (2.89)
y el p-valor del contraste es [ ]obsTP ≥28χ .z
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.6 DIAGNOSTICO DEL MODELO
Es la evaluación de la bondad de ajuste caso por caso mediante el análisis
de los residuos del modelo y de su influencia en la estimación del vector de
parámetros del mismo, se realiza usando:
2.6.6.1 RESIDUOS DEL MODELO
Los residuos más utilizados son los siguientes:
Residuos estandarizados.- Son el cociente entre los residuales y una
estimación de la desviación estándar.
nipp
pyz
ii
iii ,...,2,1;
)ˆ1(ˆ
ˆ=
−−
= (2.90)
Residuos studentizados.- Son el cambio en el valor de la desvianza del
modelo si el caso es excluído.
( )
( ) ( )ni
pp
pyst
ii
iii ,...,2,1;
)ˆ1(ˆ
ˆ=
−−
= (2.91)
donde ( )ip es la estimación de ip obtenida eliminando la observación i
de la muestra.
Residuos Desvianza.- Para cada observación la desvianza se calcula :
njysip
ysip
d
ii
ii
i ,...,2,1;0)ˆ1log(2
1ˆlog2
=
=−−
=−=
(2.92)
Todos estos residuos se distribuyen aproximadamente como una N(0,1), si
el modelo ajustado es correcto.
2.6.6.2 MEDIDAS DE INFLUENCIA
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Cuantifican la influencia que cada observación ejerce sobre la estimación del
vector de parámetros o sobre las predicciones hechas a partir del mismo, de
modo que, cuanto más grande son, mayor es la influencia que ejerce una
observación en la estimación del modelo.
Medida de Apalancamiento (Leverage)
Se utiliza para detectar observaciones que tienen un gran impacto en los
valores predichos por el modelo.
Se calcula a partir de la matriz 2/112/1 ')'( WXWXXXWH −= donde
)ˆ1(ˆ ii ppdiagW −= . El apalancamiento para la observación i-ésima viene
dado por el elemento i-ésimo de la diagonal principal de H, hi i , y toma
valores entre 0 y 1 con un valor medio de p/n.
Las dos medidas siguientes miden el impacto que tiene una observación en
la estimación de â.
Distancia de Cook.- Mide la influencia en la estimación de â.
( ) ( ))(
'
)( ââ'ââ1
iii WXXp
COOK −−= (2.93)
DFBETA.- Mide la influencia en la estimación de una componente de â, âi
)â(
ââ1
1
)(11
stdDfbeta i
i
−=
(2.94)
donde )(11 â,â i denotan las estimaciones del módelo logístico de â y â 1,
eliminando la i-ésima observación de la muestra y )â( 1std el error estándar
en la estimación de â1.
2.6.7 VARIABLES EXPLICATIVAS CATEGORICAS – VARIABLES
DUMMY
Si una de las variables explicativas es categórica, con c valores posibles, se
crean c-1 variables dicotómicas como variables explicativas también
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
llamadas variables dummy. Estas variables cuantifican el efecto de un valor
de dichas variables con respecto a un valor de referencia.
Estas variables se usan cuando los datos se muestran como categorías, las
categorías pueden ser:
Nominales: La variable simplemente indica diferentes categorias, las
categorías no pueden ser ordenadas en un orden particular. Ejemplo : Sexo
(hombre,mujer).
Ordinales: La variable además de estar agrupada en categorías puede ser
ordenada. El que una categoría este en un orden superior que otra implica
que su medida representa algo mayor que la otra. Ejemplo: Clase social
(baja, media, alta).
Intervalares: La variables no solo puede ser ordenada, sino que su valor
mide la distancia entre categorías. Estas tienen estándares de unidades de
medida.
Ejemplo: Altura, temperatura, presión sanguínea.
Cuando se tiene variables de este tipo se crean las llamadas variables
dummy, si la variable tiene c categorias se usan c-1 variables ficticias o
dummy. La variable indica si un dato corresponde a una categoría o no.
Veamos un ejemplo de cómo se hace esto:
Supongamos que tenemos una variable clase social, codificada 1: Baja,
2:Media, y 3:Alta, entonces creamos dos variables dummy :
Clase1 : 1 si el dato corresponde a la clase social Baja, 0 si el dato no
pertenece a la clase Baja.
Clase2 : 1 si el dato corresponde a la clase social Media, 0 si el dato no
pertenece a la clase Media.
Como se puede ver estas nos permiten clasificar cualquier dato en una de
las categorias existentes.
Supongamos que creamos las variables dummy Ind1 e Ind2 para una
variable X1 de tres categorías, como sigue:
X1 Ind1 Ind2
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
1 1 0
2 0 1
3 0 0
En este caso la ecuación del modelo ajustado viene dada por:
21);2,1(1
);2,1(log 210 IndInd
IndIndpINdIndp
ββββ
β++=
−
(2.95)
Sea pi = p[y=1/X1=i]; i=1,2,3. Se tiene:
02010
3
3
2
2
1
1
1,
1,
1βββββ e
pp
ep
pe
pp =
−=
−=
−++
Se sigue que:
21
3
3
2
2
3
3
1
1
11,
11ββ e
pp
pp
ep
pp
p =−−
=−−
Por lo tanto, 2,1, =ie iβ compara los odds ratio correspondientes a X1=1,2,
frente al de la categoría de referencia X1=3.
CAPÍTULO 3
DESARROLLO DEL ESTUDIO
3.1 DISEÑO
El objetivo del presente análisis es estimar un modelo de regresión logística
que permita determinar la probabilidad de ocurrencia de una incidencia en
una operación de Importación Definitiva de Repuestos para Vehículos.
Se analizará la información correspondiente a las declaraciones de
importación de la Aduana Marítima del Callao dado que esta es la aduana
con mayor cantidad y variedad de operaciones de importación.
La partida arancelaria de los Repuestos para Vehículos es la ‘8708’ del
arancel de Aduanas.
En el presente estudio nos centraremos en el análisis de las siguientes
subpartidas por ser las de mayor movimiento.
Tabla 3.1 Subpartidas Arancelarias de Repuestos de mayor
movimiento
SUBPARTIDA DESCRIPCIÓN
8708999000 Demas partes y accesorios de vehiculos
8708800000 Amortiguadores de suspension de vehiculos automoviles
8708701000 Ruedas y sus partes
8708500000 Parachoques/defensas y sus partes de automoviles
8708992900 Transmiciones cardanicas
8708399000 Guarniciones para frenos
8708910000 Radiadores
Una declaración de importación consta de dos partes: Cabecera y Series.
En la cabecera se consignan los datos generales de la operación tales
como: Importador, Fecha de Embarque, Agente de Aduanas, Identificación
del transporte, Nro. Total de Bultos, etc. En las series se consignan los
datos relativos al producto o productos materia de la importación tales como:
Partida Arancelaria, peso, precio FOB por partida, cantidad, descripción de
la mercancía, etc. Asimismo cada una de las series se registran los montos
de los tributos a pagar por el derecho de ingresar la mercancía al país. Una
declaración puede tener una o más series.
Las variables que se usaremos se definen en la siguiente tabla.
Tabla 3.2 Definición de Variables en estudio
NOMBRE DEFINICIÓN UNIDADES O CATEGORIAS
INCI Incidencia : Detección de un error o subvaluación por parte del Importador, con el fin de pagar menos o no pagar los impuestos.
‘1’ Incidencia ‘0’ No incidencia
FOB Valor de la mercancía en el puerto de Origen.
Dólares Americanos.
ADV Advalorem. Tributo que aplica el Estado Peruano a las mercancías que ingresan al país, en el caso de los repuestos para vehículos la tasa es del 15% sobre el FOB+Flete+Seguro.
Dólares Americanos
IGV Impuesto General a las ventas, que aplica el Estado Peruano a todas las mercancías que ingresan al país, es una tasa igual para todos los productos del 18% sobre el FOB+flete+Seguro+ADV.
Dólares Americanos
IPM Impuesto de Promoción Municipal, tasa que se aplica a todos los productos que ingresan al país, es una tasa igual para todos los productos del 18% sobre el FOB+flete+Seguro+ADV.
Dólares Americanos
PESO Peso Bruto de las mercancías. Incluye el peso del embalaje.
Kilogramos.
CODPAIS En los datos originales se consigna el País de origen de la mercancía, es una variable categórica que se ha codificado de acuerdo a lo especificado en la columna siguiente.
‘1’ Japón ‘0’ Los demás paises
CODPROD En los datos originales se consigna la Partida Arancelaria Para este estudio se han seleccionado las partidas de repuestos para vehículos, estas se han agrupado y codificado de acuerdo a lo especificado en la columna siguiente.
‘1’ Partes (dispositivos incompletos) y Accesorios ‘2’ Guardafangos, Flancos y Puertas ‘3’ Amoritiguadores ‘4’ Ruedas ‘5’ Ejes ‘6’ Parachoques ‘7’ Transmiciones Cardánicas
‘8’ Radiadores ‘9’ Guarniciones para Frenos ‘10’ Los demás repuestos
AGENRIES En los datos originales se consigna el código del agente que es el encargado de realizar el trámite de Importación en Aduanas. Se han definido niveles de riesgo de incidencia para cada agente de acuerdo al número de multas y faltas cometidas registradas en la información histórica y demás datos de la Gerencia de Fiscalización. De aparecer un nuevo agente se le asignaría un riesgo de 90%.
Del 0 al 100%. Se acercan a cero los agentes con pocas faltas ante Aduanas.
IMPORIES En los datos originales se consigna el RUC del importador o dueño de la mercancía. Se han definido niveles del riesgo para cada importador de acuerdo a los ranking de buen pagador, a la información histórica y demás datos de la Gerencia de Fiscalización. De aparecer un nuevo importador se le asignaría un riesgo de 0.2%.
Del 0 al 100%. Se acercan a cero los malos pagadores.
Entonces definiremos:
Población: Importaciones definitivas de Repuestos para vehículos
diligenciadas entre los años de 1997 y 2001, por la Aduana Marítima del
Callao.
Unidad Estadística: Serie de una declaración de importación, definida
anteriormente.
3.2 PROCEDIMIENTO DE SELECCIÓN DE LA MUESTRA
El Sistema de Gestión Aduanera – SIGAD, el cual permite efectuar el
seguimiento y control de todas las operaciones aduaneras desde su
presentación ante aduanas, en forma diaria.
Para extraer la muestra se usaron los archivos de declaraciones de
importación del SIGAD, correspondientes a la Aduana Marítima, siguiendo
los siguientes pasos:
1ro. Se determinó el número de series con las partidas de los productos
repuestos para vehículos diligenciadas entre 1997 y 2001. Este resultó
218,921 series.
2do. Es obvio que la población tiene un ordenamiento aleatorio, porque se
registran los datos correspondientes de acuerdo al orden de llegada.
3ro. Se solicitó la opinión de un especialista en Fiscalización y Técnica
aduanera quien recomendó tomar una muestra aproximada de 1000 series.
4to. Se sabe que el porcentaje de incidencias para los Repuestos para
Vehículos es del 63.8%, entonces usando la fórmula del muestreo aleatorio,
para un error de estimación de 0.033 se obtiene:
n = N x p x q_ = 218,921 x 0.638 x 0.362 = 845,052 ≈ 845
(N-1) x D + pxq 218,920 x (0.033)2 + .0638 x 0.362
donde p = 0.638
q = 1-p = 0.362
D = B2/4 , B : es el error de estimación => B=0.033
5to. Se calculó el intervalo de selección K=N = 259.078 ≈ 259. n y se obtuvo el arranque aleatorio seleccionando un número aleatorio entre 1
y 259 llamado A , y se tomó la muestra de acuerdo al orden del archivo, en
las posiciones: A ,A+259 ,A+2(259) ,..... ,A+(844)(259).
3.3. ANALISIS DE LOS DATOS
3.3.1 ANALISIS EXPLORATORIO PREVIO
El examen previo de los datos es un paso necesario, que permite obtener un
conocimiento básico de los datos y las relaciones entre las variables. El
conocimiento de las interrelaciones de variables puede ayudar enormemente
a la especificación y refinamiento del modelo, así como proporcionar una
perspectiva razonable para la interpretación de los resultados.
El análisis exploratorio es a menudo menospreciado o ignorado, sin embargo
es una herramienta muy útil que nos permite también ver los problemas de
los datos, tales como: datos ausentes, valores extremos o discordantes.
3.3.1.1 Variables Cuantitativas
Como un primer paso veamos las estadísticas descriptivas.
Tabla 3.3. Estadísticas Descriptivas de las variables continuas
N=845 FOB PESO ADV IGV IPM AGENRIE IMPRIES
Media 225,894 760,000 30,929 46,234 5,779 0,167 0,294
Desviación
Estándar
104,455 2129,430 14,891 22,231 2,779 0,180 0,288
Rango 424,960 1297.98 68,480 104,970 13,120 0,670 0,940
Mínimo 101,090 2,020 0,000 0,000 0,000 0,010 0,010
Máximo 510,000 1300,000 68,480 104,970 13,120 0,680 0,950
140,000 705,120 19,500 29,030 3,630 0,030 0.030
199,460 870,200 27,025 40,635 5,080 0,100 0,120
Percentiles 25
50
75 292,927 990,010 40,400 59,882 7,488 0,250 0,500
Un método que permite entender como se distribuyen los valores en cada
variable, identificar datos discordantes y valores extremos es el gráfico de
Cajas.
Como se puede ver el
Precio FOB de los repuestos
Varía entre 101.9 y 510.0
Dólares. Su mediana es 200
dólares. Presenta una distri-
bución asimétrica, y una dis-
persión media que se explica
por que los precios de algu-
nos repuestos como acceso-
rios puede ser mucho menor
que el de los radiadores o
amortiguadores.
Como se puede apreciar
El Peso Bruto varia entre
2 y 1300 kilos. Su media-
na está en los 800 kilos.
Se trata de una distribu-
ción asimétrica con una
dispersión grande, debido
a que los artículos como
accesorios son pequeños
y de poco peso, mientras
que las ruedas o guarda-
fangos tienen un peso
mayor.
FIGURA Nº 3.1
FIGURA 3.2
Como se puede apreciar el
IPM varía entre 0 y 13.12
dólares y su mediana está
en los 4.8 dólares. Tiene
una distribución asimétrica
No presenta mucha disper-
sión esto se explica porque
el IPM es una tasa del 2%
que se aplica sobre el
FOB+flete+seguro+ADV.
Como se puede apreciar el ADV
Varía entre 0 y 64.48 dólares. Su
Mediana esta en 25 dólares. Es
Una distribución asimétrica con
Dispersión media. Esto se debe
a que los productos del rubro
Tiene una tasa del 12 al 15%
Sobre el FOB+flete+seguro
En estos últimos años.
FIGURA Nº 3.3
FIGURA Nº 3.4
Como se puede ver el IGV varía
entre 0 y 104.97 dólares. Su
Mediana está en 46.23 dólares.
Se trata de una distribución asi-
métrica con una dispersión me-
dia. Esto se explica por que el
IGV es una tasa que se aplica
Al FOB+flete+seguro+ADV del
18%.
Como se puede ver el riesgo por
Importador esta entre 0.1 y 0.98.
Su mediana esta en 0.15. Se
trata de una distribución asimé-
trica, con una dispersión grande.
Esto ocurre debido a que la ma-
yoría de importadores no se con-
sideran buenos pagadores, por
Lo que su Riesgo es bajo, mien –
tras que una cantidad menor
tiene riesgo alto.
FIGURA Nº 3.6
FIGURA Nº 3.5
Como se puede apreciar el riesgo
por Agente varía entre 0,1 y 0.68.
su mediana está en 0.15.
se presentan 2 observaciones
discordantes. Se trata de una
distribución asimétrica. Los datos
discordantes se deben a que
existen agentes con altos porcen-
tajes de riesgo. Dado que el modelo que vamos a construir puede expresarse como una
relación entre el Log del Odds de Incidencias y una combinación lineal de
las variables regresoras, Garret (1994) recomienda plotear el Log Odds de
Incidencia versus cada una de las variables regresoras cuantitativa de la
siguiente forma.
Variable por variable:
1ro. Separar la variable cuantitativa en rangos de tamaños iguales.
2do. Por cada rango calcular el número de incidencias y la cantidad de datos
que contiene el rango.
3ro. Por cada rango calcular la probabilidad de ocurrencia de una incidencia
llamada p como el número de incidencias ocurridas en el rango entre el
número de datos que contiene el rango. Asimismo calcular el Logaritmo
natural de p/(1-p), y la media por cada rango.
4to. Graficar los valores de la media en el eje X versus los valores
de LOG(p/1-p))
5to. Observar si existe relación lineal o no.
FIGURA 3.7
Se puede apreciar que existe
una relación lineal entre el log
odds y el peso, sobre todo
para pesos mayores a 100
kilos. Eso podría interpretarse
como que ha mayor peso más
probabilidad de incidencia.
Se puede apreciar que existe
una relación lineal inversa entre
el Log del Odds y el precio FOB
Esto podría interpretarse como
que para precios FOB menores
a 200 dólares existe mayor pro-
babilidad de incidencia.
Se puede apreciar que no existe
relación lineal entre el Log de Odds
y el ADV. Sin embargo intrínseca-
mente el monto ADV si está relacio-
nado con la ocurrencia de inciden –
cias
Log Odds de Incidencia por Rangos de Peso
0,00000
0,05000
0,10000
0,15000
0,20000
0,25000
0,30000
0,35000
0,40000
0,00 50,00 100,00 150,00 200,00 250,00
Rangos de Peso
Log
Odd
s
Log Odds de Incidencia por Rangos de Precio FOB
0,30000
0,32000
0,34000
0,36000
0,38000
0,40000
0,42000
0,44000
0,46000
100,00 150,00 200,00 250,00
Rangos de Precio FOB
Log
Odd
s
FIGURA Nº 3.8
FIGURA 3.9
Log Odds de Incidencias por Rangos de Advalorem - ADV
0,00000
0,50000
1,00000
1,50000
2,00000
2,50000
3,00000
0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00
Rangos de ADV
Log
Odd
s
FIGURA Nº 3.10
En cuanto al IGV e IPM, sucede igual que con el ADV, no existe una relación
lineal con el Log Odd de Incidencia.
Se aprecia que si existe una relación
lineal entre el riesgo por agente y el
Log de Odds de incidencia.
A mayor riesgo mayor probabilidad
de incidencia.
Se puede apreciar que si existe
Una relación lineal inversa entre
el riesgo por importador y el Log
del odds de incidencia. A me-
nor valor de riesgo mayor proba-
babilidad de incidencia.
Log Odds de Incidencia por Rangos de IGV
0 , 0 0 0 0 0
0 , 5 0 0 0 0
1 , 0 0 0 0 0
1 , 5 0 0 0 0
2 , 0 0 0 0 0
2 , 5 0 0 0 0
0 , 0 0 1 0 , 0 0 2 0 , 0 0 3 0 , 0 0 4 0 , 0 0 5 0 , 0 0
Rangos de IGV
Log
Odds
Log Odds de Incidencia por Rangos de IPM
0 , 0 0 0 0 0
0 , 2 0 0 0 0
0 , 4 0 0 0 0
0 , 6 0 0 0 0
0 , 8 0 0 0 0
1 , 0 0 0 0 0
1 , 2 0 0 0 0
1 , 4 0 0 0 0
1 , 6 0 0 0 0
1 , 8 0 0 0 0
0 , 0 0 1 , 0 0 2 , 0 0 3 , 0 0 4 , 0 0 5 , 0 0 6 , 0 0
Rangos de IPM
Log
Odds
FIGURA Nº 3.11 FIGURA Nº 3.12
Log Odds de Incidencia por Rangode Riesgo por Importador
0 , 0 0 0 0 0
0 , 2 0 0 0 0
0 , 4 0 0 0 0
0 , 6 0 0 0 0
0 , 8 0 0 0 0
1 , 0 0 0 0 0
1 , 2 0 0 0 0
1 , 4 0 0 0 0
1 , 6 0 0 0 0
1 , 8 0 0 0 0
2 , 0 0 0 0 0
0 , 0 0 0 0 0 0 , 0 5 0 0 0 0 , 1 0 0 0 0 0 , 1 5 0 0 0 0 , 2 0 0 0 0 0 , 2 5 0 0 0 0 , 3 0 0 0 0 0 , 3 5 0 0 0
Rango de Riesgo porImportador
LogOdds
FIGURA 3.13
Log Odds de Incidencia por Rangos de Riesgo por Agente
0,00000
0,05000
0,10000
0,15000
0,20000
0,25000
0,30000
0,35000
0,00000 0,05000 0,10000 0,15000 0,20000
Rangos de Riesgo por Agente
Log
Odd
s
FIGURA Nº 3.14
Una herramienta para definir cual es la interrelación existente entre las
variables es el análisis de la matriz de correlaciones.
Tabla 3.4 Correlaciones Pearson para variables contínuas
PESO FOB ADV IGV IPM AGENRIES IMPRIES
PESO 1,000 0,153 0,403 0,442 0,442 -0,106 -0,109
FOB 0,153 1,000 0,837 0,841 0,841 -0,003 -0,041
ADV 0,403 0,837 1,000 0,985 0,985 -0,038 -0,037
IGV 0,442 0,841 0,985 1,000 1,000 -0,038 -0,034
IPM 0,442 0,841 0,985 1,000 1,000 -0,038 -0,034
AGENRIES -0,106 -0,003 -0,038 -0,038 -0,038 1,000 0,468
IMPRIES -0,109 -0,041 -0,037 -0,034 -0,034 0,468 1,000
Que se puede graficar como sigue:
Como se puede apreciar existe correlación lineal entre las variables ADV e
IPM, IPM e IGV, y entre ADV e IGV; debido a ello seria necesario retirar dos
de ellas del modelo. Si analizamos los valores de la matriz de correlaciones
veremos que la correlación entre el ADV y el FOB es de 0.837, mientras que
la correlación del IGV con el FOB es de 0.841, las correlaciones del ISC
PESO
FOB
ADV
IGV
IPM
AGENRIES
IMPRIES
Matriz de Correlaciones
FIGURA 3.15
versus las demás variables son idénticas a las del IPM versus las demás
variables. Se puede ver que todas las correlaciones del ADV versus PESO,
AGENRIES, IMPRIES son menores que las del IPM e ISC versus las
mismas. Por lo tanto seleccionaríamos la variable ADV para permanecer en
el modelo.
Asimismo se puede apreciar que existe alta correlación entre el ADV y el
Precio FOB, lo cual es explicable debido a que el ADV es una tasa del 12 o
15 por ciento que se calcula tomando el FOB+flete+seguro como base.
Las demás correlaciones son inferiores a 0.5 y el gráfico no permite
establecer una correlación lineal.
3.3.1.2 VARIABLES CATEGORICAS
Tabla 3.5 Frecuencias cruzadas INCI (Incidencia) versus CODPAIS ( País de Origen )
PAIS
INCIDENCIA Japón Otros Total
No 77 274 351
Si 154 340 494
Total 231 614 845
Se puede apreciar que más de un tercio ( 154 ) del total de incidencias (
494 ) se dan en los productos con país de origen Japón. Asimismo más
de un tercio ( 231 ) de todos los repuestos ( 614 ) provienen del Japón.
FIGURA Nº 3.16
Gráfico de Barras Agrupadas
País Origen versus Incidencia
PAIS
JAPONOTROS
Can
tidad
de
póliz
as
400
300
200
100
0
INCI
No Incidencia
Incidencia
Tabla 3.6 Frecuencias cruzadas
INCI (Incidencia) versus CODPROD (Producto)
PRODUCTO
INCIDENCIA Partes y Acceso-rios
Los demás
Guarda-fango, Flancos y Puertas
Amortiguadores
Ruedas Ejes Parachoques
Trans-micio-nes
Radiado- res
Guarni-ciones para frenos
Total
No 40 146 29 21 24 14 25 30 8 14 351Si 76 219 49 29 23 31 21 6 27 13 494
Total 116 365 78 50 47 45 46 36 35 27 845
Se puede apreciar que el grupo Los demás repuestos es el que presenta
mayor número de incidencias (146 ), seguido por las Partes y Accesorios (
40 ). También se aprecia que para esta muestra el número de incidencias
son mayores que el número de no incidencias para 7 de los 10 tipos de
productos de interés.
FIGURA Nº17
Gráfico de Barras Agrupadas
Producto versus Incidencia
PRODUCTO
Guarniciones
Radiadores
Transmiciones
Parachoques
EjesRuedas
Amortiguadores
Guardafangos
Los demás
Part. y Acc.
Can
tidad
de
póliz
as
300
200
100
0
INCI
No incidencia
Incidencia
3.3.2 ANALISIS DE REGRESION LOGISTICA
Los cálculos y gráficos referidos se realizado a través del paquete SPSS for
Windows versión 9.0
3.3.2.1. Ajuste inicial del modelo de Regresión Logística a las variables
en estudio
Con el fin de estimar los valores de los coeficientes β0 se ha ajustado un
modelo de regresión logística binaria teniendo:
INCI como la variable dependiente y PESO, FOB, AGENRIES, IMPRIES,
CODPAIS, CODPROD como las variables independientes.
Las variables ADV, IGV e IPM se retiran del modelo por que no presentan
una relación lineal con el Odds de incidencia y por que están
correlacionadas entre sí y el además el ADV esta correlacionado con el
Precio FOB.
Con nuestra muestra de tamaño 845, los resultados que entrega el SPSS (
ver anexo 2.1 ) son:
VARIABLES EN EL MODELO -2 Log Likelihood
Solo la constante 1147.1019
Todas las variables 699.0360
Se observa que -2 veces el Log de la máxima verosimilitud ha disminuido de
1147.1019 de la constante a 699.0360 incluyendo todas las variables en el
modelo lo cual significa que la verosimilitud ha aumentado.
Y se tiene el estadístico chi-cuadrado de valor 448.066, 14 grados de
libertad y significancia =0.000. Estos resultados sirven para verificar las siguientes hipótesis:
H0 : Todos los coeficientes son iguales a cero.
H1 : Por lo menos un coeficiente es diferente de cero
Lo que quiere decir que se puede rechazar la hipótesis nula de que los
coeficientes del modelo son iguales a cero.
También nos muestra la siguiente:
Tabla 3.5 Clasificación para INCI - Modelo 1
Predecidos Porcentaje Correcto
Observados 0 1
0 248 103 70.66
1 42 452 91.50
Porcentaje Correcto Global 82.84%
La tabla de clasificación nos muestra que con este modelo los porcentajes
de valores clasificados en su mismo grupo son de 70.66% para las no
incidencias y de 91.50% para las incidencias. Lo cual hace un ajuste global
del 82.84%. Esto nos indica que este es un buen ajuste.
Tabla 3.6 Variables en el modelo – Modelo 1 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0026 ,0004 45,9613 1 ,0000 ,1958 1,0026 FOB -,0027 ,0010 7,9552 1 ,0048 -,0721 ,9973 AGENRIES 7,0843 ,6959 103,6246 1 ,0000 ,2976 1193,0721 IMPRIES -7,3080 ,5449 179,8744 1 ,0000 -,3938 ,0007 CODPAIS(1) 2,0389 ,2841 51,4901 1 ,0000 ,2077 7,6822 CODPROD 25,8105 9 ,0022 ,0825 CODPROD(1) 2,4672 ,5941 17,2476 1 ,0000 ,1153 11,7897 CODPROD(2) 1,9337 ,6924 7,7988 1 ,0052 ,0711 6,9152 CODPROD(3) 2,6193 ,6336 17,0916 1 ,0000 ,1147 13,7267 CODPROD(4) 2,1035 ,7500 7,8670 1 ,0050 ,0715 8,1947 CODPROD(5) 2,3911 ,6526 13,4233 1 ,0002 ,0998 10,9253 CODPROD(6) 1,7681 ,6789 6,7826 1 ,0092 ,0646 5,8598 CODPROD(7) 2,8898 ,7569 14,5772 1 ,0001 ,1047 17,9897 CODPROD(8) 1,7561 ,6889 6,4983 1 ,0108 ,0626 5,7896 CODPROD(9) 2,7108 ,7293 13,8170 1 ,0002 ,1015 15,0410 Constant -1,4222 ,6324 5,0579 1 ,0245
Estos datos nos permiten verificar las siguientes hipótesis :
Ho: βj = 0 Para todo j = 1,..., k
H1: βj ≠ 0 Para algún j ∈ {1,2,...,k}
Verificando la hipótesis nula de que los coeficientes B del modelo son
iguales a cero, con un α=0.05 por ciento, si observamos la estadística de
Wald y la columna Sig de la tabla 3.6 podemos ver que es posible rechazar
dicha hipótesis para los coeficientes del PESO, AGENRIES, IMPRIES,
CODPROD, CODPAIS y FOB.
3.3.2.2 Análisis de residuos
A través del análisis de residuos en regresión logística podemos detectar los
datos discordantes “outliers”, y si existen datos que influyan
significativamente en la estimación de los coeficientes.
Este análisis se realiza con el fin de mejorar el modelo ajustado, eliminando
los datos discordantes y los datos influyentes.
Para detectar los datos discordantes usaremos el gráfico de los residuos
estandarizados para cada uno de los datos
Se puede ver en los extremos verticales superior e inferior que existen datos
discordantes, estos son los que están un poco más alejados de la recta 0
que los demás.
Además el SPSS nos entrega una lista de datos con residuales
standarizados son mayores a 2.00, que consta de 22 casos cuyo detalle se
FIGURA Nº3.18
Residuos Estandarizados por Observación
Observacion
10008006004002000-200
Res
iduo
s E
stan
dariz
ados
10
0
-10
-20
puede ver en el anexo 2.1. Así pues retiraremos del archivo de datos los 22
casos que indica el SPSS. Y nuevamente procesaremos el modelo de
regresión logística.
Sin retirar los 22 casos arriba mencionados, y para detectar datos con
influencia sobre la estimación de parámetros usaremos los gráficos de
valores Leverage y las distancias de Cook.
Este gráfico para nuestra muestra nos muestra los valores de Leverage para
nuestro modelo se encuentran muy dispersos y no es posible determinar
claramente cuales son atípicos, es por este motivo que no se han usado
estos resultados para nuestro estudio,
En cambio la figura 3.20 nos muestra las distancias de Cook por
Observación, allí si puede observar que la mayoría de datos se encuentran
formando un grupo cohesionado entre valores de distancias de Cook
menores a 0.2, y que existen algunos datos cuyo valor es superior a dicha
cifra que se encuentran separados del grupo.
FIGURA Nº 3.19
Leverage versus Valor Predictado
Valor Predictado
1,21,0,8,6,4,20,0-,2
Leve
rage
,10
,08
,06
,04
,02
0,00
-,02
Dado que la distancia de Cook , se refiere a la distancia de los valores de
predicción entre el estimado con todas las observaciones menos el estimado
sin la observación i-ésima. Diremos que los datos tienen una influencia si la
distancia de Cook es grande. Del mismo modo se evalúa el Leverage pues
esta medida representa la distancia desde xj a la media de datos.
3.3.2.3 Ajuste de regresión logística retirando datos con residuales
altos
Con nuestra muestra de tamaño 823, los resultados que entrega el SPSS (
ver anexo 2.2 ) son:
VARIABLES EN EL MODELO -2 Log Likelihood
Solo la constante 1115.9468
Todas las variables 541.2110
Se observa que -2 veces el Log de la máxima verosimilitud ha disminuido de
1115.9468 de la constante a 541.211 incluyendo todas las variables en el
modelo lo cual significa que la máxima verosimilitud ha aumentado, inclusive
más que en el modelo inicial era 699.2360.
Distancias de Cook por Observación
Observación
10008006004002000-200
Dis
tanc
ias
de C
ook
,5
,4
,3
,2
,1
0,0
-,1
FIGURA Nº 3.20
Y se tiene el estadístico chi-cuadrado de valor 574.736, 14 grados de
libertad y significancia =0.000.
Lo que quiere decir que se puede rechazar la hipótesis nula de que los
coeficientes del modelo son iguales a cero, pero con más fuerza que en el
modelo inicial.
También nos muestra la siguiente:
Tabla 3.7 Clasificación para INCI - Modelo 2
Predecidos Porcentaje Correcto
Observados 0 1
0 264 76 77.65
1 37 446 92.34
Porcentaje Correcto Global 86,27%
La tabla de clasificación nos muestra que con este modelo los porcentajes
de valores clasificados en su mismo grupo son de 77.65% para las no
incidencias y de 92.34% para las incidencias. Lo cual hace un ajuste global
del 86.27%. Como se ve estos porcentajes de clasificación correcta son
mayores que los del modelo inicial para el caso de las incidencias, pero
menores para el caso de las no incidencias.
Tabla 3.8 Variables en el modelo – Modelo 2 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0042 ,0006 57,7792 1 ,0000 ,2236 1,0042 FOB -,0039 ,0011 12,3867 1 ,0004 -,0965 ,9961 AGENRIES 11,2853 1,0029 126,6252 1 ,0000 ,3342 79638,533 IMPRIES -10,9452 ,8909 150,9274 1 ,0000 -,3653 ,0000 CODPAIS(1) 2,9782 ,3977 56,0694 1 ,0000 ,2201 19,6524 CODPROD 36,8491 9 ,0000 ,1300 CODPROD(1) 2,6703 ,7784 11,7683 1 ,0006 ,0936 14,4450 CODPROD(2) 3,9726 ,7511 27,9739 1 ,0000 ,1526 53,1215 CODPROD(3) 3,4807 ,6943 25,1353 1 ,0000 ,1440 32,4826 CODPROD(4) 2,7555 ,8050 11,7164 1 ,0006 ,0933 15,7296 CODPROD(5) 3,5574 ,7602 21,8954 1 ,0000 ,1335 35,0710 CODPROD(6) 3,4342 ,8638 15,8072 1 ,0001 ,1112 31,0062 CODPROD(7) 4,1430 ,8676 22,8012 1 ,0000 ,1365 62,9895 CODPROD(8) 3,9538 ,8699 20,6568 1 ,0000 ,1293 52,1331 CODPROD(9) 2,8759 ,7874 13,3416 1 ,0003 ,1008 17,7421 Constant -2,4379 ,7398 10,8590 1 ,0010
Verificando la hipótesis nula de que los coeficientes B del modelo son
iguales a cero, con un α=0.05 por ciento, si observamos la estadística de
Wald y la columna Sig de la tabla 3.8 podemos ver que es posible rechazar
dicha hipótesis para los coeficientes de todas las variables en el estudio.
3.3.2.4 Ajuste de regresión logística retirando datos con Distancia de
Cook atípicos
Se eliminaron 8 datos, que de acuerdo a la figura Nº
Con nuestra muestra de tamaño 837, los resultados que entrega el SPSS (
ver anexo 2.3 ) son:
VARIABLES EN EL MODELO -2 Log Likelihood
Solo la constante 1135.087
Todas las variables 653.415
Se observa que -2 veces el Log de la máxima verosimilitud ha disminuido de
1135.087 de la constante a 653.415 incluyendo todas las variables en el
modelo lo cual significa que la máxima verosimilitud ha aumentado, inclusive
más que en el modelo inicial era 699.2360.
Y se tiene el estadístico chi-cuadrado de valor 481.666, 14 grados de
libertad y significancia =0.000 .
Lo que quiere decir que se puede rechazar la hipótesis nula de que los
coeficientes del modelo son iguales a cero, pero con más fuerza que en el
modelo inicial.
También nos m uestra la siguiente:
Tabla 3.9 Clasificación para INCI - Modelo 3
Predecidos Porcentaje Correcto
Observados 0 1
0 256 90 73.99
1 43 448 91.24
Porcentaje Correcto Global 84,11%
La tabla de clasificación nos muestra que con este modelo los porcentajes
de valores clasificados en su mismo grupo son de 73.99% para las no
incidencias y de 91.24% para las incidencias. Lo cual hace un ajuste global
del 84.11%. Como se ve estos porcentajes de clasificación correcta son
mayores que los del modelo inicial para el caso de las no incidencias, pero
ligeramente menores para el caso de las incidencias.
Tabla 3.10 Variables en el modelo – Modelo 3 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0034 ,0005 52,3593 1 ,0000 ,2106 1,0034 FOB -,0031 ,0010 9,2364 1 ,0024 -,0798 ,9970 AGENRIES 7,8313 ,7491 109,2926 1 ,0000 ,3074 2518,1716 IMPRIES -7,8692 ,5991 172,5548 1 ,0000 -,3876 ,0004 CODPAIS(1) 2,1452 ,3006 50,9456 1 ,0000 ,2077 8,5439 CODPROD 29,1913 9 ,0006 ,0993 CODPROD(1) 2,1230 ,7572 7,8605 1 ,0051 ,0719 8,3560 CODPROD(2) 3,1193 ,7160 18,9788 1 ,0000 ,1223 22,6313 CODPROD(3) 2,9609 ,6782 19,0590 1 ,0000 ,1226 19,3150 CODPROD(4) 2,0324 ,7659 7,0412 1 ,0080 ,0666 7,6325 CODPROD(5) 2,8620 ,7325 15,2654 1 ,0001 ,1081 17,4967 CODPROD(6) 2,8384 ,8303 11,6865 1 ,0006 ,0924 17,0876 CODPROD(7) 3,2212 ,8118 15,7461 1 ,0001 ,1100 25,0579 CODPROD(8) 3,2687 ,8310 15,4700 1 ,0001 ,1089 26,2761 CODPROD(9) 2,4112 ,7685 9,8433 1 ,0017 ,0831 11,1470 Constant -1,9264 ,7159 7,2408 1 ,0071
Verificando la hipótesis nula de que los coeficientes B del modelo son
iguales a cero, con un α=0.05 por ciento, si observamos la estadística de
Wald y la columna Sig de la tabla 3.8 podemos ver que no es posible
rechazar dicha hipótesis para los coeficientes de las variables
CODPROD(1),CODPROD(4), ni de la constante en el estudio. Por lo tanto
seguiremos intentando hasta conseguir un modelo con todos los coeficientes
significativos.
3.3.2.5 Ajuste de regresión logística retirando todas las variables
dummy de productos, excepto la variable de las
Transmiciones Cardánicas
Con nuestra muestra de tamaño 837, los resultados que entrega el SPSS (
ver anexo 2.3 ) son:
VARIABLES EN EL MODELO -2 Log Likelihood
Solo la constante 1160.3284
Todas las variables 673.370
Se observa que -2 veces el Log de la máxima verosimilitud a disminuido de
1160.3284 de la constante a 673.370 incluyendo todas las variables en el
modelo lo cual significa que la máxima verosimilitud ha aumentado, inclusive
más que en el modelo inicial era 699.2360.
Y se tiene el estadístico chi-cuadrado de valor 486.958, 6 grados de
libertad y significancia =0.000.
Lo que quiere decir que se puede rechazar la hipótesis nula de que los
coeficientes del modelo son iguales a cero, pero con más fuerza que en el
modelo inicial.
También nos muestra la siguiente:
Tabla 3.11 Clasificación para INCI - Modelo 4
Predecidos Porcentaje Correcto
Observados 0 1
0 247 99 71.39
1 47 444 90.43
Porcentaje Correcto Global 82.56%
La tabla de clasificación nos muestra que con este modelo los porcentajes
de valores clasificados en su mismo grupo son de 71.39% para las no
incidencias y de 90.43% para las incidencias. Lo cual hace un ajuste global
del 82.56%. Como se ve estos porcentajes de clasificación correcta son
menores que los del modelo inicial.
Tabla 3.12 Variables en el modelo – Modelo 4 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0033 ,0004 57,9905 1 ,0000 ,2197 1,0033 FOB -,0041 ,0009 21,1646 1 ,0000 -,1285 ,9959 AGENRIES 7,3230 ,7076 107,1006 1 ,0000 ,3010 1514,6732 IMPRIES -7,5808 ,5601 183,1865 1 ,0000 -,3952 ,0005 CODPAIS(1) 2,0307 ,2865 50,2290 1 ,0000 ,2039 7,6191 PROD7(1) 1,2035 ,2471 23,7197 1 ,0000 ,1368 3,3319
Verificando la hipótesis nula de que los coeficientes B del modelo son
iguales a cero, con un α=0.05 por ciento, si observamos la estadística de
Wald y la columna Sig de la tabla 3.8 podemos ver que es posible rechazar
dicha hipótesis para todos los coeficientes de las variables del modelo.
Tabla 3.13 Comparación de Estadísticas de todos los modelos. Modelo
N
-2 Log Likelihodd
Chi_cuadra-do Global
Porcentaje de Incidencias correctamente clasificadas
Porcentaje de No Inciden- cias correcta clasificadas
Parámetros significativos en el modelo
1 845 699.036 448.066 91.50% 70.66% 15/15 2 823 541.211 574.736 92.34% 77.65% 15/15
3 837 653.415 481.666 91.24% 73.99% 12/15
4 837 673.370 486.958 90.43% 71.39% 6/6
Después de todo el análisis notamos que el modelo 2 tiene una tabla de
clasificación con un porcentaje global de datos correctamente clasificados
mayor que el modelo 1, verosimilitud más alta que el modelo 1, y también se
rechaza la hipótesis de que los coeficientes sean iguales a cero. Por lo tanto
el modelo 2 es mejor que el modelo 1.
Asimismo el modelo 4 no tiene una tabla de clasificación mejor que la del
modelo 1 ni el modelo 2, y solamente la prueba Chi-cuadrado global
( 486.958 ), y el porcentaje de no incidencias correctamente clasificadas (
71% ) son mejores que las del modelo 1, más no son mejores que las del
modelo 2.
El modelo 3 es descartado debido a que existen varios parámetros no
significativos.
Por lo tanto dado la finalidad del estudio y los resultados antes mencionados
seleccionamos el modelo 2 como el modelo más adecuado para este
estudio.
3.3.2.6 Interpretación de los coeficientes del modelo.
ββ0 = -2.4379 es la constante del modelo y significa que cuando todas las
variables regresoras tengan un valor 0 la razón de probabilidades de
incidencia y no incidencia tomará este valor. Para nuestro modelo este
término no tiene sentido pues no es posible una importación con valores
cero en todas nuestras variables.
ββ1 = 0,0042 es el coeficiente del peso bruto y significa el cambio en unidades
de la razón de probabilidades de incidencia y no incidencia, cuando todas
variables regresoras excepto el peso, permanezcan invariantes. Como es
un coeficiente positivo quiere decir que su transformación (antilog) será un
valor mayor que 1 por lo tanto el odds aumentará, por lo tanto la probabilidad
de ocurrencia es más alta que la de no ocurrencia. Por lo tanto con este
modelo a valores altos del peso bruto la probabilidad de incidencia
aumentará.
ββ2 = - 0.0039 es el coeficiente del precio FOB y significa el cambio en
unidades de la razón de probabilidades de incidencia y no incidencia,
cuando todas variables regresoras excepto el precio FOB, permanezcan
invariantes. Como es un coeficiente negativo quiere decir que su
transformación (antilog) será un valor menor que 1 por lo tanto el odds
disminuirá, por lo tanto la probabilidad de no ocurrencia es más alta que la
de ocurrencia. Por lo tanto con este modelo a valores altos del precio FOB
la probabilidad de incidencia disminuirá.
ββ3 = 11.2853 es el coeficiente del Riesgo por Agente y significa el cambio en
unidades de la razón de probabilidades de incidencia y no incidencia,
cuando todas variables regresoras excepto el Riesgo por Agente,
permanezcan invariantes. Como es un coeficiente positivo quiere decir que
su transformación (antilog) será un valor mayor que 1 por lo tanto el odds
aumentará, por lo tanto la probabilidad de ocurrencia es más alta que la de
no ocurrencia. Por lo tanto con este modelo a valores altos del Riesgo por
Agente la probabilidad de incidencia aumentará.
ββ4 = -10.9452 es el coeficiente del Riesgo por Importador y significa el
cambio en unidades de la razón de probabilidades de incidencia y no
incidencia, cuando todas variables regresoras excepto el Riesgo por
importador, permanezcan invariantes. Como es un coeficiente negativo
quiere decir que su transformación (antilog) será un valor menor que 1 por lo
tanto el odds disminuirá, por lo tanto la probabilidad de ocurrencia es más
baja que la de no ocurrencia. Por lo tanto con este modelo a valores altos
del Riesgo por Importador la probabilidad de incidencia disminuirá.
ββ5 = 2.6703 es el coeficiente de la variable dummy para el codprod(1) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘4’ es decir a Ruedas y significa el cambio en unidades de la razón
de probabilidades de incidencia y no incidencia, cuando todas variables
regresoras excepto la variable dummy para el tipo de producto Ruedas
permanezcan invariantes. Como las variables dummy son variables
categóricas que solo toman los valores 0 y 1, la contribución al Odds del
coeficiente será de 1 si la dummy toma el valor 0 y de e 2.6703 = 14.4450.
ββ6 = 3.9726 es el coeficiente de la variable dummy para el codprod(2) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘1’ es decir a las Partes y Accesorios y significa el cambio en
unidades de la razón de probabilidades de incidencia y no incidencia,
cuando todas variables regresoras excepto la variable dummy para el tipo de
producto Partes y Accesorios, permanezcan invariantes. Como las variables
dummy son variables categóricas que solo toman los valores 0 y 1, la
contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0 y
de e 3.9726 = 53.1215.
ββ7 = 3.4807 es el coeficiente de la variable dummy para el codprod(3) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘10’ es decir a los Demás Productos y significa el cambio en
unidades de la razón de probabilidades de incidencia y no incidencia,
cuando todas variables regresoras excepto la variable dummy para los
Demás Productos, permanezcan invariantes. Como las variables dummy son
variables categóricas que solo toman los valores 0 y 1, la contribución al
Odds del coeficiente será de 1 si la dummy toma el valor 0 y de e 3.4807 =
32.4826.
ββ8 = 2.7555 es el coeficiente de la variable dummy para el codprod(4) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘3’ es decir a Amortiguadores y significa el cambio en unidades de
la razón de probabilidades de incidencia y no incidencia, cuando todas
variables regresoras excepto la variable dummy para el tipo de producto
Amortiguadores permanezcan invariantes. Como las variables dummy son
variables categóricas que solo toman los valores 0 y 1, la contribución al
Odds del coeficiente será de 1 si la dummy toma el valor 0 y de e 2.7555 =
15.7296.
ββ9 = 3.5574 es el coeficiente de la variable dummy para el codprod(5) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘2’ es decir a Guardafangos, Flancos y Puertas y significa el
cambio en unidades de la razón de probabilidades de incidencia y no
incidencia, cuando todas variables regresoras excepto la variable dummy
para el tipo de producto Guardafangos, Flancos y Puertas permanezcan
invariantes.
Como las variables dummy son variables categóricas que solo toman los
valores 0 y 1, la contribución al Odds del coeficiente será de 1 si la dummy
toma el valor 0 y de e 3.5574 = 35.0710.
ββ10 = 3.4342 es el coeficiente de la variable dummy para el codprod(6) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘9’ es decir a las Guarniciones para Frenos y significa el cambio en
unidades de la razón de probabilidades de incidencia y no incidencia,
cuando todas variables regresoras excepto la variable dummy para el tipo de
producto Guarniciones para Frenos permanezcan invariantes. Como las
variables dummy son variables categóricas que solo toman los valores 0 y 1,
la contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0
y de e 3.4342 = 31.0062.
ββ11 = 4.1430 es el coeficiente de la variable dummy para el codprod(7) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo ‘5’ es
decir a Ejes y significa el cambio de unidades en la razón de probabilidades
de incidencia y no incidencia, cuando todas las demás variables regresoras
excepto la variable dummy para el tipo de producto Ejes permanezcan
invariantes. Como las variables dummy son variables categóricas que solo
toman los valores 0 y 1, la contribución al Odds del coeficiente será de 1 si la
dummy toma el valor 0 y de e 4.1430 = 62.9895.
ββ12 = 3.9538 es el coeficiente de la variable dummy para el codprod(8) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘8’ es decir a Radiadores y significa el cambio en unidades de la
razón de probabilidades de incidencia y no incidencia, cuando todas
variables regresoras excepto la variable dummy para el tipo de producto
Radiadores permanezcan invariantes. Como las variables dummy son
variables categóricas que solo toman los valores 0 y 1, la contribución al
Odds del coeficiente será de 1 si la dummy toma el valor 0 y de e 3.9538 =
52.1331.
ββ13 = 2.8759 es el coeficiente de la variable dummy para el codprod(9) que
corresponde de acuerdo a la codificación realizada por el SPSS al tipo de
producto ‘6’ es decir a los Parachoques y significa el cambio en unidades de
la razón de probabilidades de incidencia y no incidencia, cuando todas
variables regresoras excepto la variable dummy para el tipo de producto
Parachoques, permanezcan invariantes. Como las variables dummy son
variables categóricas que solo toman los valores 0 y 1, la contribución al
Odds del coeficiente será de 1 si la dummy toma el valor 0 y de e 2.8759 =
17.7421.
ββ14 = 2.9782 es el coeficiente de la variable dummy para el codpais(1) que
corresponde de acuerdo a la codificación realizada por el SPSS a la variable
código de país que significa si el país de Origen es Japón o no y significa el
cambio en unidades de la razón de probabilidades de incidencia y no
incidencia, cuando todas variables regresoras excepto la variable dummy
para país de origen Japón si o no permanezcan invariantes. Como las
variables dummy son variables categóricas que solo toman los valores 0 y 1,
la contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0
y de e 2.9782 = 19.6524.
3.4 CONCLUSIONES 1. Si es posible determinar la probabilidad de incidencia de un producto
como Repuestos para Vehículos en base a características de la
operación de Importación como Peso Bruto, Precio FOB, Tipo de
Repuesto, Riesgo ó Calificación de Importador, Riesgo por Agente y
País de origen del producto, con un porcentaje de clasificación correcta
de 70.66% para las no incidencias y un porcentaje de clasificación
correcta de 91.50& para las incidencias, lo que produce un porcentaje
correcto global de 82.84%.
2. Las variables que son más relevantes en el modelo formulado tanto por
el valor con el que contribuyen al Odds como por el grado de significación
(estadística de Wald) son: El Riesgo por Agente, que contribuye en forma
positiva aumentando el valor de la probabilidad de ocurrencia de una
incidencia, y el Riesgo por Importador, que contribuye en forma negativa
disminuyendo el valor de la probabilidad de ocurrencia de una incidencia;
debido a sus altos coeficientes de 7.0843 para el riesgo por Agente y –
7.3080 para el riesgo por Importador.
3. También se puede observar que el producto que más contribuye a la
predicción de una incidencia de una incidencia es: Radiadores debido a
que su coeficiente en el modelo 2.8898 es el más alto de todos los
productos y el país de origen que más contribuye a la predicción de una
incidencia es Japón.
3.5 RECOMENDACIONES
1. Es importante incorporar los resultados de este análisis en la fiscalización
concurrente (es decir en la que ocurre durante el despacho) a fin de
mejorar los niveles de hallazgo de incidencias y por lo tanto los niveles de
recaudación.
2. Es importante buscar el apoyo de la Alta Dirección para implementar en
el sistema de validación de ingreso del módulo de Importaciones la
fórmula del modelo logístico y usando el 0.5 como punto de corte poder
determinar de antemano las posibles incidencias, de modo tal que el
módulo registre tales como escogidas para el aforo físico obligatorio.
3. Es necesario buscar modelos como el del presente estudio para otros
tipos de producto y/o otras aduanas. Debe generarse un modelo diferente
por cada aduana y tipo de producto puesto que de ese modo se garantiza
la precisión de la estimación.
4. Es muy importante que en Aduanas se actualize en forma permanente
estos porcentajes de Riesgo, se podría crear un procedimiento
almacenado en la Base de Datos que diariamente realice el cálculo estos
porcentajes.
5. Es importante que los Radiadores ingresen a las listas de productos a ser
escogidos para el aforo físico obligatorio.
6. Se recomienda incorporar en el modelo una variable que resuma el costo
tributario de la importación, dado que esto es una variable importante
para ADUANAS. Esta podría ser un índice basado en el Advalorem y el
Impuesto General a las ventas por tipo de producto.
7. Se recomienda que se enriquezca la información referida a los productos
importados con el fin de detectar las incidencias, capturando variables
como:
• Condición del producto: Nuevo o usado
Marca del repuesto: Codificado por marcas de repuestos para vehículos
del mercado internacional.
• Modelo del repuesto: Codificado según marca y modelo de repuesto.
• Material del repuesto: Plata, Hierro, Plástico, etc.
• País de fabricación del repuesto: Codificado según paises.
• Marca del vehículo para el cual se ha diseñado: Codificado por
marcas de vehículos del mercado internacional.
• Tipo de repuesto: Originales o Compatibles.
8. Toda esta información debe ser codificada, usando la información de los
proveedores a nivel mundial, asimismo debería contarse con una
actualización mínimamente mensual de la base de datos de códigos. Se
debe realizar convenios con organismos de comercio internacional como
la Organización Mundial del Comercio – OMC a fin de que se facilite esta
información a Aduanas. Asimismo con las empresas repuesteras
nacionales a fin de que provean de información sobre cual es la demanda
de repuestos importados en el país.
Es necesario controlar el volumen de ingreso de repuestos para vehículos
al país, no solo con fines de recaudación sino también debido a que su
importación masiva perjudica a la industria repuestera nacional.
Actualmente a nivel Sudaméricano existe la tendencia a gravar con
impuestos altos la importación de estos productos, lo cual permite frenar
su ingreso. Sin embargo esto también encarece su comercialización,
haciendo poco accesible al público los repuestos de marcas acreditadas.
Es pues necesario encontrar un punto de equilibrio entre el control y la
satisfacción de los usuarios de repuestos para vehículos.
ANEXOS 1. GLOSARIO DE TÉRMINOS
Importación Definitiva.- Es el régimen aduanero que permite el ingreso
legal de mercancías provenientes del exterior, para ser destinadas al
consumo. Las mercancías extranjeras se considerarán nacionalizadas
cuando quedan expeditas para su levante, momento en que culmina el
despacho de importación. Las mercancías extranjeras importadas en zonas
de tratamiento aduanero especial se considerarán nacionalizadas sólo
respecto a dichos territorios. Para que dichas mercancías se consideren
nacionalizadas en el territorio aduanero deberán someterse a la legislación
general vigente en el país, sirviéndoles como pago a cuenta los tributos que
hayan gravado su importación.
Aforo.- Operación única en que el servicio a través del funcionario
designado, verifica y determina al examinar la declaración y/o la mercancía,
que su clasificación arancelaria, su valuación, la fijación de la cuota de los
derechos arancelarios e impuestos y la aplicación de las leyes
correspondientes hayan sido correctamente propuestas por el declarante.
Contrabando.- Es ingresar mercancía extranjera al país sin cumplir con las
obligaciones aduaneras como el pago de derechos.
Declaración de Mercancías.- Acto efectuado en la forma prescrita por la
Aduana, mediante el cual el interesado indica el régimen aduanero que ha
de asignarse a las mercancías y comunica los elementos necesarios para la
aplicación de dicho régimen.
Declaración Unica de Aduanas.- Documento mediante el cual se solicitará
la destinación aduanera ante la aduana bajo cuya jurisdicción se encuentran
las mercancías, dentro del plazo de treinta (30) días computados a partir del
día siguiente al término de la descarga, que será presentada por los
Despachadores de Aduana y demás personas legalmente autorizadas.
Transcurrido este plazo la mercancía sólo podrá ser sometida al régimen de
importación definitiva. Sólo se aceptará a trámite la Declaración de Aduanas
de mercancías que han ingresado al territorio nacional. La Declaración
aceptada por ADUANAS es definitiva y servirá de base para determinar la
obligación tributaria aduanera, salvo las enmiendas que puedan realizarse
de constatarse errores no señalados como infracción aduanera.
Despachadores de Aduana.- Son los siguientes:
a) Los dueños o consignatarios de cualquier mercancía;
b) Los Despachadores Oficiales; y,
c) Los Agentes de Aduana.
Despacho.- Cumplimiento de las formalidades aduaneras necesarias para
importar y exportar las mercancías o someterlas a otros regímenes,
operaciones o destinos aduaneros.
Derechos de Aduana o Arancelarios.- Impuestos establecidos en el
Arancel de Aduanas a las mercancías que entren al territorio aduanero.
Flete..- Costo por el transporte de la mercancía desde el país de adquisición
hasta la jurisdicción de la aduana peruana.
FOB.- Precio de la mercancía en el país de adquisición, no incluye flete ni
seguro.
Incidencia.- Detectar una infracción u omisión en la declaración unica.
Pueden ser motivos de incidencia:
a) No cumplir con los plazos establecidos por la autoridad aduanera para
efectuar el reembarque o el transbordo de las mercancías o de las
provisiones de a bordo a que se refiere la presente ley.
b) Calculo incorrecto de la liquidación de los tributos.
c) Asignar una partida arancelaria incorrecta a la mercancía declarada.
d) Subvaluar el precio FOB de la mercancía. Acogerse a un beneficio
tributario que no corresponde.
Mercancías.- Bienes que pueden ser objeto de regímenes, operaciones y
destinos aduaneros.
Operadores de Comercio Exterior.- Despachadores de Aduana,
conductores de recintos aduaneros autorizados, transportistas,
concesionarios del servicio postal, dueños, consignatarios, y en general
cualquier persona natural y/o jurídica interviniente o beneficiaria, por sí o por
otro, en operaciones o regímenes aduaneros previstos en la Ley, sin
excepción alguna.
Reconocimiento Físico.- Operación que consiste en verificar lo declarado,
mediante una o varias de las siguientes actuaciones: reconocer las
mercancías, verificar su naturaleza y valor, establecer su peso o medida.
Regímenes Aduaneros.- El tráfico de mercancías por las Aduanas de la
República será objeto de los regímenes, operaciones y destinos aduaneros
especiales o de excepción señalados en este Título. Las mercancías sujetas
a Convenios y Tratados Internacionales se rigen por lo dispuesto en ellos. A
saber: Importación, Exportación, Tránsito, Transbordo, Depósito,
Importación Temporal para Reexportación en el mismo estado,Exportación
Temporal, Admisión Temporal para Perfeccionamiento Activo, Drawback,
Reposición de mercancías en Franquicia.
Seguro.- Es aquel que paga el importador para proteger de algún desastre
su mercancía, durante el viaje desde el país de adquisición a la jurisdicción
de la aduana peruana.
SIGAD.- Sistema de Gestión Aduanera, Sistema informático Automatizado
para el seguimiento y control de las operaciones aduaneras.
2. SALIDAS DEL SPSS
2.1 Modelo de Regresión Logística todas las variables. Tamaño de muestra 845. Total number of cases: 845 (Unweighted) Number of selected cases: 845 Number of unselected cases: 0 Number of selected cases: 845 Number rejected because of missing data: 0 Number of cases included in the analysis: 845 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 10 365 1,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 1,000 ,000 ,000 ,000 ,000 ,000 1 116 ,000 ,000 1,000 ,000 ,000 ,000 ,000 9 27 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 4 47 ,000 ,000 ,000 ,000 ,000 1,000 ,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 1,000 3 50 ,000 ,000 ,000 ,000 ,000 ,000 ,000 5 45 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 36 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 10 ,000 ,000 6 ,000 ,000 1 ,000 ,000 9 ,000 ,000 2 ,000 ,000 4 ,000 ,000 8 ,000 ,000 3 1,000 ,000 5 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 231 1,000 0 614 ,000 _ Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1147,1019 * Constant is included in the model. Beginning Block Number 1. Method: Enter
Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 699,036 Goodness of Fit 1179,847 Cox & Snell - R^2 ,412 Nagelkerke - R^2 ,554 Chi-Square df Significance Model 448,066 14 ,0000 Block 448,066 14 ,0000 Step 448,066 14 ,0000 Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 | 2 Observed ----------------- 0 1 | 248 | 103 | 70,66% ----------------- 1 2 | 42 | 452 | 91,50% ----------------- Overall 82,84% _ ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0026 ,0004 45,9613 1 ,0000 ,1958 1,0026 FOB -,0027 ,0010 7,9552 1 ,0048 -,0721 ,9973 AGENRIES 7,0843 ,6959 103,6246 1 ,0000 ,2976 1193,0721 IMPRIES -7,3080 ,5449 179,8744 1 ,0000 -,3938 ,0007 CODPAIS(1) 2,0389 ,2841 51,4901 1 ,0000 ,2077 7,6822 CODPROD 25,8105 9 ,0022 ,0825 CODPROD(1) 2,4672 ,5941 17,2476 1 ,0000 ,1153 11,7897 CODPROD(2) 1,9337 ,6924 7,7988 1 ,0052 ,0711 6,9152 CODPROD(3) 2,6193 ,6336 17,0916 1 ,0000 ,1147 13,7267 CODPROD(4) 2,1035 ,7500 7,8670 1 ,0050 ,0715 8,1947 CODPROD(5) 2,3911 ,6526 13,4233 1 ,0002 ,0998 10,9253 CODPROD(6) 1,7681 ,6789 6,7826 1 ,0092 ,0646 5,8598 CODPROD(7) 2,8898 ,7569 14,5772 1 ,0001 ,1047 17,9897 CODPROD(8) 1,7561 ,6889 6,4983 1 ,0108 ,0626 5,7896 CODPROD(9) 2,7108 ,7293 13,8170 1 ,0002 ,1015 15,0410 Constant -1,4222 ,6324 5,0579 1 ,0245 CASE Observed INCI Pred PGroup Resid ZResid 13 S 1 ** ,8716 2 -,8716 -2,6060 42 S 1 ** ,9769 2 -,9769 -6,5015 76 S 2 ** ,1152 1 ,8848 2,7719 114 S 2 ** ,1144 1 ,8856 2,7822 129 S 1 ** ,9794 2 -,9794 -6,8915 242 S 1 ** ,9748 2 -,9748 -6,2223 328 S 2 ** ,1038 1 ,8962 2,9377 351 S 2 ** ,0520 1 ,9480 4,2707 455 S 1 ** ,8626 2 -,8626 -2,5055 473 S 2 ** ,0585 1 ,9415 4,0111 486 S 1 ** ,9702 2 -,9702 -5,7040 496 S 1 ** ,9045 2 -,9045 -3,0772 575 S 2 ** ,1139 1 ,8861 2,7889 606 S 2 ** ,0034 1 ,9966 17,2060 607 S 2 ** ,0666 1 ,9334 3,7447 612 S 1 ** ,9228 2 -,9228 -3,4568
636 S 2 ** ,0493 1 ,9507 4,3927 638 S 1 ** ,9643 2 -,9643 -5,1994 652 S 1 ** ,9684 2 -,9684 -5,5403 653 S 2 ** ,0609 1 ,9391 3,9256 675 S 2 ** ,0763 1 ,9237 3,4800 722 S 1 ** ,9648 2 -,9648 -5,2360 S=Selected U=Unselected cases ** = Misclassified cases * Cases with studentized residuals greater than 2 are listed. The Cut Value is ,50 2.2. Modelo de Regresión Logística todas las variables. Tamaño de muestra 823. Eliminando datos discordantes Total number of cases: 823 (Unweighted) Number of selected cases: 823 Number of unselected cases: 0 Number of selected cases: 823 Number rejected because of missing data: 0 Number of cases included in the analysis: 823 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 4 47 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1 112 ,000 1,000 ,000 ,000 ,000 ,000 ,000 10 351 ,000 ,000 1,000 ,000 ,000 ,000 ,000 3 49 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 9 26 ,000 ,000 ,000 ,000 ,000 1,000 ,000 5 44 ,000 ,000 ,000 ,000 ,000 ,000 1,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 4 ,000 ,000 1 ,000 ,000 10 ,000 ,000 3 ,000 ,000 2 ,000 ,000 9 ,000 ,000 5 ,000 ,000 8 1,000 ,000 6 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 231 1,000 0 592 ,000 Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1115,9468 * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO
FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 6 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 541,211 Goodness of Fit 653,252 Cox & Snell - R^2 ,503 Nagelkerke - R^2 ,677 Chi-Square df Significance Model 574,736 14 ,0000 Block 574,736 14 ,0000 Step 574,736 14 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 82,000 81,621 ,000 ,379 82,000 2 80,000 80,017 2,000 1,983 82,000 3 65,000 63,673 17,000 18,327 82,000 4 49,000 44,054 33,000 37,946 82,000 5 26,000 31,165 56,000 50,835 82,000 6 17,000 21,558 65,000 60,442 82,000 7 14,000 11,424 68,000 70,576 82,000 8 7,000 4,501 75,000 77,499 82,000 9 ,000 1,539 82,000 80,461 82,000 10 ,000 ,448 85,000 84,552 85,000 _ Chi-Square df Significance Goodness-of-fit test 8,5554 8 ,3812 -------------------------------------------------------------- Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 ó 2 Observed ôòòòòòòòôòòòòòòòô 0 1 ó 264 ó 76 ó 77,65% ôòòòòòòòôòòòòòòòô 1 2 ó 37 ó 446 ó 92,34% ôòòòòòòòôòòòòòòòô Overall 86,27% _ ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0042 ,0006 57,7792 1 ,0000 ,2236 1,0042 FOB -,0039 ,0011 12,3867 1 ,0004 -,0965 ,9961 AGENRIES 11,2853 1,0029 126,6252 1 ,0000 ,3342 79638,533 IMPRIES -10,9452 ,8909 150,9274 1 ,0000 -,3653 ,0000 CODPAIS(1) 2,9782 ,3977 56,0694 1 ,0000 ,2201 19,6524 CODPROD 36,8491 9 ,0000 ,1300 CODPROD(1) 2,6703 ,7784 11,7683 1 ,0006 ,0936 14,4450 CODPROD(2) 3,9726 ,7511 27,9739 1 ,0000 ,1526 53,1215 CODPROD(3) 3,4807 ,6943 25,1353 1 ,0000 ,1440 32,4826 CODPROD(4) 2,7555 ,8050 11,7164 1 ,0006 ,0933 15,7296 CODPROD(5) 3,5574 ,7602 21,8954 1 ,0000 ,1335 35,0710 CODPROD(6) 3,4342 ,8638 15,8072 1 ,0001 ,1112 31,0062 CODPROD(7) 4,1430 ,8676 22,8012 1 ,0000 ,1365 62,9895 CODPROD(8) 3,9538 ,8699 20,6568 1 ,0000 ,1293 52,1331 CODPROD(9) 2,8759 ,7874 13,3416 1 ,0003 ,1008 17,7421 Constant -2,4379 ,7398 10,8590 1 ,0010
2.3 Modelo de Regresión Logística. Tamaño de muestra 837. Eliminando sólo los datos con distancia de Cook atípicos. Total number of cases: 837 (Unweighted) Number of selected cases: 837 Number of unselected cases: 0 Number of selected cases: 837 Number rejected because of missing data: 0 Number of cases included in the analysis: 837 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 4 47 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1 116 ,000 1,000 ,000 ,000 ,000 ,000 ,000 10 363 ,000 ,000 1,000 ,000 ,000 ,000 ,000 3 49 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 9 26 ,000 ,000 ,000 ,000 ,000 1,000 ,000 5 44 ,000 ,000 ,000 ,000 ,000 ,000 1,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 33 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 4 ,000 ,000 1 ,000 ,000 10 ,000 ,000 3 ,000 ,000 2 ,000 ,000 9 ,000 ,000 5 ,000 ,000 8 1,000 ,000 6 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 230 1,000 0 607 ,000 _ Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1135,0817 * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 653,415
Goodness of Fit 928,431 Cox & Snell - R^2 ,438 Nagelkerke - R 2 ,589 Chi-Square df Significance Model 481,666 14 ,0000 Block 481,666 14 ,0000 Step 481,666 14 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 82,000 82,158 2,000 1,842 84,000 2 75,000 78,530 9,000 5,470 84,000 3 67,000 58,797 17,000 25,203 84,000 4 51,000 42,575 33,000 41,425 84,000 5 25,000 32,542 59,000 51,458 84,000 6 17,000 24,625 67,000 59,375 84,000 7 21,000 14,730 64,000 70,270 85,000 8 2,000 7,399 82,000 76,601 84,000 9 ,000 3,519 84,000 80,481 84,000 10 6,000 1,126 74,000 78,874 80,000 Chi-Square df Significance Goodness-of-fit test 48,4545 8 ,0000 -------------------------------------------------------------- Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 | 2 Observed ----------------- 0 1 | 256 | 90 | 73,99% ----------------- 1 2 | 43 | 448 | 91,24% ----------------- Overall 84,11% ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0034 ,0005 52,3593 1 ,0000 ,2106 1,0034 FOB -,0031 ,0010 9,2364 1 ,0024 -,0798 ,9970 AGENRIES 7,8313 ,7491 109,2926 1 ,0000 ,3074 2518,1716 IMPRIES -7,8692 ,5991 172,5548 1 ,0000 -,3876 ,0004 CODPAIS(1) 2,1452 ,3006 50,9456 1 ,0000 ,2077 8,5439 CODPROD 29,1913 9 ,0006 ,0993 CODPROD(1) 2,1230 ,7572 7,8605 1 ,0051 ,0719 8,3560 CODPROD(2) 3,1193 ,7160 18,9788 1 ,0000 ,1223 22,6313 CODPROD(3) 2,9609 ,6782 19,0590 1 ,0000 ,1226 19,3150 CODPROD(4) 2,0324 ,7659 7,0412 1 ,0080 ,0666 7,6325 CODPROD(5) 2,8620 ,7325 15,2654 1 ,0001 ,1081 17,4967 CODPROD(6) 2,8384 ,8303 11,6865 1 ,0006 ,0924 17,0876 CODPROD(7) 3,2212 ,8118 15,7461 1 ,0001 ,1100 25,0579 CODPROD(8) 3,2687 ,8310 15,4700 1 ,0001 ,1089 26,2761 CODPROD(9) 2,4112 ,7685 9,8433 1 ,0017 ,0831 11,1470 Constant -1,9264 ,7159 7,2408 1 ,0071
2.4 Modelo de Regresión Logística eliminando todas las variables
dummy de productos excepto, la correspondiente a las transmisiones
cardánicas. Total number of cases: 837 (Unweighted) Number of selected cases: 837 Number of unselected cases: 0
Number of selected cases: 837 Number rejected because of missing data: 0 Number of cases included in the analysis: 837 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) PROD7 0 804 1,000 1 33 ,000 CODPAIS 1 230 1,000 0 607 ,000 Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1160,3284 Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS PROD7 Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 673,370 Goodness of Fit 900,252 Cox & Snell - R^2 ,441 Nagelkerke - R^2 ,588 Chi-Square df Significance Model 486,958 6 ,0000 Block 486,958 6 ,0000 Step 486,958 6 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 81,000 82,517 4,000 2,483 85,000 2 75,000 77,567 9,000 6,433 84,000 3 62,000 56,212 22,000 27,788 84,000 4 53,000 41,334 31,000 42,666 84,000 5 26,000 31,668 58,000 52,332 84,000 6 22,000 24,249 62,000 59,751 84,000 7 15,000 14,902 69,000 69,098 84,000 8 5,000 7,782 79,000 76,218 84,000 9 3,000 4,017 81,000 79,983 84,000 10 4,000 1,393 76,000 78,607 80,000 Chi-Square df Significance Goodness-of-fit test 18,6019 8 ,0171 -------------------------------------------------------------- _ Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct
1 ó 2 Observed ôòòòòòòòôòòòòòòòô 0 1 ó 247 ó 99 ó 71,39% ôòòòòòòòôòòòòòòòô 1 2 ó 47 ó 444 ó 90,43% ôòòòòòòòôòòòòòòòô Overall 82,56% ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0033 ,0004 57,9905 1 ,0000 ,2197 1,0033 FOB -,0041 ,0009 21,1646 1 ,0000 -,1285 ,9959 AGENRIES 7,3230 ,7076 107,1006 1 ,0000 ,3010 1514,6732 IMPRIES -7,5808 ,5601 183,1865 1 ,0000 -,3952 ,0005 CODPAIS(1) 2,0307 ,2865 50,2290 1 ,0000 ,2039 7,6191 PROD7(1) 1,2035 ,2471 23,7197 1 ,0000 ,1368 3,3319
3. Ejemplo de los datos PESO FOB ADV IGV IPM INCI AGENRIES IMPRIES CODPAIS CODPROD
10,56 101,09 13,37 19,96 2,5 0 ,24 ,95 1 10
10,567 101,16 13,38 19,97 2,5 0 ,24 ,95 1 6
10,84 101,25 12,86 19,2 2,4 1 ,68 ,95 1 1
31 101,36 12,99 19,39 2,42 1 ,23 ,03 0 10
10,588 101,36 13,4 20,01 2,5 0 ,24 ,95 1 6
10,86 101,43 12,88 19,24 2,4 1 ,68 ,95 1 9
9,5 101,76 13,22 19,75 2,47 1 ,22 ,12 1 1
200,568 101,86 15,11 22,57 2,82 0 ,01 ,5 0 2
82,97 102 5,21 7,77 ,97 1 ,03 ,05 0 2
140,47 102 14,76 22,04 2,76 1 ,04 ,02 1 2
25,22 102,49 13,23 19,76 2,47 1 ,11 ,01 0 10
9,593 102,58 17,03 20,89 2,61 0 ,06 ,01 0 4
13,302 103,13 13,06 19,5 2,44 0 ,26 ,12 0 1
3,81 103,57 12,5 18,67 2,33 0 ,01 ,01 0 10
408,86 104 21,01 31,37 3,92 1 ,06 ,05 1 2
8,051 104,37 13,32 19,89 2,49 0 ,01 ,5 0 10
8,063 104,53 13,34 19,92 2,49 0 ,01 ,5 0 10
46,36 105 13,44 20,06 2,51 1 ,03 ,06 0 10
257,44 105 20,74 30,97 3,87 1 ,06 ,04 0 8
457,2 105 24,15 36,06 4,51 0 ,23 ,5 0 10
473,079 105,13 20,49 30,6 3,83 0 ,18 ,5 0 10
4 105,28 12,77 19,06 2,38 0 ,03 ,12 0 3
145,05 105,41 18,39 27,46 3,43 1 ,04 ,03 0 6
228,78 105,79 17,6 26,28 3,29 1 ,25 ,12 0 3
9,914 106,01 17,6 21,59 2,7 0 ,06 ,01 0 6
11,85 107,01 13,02 19,44 2,43 0 ,01 ,01 0 1
201,17 107,47 15,63 23,34 2,92 1 ,26 ,1 0 1
218,93 107,48 21,97 32,81 4,1 1 ,12 ,02 0 10
8,9 107,77 14,25 21,29 2,66 1 ,03 ,01 0 1
226,21 108 16,89 25,23 3,15 1 ,03 ,01 0 10
360 108 17,86 26,68 3,33 1 ,1 ,05 0 3
303,227 108 20,7 30,91 3,86 0 ,12 ,5 0 10
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
BIBLIOGRAFÍA Hosmer & Lemeshow (2000), Applied Logistic Regression Wiley-
Interscience
Hair, Et Al (1999), Análisis Multivariante. Prentice Hall. Madrid.
Scott Menard, (1995), Applied Logistic Regression Analisis. Sage University
Paper series on Quantitative Applications in the Social Sciences, 07-106.
Thousand Oaks CA: Sage.
V.Abraira, (1996), Métodos Multivariantes en Bioestadística. Ed Centro de
Estudios Ramón Areces.
Visauta Vinacua, B. (1998) Análisis Estadístico con SPSS para WINDOWS.
Estadística Multivariante. McGraw-Hill / Interamericana de España,S.A.U.
Garrett Joanne M. (1994) Quantitative Methods. Logistic Regression and
Exploratory Data Analysis. UNC – CERTC University of North Carolina,
Division of General Internal Medicine,
Scheaffer (1987), Elementos de Muestreo. Grupo Editorial Iberoamericana.
Salvador Figueras, M (2001) Modelos de regresión con respuesta
cualitativa: Regresión Logística, [en línea]. 5campus.com, Estadística.
<http://www.5campus.com./lección/logis>. 10.10.2002
Bickel, P. Doksum, K. (1976) Mathematical Statistics. Holden Day . 1977.
Cook, R.D. & Weisberg S. (1982): Residuals and Influence in Regression.
Chapman and Hall. London.
Cordeiro, Gauss M. (1986) Modelos Lineales Generalizados. VII SINAPE.
Cordeiro, Gauss M. (1992) Introducción a la teoría de la verosimilitud.
Cox, D.R. (1970): The Analysis of Binary Data. Chapman and Hall. London
.Huck, W. & Donner, A. (1977): Wald´s test as applied to hypotheses in
logit analysis. JASA 72. 851-853.
McCullagh, P. & Nelder J.A. (1983): Generalized Linear Models. JRSS
135, 370-84. Chapman and Hall. London .
Searle, S.R. (1971): Linear Models. J.Wiley & Sons. New York.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Wald, A. (1943): Tests of statistical Hypotheses concerning several
parameters when the number of observations is large. Trans. Amer. Math.
Soc. 54, 426-482.
Weisberg, S. (1980): Applied Linear Regression. J.Wiley & Sons. New York.