Download - UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/Tesis/Basic/Salcedo_pc/enPDF/T... · incondicional en esta tarea. ... REGRESION LOGIS TICA MULTIPLE ... ANALISIS

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Fundada en 1551

FACULTAD DE CIENCIAS MATEMÁTICAS

E.A.P. DE ESTADÍSTICA

“ESTIMACIÓN DE LA OCURRENCIA DE INCIDENCIAS EN DECLARACIONES

DE PÓLIZAS DE IMPORTACIÓN”

INFORME PROFESIONAL

Para optar el Título Profesional de:

LICENCIADA EN ESTADÍSTICA

AUTORA

CELIA MERCEDES SALCEDO POMA

LIMA – PERÚ 2002

Agradezco a mi familia por su apoyo incondicional en esta tarea. A mi asesora por su orientación y generosidad al compartir sus conocimientos conmigo. A la escuela de Estadística y a sus profesores por habernos formado en esta carrera.

Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes

Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM

RESUMEN

En este trabajo se aplica el método de Regresión Logística con el fin de obtener un modelo que permita estimar la probabilidad de ocurrencia en una operación de Importación de la Aduana Peruana. Se efectúa un análisis exploratorio previo de los datos para las diferentes variables y se analizan usando el paquete estadístico SPSS varios modelos alternativos, eligiendo aquel cuyas características permiten predecir mejor la ocurrencia de una incidencia. PALABRAS CLAVES: REGRESION LOGISTICA MULTIPLE MAXIMO VEROSIMILITUD PRUEBA DE HIPOTESIS ANALISIS DE RESIDUOS MEDIDAS DE INFLUENCIA ANALISIS EXPLORATORIO SELECCIÓN DE MODELOS



SUMMARY

In this work the method of Logistical Regression is applied with the purpose of obtaining a model that allows to estimate the occurrence probability in an operation of Import of the Peruvian Customs. A previous exploratory analysis of the data is made for the different variables and they are analyzed using the statistical package alternative model several SPSS, eligiendo that whose characteristics allow to predict the occurrence of an incidence better. KEY WORDS: MULTIPLE LOGISTICAL REGRESSION MAXIMUM VERISIMILITUDE TEST OF HYPOTHESIS ANALYSIS OF RESIDUALS MEASURES OF INFLUENCES EXPLORATORY ANALYSIS SELECTION OF MODELS

ÍNDICE

Introducción............................................................................................... 1 CAPITULO 1: Planteamiento del problema............. ............................... 3

1.1 Antecedentes.................................................................................... 3 1.2 Objetivo............................................................................................ 5 1.3 Alcance............................................................................................ 5 1.4 Justificación..................................................................................... 6

CAPITULO 2: Modelo de Regresión Logística........................................ 8 2.1 Introducción...................................................................................... 8 2.2 Objetivos de la Regresión Logística................................................. 9

2.3 Regresión Logística y otros métodos relacionados.......................... 9 2.4 Revisión del Modelo de Regresión Lineal Múltiple....................... 10

2.5 Regresión Logística Simple.............................................................16 2.6 Regresión Logística Múltiple........................................................... 19

2.6.1 Modelo de Regresión Logística Múltiple................................. 19 2.6.2 Ajuste del modelo de Regresión Logística Múltiple................. 20 2.6.3 Método de Newton - Raphson para estimar los parámetros del modelo de Regresión Logística...................... 28

2.6.4 Interpretación de los coeficiente del modelo estimado........... 32 2.6.5 Prueba de Hipótesis para los coeficientes del Modelo de

Regresión Logística................................................................. 33 2.6.5.1 Prueba de Wald .......................................................... 33

2.6.5.2 Prueba Chi-Cuadrado ................................................ 36 2.6.5.3 Estadística Chi-Cuadrada de Pearson......................... 36 2.6.5.4 Desvianza ................................................................... 37 2.6.5.5 Tabla de Clasificación ................................................. 39 2.6.5.6 Contraste de Bondad de Ajuste de Hosmer-Lemeshow .................................................... 40

2.6.6 Diagnóstico del Modelo........................................................... 41 2.6.6.1 Residuos del Modelo................................................... 41

2.6.6.2 Medidas de Influencia ..................................................... 41 2.6.7 Variables Explicativas Categoricas-Variables Dummy............ 42

CAPITULO 3: Desarrollo del Estudio...................................................... 45 3.1 Diseño.............................................................................................. 45 3.2 Procedimiento de Selección de la Muestra....................................... 47 3.3 Análisis de los datos......................................................................... 49

3.3.1 Análisis Exploratorio Previo..................................................... 49 3.3.1.1 Variables Cuantitativas................................................. 49 3.3.1.2 Variables Categóricas.................................................. 58

3.3.2 Análisis de Regresión Logística............................................... 60 3.3.2.1 Ajuste Inicial del Modelo de regresión Logística a las

Variables en Estudio................................................... 60 3.3.2.2 Análisis de Residuos.................................................. 62 3.3.2.3 Ajuste de Regresión Logística Retirando Datos con

Residuos Altos........................................................... 64 3.3.2.4 Ajuste de Regresión Logística Retirando Datos con

Distancia de Cook Atípicos ....................................... 66 3.3.2.5 Ajuste de Regresión Logística Retirando todas las variables Dummy de productos, Excepto la Variable de las transmiciones Cardánicas............................... 68 3.3.2.6 Interpretación de los Coeficientes del Modelo ........... 70

3.4 Conclusiones................................................................................... 75 3.5 Recomendaciones........................................................................... 76 ANEXOS 1 Glosario de Términos.......................................................................... 78

2 Salidas del SPSS.. ....................................................................... 82 2.1 Módelo de Regresión Logística con todas las Variables. Tamaño de Muestra ................................................................... 82

2.2 Módelo de Regresión Logística con todas las Variables. Tamaño de Muestra 823. Eliminando Datos Discordantes........ 84

2.3 Módelo de Regresión Logística. Tamaño de Muestra 837. Eliminando solo los Datos con Distancia de Cook Atípicos......... 86 2.4 Módelo de Regresión Logística eliminando todas las Variables

Dummy de productos excepto, la correspondiente a las Transmiciones Cardánicas.......................................................... 87

3. Ejemplo de los Datos......................................................................... 89

BIBLIOGRAFÍA......................................................................................... 90



INTRODUCCIÓN

En las aduanas del Perú se realizan operaciones de Importación de

diferentes productos, estas operaciones son sustentadas por los Agentes de

Aduanas ante el Estado a través de las llamadas Declaraciones de

Importación, documentos en los cuales se consignan los productos, su

cantidad, procedencia, precio, peso, y demás características que permiten

calcular los tributos a cobrar por derecho de ingreso al país.

Muchas veces ocurre que se adultera la información real como el tipo de

producto, o el precio, o la cantidad con el fin de pagar menos tributos, es a

estas adulteraciones que se denomina Incidencias. Como es obvio estas

Incidencias constituyen un desmedro para el Estado, pues este deja de

percibir ingresos por este motivo.

Una de las funciones de la Aduana Peruana es la de fiscalizar estas

operaciones a fin de evitar las incidencias o bien de recuperar lo no

recaudado a consecuencia de una de ellas. Con este fin se revisan,

verifican o aforan las mercancías de algunas operaciones. Actualmente la

selección de operaciones a revisar es aleatoria o discrecional dependiendo

del tipo de producto, lo cual permite que muchas veces no se revisen las

operaciones con incidencias, pasando estas por alto.

Este estudio ha sido motivado por la necesidad de disminuir la ocurrencia de

estas incidencias usando un método que permita determinar la probabilidad

de ocurrencia de una incidencia en una Declaración de Importación a fin de

seleccionarlas para la revisión.

Se ha buscado construir un modelo de Regresión Logística que nos de la

probabilidad de ocurrencia de una incidencia en base a características tales

como Tipo de Producto, Precio FOB, Peso, País de Origen del Producto

entre otras.



Dado que existe una gran variedad de productos, cada uno con

características observables muy distintas, se ha limitado este estudio a un

tipo de productos con un alto porcentaje de Incidencias (36.%), los

Repuestos para Vehículos.

En el primer capítulo se muestran los antecedentes del presente estudio, en

el segundo capitulo se incluye la base teórica que nos permite construir un

modelo de regresión logística y evaluar sus resultados. En el tercer capítulo

se presenta el desarrollo práctico del estudio, se han evaluado hasta cuatro

modelos, comparando sus estadísticas de bondad de ajuste, tanto globales

como parciales, analizando sus residuos y se ha encontrado el

estadísticamente más adecuado de acuerdo a los objetivos. Esto a

permitido además determinar cuales son las variables que más contribuyen

a la estimación de los parámetros del modelo, finalmente en el mismo

capitulo se encuentran las conclusiones y recomendaciones. Se ha incluido

en los anexos un glosario de términos y las salidas del SPSS a fin de facilitar

la comprensión del lenguaje utilizado y de comprobar los resultados referidos

en el presente.



CAPÍTULO 1

PLANTEAMIENTO DEL PROBLEMA

1.1 ANTECEDENTES

La Superintendencia Nacional de Aduanas - ADUANAS es una

institución pública descentralizada del Sector Economía y Finanzas, con

personería jurídica de Derecho Público, creada por Ley 24829 del 08 de

Junio de 1988, que tiene como funciones:

• El Despacho Aduanero de las mercancías que entran (Importación) y

salen del país (Exportación).

• La Recaudación de los tributos generados por las operaciones de

Importación.

• La Fiscalización de las operaciones de Importación y Exportación.

• La Prevención y Represión del Contrabando.

ADUANAS, opera en todo el territorio de la República, a través de las

Intendencias de Aduana, Agencias Aduaneras y los Puestos de Control, que

dependen de las primeras. ADUANAS tiene en la actualidad 20

Intendencias de Aduana y 82 Puestos de Control. Las Intendencias de la

República son las siguientes:

Tumbes , Paita, Chiclayo, Salaverry, Chimbote, Marítima del Callao, Aérea

del Callao, Postal de Lima, Pisco, Mollendo, Arequipa, Ilo, Tacna, Iquitos,

Pucallpa, Cusco, Puerto Maldonado, Puno, Tarapoto y La Tina.

El registro de cada una de las operaciones de Importación y Exportación

se efectúa a través del Sistema de Gestión Aduanera - SIGAD en las

Declaraciones Unicas de Aduanas – DUA desde el mes de Noviembre de

1992.



El monto a recaudar por cada operación de Importación se calcula en

base al Arancel de Aduanas, el cual asigna un porcentaje del valor FOB por

grupos de productos denominados Partidas Arancelarias, con una fórmula

determinada por el Ministerio de Economía.

El precio FOB de los productos es consignado por los importadores en

las Declaraciones Unicas de Aduanas, este precio se respalda en un

informe de Empresas Supervisoras Internacionales que certifican que el

precio consignado es el precio del mercado internacional.

Para cumplir la función fiscalizadora ADUANAS debe verificar el

cumplimiento de las disposiciones aduaneras y/o tributario - aduaneras por

parte de los operadores de comercio exterior; a este efecto realiza controles

previos, concurrentes y posteriores al Despacho Aduanero, así como

operativos y patrullajes realizados en todo el territorio de la República.

De esta manera, la acción fiscalizadora se canaliza a través de tres etapas:

1. La verificación física de la mercancía en el momento del Despacho

Aduanero, que en promedio no excede el 15% de la Declaraciones

tramitadas de acuerdo al reglamento de la Ley de Aduanas.

2. La ejecución de auditorias a una muestra representativa de

Operadores de Comercio Exterior (Empresas, Agencias de Aduana,

Almacenes Aduaneros, Empresas de Mensajería, etc).

3. La realización de operativos y patrullajes a nivel nacional a fin de

reprimir el Contrabando.

Dado que es potestad de ADUANAS verificar que dicha información es

correcta, se aforan (inspeccionan) las mercancías de las Declaraciones , y

de encontrarse alguna Incidencia (error o subvaluación), se genera un

documento de cobro por el monto de la diferencia no declarada.

La mercancía se afora en un porcentaje que varía de acuerdo a cada

Aduana, del 100 al 5 por ciento, el porcentaje es menor cuanto más



operaciones se tramiten por cada Aduana así en la Aduana Marítima es el

5%.

Se utilizan dos métodos para determinar las mercancías que serán

sujetas a revisión por personal de Aduanas:

1. Selección debido a que un producto se encuentra en las Listas de

productos y países con antecedentes de subvaluación

2. Selección aleatoria, de esta manera pueden dejarse de inspeccionar

operaciones que si tienen incidencias.

Para las mercancías embarcadas a partir del 02.07.2000 rige el

Convenio de la OMC Organización mundial del Comercio, lo cual ha

generado una disminución del número de Incidencias debido a que las

condiciones de sustentación del valor ante ADUANAS es más flexible.

1.2 OBJETIVO:

General

Determinar la probabilidad de ocurrencia de una incidencia en base a

características de la operación de importación definitiva.

Específico

Determinar la probabilidad de ocurrencia de una incidencia en los

Repuestos de Vehículos en base a características de las operaciones de

importación definitiva correspondientes.

1.3 ALCANCE

El propósito del presente estudio es obtener una herramienta que permita

predecir si una operación de importación definitiva puede ser o no una

incidencia.

Se sabe que el número de incidencias en las aduanas de la República solo

es significativo en Aduana Marítima del Callao, Tacna y Aduana Aérea del

Callao, tal como se muestra en la figura 1.1.



Así mismo existe una gran variedad de productos que se importa y cada

uno de ellos posee diferentes valores de las características Precio FOB,

Peso Bruto, Advalorem, Importador, Agente y demás, esto ocasiona que la

variabilidad de los datos referidos a las operaciones de importación sea muy

grande. No es posible obtener un modelo general a nivel nacional, tampoco

es posible obtener un modelo por cada aduana, es por ello que se toma la

medida de obtener modelos por tipo de producto, priorizando los productos

con mayor número de incidencias. Debido a ello se ha escogido un tipo de

producto que tiene un alto porcentaje de incidencias. Así el presente

estudio estará limitado a las Declaraciones de Importación Definitiva

correspondientes a los Repuestos para vehículos, registradas en el SIGAD

entre el 01.01.1997 y el 31.12.2002, en la Aduana Marítima del Callao.

1.4 JUSTIFICACIÓN

La participación de los diferentes tipos de ingresos por impuestos fiscales

respecto al PBI evidencia que los impuestos aplicables a las importaciones

constituyen una importante fuente de ingresos para el erario en nuestro país.

En lo que concierne a los impuestos que se recaudan por la actividad de

importación, ello no solo esta constituido por los aranceles, sino también por

FIGURA Nº 1.1

Cantidad de Incidencias por Aduana

A D U A N A S

280

271

262

244

235

226

190

181

172

163

154

145

127

118

9 1

8 2

4 6

2 8

1 9

Nro .

D e

I nc .

12000

10000

8 0 0 0

6 0 0 0

4 0 0 0

2 0 0 0

0

Mar i t ima

Tacna

Aére

FIGURA Nº 1.1



los impuestos internos recaudados, tal como se aprecia en el siguiente

cuadro.

Tabla 1.1: Ingresos Fiscales por Impuestos a la importación / Año

2001

Arancel 1.3 % PBI

IGV 2.7 % PBI

ISC 0.3 % PBI

Total 4.3 % PBI

Fuente: Ministerio de Economía y Finanzas/ Diario Gestión (25/06/2002)

Estas cifras explican que en la estructura actual de recaudación de

impuestos en el Perú, las importaciones tiene una gran participación en

materia tributaria, puesto que representan el 4.3% del PBI. En ese sentido, la

labor del control aduanero de las importaciones juegan un rol importante,

para garantizar una adecuada recaudación.

La obtención de este modelo permitirá la detección más eficiente de las

incidencias en el rubro Repuestos para vehículos, lo cual significará una

mejora en la recaudación.

Una mejora en la recaudación permitirá al Estado contar con más ingresos y

por lo tanto poder ampliar el presupuesto de los sectores como Educación,

Salud, Seguridad, etc., a fin de mejorar la calidad de vida de la sociedad

peruana.



CAPÍTULO 2

MODELO DE REGRESIÓN LOGÍSTICA

2.1 INTRODUCCIÓN

La Regresión Logística es una técnica estadística multivariante que nos

permite estimar la relación existente entre una variable dependiente no

métrica, en particular dicotómica y un conjunto de variables independientes

métricas o no métricas.

El Análisis de Regresión Logística tiene la misma estrategia que el Análisis

de Regresión Lineal Múltiple, el cual se diferencia esencialmente del

Análisis de Regresión Logística por que la variable dependiente es métrica;

en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque

sus enfoques matemáticos son diferentes.

La variable dependiente o respuesta no es continua, sino discreta

(generalmente toma valores 1,0). Las variables explicativas pueden ser

cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal

de partida, sino exponencial; si bien, por sencilla transformación logarítmica,

puede finalmente presentarse como una función lineal.

Así pues el modelo será útil en frecuentes situaciones prácticas de

investigación en que la respuesta puede tomar únicamente dos valores: 1,

presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p).

El modelo será de utilidad puesto que, muchas veces, el perfil de variables

puede estar formado por caracteres cuantitativos y cualitativos; y se

pretende hacer participar a todos ellos en una única ecuación conjunta.

El modelo puede acercarse mas a la realidad ya que muchos fenómenos,

como los del campo epidemiológico, se asemejan más a una curva que a

una recta. Además la curva exponencial elegida como mejor ajuste, puede

ser transformada logarítmicamente en una ecuación lineal de todas las



variables, siendo así que el aparato matemático estudiado para la regresión

lineal múltiple será aplicable; aunque el investigador tenga, al final, que

deshacer la transformación para interpretar sus conclusiones.

Si para el Modelo de Regresión Logística una variable regresora de tipo

categórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)

a fin que todas las posibilidades de la variable queden bien representadas en

el modelo logístico.

Cuando todas las variables regresoras son categóricas entonces se usa el

modelo Log lineal, ver Mc Cullagh (1983).

2.2 OBJETIVOS DE LA REGRESIÓN LOGÍSTICA

El objetivo primordial de esta técnica es el de modelar como influyen las

variables regresoras en la probabilidad de ocurrencia de un suceso

particular.

Sistemáticamente tiene dos objetivos:

1. Investigar como influye en la probabilidad de ocurrencia de un suceso, la

presencia o no de diversos factores y el valor o nivel de los mismos.

2. Determinar el modelo más parsimonioso y mejor ajustado que siendo

razonable describa la relación entre la variable respuesta y un conjunto

de variables regresoras.

2.3 REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS

El objetivo general de la Regresión Logística es predecir la probabilidad de

un evento de interés en una investigación, así como identificar las variables

predictoras útiles para tal predicción.



Se pueden usar varios métodos multivariantes para predecir una variable

respuesta de naturaleza dicotómica a partir de un grupo de variables

regresoras.

El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos

métodos eficaces pero plantean problemas cuando la variable respuesta es

binaria.

En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta

toma solo dos valores, se violan los supuestos de necesarios para efectuar

inferencias, los problemas que se plantean son:

1. La distribución de los errores aleatorios no es normal.

2. Los valores predictados no pueden ser interpretados como

probabilidades como en la Regresión Logística, porque no toman

valores dentro del intervalo [0,1].

El Análisis Discriminante permite la predicción de pertenencia de la unidad

de análisis a uno de los dos grupos pre-establecidos, pero se requiere que

se cumplan los supuestos de multinormalidad de las variables regresoras y

la igualdad de matrices de covarianzas de los dos grupos, pueden ser

diferentes también; para que la regla de predicción sea óptima, Johnson

(1982).

La Regresión Logística requiere mucho menos supuestos que el AD, por ello

cuando satisfacen los supuestos requeridos para el AD, la Regresión

Logística trabaja bien.

A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y

la Regresión Logística, debido a que ambos tienen el mismo objetivo,

predecir la variable respuesta a partir de las variables regresoras.



2.4 REVISIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

La diferencia básica entre los modelos del Análisis de Regresión Lineal

Múltiple y de la Regresión Logística es naturaleza de la relación entre la

variable respuesta y las variables regresoras.

Para el Análisis de Regresión Lineal Múltiple, consideremos y una variable

respuesta cuantitativa y kxxx ,....,, 21 variables regresoras o llamadas

también explicativas; y se desea describir la relación que hay entre la

variable respuesta y las variables explicativas, si entre la variable respuesta

y las regresoras hay una relación lineal se espera que:

( ) ikkiii xxxyE ββββ ++++= ......22110 , (2.1)

para i=1, 2, ..., n

donde:

iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.

jβ ; j = 0, 1, 2,....,k son los parámetros.

Siendo n el número de objetos u observaciones.

Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las

variables regresoras, esto es:

( ) ikkiiii xxxxyE ββββ ++++= ......| 22110ρ

,

para i=1, 2, ..., n

(2.2)

siendo ( )iniiiTi xxxxx ,...,,, 210=ρ

la i-ésima observación, con 10 =ix ,

(2.2) toma valores reales y en forma vectorial es:

( ) βρρρ T

iii xxyE =| (2.3)

donde ( )kT βββββ ,...,,, 210=

ρ es el vector de parámetros.



Pero en (2.3) hay otras variables regresoras que pueden influir linealmente

sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a

esa variación lo denotamos con iε , esto es:

( )β

ερρ

ρ

Tii

iiii

xy

xyEy

−=

−= |(2.4)

de (2.4):

iTii xy εβ +=

ρρ (2.5)

iikkiii xxxy εββββ +++++= ......22110 ,

para i=1, 2, ..., n

(2.6)

llamado Modelo de Regresión Lineal Múltiple poblacional, a iε se le llama

error aleatorio y tiene las siguientes propiedades:

(( ))(( ))

(( ))(( )) 0,

0,

2

0

==

≠≠∀∀====

==

jXiCov

jijiCoviV

iE

ε

εεσε

ε

(2.7)

las variables regresoras no son variables aleatorias y el comportamiento de

y es la respuestas a aquellas, así mismo iε es una variable aleatoria no

observable.

Generalizando el Modelo de Regresión Lineal Múltiple, (2.6), mediante el

álgebra matricial está dada por:

εβ ρρρ += Xy (2.8)

donde:

( )nT yyyy ,....,, 21=ρ

, vector de variables respuestas observadas

( )kxxxX ρρρ ,.....,,,1 21= matriz de rango completo y con



( )ikiiTi xxxx ,...,,,1 21=ρ

( )kT ββββ ,.....,, 10=

ρ

( )nT εεεε ,....,, 21=ρ

así mismo (2.1) en forma matricial es:

( ) βρρ XyE = (2.9)

el objetivo es estimar los parámetros del modelo (2.6), los mismos que son

estimados mediante el método de mínimos cuadrados.

Sea iy la estimación de iy , entonces:

ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= ,

para i=1, 2, ..., n (2.10)

o equivalentemente:

βˆρρT

ii xy = (2.11)

siendo:

( )kT ββββ ˆ,.....,ˆ,ˆˆ 10=

ρ, el vector de parámetros estimados.

(2.10) en su forma matricial es:

βˆρρ Xy = (2.12)

los residuos ordinarios ir es la contraparte muestral de iε y está dado por:

iii yyr ˆ−= para i=1, 2, ...., n (2.13)

en forma vectorial es:

yyr ρρρ −= (2.14)

El estimador de βρ

se obtiene usando el método de mínimos cuadrados, ver

que consiste en minimizar la suma de cuadrados del error y está dada por:



( ) ( )yyyyeeeSCETn

i

Ti ˆˆ

1

2 ρρρρρρ −−=== ∑=

con respecto a βρ

, esta suma de cuadrados se expresa en forma

cuadrática como::

( ) ( )ββρρρρ XyXy T −− (2.15)

al minimizarlo se obtiene que:

( ) yXXX TT ρρ=β (2.16)

llamada ecuaciones normales.

Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y

de rango completo, entonces la solución del sistema lineal es:

( ) yXXX TT ρρ 1ˆ −=β (2.17)

que es sensible a observaciones pobremente ajustados y a los puntos

extremos de X , Montgomery y Peck (1992).

El vector (2.12) de valores estimados para el vector de variables respuesta

es:

βˆρρ Xy =

( ) yXXXXy TT ρρ 1ˆ

−= (2.18)

a la matriz ( ) yXXXX TT ρ1− , se le llama matriz de cambio o de

proyección denotada por H , entonces (2.18) es:

yHy ρρ =ˆ (2.19)

El vector de residuos es:

yyr ρρρ −=

yHyr ρρρ −= (2.20)

( )yHIr ρρ −= (2.21)



yMr ρρ = (2.22)

El vector rρ describe las desviaciones de los valores observados de los

ajustados y la matriz M es el subespacio en el cual cae rρ .

El vector residual es importante para detectar puntos ´extraños¨. A la matriz

H se le llama matriz sombrero o de proyección, ver Cook y Weisberg

(1982). Ahora veamos como queda expresado la suma de cuadrados de los

residuos, denotada por SCE :

( ) ( )yyyySCE T ˆˆ ρρρρ −−= (2.23)

Reemplazando yρ por βρ

X : (2.23) es:

( ) ( )ββ ˆˆ ρρρρ −−= yXySCET

(2.24)

Y reemplazando βρ

por ( ) yXXX TT ρ1−:

( ) yXXXXyyySCE TTTT ρρρρ 1−−= (2.25)

La matriz ( ) TT XXXXH1−

= , entonces:

yHyyySCE TT ρρρρ −= (2.26)

( )yHIySCE T ρρ −= (2.27)

Sea HIM −= , entonces (2.27) es:

yMySCE T ρρ= (2.28)

Bajo el supuesto que ( )nIN 2,0~ σερρ

, las observaciones nyyy ,...,, 21

son independientes y distribuidas cono una Normal n-variada con

( ) βρρ XyE = con matriz de varianzas y covarianzas nI2σ .



En la Regresión Logística, se estima la probabilidad de que un evento

ocurra; es decir, el valor esperado de y dado las variables regresoras, debe

tomar valores entre 0 y 1. La relación entre las variables regresoras y la

dependiente no es lineal. Las estimaciones de probabilidad estarán siempre

entre 0 y 1, así, el valor de la variable respuesta se puede definir como una

probabilidad de que ocurra o no un evento sujeto a control.

En la Regresión Logística, se seleccionan los coeficientes, del modelo, que

hacen que los resultados sean los más “probables”. Como el modelo de

Regresión Logística no es lineal, se requiere de un algoritmo iterativo para

estimar los parámetros.

En las secciones siguientes se detallarán los aspectos teóricos y la

aplicación de la Regresión Logística.



2.5 REGRESIÓN LOGÍSTICA SIMPLE

Este modelo tiene la forma:

iixiy εββ ++++== 10 para ni ,,2,1== (2.29)

De esto se deduce que:

Si 1==y , ixi 101 ββε −−−−== (2.30)

Si 0==y , ixi 10 ββε −−−−== (2.31)

Por tanto iε , no puede tener distribución normal debido a que toma valores

discretos, el Modelo de Regresión Lineal Simple, no es aplicable para el

caso de variable respuesta de tipo dicotómico.

En el Análisis de Regresión Lineal simple, el punto inicial del proceso de

estimación del modelo es un gráfico de dispersión de la variable respuesta

versus la regresora, pero este gráfico resulta limitado cuando sólo hay dos

valores posibles para la variable respuesta, por tanto se debe usar otros

gráficos, éstos resultan de la suavización de los valores de la variable

respuesta, representando después los valores de la variable respuesta

versus la regresora.

La notación que se usará en el presente trabajo para la Regresión Logística

es misma que emplea Hosmer y Lemeshow (2000).

Sea (( )) (( ))xyEx ==π (2.32)

Que representa la media condicional de 1==y dado x , donde (( ))xπ

representa la probabilidad de que ocurra 1==y , ciertamente no se espera

que (2.32) tenga relación lineal dentro del rango de la variable regresora.

¿Qué hay de la relación entre (( ))xπ y x para valores intermedios de x ? Se

espera una relación curvilínea. Para cualquier valor grande de x , (( ))xπ

tomará valores cercanos a 1 y para valores pequeños de x , (( ))xπ tomará



valores cercanos a cero. El gráfico que muestra el comportamiento de (( ))xπ

versus x es:

FIGURA Nº 2.1

curva en forma de S o sigmoide que tiene las propiedades requeridas para

(( ))xπ y que tiene las propiedades de una función de distribución de

probabilidad acumulada, para esta probabilidad se usa la función de

distribución acumulada de la distribución logística dada por:

(( ))xe

xex101

10

ββ

ββπ

++++

++== (2.33)

(2.33) tiene un gráfico similar a la Figura Nº 2.1, cuando 00 <<β y

01 >>β , además este modelo toma valores en el intervalo [[ ]]1,0 .

Cuando , [[ ]] 5.01 ====yP el valor de x es: 10

ββ−−

, que brinda información

muy útil.

Una transformación de (( ))xπ que es lo central del estudio de la Regresión

Logística es la transformación logit, transformación que se define en

términos (( ))xπ como:



(( )) (( ))(( ))

xx

xLnxg

10

1ββ

ππ

++==

−−

== (2.34)

Lo importante de esta transformación es que tiene muchas propiedades

semejantes al Modelo de Regresión Lineal simple, por ejemplo es lineal en

sus parámetros, puede ser continua y puede tomar cualquier valor real

dependiendo de x .

Para el Modelo de Regresión Lineal simple, la variable respuesta, de (2.4) se

expresa como:

(( )) ε++== xyEy (2.35)

para la variable respuesta dicotómica lo expresamos como:

(( )) επ ++== xy (2.36)

veamos que ocurre con este modelo:

Si 1==y , (( ))xi πε −−== 1 y tiene probabilidad (( ))xπ

Si 0==y , (( ))xi πε −−== y tiene probabilidad (( ))xπ−−1

Entonces iε tiene distribución binomial con media cero y varianza

(( )) (( ))[[ ]]xx ππ −−1 . Por tanto la distribución condicional de la variable

respuesta tiene distribución de probabilidad binomial con media (( ))xπ .

El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o

razón de probabilidades de 1==y contra 0==y , especificamente:

(( ))(( ))x

xRATIOODDSπ

π−−

==1

(2.37)

o también llamado razón de ventaja a favor de éxito.



2.6 REGRESIÓN LOGÍSTICA MÚLTIPLE

En esta sección se generaliza el Modelo de Regresión Logística Simple

tratado en la sección anterior, es decir consideraremos más de una variable

regresora, en donde por lo menos una es de tipo cuantitativo.

2.6.1 MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

Sea el vector de variables regresoras (( ))kxxxTx ,....,2,1==ρ por el

momento asumiremos que están medidas por lo menos bajo escala

intervalar. Sea la probabilidad condicional para que la variable respuesta sea

igual a 1, denotado por:

(( )) (( ))xxyP ρρ π==== 1 (2.39)

el logaritmo del Modelo de Regresión Logística Múltiple está dado por:

(( )) ikxkixixixg ββββ ++++++++== ......22110ρ

, para i=1, 2, ..., n

(2.40)

entonces el Modelo de Regresión Logística Múltiple es:

(( ))(( ))

(( ))xge

xgex ρ

ρρ

++==

1π (2.41)

Al igual que en el caso de Regresión Lineal Múltiple si es necesario usar

variables regresoras categóricas, por ejemplo si una tiene c niveles será

necesario incorporar c-1 variables ficticias o llamadas dummy., así entonces

el logit para un modelo con k variables regresoras y una variable categórica,

por ejemplo la j-ésima es:

(( )) ikxkc

ljlDjlixxg ββββ ∑∑

−−

==++++++++==

1

1......110

ρ ,

para i=1, 2, ..., n

(2.42)



2.6.2 AJUSTE DEL MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

El ajuste se efectúa a través del uso de los métodos de máxima

verosimilitud, los mismos que se encuentran en los softwares estadísticos

que permiten analizar datos mediante este método.

Asumiremos que disponemos de una muestra n observaciones

independientes

(( ))iyix ,ρ, i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar

( )kT ββββ ,...,, 10=

ρ que es el vector de parámetros

desconocidos.

Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos

Cuadrados para estimar βρ

, el cual minimiza la suma de cuadrados del

error, pero cuando la variable respuesta es binaria aplicar este método no

provee las mismas propiedades cuando es usado en variables respuestas

continuas.

Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos

parámetros estimados que maximizan la probabilidad de obtener un conjunto

de datos observados.

La función de verosimilitud expresa la probabilidad de los datos observados

como una función de parámetros desconocidos. Los Estimadores de Máxima

Verosimilitud de esos parámetros son aquellos que están en concordancia

con los datos observados.

Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,

supongamos que se dispone de n objetos u observaciones donde para cada

uno de ellos existe una respuesta que puede ser:

10 == ii yoy

Sea ( )nT yyyy ,...,, 21=ϖ

donde ( )ii By π,1~ y sea



( )kiiT

i xxx .,....,,1 1=ρ la i-ésima observación para las k variables

explicativas.

Así el Modelo de Regresión Logística está dada por la expresión (2.40):

[[ ]] (( ))(( ))

(( ))ixge

ixgeixixiyP ρ

ρρρ

++======

1|1 π (2.43)

equivalentemente

[[ ]]

==++++

==++

====

∑∑

∑∑

k

jijxjExp

k

jijxjExp

ixiyP

101

10

|1

ββ

ββρ

(2.44)

y la probabilidad de que iy sea igual a cero es:

[[ ]] [[ ]][[ ]]

==++++

====

==−−====

∑∑k

jijxjExp

ixiyP

:entoncesixiyPixiyP

101

10

,110

ββ

ρ

ρρ

(2.45)

para facilitar la notación usaremos la variable indicadora

nixi ,...,2,1,10 == .

Entonces (2.44) y (2.45) son respectivamente:

[[ ]] (( ))Tix

e

Tix

eixixiyP

ρρ

ρρ

ρρ

β

βπ

++

======

1

|1 (2.46)



[[ ]] (( ))Tix

e

ixixiyPρρ

ρρ

βπ

++

==−−====

1

11|0 (2.47)

donde: ( )ikiiTi xxxx ,....,, 10=ρ

, es el vector que contiene los valores de las

variables explicativas

( )kT ββββ ,...,, 10=

ρ es el vector de parámetros a ser estimado.

El i-ésimo logito es:

∑∑==

==

−−

==k

jijxj

iiLni

01β

ππ

λ (2.48)

como vemos, (2.48) es una función lineal simple del vector de observaciones

ixρ llamada transformación logística de la probabilidad iπ o simplemente

Logit o Logito de la ecuación, a la expresión (2.48) también se le llama

Modelo Logístico Lineal.

A fin de obtener la estimación máximo verosímil para el vector βρ

,

escribimos la función de densidad de probabilidad del vector yρ el cual es

proporcional a n funciones ( )iB π,1 , esto es:

( ) ( )

( )

( )

( )

−

−=

−

−=

−

−

=

−=

∑∏

∏∏

∏

∏

==

==

=

=

−

n

i i

ii

n

ii

n

i

iy

i

in

ii

n

ii

iy

i

i

n

i

iyi

iyiii

LnyExp

LnExp

yf

11

11

1

1

1

11

11

11

1;

ππ

π

ππ

π

ππ

π

πππ

(2.49)

Reemplazando (2.48) en (2.49), se obtiene:



(( )) (( ))

(( ))

==

==

====

== ==

====

∑∑ ∑∑∏∏

∑∑ ∑∑∏∏

k

jj

n

iijxiyExp

n

1ii-1

n

i

k

0jijxjiyExp

n

1ii-1iiyf

0 1

1;

βπ

βππ

(2.50)

El logaritmo natural de la función (2.50), llamado función soporte es:

( ) ( )∑ ∑∑= ==

−+

=

k

j

n

iij

n

iijiii xyyl

0 11

1ln; πβπ (2.51)

( )[ ]( ) ( )[ ]i

Ti

iT

xExpLn

xExpρρ

ρρ

βπ

βπ

+−=

+=−

1-1Ln

entonces ,1-1 :(2.47) pero1

i

( )

+−= ∑

=ij

k

jji xExpLn

0

1-1Ln βπ (2,52)

reemplazando (2.52) en (2.51), se obtiene:

( ) ∑ ∑∑ ∑= == =

+−

=

n

i

k

jijjj

k

j

n

iijii xExpLnxyy

1 00 1i 1;l ββπ (2.53)

como vemos (2.53) es una función que ya no depende de iπ sino de jβ

solamente, entonces lo denotamos como:

( ) ∑ ∑∑ ∑= == =

+−

=

n

i

k

jijj

k

jj

n

iiji xExpLnxyL

1 00 11 βββ

ρ (2.54)



es una función que depende exclusivamente del vector βρ

.

Definamos como:

∑=

=n

iijij xyt

1 (2.55)

entonces reemplazando (2.55) en (2.54) se tiene:

( ) ∑ ∑∑= ==

+−=

n

i

k

jijj

k

jjj xExpLntL

1 001 βββ

ρ(2.56)

Como (2.56) es una función exclusiva del vector de parámetros βρ

, por el

Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se

tiene que k0,1,....,jpara =jt son estadísticas suficientes para los

parámetros ,jβ para j = 0,1,...,k.,

La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos

de los términos de la matriz de diseño X , es decir se incluyen en la suma

solamente los elementos que corresponden a una respuesta del tipo 1=y .

Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto

a los elementos de βρ

e igualando a cero:

∑ ∑∑

∑

= =

=

=

+

−=∂∂ n

i

n

ik

jijj

k

jijj

ijijij xExp

xExpxxyL

1 1

0

0

1 β

β

β (2.57)

las ecuaciones de verosimilitud de (2.57) son:

kjxxyn

iiij

n

iiji .....,2,1,00ˆ

11==− ∑∑

==π (2.58)

siendo 10 =ix , equivalentemente (2.58) es:



( ) kjyxn

iiiij .....,2,1,00ˆ

1==−∑

=π (2.59)

donde:

ˆ1

ˆ

ˆ

0

0

+

=

∑

∑

=

=

k

jijj

k

jijj

i

xExp

xExp

β

β

π ; para i=1,2,...,n

es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el

vector ixρ

La expresión (2.58) en su forma matricial es:

( ) 0ˆρρρρ ==− SXyX T π (2.60)

Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para

estimar el Modelo de Regresión Lineal Múltiple, pero son no lineales en βρ

,

lo cual hace que se use un método iterativo para determinar los valores del

vector βρ

.

La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se

tratará en la siguiente sección, ahora obtendremos la varianza y covarianza

de βρ

.

Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:



=

nknn

k

k

xxx

xxx

xxx

X

..1................

....1

....1

21

22221

11211

Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):

πXyX TT ρρ = (2.61)

donde ( )nππππ ˆ,...,ˆ,ˆˆ21

T =ρ

( ) 01

=−∑=

n

iiiij yx π (2.62)

El método de estimación de las varianzas y covarianzas lo obtendremos de

la matriz de segunda derivada parcial de (2.62): y tiene la forma:

( )iin

iij

j

xL

ππβ

−−=∂

∂∑=

11

22

2 (2.63)

para j=0, 1, 2, ....., k

reemplazando: la ecuación para iπ en (2.63)

k., . . . 0,1, para

11 2

0

0

2

2

2

=

+

−=∂

∂∑

∑

∑

=

=

=

j

xExp

xExpxL n

i k

jijj

k

jijjij

jβ

β

β (2.64)



( )

k,0,1,2,....lj, para

11

2

=

−−=∂∂

∂∑=

n

iiiilij

ljxx

Lππ

ββ (2.65)

reemplazando:

∑∑

∑

=

=

=

+

−=∂∂

∂ n

i k

jijj

k

jijj

ilijlj

xExp

xExpxx

L

12

0

02

1 β

β

ββ(2.66)

Tanto (2.64) como (2.65) no son funciones de iy , entonces la matriz de

observación y la matriz de segunda derivada esperada son idénticas.

Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y

(2.66) se denota con ( )βρ

Ι , llamada Matriz de Información; las varianzas y

covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:

( ) ( )ββρρ

1−Ι=Cov (2.67)

ver Cordeiro (1992).

Los estimadores de la varianza y covarianza, denotada por ,ˆˆ

βρ

ovC se

obtiene evaluando

Entonces la matriz de información estimada, matricialmente tiene la forma:

VXX 'ˆˆ =

Ι βρ

(2.68)

V es una matriz diagonal, esto es:

(( ))[[ ]]iiDiagV ππ ˆ1ˆ −−==

( ) .ˆen ββρρ

Cov



de tamaño nxn, además (2.68) es:

( ) ( ) 1'ˆˆ −= VXXovC βρ

(2.69)

y es de tamaño (k+1)(k+1)

escribiremos los elementos de la matriz (2.69)

( )

( ) ( ) ( )( ) ( )

( )

=

k

k

k

ovC

βσ

ββσβσ

ββσββσβσ

β

ˆˆ.......

........

........

ˆ,ˆˆ......ˆˆ.

ˆ,ˆˆ.....ˆ,ˆˆˆˆ

ˆˆ

2

11

01002

ρ

donde:

( )jβσ 2ˆ es la varianza estimada de jβ

( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ

( )jβσ ˆˆ es el error estandar de jβ

La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del

Modelo de Regresión Logística.

2.6.3 MÉTODO DE NEWTON – RAPHSON PARA ESTIMAR LOS

PARÁMETROS DEL MODELO DE REGRESIÓN LOGÍSTICA.

Este es un método para resolver ecuaciones no lineales, como las obtenidas

en (2.57) o equivalentemente en (2.58), y requieren una solución mediante

métodos iterativos para hallar la estimación de los parámetros que es el

máximo de la función (2.54).



Uno de los métodos más usados para resolver ecuaciones de este tipo, es el

de Newton-Raphson, porque converge rápidamente. En la figura

Nº 2.2 se ilustra el método.

Tomando como estimación inicial 1x , se prolonga la tangente a la curva en

este punto hasta interceptar con el eje de las abscisas al cual llamaremos

punto 2x , entonces se toma a 2x como la siguiente aproximación.

Este proceso continua hasta que un valor de 2x haga que la función sea

nula o suficientemente cercana a cero.

Para la estimación del vector βρ

se quiere hallar el máximo de una función;

entonces usa la primera derivada, porque se anula en el punto máximo y la

segunda derivada para calcular las tangentes. En nuestro caso es necesario

hallar la segunda derivada para obtener la matriz de varianzas y covarianzas

de los parámetros estimados.



Figura Nº 2.2 Interpretación Geométrica del Método Iterativo de Newton

Raphson.

F(x)

Entonces se usa el siguiente esquema iterativo:

( ) ( ) ( )( )[ ] ( )( )tttt S ββββ ˆˆˆˆ 11 ρρρρ −+ Ι+== (2.70)

donde:

( )βρ

S y ( )βρ

Ι son las funciones de Score y de Información

respectivamente.

La función Score es un vector de tamaño k+1, donde el j-ésimo elemento de

acuerdo a (2.57) es:

f(x2)

f(x1)

x2 x1 x



( )( )∑=

−=∂∂ n

iij

tii

jxy

L

1π

β (2.71)

La cual es similar a la expresión (2.59):

( ) kjyxi

iiij ...,,2,10ˆ ==−∑ π

La Función de información es una matriz de tamaño (k+1)(k+1) donde el i-j

ésimo elemento (l,j) es:

( )

−

∂∂

−=∂∂

∂∑=

n

iiiij

lljyx

l

1

2π

βββ

+−

∂∂−= ∑ ∑

= =

n

i ixT

ixTn

iijiij

l e

exyx

1 1 1ρρ

ρρ

β

β

β

+

−

+

= ∑= 21

1

1

ixT

ixTilixT

ixTilixT

n

iij

e

exeexex

ρρ

ρρρρρρρρ

β

ββββ

∑=

+

=n

i ixT

ixTilij

e

exx

1 21

ρρ

ρρ

β

β

( )∑=

−=n

iiiilij xx

11 ππ j=0,1,....,k ; l =0,1,....,k

(2.72)



donde ( )tπρ , es la t-ésima aproximación para πρ , obtenida de

( )tβρ

mediante:

( )( )

( )

+

=

∑

∑

=

=

ijk

j

tj

ijk

j

tj

ti

xExp

xExp

0

0

1 β

β

π (2.73)

Entonces el próximo valor reemplazando en (2.70) es:

( ) ( ) ( ){ } ( )( )tTtTtt yXXVX πββ ρρρρ−−=

−+ 11 (2.74)

donde ( ) ( ) ( )( )[ ]t

it

it DiagV ππ −= 1

La expresión (2.70) se usa para obtener ( )1+tπρ y así sucesivamente.

Después de dar un valor inicial ( )0β

ρ, se usa (2.70) para obtener

( )0πρ y

para t>0 las iteraciones siguientes se efectúan usando (2.70) y (2.71).

En el límite, ( )tπρ y

( )tβρ

converge a los EMV de πρ y converge en general

en 5 o 6 iteraciones.

Existen software estadísticos como el SAS y el SPSS con programas para

estimar una regresión logística usando el método descrito. Una ventaja de

este método es que en el paso final del proceso iterativo se obtiene la

inversa de la función de información, que es asintóticamente la matriz de

varianzas y covarianzas del vector βϖ

y permiten efectuar inferencias sobre

los parámetros basado en la teoría normal. Para mayor información se

recomienda a Affifi y Clark (1998).



2.6.4 INTERPRETACIÓN DE LOS COEFICIENTES DEL MODELO

ESTIMADO

Recordamos del modelo de regresión múltiple que el valor de un coeficiente

significaba el cambio en unidades de la variable dependiente por cada

unidad de la variable independiente a que se refiere el coeficiente,

permaneciendo invariantes los valores del resto de variables independientes

del modelo.

A nivel de coeficientes estimados exponencialmente la interpretación es muy

similar y la diferencia estriba en que en este caso no se trata del cambio

(incremento o disminución) de la probabilidad de la variable dependiente por

cada unidad de cambio en las independientes, sino del incremento o

disminución que se produce en el cociente entre P(Y=1) / P(Y=0), expresado

por:

e KXKBBXXBB

YPYP ++++=

== . . . . .2110

)0()1(

(2.75)

Más aún, están expresados en logaritmos, por lo que sería necesario

transformarlos (tomando los valores del antilogaritmo) de tal forma que se

evalúe más fácilmente su efecto sobre la probabilidad. Los programas de

computador lo hacen automáticamente calculando tanto el coeficiente real

como el transformado. Utilizar este procedimiento no cambia en modo

alguno la forma de interpretar el signo del coeficiente. Un coeficiente

positivo aumenta la probabilidad, mientras que un valor negativo disminuye

la probabilidad. Así pues si β es positivo, su transformación (antilog) será

mayor a 1, y el odds ratio aumentará. Este aumento se produce cuando la

probabilidad prevista de ocurrencia de un suceso aumenta y la probabilidad

prevista de su no ocurrencia disminuye. Por lo tanto, el modelo tiene una

elevada probabilidad de ocurrencia. De la misma forma, si β es negativo, el

antilogaritmo es menor que 1 y el odds ratio disminuye. Un valor de cero

equivale a un valor de 1, lo que no produce cambio en el odds. Hair (1999)



2.6.4 PRUEBA DE HIPÓTESIS PARA LOS COEFICIENTES DEL

MODELO DE REGRESIÓN LOGÍSTICA.

Usualmente en la estimación del Modelo de Regresión Logística, como en el

Modelo de Regresión Lineal Múltiple se efectúan pruebas con objetivos

diferentes, siendo estos:

1. Determinar si una variable explicativa tiene coeficiente igual a cero.

2. Determinar si un conjunto de variables explicativas tienen coeficientes

igual a cero.

3. Determinar la calidad del ajuste global del modelo.

Veamos para cada objetivo, como se efectúa el análisis.

2.6.5.1 PRUEBA DE WALD

Wald(1943) estudio una prueba asintótica para estimaciones máximos

verosímiles, y aseveró que los parámetros estimados en los modelos

logísticos tiene una Distribución Normal para muestras grandes.

Esta prueba se usa para evaluar la significancia estadística de cada variable

explicativa o regresora.

Sea ( )tπρ que converge a los EMV de πρ y. nyyy ,,........., 21 variables

respuesta binaria independientes cuyas probabilidades satisfacen.

( ) βπρρT

ii xLogit =

donde [ ]iii xyP ρ1==π

Siendo ixρ una observación que contiene los valores de las k variables

explicativas con ( )ikiiTi xxxx ,......,,,1 21=ρ

.

Sin perdida de generalidad, seleccionaremos jβ como el parámetro de

interés.

Supóngase que las hipótesis son:



01

00

:

:

jj

jj

H

H

ββ

ββ

≠

= (2.76)

sea jβ un EMV de jβ y sea:

( ) 11 −− = VXXI T la inversa de la matriz de información muestral,

entonces la estadística de Wald para dócimar (2.75) es:

( )( )j

jjWβσ

ββ

ˆˆ

ˆ

2

20−

= (2.77)

donde ( )jβσ ˆˆ es la estimación del error estándar de jβ .

Bajo 0H , ( )21~ χW y para n suficientemente grande se tiene que:

( ) ( )

−−= 1,

ˆˆ

ˆ~

ˆˆ

ˆ 00

j

jj

j

jj Nzβσ

ββ

βσ

ββ (2.78)

por tanto:

( )2

1,2 ~ ξχz , es

2χ con parámetro de no centralización:

( )( )j

jjβσ

ββξ

ˆˆ

20−

= (2.79)

ver Hanck y Donner (1977)

Pero la estadística W , tiene la propiedad que cuando el valor absoluto del

coeficiente de Regresión es grande, el error estándar también lo es; esta

situación hace que la estadística W sea pequeña y por tanto se puede

rechazar jβ igual a cero, cuando en realidad no debería rechazarse.



Por tanto, cuando se encuentra que un coeficiente es grande, es preferible

no usar la estadística de Wald para efectuar dócima individual. Sino se

recomienda construir un modelo con y sin esa variable y basarse en la

prueba de hipótesis de la diferencia entre los dos modelos, ver Hanck y

Donner (1977).

Para las hipótesis estadísticas:

0:

0:

1

0

≠

=

j

j

H

H

β

β (2.80)

La estadística (2.77) es:

( )( )j

jWβσ

β

ˆˆ

ˆ

2

2

= (2.81)

Bajo ( )210 ~, χWH y para n suficientemente grande se tiene que:

( ) ( )

= 1,

ˆˆ

ˆ~

ˆˆ

ˆ

j

j

j

jNz

βσ

β

βσ

β (2.82)

por tanto:

( )2

1,2 ~ ξχz

2z se distribuye como una 2

)1,(ξχ con parámetro de no centralización:

( )( )j

j

βσ

βξ

ˆˆ 2

2= (2.83)

si la variable explicativa es categórica, los grados de libertad es igual al

número de categorías o niveles de la variable menos uno.



2.6.5.2 PRUEBA CHI-CUADRADO

Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la

sección 2.6.4 y sirve para docimar los coeficientes del modelo logístico.

Para elegir un modelo, se usa la prueba de razón de verosimilitud, Bickel y

Docksum (1977), para probar la hipótesis de que los coeficientes jβ

correspondientes a las variables explicativas retiradas, digamos q variables

explicativas, del modelo son iguales a cero, siendo la hipótesis estadísticas:

qjunmenosloporparaH

H

j

q

,...,2,1,0:

0....:

1

210

=≠

====

β

βββ

.Esta prueba se basa en la siguiente estadística:

[ ]pqpq LLnLLn −−= −22χ (2.84)

Bajo la hipótesis de que los coeficientes de las variables retiradas son

iguales a cero, la estadística (2.84) tiene una distribución asintótica ( )2qχ .

Valores altos para esta estadística indican que una o más de las q variables

retiradas tienen coeficiente de regresión distinto de cero.

La estadística 2qχ se usa también para probar si una variable explicativa

determinada, por ejemplo kx , muestra una asociación significativa (como

factor de riesgo cuando se aplica a casos de enfermedades) para con la

variable respuesta en la presencia de las demás variables 121 ,...,, −kxxx .

2.6.5.3 ESTADISTICA CHI-CUADRADA DE PEARSON

Esta estadística sirve para lograr el objetivo número 3, es decir evaluar el

modelo ajustado en forma global. La estadística se basa en la comparación

de los valores observados, iy ; y sus respectivas probabilidades estimadas,

iπ .

Las hipótesis estadísticas para usar esta estadística son:



kjunmenosloporparaH

H

j

ko

,...,2,.,1,0,0:

0....:

1

10

=≠

====

β

βββ

esta prueba se basa en la estadística Chi-cuadrado de Pearson, que está

dada por:

( )( )∑

= −−

=n

i ii

iiy

1

22

ˆ1ˆˆππ

πχ (2.85)

o equivalentemente ∑=

=n

i ii

ivr

1

22χ (2.86)

donde:

( )( ) ( )iiii

iii

VDiagv

yr

ππ

π

ˆ1ˆˆ

ˆ

−==

−=

como observamos la estadística (2.86) es igual a (1.52).

Bajo la hipótesis nula, de que el modelo se ajusta bien a los valores

observados, la

estadística (2.86) tiene distribución asintótica Chi-cuadrado ( )( )2

1+− knχ .

Valores altos de la estadística Chi-cuadrado de Pearson indican

discrepancias con el modelo teórico, Cordeiro (1992).

La estadística (2.86) es inestable cuando iπ toma valores cercanos a cero o

uno, por ello tomar en cuenta esta observación, cuando se realiza el análisis.

2.6.5.4 DESVIANZA

Otra forma de probar el ajuste global del modelo, es mediante la estadística

llamada Desvianza, propuesta por Nelder y Wederburn (1982), es análogo a

la suma de cuadrados de los residuales del Modelo de Regresión Lineal

Múltiple.



Las hipótesis estadísticas son:

kjunmenosloporparaH

H

j

k,...,2,.,1,0:

0....:

1

10=≠

===β

ββ

Esta estadística se usa para evitar la inestabilidad de la estadística Chi-

cuadrado de Pearson. La Desvianza esta dada por:

∑=

=n

iip dD

1

2 (2.87)

donde :

njysip

ysipd

ii

ii

i ,...,2,1;0)ˆ1log(2

1ˆlog2=

=−−

=−=

La Desvianza bajo la hipótesis nula, asintóticamente, es la misma que la

distribución Chi-cuadrado de Pearson, es decir se distribuye ( )( )2

1+− knχ y

mide la discrepancia o el desvio entre el modelo bajo investigación o actual y

el modelo saturado.

La estadística (2.87) para el modelo de regresión logística eta dada por:

( ) ( ) ( )( )∑ −−+−= iiii yyD ππ ˆ1log1ˆlog2 (2.88)

Cuando el modelo bajo investigación es verdadero se compara el valor D

con el valor crítico 2

)( pn−χ de una distribución 2χ a un nivel de

significación igual a α , por tanto :

Si 2)( pnD −> χ el modelo se rechaza y



Si 2)( pnD −≤ χ el modelo no se rechaza.

donde 1+= kp

2.6.5.5 TABLA DE CLASIFICACION

También llamada Matriz de Confusión, es una forma sencilla de evaluar el

ajuste del Modelo de Regresión Logística, no es tan objetiva pero se usa

como indicador de bondad de ajuste.

Es una tabla sencilla de 2x2, en el cual se muestra la distribución de los

objetos que pertenecen a las categorías 1 y 2, es decir cuando 0=y y

cuando 1=y , conjuntamente con la clasificación a cualquiera de las 2

categorías de acuerdo a la probabilidad estimada.

Para interpretar se hace mediante el porcentaje de objetos bien clasificados,

esto es, aquellos que mediante la probabilidad estimada permanecen en su

respectiva categoría. También se interpreta mediante el porcentaje de

objetos mal clasificados, esto es, aquellos que mediante la probabilidad

estimada se asignan a categorías diferentes del cual fueron observados.

TABLA DE CLASIFICACION

GRUPO ESTIMADO GRUPO

ACTUAL 0 1

TOTAL

MARGINAL

0 11n 12n 1211 nn +

1 21n 22n 2221 nn +

TOTAL

MAGINAL 2111 nn + 2212 nn + n



%1002211 xn

nn + es el porcentaje de objetos bien clasificados

mediante el Modelo de Regresión Logística estimado.

Por tanto, lo que se debe esperar es que este porcentaje sea lo más alto

posible, a fin de concluir que el modelo obtenido clasifica bien a los objetos o

individuos.

2.6.5.6 CONTRASTE DE BONDAD DE AJUSTE DE HOSMER –

LEMESHOW

Este contraste evalúa la bondad de ajuste del modelo, es decir el grado en

que la probabilidad predicha coincide con la observada, construyendo una

tabla de contingencia a la que aplica un contraste ÷2. Para ello calcula los

deciles de las probabilidades estimadas ( nipi ,...2,1;ˆ = ) , D1,D2,....D9 y

divide los datos observados en 10 categorías dadas por :

10,..,2,1;}},...,2,1{/)[ˆ{ ,1 =∈∈= − jniDDpA jjij

donde D0 = 0 , D10 = 1.

Sean:

nJ = número de casos en Aj ; j=1,2,...,10

oj = número de yi =1 en Aj ; j=1,2,...,10

10,...2,1;ˆ1 == ∑∈

jpn

pjAi

ij

j

El estadístico del contraste viene dado por :

∑= −

−=

10

1

2

)1(

)(

j jjj

jjj

ppn

pnoT (2.89)

y el p-valor del contraste es [ ]obsTP ≥28χ .z



2.6.6 DIAGNOSTICO DEL MODELO

Es la evaluación de la bondad de ajuste caso por caso mediante el análisis

de los residuos del modelo y de su influencia en la estimación del vector de

parámetros del mismo, se realiza usando:

2.6.6.1 RESIDUOS DEL MODELO

Los residuos más utilizados son los siguientes:

Residuos estandarizados.- Son el cociente entre los residuales y una

estimación de la desviación estándar.

nipp

pyz

ii

iii ,...,2,1;

)ˆ1(ˆ

ˆ=

−−

= (2.90)

Residuos studentizados.- Son el cambio en el valor de la desvianza del

modelo si el caso es excluído.

( )

( ) ( )ni

pp

pyst

ii

iii ,...,2,1;

)ˆ1(ˆ

ˆ=

−−

= (2.91)

donde ( )ip es la estimación de ip obtenida eliminando la observación i

de la muestra.

Residuos Desvianza.- Para cada observación la desvianza se calcula :

njysip

ysip

d

ii

ii

i ,...,2,1;0)ˆ1log(2

1ˆlog2

=

=−−

=−=

(2.92)

Todos estos residuos se distribuyen aproximadamente como una N(0,1), si

el modelo ajustado es correcto.

2.6.6.2 MEDIDAS DE INFLUENCIA



Cuantifican la influencia que cada observación ejerce sobre la estimación del

vector de parámetros o sobre las predicciones hechas a partir del mismo, de

modo que, cuanto más grande son, mayor es la influencia que ejerce una

observación en la estimación del modelo.

Medida de Apalancamiento (Leverage)

Se utiliza para detectar observaciones que tienen un gran impacto en los

valores predichos por el modelo.

Se calcula a partir de la matriz 2/112/1 ')'( WXWXXXWH −= donde

)ˆ1(ˆ ii ppdiagW −= . El apalancamiento para la observación i-ésima viene

dado por el elemento i-ésimo de la diagonal principal de H, hi i , y toma

valores entre 0 y 1 con un valor medio de p/n.

Las dos medidas siguientes miden el impacto que tiene una observación en

la estimación de â.

Distancia de Cook.- Mide la influencia en la estimación de â.

( ) ( ))(

'

)( ââ'ââ1

iii WXXp

COOK −−= (2.93)

DFBETA.- Mide la influencia en la estimación de una componente de â, âi

)â(

ââ1

1

)(11

stdDfbeta i

i

−=

(2.94)

donde )(11 â,â i denotan las estimaciones del módelo logístico de â y â 1,

eliminando la i-ésima observación de la muestra y )â( 1std el error estándar

en la estimación de â1.

2.6.7 VARIABLES EXPLICATIVAS CATEGORICAS – VARIABLES

DUMMY

Si una de las variables explicativas es categórica, con c valores posibles, se

crean c-1 variables dicotómicas como variables explicativas también



llamadas variables dummy. Estas variables cuantifican el efecto de un valor

de dichas variables con respecto a un valor de referencia.

Estas variables se usan cuando los datos se muestran como categorías, las

categorías pueden ser:

Nominales: La variable simplemente indica diferentes categorias, las

categorías no pueden ser ordenadas en un orden particular. Ejemplo : Sexo

(hombre,mujer).

Ordinales: La variable además de estar agrupada en categorías puede ser

ordenada. El que una categoría este en un orden superior que otra implica

que su medida representa algo mayor que la otra. Ejemplo: Clase social

(baja, media, alta).

Intervalares: La variables no solo puede ser ordenada, sino que su valor

mide la distancia entre categorías. Estas tienen estándares de unidades de

medida.

Ejemplo: Altura, temperatura, presión sanguínea.

Cuando se tiene variables de este tipo se crean las llamadas variables

dummy, si la variable tiene c categorias se usan c-1 variables ficticias o

dummy. La variable indica si un dato corresponde a una categoría o no.

Veamos un ejemplo de cómo se hace esto:

Supongamos que tenemos una variable clase social, codificada 1: Baja,

2:Media, y 3:Alta, entonces creamos dos variables dummy :

Clase1 : 1 si el dato corresponde a la clase social Baja, 0 si el dato no

pertenece a la clase Baja.

Clase2 : 1 si el dato corresponde a la clase social Media, 0 si el dato no

pertenece a la clase Media.

Como se puede ver estas nos permiten clasificar cualquier dato en una de

las categorias existentes.

Supongamos que creamos las variables dummy Ind1 e Ind2 para una

variable X1 de tres categorías, como sigue:

X1 Ind1 Ind2



1 1 0

2 0 1

3 0 0

En este caso la ecuación del modelo ajustado viene dada por:

21);2,1(1

);2,1(log 210 IndInd

IndIndpINdIndp

ββββ

β++=

−

(2.95)

Sea pi = p[y=1/X1=i]; i=1,2,3. Se tiene:

02010

3

3

2

2

1

1

1,

1,

1βββββ e

pp

ep

pe

pp =

−=

−=

−++

Se sigue que:

21

3

3

2

2

3

3

1

1

11,

11ββ e

pp

pp

ep

pp

p =−−

=−−

Por lo tanto, 2,1, =ie iβ compara los odds ratio correspondientes a X1=1,2,

frente al de la categoría de referencia X1=3.

CAPÍTULO 3

DESARROLLO DEL ESTUDIO

3.1 DISEÑO

El objetivo del presente análisis es estimar un modelo de regresión logística

que permita determinar la probabilidad de ocurrencia de una incidencia en

una operación de Importación Definitiva de Repuestos para Vehículos.

Se analizará la información correspondiente a las declaraciones de

importación de la Aduana Marítima del Callao dado que esta es la aduana

con mayor cantidad y variedad de operaciones de importación.

La partida arancelaria de los Repuestos para Vehículos es la ‘8708’ del

arancel de Aduanas.

En el presente estudio nos centraremos en el análisis de las siguientes

subpartidas por ser las de mayor movimiento.

Tabla 3.1 Subpartidas Arancelarias de Repuestos de mayor

movimiento

SUBPARTIDA DESCRIPCIÓN

8708999000 Demas partes y accesorios de vehiculos

8708800000 Amortiguadores de suspension de vehiculos automoviles

8708701000 Ruedas y sus partes

8708500000 Parachoques/defensas y sus partes de automoviles

8708992900 Transmiciones cardanicas

8708399000 Guarniciones para frenos

8708910000 Radiadores

Una declaración de importación consta de dos partes: Cabecera y Series.

En la cabecera se consignan los datos generales de la operación tales

como: Importador, Fecha de Embarque, Agente de Aduanas, Identificación

del transporte, Nro. Total de Bultos, etc. En las series se consignan los

datos relativos al producto o productos materia de la importación tales como:

Partida Arancelaria, peso, precio FOB por partida, cantidad, descripción de

la mercancía, etc. Asimismo cada una de las series se registran los montos

de los tributos a pagar por el derecho de ingresar la mercancía al país. Una

declaración puede tener una o más series.

Las variables que se usaremos se definen en la siguiente tabla.

Tabla 3.2 Definición de Variables en estudio

NOMBRE DEFINICIÓN UNIDADES O CATEGORIAS

INCI Incidencia : Detección de un error o subvaluación por parte del Importador, con el fin de pagar menos o no pagar los impuestos.

‘1’ Incidencia ‘0’ No incidencia

FOB Valor de la mercancía en el puerto de Origen.

Dólares Americanos.

ADV Advalorem. Tributo que aplica el Estado Peruano a las mercancías que ingresan al país, en el caso de los repuestos para vehículos la tasa es del 15% sobre el FOB+Flete+Seguro.

Dólares Americanos

IGV Impuesto General a las ventas, que aplica el Estado Peruano a todas las mercancías que ingresan al país, es una tasa igual para todos los productos del 18% sobre el FOB+flete+Seguro+ADV.

Dólares Americanos

IPM Impuesto de Promoción Municipal, tasa que se aplica a todos los productos que ingresan al país, es una tasa igual para todos los productos del 18% sobre el FOB+flete+Seguro+ADV.

Dólares Americanos

PESO Peso Bruto de las mercancías. Incluye el peso del embalaje.

Kilogramos.

CODPAIS En los datos originales se consigna el País de origen de la mercancía, es una variable categórica que se ha codificado de acuerdo a lo especificado en la columna siguiente.

‘1’ Japón ‘0’ Los demás paises

CODPROD En los datos originales se consigna la Partida Arancelaria Para este estudio se han seleccionado las partidas de repuestos para vehículos, estas se han agrupado y codificado de acuerdo a lo especificado en la columna siguiente.

‘1’ Partes (dispositivos incompletos) y Accesorios ‘2’ Guardafangos, Flancos y Puertas ‘3’ Amoritiguadores ‘4’ Ruedas ‘5’ Ejes ‘6’ Parachoques ‘7’ Transmiciones Cardánicas

‘8’ Radiadores ‘9’ Guarniciones para Frenos ‘10’ Los demás repuestos

AGENRIES En los datos originales se consigna el código del agente que es el encargado de realizar el trámite de Importación en Aduanas. Se han definido niveles de riesgo de incidencia para cada agente de acuerdo al número de multas y faltas cometidas registradas en la información histórica y demás datos de la Gerencia de Fiscalización. De aparecer un nuevo agente se le asignaría un riesgo de 90%.

Del 0 al 100%. Se acercan a cero los agentes con pocas faltas ante Aduanas.

IMPORIES En los datos originales se consigna el RUC del importador o dueño de la mercancía. Se han definido niveles del riesgo para cada importador de acuerdo a los ranking de buen pagador, a la información histórica y demás datos de la Gerencia de Fiscalización. De aparecer un nuevo importador se le asignaría un riesgo de 0.2%.

Del 0 al 100%. Se acercan a cero los malos pagadores.

Entonces definiremos:

Población: Importaciones definitivas de Repuestos para vehículos

diligenciadas entre los años de 1997 y 2001, por la Aduana Marítima del

Callao.

Unidad Estadística: Serie de una declaración de importación, definida

anteriormente.

3.2 PROCEDIMIENTO DE SELECCIÓN DE LA MUESTRA

El Sistema de Gestión Aduanera – SIGAD, el cual permite efectuar el

seguimiento y control de todas las operaciones aduaneras desde su

presentación ante aduanas, en forma diaria.

Para extraer la muestra se usaron los archivos de declaraciones de

importación del SIGAD, correspondientes a la Aduana Marítima, siguiendo

los siguientes pasos:

1ro. Se determinó el número de series con las partidas de los productos

repuestos para vehículos diligenciadas entre 1997 y 2001. Este resultó

218,921 series.

2do. Es obvio que la población tiene un ordenamiento aleatorio, porque se

registran los datos correspondientes de acuerdo al orden de llegada.

3ro. Se solicitó la opinión de un especialista en Fiscalización y Técnica

aduanera quien recomendó tomar una muestra aproximada de 1000 series.

4to. Se sabe que el porcentaje de incidencias para los Repuestos para

Vehículos es del 63.8%, entonces usando la fórmula del muestreo aleatorio,

para un error de estimación de 0.033 se obtiene:

n = N x p x q_ = 218,921 x 0.638 x 0.362 = 845,052 ≈ 845

(N-1) x D + pxq 218,920 x (0.033)2 + .0638 x 0.362

donde p = 0.638

q = 1-p = 0.362

D = B2/4 , B : es el error de estimación => B=0.033

5to. Se calculó el intervalo de selección K=N = 259.078 ≈ 259. n y se obtuvo el arranque aleatorio seleccionando un número aleatorio entre 1

y 259 llamado A , y se tomó la muestra de acuerdo al orden del archivo, en

las posiciones: A ,A+259 ,A+2(259) ,..... ,A+(844)(259).

3.3. ANALISIS DE LOS DATOS

3.3.1 ANALISIS EXPLORATORIO PREVIO

El examen previo de los datos es un paso necesario, que permite obtener un

conocimiento básico de los datos y las relaciones entre las variables. El

conocimiento de las interrelaciones de variables puede ayudar enormemente

a la especificación y refinamiento del modelo, así como proporcionar una

perspectiva razonable para la interpretación de los resultados.

El análisis exploratorio es a menudo menospreciado o ignorado, sin embargo

es una herramienta muy útil que nos permite también ver los problemas de

los datos, tales como: datos ausentes, valores extremos o discordantes.

3.3.1.1 Variables Cuantitativas

Como un primer paso veamos las estadísticas descriptivas.

Tabla 3.3. Estadísticas Descriptivas de las variables continuas

N=845 FOB PESO ADV IGV IPM AGENRIE IMPRIES

Media 225,894 760,000 30,929 46,234 5,779 0,167 0,294

Desviación

Estándar

104,455 2129,430 14,891 22,231 2,779 0,180 0,288

Rango 424,960 1297.98 68,480 104,970 13,120 0,670 0,940

Mínimo 101,090 2,020 0,000 0,000 0,000 0,010 0,010

Máximo 510,000 1300,000 68,480 104,970 13,120 0,680 0,950

140,000 705,120 19,500 29,030 3,630 0,030 0.030

199,460 870,200 27,025 40,635 5,080 0,100 0,120

Percentiles 25

50

75 292,927 990,010 40,400 59,882 7,488 0,250 0,500

Un método que permite entender como se distribuyen los valores en cada

variable, identificar datos discordantes y valores extremos es el gráfico de

Cajas.

Como se puede ver el

Precio FOB de los repuestos

Varía entre 101.9 y 510.0

Dólares. Su mediana es 200

dólares. Presenta una distri-

bución asimétrica, y una dis-

persión media que se explica

por que los precios de algu-

nos repuestos como acceso-

rios puede ser mucho menor

que el de los radiadores o

amortiguadores.

Como se puede apreciar

El Peso Bruto varia entre

2 y 1300 kilos. Su media-

na está en los 800 kilos.

Se trata de una distribu-

ción asimétrica con una

dispersión grande, debido

a que los artículos como

accesorios son pequeños

y de poco peso, mientras

que las ruedas o guarda-

fangos tienen un peso

mayor.

FIGURA Nº 3.1

FIGURA 3.2

Como se puede apreciar el

IPM varía entre 0 y 13.12

dólares y su mediana está

en los 4.8 dólares. Tiene

una distribución asimétrica

No presenta mucha disper-

sión esto se explica porque

el IPM es una tasa del 2%

que se aplica sobre el

FOB+flete+seguro+ADV.

Como se puede apreciar el ADV

Varía entre 0 y 64.48 dólares. Su

Mediana esta en 25 dólares. Es

Una distribución asimétrica con

Dispersión media. Esto se debe

a que los productos del rubro

Tiene una tasa del 12 al 15%

Sobre el FOB+flete+seguro

En estos últimos años.

FIGURA Nº 3.3

FIGURA Nº 3.4

Como se puede ver el IGV varía

entre 0 y 104.97 dólares. Su

Mediana está en 46.23 dólares.

Se trata de una distribución asi-

métrica con una dispersión me-

dia. Esto se explica por que el

IGV es una tasa que se aplica

Al FOB+flete+seguro+ADV del

18%.

Como se puede ver el riesgo por

Importador esta entre 0.1 y 0.98.

Su mediana esta en 0.15. Se

trata de una distribución asimé-

trica, con una dispersión grande.

Esto ocurre debido a que la ma-

yoría de importadores no se con-

sideran buenos pagadores, por

Lo que su Riesgo es bajo, mien –

tras que una cantidad menor

tiene riesgo alto.

FIGURA Nº 3.6

FIGURA Nº 3.5

Como se puede apreciar el riesgo

por Agente varía entre 0,1 y 0.68.

su mediana está en 0.15.

se presentan 2 observaciones

discordantes. Se trata de una

distribución asimétrica. Los datos

discordantes se deben a que

existen agentes con altos porcen-

tajes de riesgo. Dado que el modelo que vamos a construir puede expresarse como una

relación entre el Log del Odds de Incidencias y una combinación lineal de

las variables regresoras, Garret (1994) recomienda plotear el Log Odds de

Incidencia versus cada una de las variables regresoras cuantitativa de la

siguiente forma.

Variable por variable:

1ro. Separar la variable cuantitativa en rangos de tamaños iguales.

2do. Por cada rango calcular el número de incidencias y la cantidad de datos

que contiene el rango.

3ro. Por cada rango calcular la probabilidad de ocurrencia de una incidencia

llamada p como el número de incidencias ocurridas en el rango entre el

número de datos que contiene el rango. Asimismo calcular el Logaritmo

natural de p/(1-p), y la media por cada rango.

4to. Graficar los valores de la media en el eje X versus los valores

de LOG(p/1-p))

5to. Observar si existe relación lineal o no.

FIGURA 3.7

Se puede apreciar que existe

una relación lineal entre el log

odds y el peso, sobre todo

para pesos mayores a 100

kilos. Eso podría interpretarse

como que ha mayor peso más

probabilidad de incidencia.

Se puede apreciar que existe

una relación lineal inversa entre

el Log del Odds y el precio FOB

Esto podría interpretarse como

que para precios FOB menores

a 200 dólares existe mayor pro-

babilidad de incidencia.

Se puede apreciar que no existe

relación lineal entre el Log de Odds

y el ADV. Sin embargo intrínseca-

mente el monto ADV si está relacio-

nado con la ocurrencia de inciden –

cias

Log Odds de Incidencia por Rangos de Peso

0,00000

0,05000

0,10000

0,15000

0,20000

0,25000

0,30000

0,35000

0,40000

0,00 50,00 100,00 150,00 200,00 250,00

Rangos de Peso

Log

Odd

s

Log Odds de Incidencia por Rangos de Precio FOB

0,30000

0,32000

0,34000

0,36000

0,38000

0,40000

0,42000

0,44000

0,46000

100,00 150,00 200,00 250,00

Rangos de Precio FOB

Log

Odd

s

FIGURA Nº 3.8

FIGURA 3.9

Log Odds de Incidencias por Rangos de Advalorem - ADV

0,00000

0,50000

1,00000

1,50000

2,00000

2,50000

3,00000

0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00

Rangos de ADV

Log

Odd

s

FIGURA Nº 3.10

En cuanto al IGV e IPM, sucede igual que con el ADV, no existe una relación

lineal con el Log Odd de Incidencia.

Se aprecia que si existe una relación

lineal entre el riesgo por agente y el

Log de Odds de incidencia.

A mayor riesgo mayor probabilidad

de incidencia.

Se puede apreciar que si existe

Una relación lineal inversa entre

el riesgo por importador y el Log

del odds de incidencia. A me-

nor valor de riesgo mayor proba-

babilidad de incidencia.

Log Odds de Incidencia por Rangos de IGV

0 , 0 0 0 0 0

0 , 5 0 0 0 0

1 , 0 0 0 0 0

1 , 5 0 0 0 0

2 , 0 0 0 0 0

2 , 5 0 0 0 0

0 , 0 0 1 0 , 0 0 2 0 , 0 0 3 0 , 0 0 4 0 , 0 0 5 0 , 0 0

Rangos de IGV

Log

Odds

Log Odds de Incidencia por Rangos de IPM

0 , 0 0 0 0 0

0 , 2 0 0 0 0

0 , 4 0 0 0 0

0 , 6 0 0 0 0

0 , 8 0 0 0 0

1 , 0 0 0 0 0

1 , 2 0 0 0 0

1 , 4 0 0 0 0

1 , 6 0 0 0 0

1 , 8 0 0 0 0

0 , 0 0 1 , 0 0 2 , 0 0 3 , 0 0 4 , 0 0 5 , 0 0 6 , 0 0

Rangos de IPM

Log

Odds

FIGURA Nº 3.11 FIGURA Nº 3.12

Log Odds de Incidencia por Rangode Riesgo por Importador

0 , 0 0 0 0 0

0 , 2 0 0 0 0

0 , 4 0 0 0 0

0 , 6 0 0 0 0

0 , 8 0 0 0 0

1 , 0 0 0 0 0

1 , 2 0 0 0 0

1 , 4 0 0 0 0

1 , 6 0 0 0 0

1 , 8 0 0 0 0

2 , 0 0 0 0 0

0 , 0 0 0 0 0 0 , 0 5 0 0 0 0 , 1 0 0 0 0 0 , 1 5 0 0 0 0 , 2 0 0 0 0 0 , 2 5 0 0 0 0 , 3 0 0 0 0 0 , 3 5 0 0 0

Rango de Riesgo porImportador

LogOdds

FIGURA 3.13

Log Odds de Incidencia por Rangos de Riesgo por Agente

0,00000

0,05000

0,10000

0,15000

0,20000

0,25000

0,30000

0,35000

0,00000 0,05000 0,10000 0,15000 0,20000

Rangos de Riesgo por Agente

Log

Odd

s

FIGURA Nº 3.14

Una herramienta para definir cual es la interrelación existente entre las

variables es el análisis de la matriz de correlaciones.

Tabla 3.4 Correlaciones Pearson para variables contínuas

PESO FOB ADV IGV IPM AGENRIES IMPRIES

PESO 1,000 0,153 0,403 0,442 0,442 -0,106 -0,109

FOB 0,153 1,000 0,837 0,841 0,841 -0,003 -0,041

ADV 0,403 0,837 1,000 0,985 0,985 -0,038 -0,037

IGV 0,442 0,841 0,985 1,000 1,000 -0,038 -0,034

IPM 0,442 0,841 0,985 1,000 1,000 -0,038 -0,034

AGENRIES -0,106 -0,003 -0,038 -0,038 -0,038 1,000 0,468

IMPRIES -0,109 -0,041 -0,037 -0,034 -0,034 0,468 1,000

Que se puede graficar como sigue:

Como se puede apreciar existe correlación lineal entre las variables ADV e

IPM, IPM e IGV, y entre ADV e IGV; debido a ello seria necesario retirar dos

de ellas del modelo. Si analizamos los valores de la matriz de correlaciones

veremos que la correlación entre el ADV y el FOB es de 0.837, mientras que

la correlación del IGV con el FOB es de 0.841, las correlaciones del ISC

PESO

FOB

ADV

IGV

IPM

AGENRIES

IMPRIES

Matriz de Correlaciones

FIGURA 3.15

versus las demás variables son idénticas a las del IPM versus las demás

variables. Se puede ver que todas las correlaciones del ADV versus PESO,

AGENRIES, IMPRIES son menores que las del IPM e ISC versus las

mismas. Por lo tanto seleccionaríamos la variable ADV para permanecer en

el modelo.

Asimismo se puede apreciar que existe alta correlación entre el ADV y el

Precio FOB, lo cual es explicable debido a que el ADV es una tasa del 12 o

15 por ciento que se calcula tomando el FOB+flete+seguro como base.

Las demás correlaciones son inferiores a 0.5 y el gráfico no permite

establecer una correlación lineal.

3.3.1.2 VARIABLES CATEGORICAS

Tabla 3.5 Frecuencias cruzadas INCI (Incidencia) versus CODPAIS ( País de Origen )

PAIS

INCIDENCIA Japón Otros Total

No 77 274 351

Si 154 340 494

Total 231 614 845

Se puede apreciar que más de un tercio ( 154 ) del total de incidencias (

494 ) se dan en los productos con país de origen Japón. Asimismo más

de un tercio ( 231 ) de todos los repuestos ( 614 ) provienen del Japón.

FIGURA Nº 3.16

Gráfico de Barras Agrupadas

País Origen versus Incidencia

PAIS

JAPONOTROS

Can

tidad

de

póliz

as

400

300

200

100

0

INCI

No Incidencia

Incidencia

Tabla 3.6 Frecuencias cruzadas

INCI (Incidencia) versus CODPROD (Producto)

PRODUCTO

INCIDENCIA Partes y Acceso-rios

Los demás

Guarda-fango, Flancos y Puertas

Amortiguadores

Ruedas Ejes Parachoques

Trans-micio-nes

Radiado- res

Guarni-ciones para frenos

Total

No 40 146 29 21 24 14 25 30 8 14 351Si 76 219 49 29 23 31 21 6 27 13 494

Total 116 365 78 50 47 45 46 36 35 27 845

Se puede apreciar que el grupo Los demás repuestos es el que presenta

mayor número de incidencias (146 ), seguido por las Partes y Accesorios (

40 ). También se aprecia que para esta muestra el número de incidencias

son mayores que el número de no incidencias para 7 de los 10 tipos de

productos de interés.

FIGURA Nº17

Gráfico de Barras Agrupadas

Producto versus Incidencia

PRODUCTO

Guarniciones

Radiadores

Transmiciones

Parachoques

EjesRuedas

Amortiguadores

Guardafangos

Los demás

Part. y Acc.

Can

tidad

de

póliz

as

300

200

100

0

INCI

No incidencia

Incidencia

3.3.2 ANALISIS DE REGRESION LOGISTICA

Los cálculos y gráficos referidos se realizado a través del paquete SPSS for

Windows versión 9.0

3.3.2.1. Ajuste inicial del modelo de Regresión Logística a las variables

en estudio

Con el fin de estimar los valores de los coeficientes β0 se ha ajustado un

modelo de regresión logística binaria teniendo:

INCI como la variable dependiente y PESO, FOB, AGENRIES, IMPRIES,

CODPAIS, CODPROD como las variables independientes.

Las variables ADV, IGV e IPM se retiran del modelo por que no presentan

una relación lineal con el Odds de incidencia y por que están

correlacionadas entre sí y el además el ADV esta correlacionado con el

Precio FOB.

Con nuestra muestra de tamaño 845, los resultados que entrega el SPSS (

ver anexo 2.1 ) son:

VARIABLES EN EL MODELO -2 Log Likelihood

Solo la constante 1147.1019

Todas las variables 699.0360

Se observa que -2 veces el Log de la máxima verosimilitud ha disminuido de

1147.1019 de la constante a 699.0360 incluyendo todas las variables en el

modelo lo cual significa que la verosimilitud ha aumentado.

Y se tiene el estadístico chi-cuadrado de valor 448.066, 14 grados de

libertad y significancia =0.000. Estos resultados sirven para verificar las siguientes hipótesis:

H0 : Todos los coeficientes son iguales a cero.

H1 : Por lo menos un coeficiente es diferente de cero

Lo que quiere decir que se puede rechazar la hipótesis nula de que los

coeficientes del modelo son iguales a cero.

También nos muestra la siguiente:

Tabla 3.5 Clasificación para INCI - Modelo 1

Predecidos Porcentaje Correcto

Observados 0 1

0 248 103 70.66

1 42 452 91.50

Porcentaje Correcto Global 82.84%

La tabla de clasificación nos muestra que con este modelo los porcentajes

de valores clasificados en su mismo grupo son de 70.66% para las no

incidencias y de 91.50% para las incidencias. Lo cual hace un ajuste global

del 82.84%. Esto nos indica que este es un buen ajuste.

Tabla 3.6 Variables en el modelo – Modelo 1 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0026 ,0004 45,9613 1 ,0000 ,1958 1,0026 FOB -,0027 ,0010 7,9552 1 ,0048 -,0721 ,9973 AGENRIES 7,0843 ,6959 103,6246 1 ,0000 ,2976 1193,0721 IMPRIES -7,3080 ,5449 179,8744 1 ,0000 -,3938 ,0007 CODPAIS(1) 2,0389 ,2841 51,4901 1 ,0000 ,2077 7,6822 CODPROD 25,8105 9 ,0022 ,0825 CODPROD(1) 2,4672 ,5941 17,2476 1 ,0000 ,1153 11,7897 CODPROD(2) 1,9337 ,6924 7,7988 1 ,0052 ,0711 6,9152 CODPROD(3) 2,6193 ,6336 17,0916 1 ,0000 ,1147 13,7267 CODPROD(4) 2,1035 ,7500 7,8670 1 ,0050 ,0715 8,1947 CODPROD(5) 2,3911 ,6526 13,4233 1 ,0002 ,0998 10,9253 CODPROD(6) 1,7681 ,6789 6,7826 1 ,0092 ,0646 5,8598 CODPROD(7) 2,8898 ,7569 14,5772 1 ,0001 ,1047 17,9897 CODPROD(8) 1,7561 ,6889 6,4983 1 ,0108 ,0626 5,7896 CODPROD(9) 2,7108 ,7293 13,8170 1 ,0002 ,1015 15,0410 Constant -1,4222 ,6324 5,0579 1 ,0245

Estos datos nos permiten verificar las siguientes hipótesis :

Ho: βj = 0 Para todo j = 1,..., k

H1: βj ≠ 0 Para algún j ∈ {1,2,...,k}

Verificando la hipótesis nula de que los coeficientes B del modelo son

iguales a cero, con un α=0.05 por ciento, si observamos la estadística de

Wald y la columna Sig de la tabla 3.6 podemos ver que es posible rechazar

dicha hipótesis para los coeficientes del PESO, AGENRIES, IMPRIES,

CODPROD, CODPAIS y FOB.

3.3.2.2 Análisis de residuos

A través del análisis de residuos en regresión logística podemos detectar los

datos discordantes “outliers”, y si existen datos que influyan

significativamente en la estimación de los coeficientes.

Este análisis se realiza con el fin de mejorar el modelo ajustado, eliminando

los datos discordantes y los datos influyentes.

Para detectar los datos discordantes usaremos el gráfico de los residuos

estandarizados para cada uno de los datos

Se puede ver en los extremos verticales superior e inferior que existen datos

discordantes, estos son los que están un poco más alejados de la recta 0

que los demás.

Además el SPSS nos entrega una lista de datos con residuales

standarizados son mayores a 2.00, que consta de 22 casos cuyo detalle se

FIGURA Nº3.18

Residuos Estandarizados por Observación

Observacion

10008006004002000-200

Res

iduo

s E

stan

dariz

ados

10

0

-10

-20

puede ver en el anexo 2.1. Así pues retiraremos del archivo de datos los 22

casos que indica el SPSS. Y nuevamente procesaremos el modelo de

regresión logística.

Sin retirar los 22 casos arriba mencionados, y para detectar datos con

influencia sobre la estimación de parámetros usaremos los gráficos de

valores Leverage y las distancias de Cook.

Este gráfico para nuestra muestra nos muestra los valores de Leverage para

nuestro modelo se encuentran muy dispersos y no es posible determinar

claramente cuales son atípicos, es por este motivo que no se han usado

estos resultados para nuestro estudio,

En cambio la figura 3.20 nos muestra las distancias de Cook por

Observación, allí si puede observar que la mayoría de datos se encuentran

formando un grupo cohesionado entre valores de distancias de Cook

menores a 0.2, y que existen algunos datos cuyo valor es superior a dicha

cifra que se encuentran separados del grupo.

FIGURA Nº 3.19

Leverage versus Valor Predictado

Valor Predictado

1,21,0,8,6,4,20,0-,2

Leve

rage

,10

,08

,06

,04

,02

0,00

-,02

Dado que la distancia de Cook , se refiere a la distancia de los valores de

predicción entre el estimado con todas las observaciones menos el estimado

sin la observación i-ésima. Diremos que los datos tienen una influencia si la

distancia de Cook es grande. Del mismo modo se evalúa el Leverage pues

esta medida representa la distancia desde xj a la media de datos.

3.3.2.3 Ajuste de regresión logística retirando datos con residuales

altos








modelo lo cual significa que la máxima verosimilitud ha aumentado, inclusive

más que en el modelo inicial era 699.2360.

Distancias de Cook por Observación

Observación

10008006004002000-200

Dis

tanc

ias

de C

ook

,5

,4

,3

,2

,1

0,0

-,1

FIGURA Nº 3.20


libertad y significancia =0.000.


coeficientes del modelo son iguales a cero, pero con más fuerza que en el

modelo inicial.




Observados 0 1

0 264 76 77.65

1 37 446 92.34

Porcentaje Correcto Global 86,27%




del 86.27%. Como se ve estos porcentajes de clasificación correcta son

mayores que los del modelo inicial para el caso de las incidencias, pero

menores para el caso de las no incidencias.

Tabla 3.8 Variables en el modelo – Modelo 2 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0042 ,0006 57,7792 1 ,0000 ,2236 1,0042 FOB -,0039 ,0011 12,3867 1 ,0004 -,0965 ,9961 AGENRIES 11,2853 1,0029 126,6252 1 ,0000 ,3342 79638,533 IMPRIES -10,9452 ,8909 150,9274 1 ,0000 -,3653 ,0000 CODPAIS(1) 2,9782 ,3977 56,0694 1 ,0000 ,2201 19,6524 CODPROD 36,8491 9 ,0000 ,1300 CODPROD(1) 2,6703 ,7784 11,7683 1 ,0006 ,0936 14,4450 CODPROD(2) 3,9726 ,7511 27,9739 1 ,0000 ,1526 53,1215 CODPROD(3) 3,4807 ,6943 25,1353 1 ,0000 ,1440 32,4826 CODPROD(4) 2,7555 ,8050 11,7164 1 ,0006 ,0933 15,7296 CODPROD(5) 3,5574 ,7602 21,8954 1 ,0000 ,1335 35,0710 CODPROD(6) 3,4342 ,8638 15,8072 1 ,0001 ,1112 31,0062 CODPROD(7) 4,1430 ,8676 22,8012 1 ,0000 ,1365 62,9895 CODPROD(8) 3,9538 ,8699 20,6568 1 ,0000 ,1293 52,1331 CODPROD(9) 2,8759 ,7874 13,3416 1 ,0003 ,1008 17,7421 Constant -2,4379 ,7398 10,8590 1 ,0010




dicha hipótesis para los coeficientes de todas las variables en el estudio.

3.3.2.4 Ajuste de regresión logística retirando datos con Distancia de

Cook atípicos

Se eliminaron 8 datos, que de acuerdo a la figura Nº











libertad y significancia =0.000 .



modelo inicial.

También nos m uestra la siguiente:



Observados 0 1

0 256 90 73.99

1 43 448 91.24

Porcentaje Correcto Global 84,11%





mayores que los del modelo inicial para el caso de las no incidencias, pero

ligeramente menores para el caso de las incidencias.

Tabla 3.10 Variables en el modelo – Modelo 3 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0034 ,0005 52,3593 1 ,0000 ,2106 1,0034 FOB -,0031 ,0010 9,2364 1 ,0024 -,0798 ,9970 AGENRIES 7,8313 ,7491 109,2926 1 ,0000 ,3074 2518,1716 IMPRIES -7,8692 ,5991 172,5548 1 ,0000 -,3876 ,0004 CODPAIS(1) 2,1452 ,3006 50,9456 1 ,0000 ,2077 8,5439 CODPROD 29,1913 9 ,0006 ,0993 CODPROD(1) 2,1230 ,7572 7,8605 1 ,0051 ,0719 8,3560 CODPROD(2) 3,1193 ,7160 18,9788 1 ,0000 ,1223 22,6313 CODPROD(3) 2,9609 ,6782 19,0590 1 ,0000 ,1226 19,3150 CODPROD(4) 2,0324 ,7659 7,0412 1 ,0080 ,0666 7,6325 CODPROD(5) 2,8620 ,7325 15,2654 1 ,0001 ,1081 17,4967 CODPROD(6) 2,8384 ,8303 11,6865 1 ,0006 ,0924 17,0876 CODPROD(7) 3,2212 ,8118 15,7461 1 ,0001 ,1100 25,0579 CODPROD(8) 3,2687 ,8310 15,4700 1 ,0001 ,1089 26,2761 CODPROD(9) 2,4112 ,7685 9,8433 1 ,0017 ,0831 11,1470 Constant -1,9264 ,7159 7,2408 1 ,0071



Wald y la columna Sig de la tabla 3.8 podemos ver que no es posible

rechazar dicha hipótesis para los coeficientes de las variables

CODPROD(1),CODPROD(4), ni de la constante en el estudio. Por lo tanto

seguiremos intentando hasta conseguir un modelo con todos los coeficientes

significativos.

3.3.2.5 Ajuste de regresión logística retirando todas las variables

dummy de productos, excepto la variable de las

Transmiciones Cardánicas






Se observa que -2 veces el Log de la máxima verosimilitud a disminuido de





libertad y significancia =0.000.



modelo inicial.




Observados 0 1

0 247 99 71.39

1 47 444 90.43

Porcentaje Correcto Global 82.56%





menores que los del modelo inicial.

Tabla 3.12 Variables en el modelo – Modelo 4 ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0033 ,0004 57,9905 1 ,0000 ,2197 1,0033 FOB -,0041 ,0009 21,1646 1 ,0000 -,1285 ,9959 AGENRIES 7,3230 ,7076 107,1006 1 ,0000 ,3010 1514,6732 IMPRIES -7,5808 ,5601 183,1865 1 ,0000 -,3952 ,0005 CODPAIS(1) 2,0307 ,2865 50,2290 1 ,0000 ,2039 7,6191 PROD7(1) 1,2035 ,2471 23,7197 1 ,0000 ,1368 3,3319




dicha hipótesis para todos los coeficientes de las variables del modelo.

Tabla 3.13 Comparación de Estadísticas de todos los modelos. Modelo

N

-2 Log Likelihodd

Chi_cuadra-do Global

Porcentaje de Incidencias correctamente clasificadas

Porcentaje de No Inciden- cias correcta clasificadas

Parámetros significativos en el modelo

1 845 699.036 448.066 91.50% 70.66% 15/15 2 823 541.211 574.736 92.34% 77.65% 15/15

3 837 653.415 481.666 91.24% 73.99% 12/15

4 837 673.370 486.958 90.43% 71.39% 6/6

Después de todo el análisis notamos que el modelo 2 tiene una tabla de

clasificación con un porcentaje global de datos correctamente clasificados

mayor que el modelo 1, verosimilitud más alta que el modelo 1, y también se

rechaza la hipótesis de que los coeficientes sean iguales a cero. Por lo tanto

el modelo 2 es mejor que el modelo 1.

Asimismo el modelo 4 no tiene una tabla de clasificación mejor que la del

modelo 1 ni el modelo 2, y solamente la prueba Chi-cuadrado global

( 486.958 ), y el porcentaje de no incidencias correctamente clasificadas (

71% ) son mejores que las del modelo 1, más no son mejores que las del

modelo 2.

El modelo 3 es descartado debido a que existen varios parámetros no

significativos.

Por lo tanto dado la finalidad del estudio y los resultados antes mencionados

seleccionamos el modelo 2 como el modelo más adecuado para este

estudio.

3.3.2.6 Interpretación de los coeficientes del modelo.

ββ0 = -2.4379 es la constante del modelo y significa que cuando todas las

variables regresoras tengan un valor 0 la razón de probabilidades de

incidencia y no incidencia tomará este valor. Para nuestro modelo este

término no tiene sentido pues no es posible una importación con valores

cero en todas nuestras variables.

ββ1 = 0,0042 es el coeficiente del peso bruto y significa el cambio en unidades

de la razón de probabilidades de incidencia y no incidencia, cuando todas

variables regresoras excepto el peso, permanezcan invariantes. Como es

un coeficiente positivo quiere decir que su transformación (antilog) será un

valor mayor que 1 por lo tanto el odds aumentará, por lo tanto la probabilidad

de ocurrencia es más alta que la de no ocurrencia. Por lo tanto con este

modelo a valores altos del peso bruto la probabilidad de incidencia

aumentará.

ββ2 = - 0.0039 es el coeficiente del precio FOB y significa el cambio en

unidades de la razón de probabilidades de incidencia y no incidencia,

cuando todas variables regresoras excepto el precio FOB, permanezcan

invariantes. Como es un coeficiente negativo quiere decir que su

transformación (antilog) será un valor menor que 1 por lo tanto el odds

disminuirá, por lo tanto la probabilidad de no ocurrencia es más alta que la

de ocurrencia. Por lo tanto con este modelo a valores altos del precio FOB

la probabilidad de incidencia disminuirá.

ββ3 = 11.2853 es el coeficiente del Riesgo por Agente y significa el cambio en


cuando todas variables regresoras excepto el Riesgo por Agente,

permanezcan invariantes. Como es un coeficiente positivo quiere decir que

su transformación (antilog) será un valor mayor que 1 por lo tanto el odds

aumentará, por lo tanto la probabilidad de ocurrencia es más alta que la de

no ocurrencia. Por lo tanto con este modelo a valores altos del Riesgo por

Agente la probabilidad de incidencia aumentará.

ββ4 = -10.9452 es el coeficiente del Riesgo por Importador y significa el

cambio en unidades de la razón de probabilidades de incidencia y no

incidencia, cuando todas variables regresoras excepto el Riesgo por

importador, permanezcan invariantes. Como es un coeficiente negativo

quiere decir que su transformación (antilog) será un valor menor que 1 por lo

tanto el odds disminuirá, por lo tanto la probabilidad de ocurrencia es más

baja que la de no ocurrencia. Por lo tanto con este modelo a valores altos

del Riesgo por Importador la probabilidad de incidencia disminuirá.

ββ5 = 2.6703 es el coeficiente de la variable dummy para el codprod(1) que

corresponde de acuerdo a la codificación realizada por el SPSS al tipo de

producto ‘4’ es decir a Ruedas y significa el cambio en unidades de la razón

de probabilidades de incidencia y no incidencia, cuando todas variables

regresoras excepto la variable dummy para el tipo de producto Ruedas

permanezcan invariantes. Como las variables dummy son variables

categóricas que solo toman los valores 0 y 1, la contribución al Odds del

coeficiente será de 1 si la dummy toma el valor 0 y de e 2.6703 = 14.4450.



producto ‘1’ es decir a las Partes y Accesorios y significa el cambio en


cuando todas variables regresoras excepto la variable dummy para el tipo de

producto Partes y Accesorios, permanezcan invariantes. Como las variables

dummy son variables categóricas que solo toman los valores 0 y 1, la

contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0 y

de e 3.9726 = 53.1215.



producto ‘10’ es decir a los Demás Productos y significa el cambio en


cuando todas variables regresoras excepto la variable dummy para los

Demás Productos, permanezcan invariantes. Como las variables dummy son

variables categóricas que solo toman los valores 0 y 1, la contribución al

Odds del coeficiente será de 1 si la dummy toma el valor 0 y de e 3.4807 =

32.4826.



producto ‘3’ es decir a Amortiguadores y significa el cambio en unidades de

la razón de probabilidades de incidencia y no incidencia, cuando todas

variables regresoras excepto la variable dummy para el tipo de producto

Amortiguadores permanezcan invariantes. Como las variables dummy son



15.7296.



producto ‘2’ es decir a Guardafangos, Flancos y Puertas y significa el


incidencia, cuando todas variables regresoras excepto la variable dummy

para el tipo de producto Guardafangos, Flancos y Puertas permanezcan

invariantes.

Como las variables dummy son variables categóricas que solo toman los

valores 0 y 1, la contribución al Odds del coeficiente será de 1 si la dummy

toma el valor 0 y de e 3.5574 = 35.0710.



producto ‘9’ es decir a las Guarniciones para Frenos y significa el cambio en


cuando todas variables regresoras excepto la variable dummy para el tipo de

producto Guarniciones para Frenos permanezcan invariantes. Como las

variables dummy son variables categóricas que solo toman los valores 0 y 1,

la contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0

y de e 3.4342 = 31.0062.


corresponde de acuerdo a la codificación realizada por el SPSS al tipo ‘5’ es

decir a Ejes y significa el cambio de unidades en la razón de probabilidades

de incidencia y no incidencia, cuando todas las demás variables regresoras

excepto la variable dummy para el tipo de producto Ejes permanezcan

invariantes. Como las variables dummy son variables categóricas que solo

toman los valores 0 y 1, la contribución al Odds del coeficiente será de 1 si la

dummy toma el valor 0 y de e 4.1430 = 62.9895.



producto ‘8’ es decir a Radiadores y significa el cambio en unidades de la

razón de probabilidades de incidencia y no incidencia, cuando todas


Radiadores permanezcan invariantes. Como las variables dummy son



52.1331.



producto ‘6’ es decir a los Parachoques y significa el cambio en unidades de

la razón de probabilidades de incidencia y no incidencia, cuando todas


Parachoques, permanezcan invariantes. Como las variables dummy son



17.7421.

ββ14 = 2.9782 es el coeficiente de la variable dummy para el codpais(1) que

corresponde de acuerdo a la codificación realizada por el SPSS a la variable

código de país que significa si el país de Origen es Japón o no y significa el


incidencia, cuando todas variables regresoras excepto la variable dummy

para país de origen Japón si o no permanezcan invariantes. Como las

variables dummy son variables categóricas que solo toman los valores 0 y 1,

la contribución al Odds del coeficiente será de 1 si la dummy toma el valor 0

y de e 2.9782 = 19.6524.

3.4 CONCLUSIONES 1. Si es posible determinar la probabilidad de incidencia de un producto

como Repuestos para Vehículos en base a características de la

operación de Importación como Peso Bruto, Precio FOB, Tipo de

Repuesto, Riesgo ó Calificación de Importador, Riesgo por Agente y

País de origen del producto, con un porcentaje de clasificación correcta

de 70.66% para las no incidencias y un porcentaje de clasificación

correcta de 91.50& para las incidencias, lo que produce un porcentaje

correcto global de 82.84%.

2. Las variables que son más relevantes en el modelo formulado tanto por

el valor con el que contribuyen al Odds como por el grado de significación

(estadística de Wald) son: El Riesgo por Agente, que contribuye en forma

positiva aumentando el valor de la probabilidad de ocurrencia de una

incidencia, y el Riesgo por Importador, que contribuye en forma negativa

disminuyendo el valor de la probabilidad de ocurrencia de una incidencia;

debido a sus altos coeficientes de 7.0843 para el riesgo por Agente y –

7.3080 para el riesgo por Importador.

3. También se puede observar que el producto que más contribuye a la

predicción de una incidencia de una incidencia es: Radiadores debido a

que su coeficiente en el modelo 2.8898 es el más alto de todos los

productos y el país de origen que más contribuye a la predicción de una

incidencia es Japón.

3.5 RECOMENDACIONES

1. Es importante incorporar los resultados de este análisis en la fiscalización

concurrente (es decir en la que ocurre durante el despacho) a fin de

mejorar los niveles de hallazgo de incidencias y por lo tanto los niveles de

recaudación.

2. Es importante buscar el apoyo de la Alta Dirección para implementar en

el sistema de validación de ingreso del módulo de Importaciones la

fórmula del modelo logístico y usando el 0.5 como punto de corte poder

determinar de antemano las posibles incidencias, de modo tal que el

módulo registre tales como escogidas para el aforo físico obligatorio.

3. Es necesario buscar modelos como el del presente estudio para otros

tipos de producto y/o otras aduanas. Debe generarse un modelo diferente

por cada aduana y tipo de producto puesto que de ese modo se garantiza

la precisión de la estimación.

4. Es muy importante que en Aduanas se actualize en forma permanente

estos porcentajes de Riesgo, se podría crear un procedimiento

almacenado en la Base de Datos que diariamente realice el cálculo estos

porcentajes.

5. Es importante que los Radiadores ingresen a las listas de productos a ser

escogidos para el aforo físico obligatorio.

6. Se recomienda incorporar en el modelo una variable que resuma el costo

tributario de la importación, dado que esto es una variable importante

para ADUANAS. Esta podría ser un índice basado en el Advalorem y el

Impuesto General a las ventas por tipo de producto.

7. Se recomienda que se enriquezca la información referida a los productos

importados con el fin de detectar las incidencias, capturando variables

como:

• Condición del producto: Nuevo o usado

Marca del repuesto: Codificado por marcas de repuestos para vehículos

del mercado internacional.

• Modelo del repuesto: Codificado según marca y modelo de repuesto.

• Material del repuesto: Plata, Hierro, Plástico, etc.

• País de fabricación del repuesto: Codificado según paises.

• Marca del vehículo para el cual se ha diseñado: Codificado por

marcas de vehículos del mercado internacional.

• Tipo de repuesto: Originales o Compatibles.

8. Toda esta información debe ser codificada, usando la información de los

proveedores a nivel mundial, asimismo debería contarse con una

actualización mínimamente mensual de la base de datos de códigos. Se

debe realizar convenios con organismos de comercio internacional como

la Organización Mundial del Comercio – OMC a fin de que se facilite esta

información a Aduanas. Asimismo con las empresas repuesteras

nacionales a fin de que provean de información sobre cual es la demanda

de repuestos importados en el país.

Es necesario controlar el volumen de ingreso de repuestos para vehículos

al país, no solo con fines de recaudación sino también debido a que su

importación masiva perjudica a la industria repuestera nacional.

Actualmente a nivel Sudaméricano existe la tendencia a gravar con

impuestos altos la importación de estos productos, lo cual permite frenar

su ingreso. Sin embargo esto también encarece su comercialización,

haciendo poco accesible al público los repuestos de marcas acreditadas.

Es pues necesario encontrar un punto de equilibrio entre el control y la

satisfacción de los usuarios de repuestos para vehículos.

ANEXOS 1. GLOSARIO DE TÉRMINOS

Importación Definitiva.- Es el régimen aduanero que permite el ingreso

legal de mercancías provenientes del exterior, para ser destinadas al

consumo. Las mercancías extranjeras se considerarán nacionalizadas

cuando quedan expeditas para su levante, momento en que culmina el

despacho de importación. Las mercancías extranjeras importadas en zonas

de tratamiento aduanero especial se considerarán nacionalizadas sólo

respecto a dichos territorios. Para que dichas mercancías se consideren

nacionalizadas en el territorio aduanero deberán someterse a la legislación

general vigente en el país, sirviéndoles como pago a cuenta los tributos que

hayan gravado su importación.

Aforo.- Operación única en que el servicio a través del funcionario

designado, verifica y determina al examinar la declaración y/o la mercancía,

que su clasificación arancelaria, su valuación, la fijación de la cuota de los

derechos arancelarios e impuestos y la aplicación de las leyes

correspondientes hayan sido correctamente propuestas por el declarante.

Contrabando.- Es ingresar mercancía extranjera al país sin cumplir con las

obligaciones aduaneras como el pago de derechos.

Declaración de Mercancías.- Acto efectuado en la forma prescrita por la

Aduana, mediante el cual el interesado indica el régimen aduanero que ha

de asignarse a las mercancías y comunica los elementos necesarios para la

aplicación de dicho régimen.

Declaración Unica de Aduanas.- Documento mediante el cual se solicitará

la destinación aduanera ante la aduana bajo cuya jurisdicción se encuentran

las mercancías, dentro del plazo de treinta (30) días computados a partir del

día siguiente al término de la descarga, que será presentada por los

Despachadores de Aduana y demás personas legalmente autorizadas.

Transcurrido este plazo la mercancía sólo podrá ser sometida al régimen de

importación definitiva. Sólo se aceptará a trámite la Declaración de Aduanas

de mercancías que han ingresado al territorio nacional. La Declaración

aceptada por ADUANAS es definitiva y servirá de base para determinar la

obligación tributaria aduanera, salvo las enmiendas que puedan realizarse

de constatarse errores no señalados como infracción aduanera.

Despachadores de Aduana.- Son los siguientes:

a) Los dueños o consignatarios de cualquier mercancía;

b) Los Despachadores Oficiales; y,

c) Los Agentes de Aduana.

Despacho.- Cumplimiento de las formalidades aduaneras necesarias para

importar y exportar las mercancías o someterlas a otros regímenes,

operaciones o destinos aduaneros.

Derechos de Aduana o Arancelarios.- Impuestos establecidos en el

Arancel de Aduanas a las mercancías que entren al territorio aduanero.

Flete..- Costo por el transporte de la mercancía desde el país de adquisición

hasta la jurisdicción de la aduana peruana.

FOB.- Precio de la mercancía en el país de adquisición, no incluye flete ni

seguro.

Incidencia.- Detectar una infracción u omisión en la declaración unica.

Pueden ser motivos de incidencia:

a) No cumplir con los plazos establecidos por la autoridad aduanera para

efectuar el reembarque o el transbordo de las mercancías o de las

provisiones de a bordo a que se refiere la presente ley.

b) Calculo incorrecto de la liquidación de los tributos.

c) Asignar una partida arancelaria incorrecta a la mercancía declarada.

d) Subvaluar el precio FOB de la mercancía. Acogerse a un beneficio

tributario que no corresponde.

Mercancías.- Bienes que pueden ser objeto de regímenes, operaciones y

destinos aduaneros.

Operadores de Comercio Exterior.- Despachadores de Aduana,

conductores de recintos aduaneros autorizados, transportistas,

concesionarios del servicio postal, dueños, consignatarios, y en general

cualquier persona natural y/o jurídica interviniente o beneficiaria, por sí o por

otro, en operaciones o regímenes aduaneros previstos en la Ley, sin

excepción alguna.

Reconocimiento Físico.- Operación que consiste en verificar lo declarado,

mediante una o varias de las siguientes actuaciones: reconocer las

mercancías, verificar su naturaleza y valor, establecer su peso o medida.

Regímenes Aduaneros.- El tráfico de mercancías por las Aduanas de la

República será objeto de los regímenes, operaciones y destinos aduaneros

especiales o de excepción señalados en este Título. Las mercancías sujetas

a Convenios y Tratados Internacionales se rigen por lo dispuesto en ellos. A

saber: Importación, Exportación, Tránsito, Transbordo, Depósito,

Importación Temporal para Reexportación en el mismo estado,Exportación

Temporal, Admisión Temporal para Perfeccionamiento Activo, Drawback,

Reposición de mercancías en Franquicia.

Seguro.- Es aquel que paga el importador para proteger de algún desastre

su mercancía, durante el viaje desde el país de adquisición a la jurisdicción

de la aduana peruana.

SIGAD.- Sistema de Gestión Aduanera, Sistema informático Automatizado

para el seguimiento y control de las operaciones aduaneras.

2. SALIDAS DEL SPSS

2.1 Modelo de Regresión Logística todas las variables. Tamaño de muestra 845. Total number of cases: 845 (Unweighted) Number of selected cases: 845 Number of unselected cases: 0 Number of selected cases: 845 Number rejected because of missing data: 0 Number of cases included in the analysis: 845 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 10 365 1,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 1,000 ,000 ,000 ,000 ,000 ,000 1 116 ,000 ,000 1,000 ,000 ,000 ,000 ,000 9 27 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 4 47 ,000 ,000 ,000 ,000 ,000 1,000 ,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 1,000 3 50 ,000 ,000 ,000 ,000 ,000 ,000 ,000 5 45 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 36 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 10 ,000 ,000 6 ,000 ,000 1 ,000 ,000 9 ,000 ,000 2 ,000 ,000 4 ,000 ,000 8 ,000 ,000 3 1,000 ,000 5 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 231 1,000 0 614 ,000 _ Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1147,1019 * Constant is included in the model. Beginning Block Number 1. Method: Enter

Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 699,036 Goodness of Fit 1179,847 Cox & Snell - R^2 ,412 Nagelkerke - R^2 ,554 Chi-Square df Significance Model 448,066 14 ,0000 Block 448,066 14 ,0000 Step 448,066 14 ,0000 Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 | 2 Observed ----------------- 0 1 | 248 | 103 | 70,66% ----------------- 1 2 | 42 | 452 | 91,50% ----------------- Overall 82,84% _ ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0026 ,0004 45,9613 1 ,0000 ,1958 1,0026 FOB -,0027 ,0010 7,9552 1 ,0048 -,0721 ,9973 AGENRIES 7,0843 ,6959 103,6246 1 ,0000 ,2976 1193,0721 IMPRIES -7,3080 ,5449 179,8744 1 ,0000 -,3938 ,0007 CODPAIS(1) 2,0389 ,2841 51,4901 1 ,0000 ,2077 7,6822 CODPROD 25,8105 9 ,0022 ,0825 CODPROD(1) 2,4672 ,5941 17,2476 1 ,0000 ,1153 11,7897 CODPROD(2) 1,9337 ,6924 7,7988 1 ,0052 ,0711 6,9152 CODPROD(3) 2,6193 ,6336 17,0916 1 ,0000 ,1147 13,7267 CODPROD(4) 2,1035 ,7500 7,8670 1 ,0050 ,0715 8,1947 CODPROD(5) 2,3911 ,6526 13,4233 1 ,0002 ,0998 10,9253 CODPROD(6) 1,7681 ,6789 6,7826 1 ,0092 ,0646 5,8598 CODPROD(7) 2,8898 ,7569 14,5772 1 ,0001 ,1047 17,9897 CODPROD(8) 1,7561 ,6889 6,4983 1 ,0108 ,0626 5,7896 CODPROD(9) 2,7108 ,7293 13,8170 1 ,0002 ,1015 15,0410 Constant -1,4222 ,6324 5,0579 1 ,0245 CASE Observed INCI Pred PGroup Resid ZResid 13 S 1 ** ,8716 2 -,8716 -2,6060 42 S 1 ** ,9769 2 -,9769 -6,5015 76 S 2 ** ,1152 1 ,8848 2,7719 114 S 2 ** ,1144 1 ,8856 2,7822 129 S 1 ** ,9794 2 -,9794 -6,8915 242 S 1 ** ,9748 2 -,9748 -6,2223 328 S 2 ** ,1038 1 ,8962 2,9377 351 S 2 ** ,0520 1 ,9480 4,2707 455 S 1 ** ,8626 2 -,8626 -2,5055 473 S 2 ** ,0585 1 ,9415 4,0111 486 S 1 ** ,9702 2 -,9702 -5,7040 496 S 1 ** ,9045 2 -,9045 -3,0772 575 S 2 ** ,1139 1 ,8861 2,7889 606 S 2 ** ,0034 1 ,9966 17,2060 607 S 2 ** ,0666 1 ,9334 3,7447 612 S 1 ** ,9228 2 -,9228 -3,4568

636 S 2 ** ,0493 1 ,9507 4,3927 638 S 1 ** ,9643 2 -,9643 -5,1994 652 S 1 ** ,9684 2 -,9684 -5,5403 653 S 2 ** ,0609 1 ,9391 3,9256 675 S 2 ** ,0763 1 ,9237 3,4800 722 S 1 ** ,9648 2 -,9648 -5,2360 S=Selected U=Unselected cases ** = Misclassified cases * Cases with studentized residuals greater than 2 are listed. The Cut Value is ,50 2.2. Modelo de Regresión Logística todas las variables. Tamaño de muestra 823. Eliminando datos discordantes Total number of cases: 823 (Unweighted) Number of selected cases: 823 Number of unselected cases: 0 Number of selected cases: 823 Number rejected because of missing data: 0 Number of cases included in the analysis: 823 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 4 47 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1 112 ,000 1,000 ,000 ,000 ,000 ,000 ,000 10 351 ,000 ,000 1,000 ,000 ,000 ,000 ,000 3 49 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 9 26 ,000 ,000 ,000 ,000 ,000 1,000 ,000 5 44 ,000 ,000 ,000 ,000 ,000 ,000 1,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 4 ,000 ,000 1 ,000 ,000 10 ,000 ,000 3 ,000 ,000 2 ,000 ,000 9 ,000 ,000 5 ,000 ,000 8 1,000 ,000 6 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 231 1,000 0 592 ,000 Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1115,9468 * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO

FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 6 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 541,211 Goodness of Fit 653,252 Cox & Snell - R^2 ,503 Nagelkerke - R^2 ,677 Chi-Square df Significance Model 574,736 14 ,0000 Block 574,736 14 ,0000 Step 574,736 14 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 82,000 81,621 ,000 ,379 82,000 2 80,000 80,017 2,000 1,983 82,000 3 65,000 63,673 17,000 18,327 82,000 4 49,000 44,054 33,000 37,946 82,000 5 26,000 31,165 56,000 50,835 82,000 6 17,000 21,558 65,000 60,442 82,000 7 14,000 11,424 68,000 70,576 82,000 8 7,000 4,501 75,000 77,499 82,000 9 ,000 1,539 82,000 80,461 82,000 10 ,000 ,448 85,000 84,552 85,000 _ Chi-Square df Significance Goodness-of-fit test 8,5554 8 ,3812 -------------------------------------------------------------- Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 ó 2 Observed ôòòòòòòòôòòòòòòòô 0 1 ó 264 ó 76 ó 77,65% ôòòòòòòòôòòòòòòòô 1 2 ó 37 ó 446 ó 92,34% ôòòòòòòòôòòòòòòòô Overall 86,27% _ ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0042 ,0006 57,7792 1 ,0000 ,2236 1,0042 FOB -,0039 ,0011 12,3867 1 ,0004 -,0965 ,9961 AGENRIES 11,2853 1,0029 126,6252 1 ,0000 ,3342 79638,533 IMPRIES -10,9452 ,8909 150,9274 1 ,0000 -,3653 ,0000 CODPAIS(1) 2,9782 ,3977 56,0694 1 ,0000 ,2201 19,6524 CODPROD 36,8491 9 ,0000 ,1300 CODPROD(1) 2,6703 ,7784 11,7683 1 ,0006 ,0936 14,4450 CODPROD(2) 3,9726 ,7511 27,9739 1 ,0000 ,1526 53,1215 CODPROD(3) 3,4807 ,6943 25,1353 1 ,0000 ,1440 32,4826 CODPROD(4) 2,7555 ,8050 11,7164 1 ,0006 ,0933 15,7296 CODPROD(5) 3,5574 ,7602 21,8954 1 ,0000 ,1335 35,0710 CODPROD(6) 3,4342 ,8638 15,8072 1 ,0001 ,1112 31,0062 CODPROD(7) 4,1430 ,8676 22,8012 1 ,0000 ,1365 62,9895 CODPROD(8) 3,9538 ,8699 20,6568 1 ,0000 ,1293 52,1331 CODPROD(9) 2,8759 ,7874 13,3416 1 ,0003 ,1008 17,7421 Constant -2,4379 ,7398 10,8590 1 ,0010

2.3 Modelo de Regresión Logística. Tamaño de muestra 837. Eliminando sólo los datos con distancia de Cook atípicos. Total number of cases: 837 (Unweighted) Number of selected cases: 837 Number of unselected cases: 0 Number of selected cases: 837 Number rejected because of missing data: 0 Number of cases included in the analysis: 837 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) (2) (3) (4) (5) (6) (7) CODPROD 4 47 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1 116 ,000 1,000 ,000 ,000 ,000 ,000 ,000 10 363 ,000 ,000 1,000 ,000 ,000 ,000 ,000 3 49 ,000 ,000 ,000 1,000 ,000 ,000 ,000 2 78 ,000 ,000 ,000 ,000 1,000 ,000 ,000 9 26 ,000 ,000 ,000 ,000 ,000 1,000 ,000 5 44 ,000 ,000 ,000 ,000 ,000 ,000 1,000 8 35 ,000 ,000 ,000 ,000 ,000 ,000 ,000 6 46 ,000 ,000 ,000 ,000 ,000 ,000 ,000 7 33 ,000 ,000 ,000 ,000 ,000 ,000 ,000 (8) (9) CODPROD 4 ,000 ,000 1 ,000 ,000 10 ,000 ,000 3 ,000 ,000 2 ,000 ,000 9 ,000 ,000 5 ,000 ,000 8 1,000 ,000 6 ,000 1,000 7 ,000 ,000 _ Parameter Value Freq Coding (1) CODPAIS 1 230 1,000 0 607 ,000 _ Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1135,0817 * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS CODPROD Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 653,415

Goodness of Fit 928,431 Cox & Snell - R^2 ,438 Nagelkerke - R 2 ,589 Chi-Square df Significance Model 481,666 14 ,0000 Block 481,666 14 ,0000 Step 481,666 14 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 82,000 82,158 2,000 1,842 84,000 2 75,000 78,530 9,000 5,470 84,000 3 67,000 58,797 17,000 25,203 84,000 4 51,000 42,575 33,000 41,425 84,000 5 25,000 32,542 59,000 51,458 84,000 6 17,000 24,625 67,000 59,375 84,000 7 21,000 14,730 64,000 70,270 85,000 8 2,000 7,399 82,000 76,601 84,000 9 ,000 3,519 84,000 80,481 84,000 10 6,000 1,126 74,000 78,874 80,000 Chi-Square df Significance Goodness-of-fit test 48,4545 8 ,0000 -------------------------------------------------------------- Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct 1 | 2 Observed ----------------- 0 1 | 256 | 90 | 73,99% ----------------- 1 2 | 43 | 448 | 91,24% ----------------- Overall 84,11% ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0034 ,0005 52,3593 1 ,0000 ,2106 1,0034 FOB -,0031 ,0010 9,2364 1 ,0024 -,0798 ,9970 AGENRIES 7,8313 ,7491 109,2926 1 ,0000 ,3074 2518,1716 IMPRIES -7,8692 ,5991 172,5548 1 ,0000 -,3876 ,0004 CODPAIS(1) 2,1452 ,3006 50,9456 1 ,0000 ,2077 8,5439 CODPROD 29,1913 9 ,0006 ,0993 CODPROD(1) 2,1230 ,7572 7,8605 1 ,0051 ,0719 8,3560 CODPROD(2) 3,1193 ,7160 18,9788 1 ,0000 ,1223 22,6313 CODPROD(3) 2,9609 ,6782 19,0590 1 ,0000 ,1226 19,3150 CODPROD(4) 2,0324 ,7659 7,0412 1 ,0080 ,0666 7,6325 CODPROD(5) 2,8620 ,7325 15,2654 1 ,0001 ,1081 17,4967 CODPROD(6) 2,8384 ,8303 11,6865 1 ,0006 ,0924 17,0876 CODPROD(7) 3,2212 ,8118 15,7461 1 ,0001 ,1100 25,0579 CODPROD(8) 3,2687 ,8310 15,4700 1 ,0001 ,1089 26,2761 CODPROD(9) 2,4112 ,7685 9,8433 1 ,0017 ,0831 11,1470 Constant -1,9264 ,7159 7,2408 1 ,0071

2.4 Modelo de Regresión Logística eliminando todas las variables

dummy de productos excepto, la correspondiente a las transmisiones

cardánicas. Total number of cases: 837 (Unweighted) Number of selected cases: 837 Number of unselected cases: 0

Number of selected cases: 837 Number rejected because of missing data: 0 Number of cases included in the analysis: 837 Dependent Variable Encoding: Original Internal Value Value 0 0 1 1 _ Parameter Value Freq Coding (1) PROD7 0 804 1,000 1 33 ,000 CODPAIS 1 230 1,000 0 607 ,000 Dependent Variable.. INCI Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 1160,3284 Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. PESO FOB AGENRIES IMPRIES CODPAIS PROD7 Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent. -2 Log Likelihood 673,370 Goodness of Fit 900,252 Cox & Snell - R^2 ,441 Nagelkerke - R^2 ,588 Chi-Square df Significance Model 486,958 6 ,0000 Block 486,958 6 ,0000 Step 486,958 6 ,0000 ---------- Hosmer and Lemeshow Goodness-of-Fit Test----------- INCI = 0 INCI = 1 Group Observed Expected Observed Expected Total 1 81,000 82,517 4,000 2,483 85,000 2 75,000 77,567 9,000 6,433 84,000 3 62,000 56,212 22,000 27,788 84,000 4 53,000 41,334 31,000 42,666 84,000 5 26,000 31,668 58,000 52,332 84,000 6 22,000 24,249 62,000 59,751 84,000 7 15,000 14,902 69,000 69,098 84,000 8 5,000 7,782 79,000 76,218 84,000 9 3,000 4,017 81,000 79,983 84,000 10 4,000 1,393 76,000 78,607 80,000 Chi-Square df Significance Goodness-of-fit test 18,6019 8 ,0171 -------------------------------------------------------------- _ Classification Table for INCI The Cut Value is ,50 Predicted 0 1 Percent Correct

1 ó 2 Observed ôòòòòòòòôòòòòòòòô 0 1 ó 247 ó 99 ó 71,39% ôòòòòòòòôòòòòòòòô 1 2 ó 47 ó 444 ó 90,43% ôòòòòòòòôòòòòòòòô Overall 82,56% ----------------------- Variables in the Equation ------------------------ Variable B S.E. Wald df Sig R Exp(B) PESO ,0033 ,0004 57,9905 1 ,0000 ,2197 1,0033 FOB -,0041 ,0009 21,1646 1 ,0000 -,1285 ,9959 AGENRIES 7,3230 ,7076 107,1006 1 ,0000 ,3010 1514,6732 IMPRIES -7,5808 ,5601 183,1865 1 ,0000 -,3952 ,0005 CODPAIS(1) 2,0307 ,2865 50,2290 1 ,0000 ,2039 7,6191 PROD7(1) 1,2035 ,2471 23,7197 1 ,0000 ,1368 3,3319

3. Ejemplo de los datos PESO FOB ADV IGV IPM INCI AGENRIES IMPRIES CODPAIS CODPROD

10,56 101,09 13,37 19,96 2,5 0 ,24 ,95 1 10

10,567 101,16 13,38 19,97 2,5 0 ,24 ,95 1 6

10,84 101,25 12,86 19,2 2,4 1 ,68 ,95 1 1

31 101,36 12,99 19,39 2,42 1 ,23 ,03 0 10

10,588 101,36 13,4 20,01 2,5 0 ,24 ,95 1 6

10,86 101,43 12,88 19,24 2,4 1 ,68 ,95 1 9

9,5 101,76 13,22 19,75 2,47 1 ,22 ,12 1 1

200,568 101,86 15,11 22,57 2,82 0 ,01 ,5 0 2

82,97 102 5,21 7,77 ,97 1 ,03 ,05 0 2

140,47 102 14,76 22,04 2,76 1 ,04 ,02 1 2

25,22 102,49 13,23 19,76 2,47 1 ,11 ,01 0 10

9,593 102,58 17,03 20,89 2,61 0 ,06 ,01 0 4

13,302 103,13 13,06 19,5 2,44 0 ,26 ,12 0 1

3,81 103,57 12,5 18,67 2,33 0 ,01 ,01 0 10

408,86 104 21,01 31,37 3,92 1 ,06 ,05 1 2

8,051 104,37 13,32 19,89 2,49 0 ,01 ,5 0 10

8,063 104,53 13,34 19,92 2,49 0 ,01 ,5 0 10

46,36 105 13,44 20,06 2,51 1 ,03 ,06 0 10

257,44 105 20,74 30,97 3,87 1 ,06 ,04 0 8

457,2 105 24,15 36,06 4,51 0 ,23 ,5 0 10

473,079 105,13 20,49 30,6 3,83 0 ,18 ,5 0 10

4 105,28 12,77 19,06 2,38 0 ,03 ,12 0 3

145,05 105,41 18,39 27,46 3,43 1 ,04 ,03 0 6

228,78 105,79 17,6 26,28 3,29 1 ,25 ,12 0 3

9,914 106,01 17,6 21,59 2,7 0 ,06 ,01 0 6

11,85 107,01 13,02 19,44 2,43 0 ,01 ,01 0 1

201,17 107,47 15,63 23,34 2,92 1 ,26 ,1 0 1

218,93 107,48 21,97 32,81 4,1 1 ,12 ,02 0 10

8,9 107,77 14,25 21,29 2,66 1 ,03 ,01 0 1

226,21 108 16,89 25,23 3,15 1 ,03 ,01 0 10

360 108 17,86 26,68 3,33 1 ,1 ,05 0 3

303,227 108 20,7 30,91 3,86 0 ,12 ,5 0 10



BIBLIOGRAFÍA Hosmer & Lemeshow (2000), Applied Logistic Regression Wiley-

Interscience

Hair, Et Al (1999), Análisis Multivariante. Prentice Hall. Madrid.

Scott Menard, (1995), Applied Logistic Regression Analisis. Sage University

Paper series on Quantitative Applications in the Social Sciences, 07-106.

Thousand Oaks CA: Sage.

V.Abraira, (1996), Métodos Multivariantes en Bioestadística. Ed Centro de

Estudios Ramón Areces.

Visauta Vinacua, B. (1998) Análisis Estadístico con SPSS para WINDOWS.

Estadística Multivariante. McGraw-Hill / Interamericana de España,S.A.U.

Garrett Joanne M. (1994) Quantitative Methods. Logistic Regression and

Exploratory Data Analysis. UNC – CERTC University of North Carolina,

Division of General Internal Medicine,

Scheaffer (1987), Elementos de Muestreo. Grupo Editorial Iberoamericana.

Salvador Figueras, M (2001) Modelos de regresión con respuesta

cualitativa: Regresión Logística, [en línea]. 5campus.com, Estadística.

<http://www.5campus.com./lección/logis>. 10.10.2002

Bickel, P. Doksum, K. (1976) Mathematical Statistics. Holden Day . 1977.

Cook, R.D. & Weisberg S. (1982): Residuals and Influence in Regression.

Chapman and Hall. London.

Cordeiro, Gauss M. (1986) Modelos Lineales Generalizados. VII SINAPE.

Cordeiro, Gauss M. (1992) Introducción a la teoría de la verosimilitud.

Cox, D.R. (1970): The Analysis of Binary Data. Chapman and Hall. London

.Huck, W. & Donner, A. (1977): Wald´s test as applied to hypotheses in

logit analysis. JASA 72. 851-853.

McCullagh, P. & Nelder J.A. (1983): Generalized Linear Models. JRSS

135, 370-84. Chapman and Hall. London .

Searle, S.R. (1971): Linear Models. J.Wiley & Sons. New York.



Wald, A. (1943): Tests of statistical Hypotheses concerning several

parameters when the number of observations is large. Trans. Amer. Math.

Soc. 54, 426-482.

Weisberg, S. (1980): Applied Linear Regression. J.Wiley & Sons. New York.