+ All Categories
Home > Documents > Nombre: Marisol Acosta Trejo

Nombre: Marisol Acosta Trejo

Date post: 01-Dec-2023
Category:
Upload: independent
View: 1 times
Download: 0 times
Share this document with a friend
7
Nombre: Marisol Acosta Trejo Matrícula: 20150930 Nombre del curso: Minería de datos Nombre del profesor: Luis Javier Mena Camare Módulo: Introducción a la minería de datos Actividad: Conceptos artículo de Naive Bayes y árboles de decisión. Fecha: 19 de abril del 2016. Conceptos: Validación cruzada Si se tiene un modelo predictivo que predice la desafiliación de clientes por ejemplo, y se quiere saber qué tan buena será la predicción con datos futuros, una forma de lograrlo es usar la técnica de Validación Cruzada con K Iteraciones (también llamado "k fold cross validation"). Esta técnica consiste en dividir los datos en varios set de datos y luego elegir uno de los set para "testear" y el resto para entrenar un modelo predictivo, por ejemplo, el Árbol de Decisión. Esto se hace de forma repetida hasta "testear" con cada set de datos, guardando el resultado de cada iteración en una tabla para luego analizar la eficiencia de la predicción. Al realizar por ejemplo 10 iteraciones y tener % de predicción en cada iteración en una tabla, puede graficarse el resultado y obtener un promedio de la eficiencia general del modelo predictivo: Si la variación entre los fold es muy alta, indica que el modelo no se ajusta correctamente a los datos. Principio de maximizar y minimizar la similitud intraclase
Transcript

Nombre: Marisol Acosta Trejo Matrícula: 20150930

Nombre del curso: Minería de datos Nombre del profesor: Luis Javier

Mena Camare

Módulo: Introducción a la minería de

datos Actividad: Conceptos artículo de Naive Bayes y árboles de decisión.

Fecha: 19 de abril del 2016.

Conceptos: Validación cruzadaSi se tiene un modelo predictivo que predice la desafiliación de clientes por ejemplo, y se quiere saber qué tan buena será la predicción con datos futuros, una forma de lograrlo es usar la técnica de Validación Cruzada con K Iteraciones (también llamado "k fold cross validation").

Esta técnica consiste en dividir los datos en varios set de datos y luego elegir uno de los set para "testear" y el resto para entrenar un modelo predictivo, por ejemplo, el Árbol de Decisión. Esto se hace de forma repetida hasta "testear" con cada set de datos, guardando el resultado de cada iteración en una tabla para luego analizar la eficiencia de la predicción. Al realizar por ejemplo 10 iteraciones y tener % de predicción en cada iteración en una tabla, puede graficarse el resultado y obtener un promedio de la eficiencia general del modelo predictivo:

Si la variación entre los fold es muy alta, indica que el modelo no se ajusta correctamente a los datos.

Principio de maximizar y minimizar la similitud intraclase

Es una función de utilidad de tipo probabilístico que intenta maximizar el

parecido entre instancias dentro de cada categoría y maximizar a su vez la

separación entre categorías

Por ejemplo. se puede organizar 6 entidades de muestreo en clases discretas,

tal que la similitud dentro del grupo sea maximizada y la similitud entre grupos

sea minimizada (maximizar la disimilitud) de acuerdo algún criterio.

El método de máxima verosimilitud es un procedimiento que permite estimar

los parámetros de un modelo probabilístico, o los coeficientes de un modelo

matemático, de tal manera que sean los más probables a partir de los datos

obtenidos.

ID3, ID4, ID5 (Induction Decision Trees)Este algoritmo greedy de Quinlan (1979) es el método más famoso de todos los que existen para la creación de árboles de decisión. Usa una poda pesimista y utiliza el criterio de proporción de ganancia. Extensiones de ID3 le permiten tratar con datos erróneos (ruido) e información incompleta.

ID3 utiliza un método iterativo para construir árboles de decisión y prefiere los árboles sencillos frente a

los más complejos (ya que, en principio, aquéllos que tienen sus caminos hasta las hojas más cortos son

más útiles a la hora de clasificar entradas). En cada momento se ramifica por el atributo de menor

entropía y el proceso se repite recursivamente sobre los subconjuntos de casos de entrenamiento

correspondientes a cada valor del atributo por el que se ha ramificado.

Los algoritmos ID4 e ID5r representan las versiones incrementales del algoritmo ID3. Para lograr el aprendizaje incremental modifican la estructura de los Arboles de Decisi´on, ´ incorpor´andole mayor informaci´on a los nodos, con el objetivo de contar con elementos para calcular el beneficio de los atributos presentes en los datos, y con ello mantener actualizada la estructura.

El algoritmo ID4 [64] probablemente fue la primera tentativa de construir un árbol de decisión de forma incremental. Sin retener instancias en memoria, toma como entrada un árbol de decisión y una experiencia, y devuelve un nuevo árbol adaptado a esta experiencia. ID4 mantiene información sobre el número de instancias en las clases para cada valor de cada atributo que pueda servir como decisión en un nodo y calcula cuál es el mejor nodo para decidir si expandir el nuevo atributo en sus valores creando un solo nivel más (ID4). Aunque es una mejora respecto a ID3, para determinadas instancias el algoritmo da lugar a continuos descartes, no llegando a una estabilización final del árbol.

Las estructuras de la hip´otesis sufren una modificaci´on para contender con la incrementalidad. En el caso de ID5r, el ´arbol puede tener dos variantes: A) Arbol expandido ´ (isomorfo al que se ha venido manejando hasta ahora, pero con la lista de positivos y negativos) y B) Arbol contra´ıdo ´ , que es la lista de pares atributo − valor de los atributos restantes (los que no son utilizados para probar el ejemplo). Tambi´en se menciona que el ´arbol contra´ıdo puede expanderse para regresar la estructura a la forma convencional, con lo que se conserva la hip´otesis en la forma que se ha venido planteando. As´ı, en un

´arbol expandido, un nodo puede ser de decisi´on cuando tiene un atributo prueba, o de respuesta, cuando tiene la clase a la que pertenecer´ıa el ejemplo, a saber: Positiva o Negativa.

ID4. Toma un ejemplo y actualiza el Arbol de Decisi´on: Actualiza las cuentas (positivas ´ y negativas) de cada atributo; verifica que el atributo de prueba sea el m´as adecuado (con respecto a criterio de la m´ınima entrop´ıa o m´axima ganancia de informaci´on) y si es el caso, ´este permanece, si no, es substituido y se descartan los sub´arboles que

dependen del nodo. Este procedimiento se sigue recursivamente para cada nodo (y sub´arbol), expandiendo en su caso las ramas de los atributos que as´ı lo requieran. ID4 se presenta en el Algoritmo 3. Limitaci´on: Este algoritmo no puede aprender algunos conceptos que ID3 aprender´ıa (s´olo logra ´esto cuando hay un atributo en cada nodo de decisi´on que es la mejor opci´on sin disputa sobre los otros [32]), esto se debe a que descarta los sub´arboles que ya construy´o.

ID5r. Est´a basado en ID4, su principal diferencia est´a en que introduce un proceso recursivo de reconstrucci´on del ´arbol para preservar la consistencia, en lugar de descartar los sub´arboles. ID5r se muestra en el Algoritmo 4El algoritmo ID5r, obtiene los mismos resultados que el ID3, pero a menor costo computacional, ya que no tiene que reconstruir el ´arbol desde el inicio cada vez que cambian los datos [32], sino que lo reconstruye a medida que recibe nuevas evidencias en funci´on de la m´etrica de evaluaci´on usada. Lo que lo hace un algoritmo muy adecuado para clasificar datos alojados en bases de datos distribuidas

C4.5, C5.0C4.5 es un algoritmo usado para generar un árbol de decisión desarrollado por Ross Quinlan. C4.5 es una extensión de Quinlan antes algoritmo de ID3. Los árboles de decisión generados por C4.5 se pueden usar para la clasificación, y por esta razón, C4.5 a menudo se refiere como un clasificador estadístico.

C4.5 construye árboles de decisión de un juego de datos de formación del mismo modo como ID3, usando el concepto de la entropía de información. Los datos de formación son un juego de muestras ya secretas. Cada muestra es un vector donde representan atributos o rasgos de la muestra. Los datos de formación se aumentan con un vector donde representan la clase a la cual cada muestra pertenece.

En cada nodo del árbol, C4.5 elige un atributo de los datos que el más con eficacia parten su juego de muestras en subconjuntos enriquecidos en una clase o el otro. Su criterio es la ganancia de información normalizada (diferencia en la entropía) que resulta de elegir un atributo para partir los datos. El atributo con la ganancia de información normalizada más alta se elige para tomar la decisión. El algoritmo C4.5 entonces blasfema de nuevo a las sublistas más pequeñas.

Quinlan continuó a crear C5.0 y See5 (C5.0 para Unix/Linux, See5 para Windows) que vende comercialmente. C5.0 ofrece varias mejoras en C4.5. Algunos de éstos son:

Velocidad - C5.0 es considerablemente más rápido que C4.5 (varios ordenes de magnitud)

Uso de memoria - C5.0 es más memoria eficiente que C4.5

Árboles de decisión más pequeños - C5.0 consigue resultados similares a C4.5 con árboles de decisión bastante más pequeños.

Apoyo a incrementar - el Empuje mejora los árboles y les da más exactitud.

Suplemento salarial - C5.0 permite que usted cargue casos diferentes y tipos de misclassification.

Aventando - una opción C5.0 automáticamente avienta los atributos para quitar a aquellos que pueden ser inútiles.

La fuente para una versión de Linux enhebrada del modo solo de C5.0 está disponible bajo la GPL.

CART (Classification and Regression Trees)Es una técnica de árbol discriminante que permite predecir la asignación de

muestras a grupos predefinidos en función de una serie de variables

preditorias.Los modelos basados en árboles de regresión y/o clasificación constituyen una alternativa a los modelos lineales para los problemas de regresión y para modelos logísticos en problemas de clasificación. Estos modelos están pensados para captar comportamientos lineales y no lineales; los modelos lineales estándar no permiten correlaciones entre variables, mientras que los algoritmos CART si las permiten.  En ciertas aplicaciones, especialmente cuando el grupo de predictores contiene una mezcla de variables numéricas y factores altamente correlacionadas, los modelos basados en árboles son más fáciles para interpretar y discutir que los modelos lineales. Se denominan modelos de árbol porque el método original de presentar los resultados es en forma de árbol binario (cada nodo se bifurca en dos ramas). Cuando la variable dependiente es

continua se conforman árboles de regresión y cuando es de clasificación se generan árboles de clasificación.

Fast Splitting attribute selection (DTFS) Classification by clustering (CbC)Clustering es el proceso de agrupar los datos en clases o en clusteres, de tal forma que, los datos de un mismo cl´uster tienen una alta similitud y a su vez, son muy diferentes de los de otro cl´uster. Un cl´uster de objetos puede ser tratado colectivamente como un grupo o ser considerado como una forma de compresi´on de datos.Al hacer clusteres, se puede identificar regiones densas y regiones dispersas en el espacio de caracter´ısticas, y por lo tanto, descubrir distribuci´on de patrones y correlaciones entre los atributos. Esta t´ecnica se puede utilizar tambi´en para la detecci´on de anomal´ıas, aunque existen algoritmos espec´ıficos para esta acci´on.

Es similar a la clasificación, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman.“La clasificación automática tiene por objetivo reconocer grupos de individuos homogéneos, de tal forma que los grupos queden bien separados y bien diferenciados.” ● “Estos individuos pueden estar descritos por una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por una tabla de proximidades.” One-against-all methodEl metodo uno-contra-todos es una tecnica estandar usada para resolver

problemas multiclase con clasificadores binarios.

En este metodo hay una maquina de vector soporte (SVM) para cada clase

para separar miembros de esa clase de otras clases.

Se introdujo por primera vez por Vladimir Vapnik en 1995. La formulación inicial

del metodo uno-contra-todos requiere la unanimidad de todos las SVM. Un

punto de datos es clasificado bajo cierta clase solo sí una clase lo acepta y las demás lo rechazan. Mientras que presida para las clases estrechamente agrupadas, deja regiones del espacio de caracteristicas indecisas, donde más de una clase acepta o rechaza todas las clases.

Associative classification tree (ACT) Fuzzy decision tree Gini Index based (G-FDT) Gini Index

o Utilizado en las ciencias sociales y la economía

o Probabilidad de que dos cosas escogidas al azar de una

población sean la mismao Una población pura tiene un índice de Gini de 1

o Si hay dos grupos igualmente representados en una

población el índice de Gini es 0.5o El índice de Gini es la suma de los cuadrados de las

proporciones de las poblaciones p12+ p2

2

o El objetivo es maximizar el índice de Gini

o Se utiliza como alternativa de la entropía.

o

o

o Ejemplo Gini Split

o

o

Fuzzy logic Hidden Naive Bayes (HNB) Network intrusion detection system (NIDS)

Un sistema de detección de intrusiones es un programa de detección de

accesos no autorizados a un computador o a una red. El funcionamiento de estas herramientas se basa en el análisis pormenorizado del

tráfico de red, el cual al entrar al analizador es comparado con firmas de ataques conocidos, o comportamientos sospechosos, como puede ser el escaneo de puertos, paquetes malformados, etc. El NIDS no sólo analiza qué tipo de tráfico es, sino que también revisa el contenido y su comportamiento.

El NIDS está basado en red, detectando ataques a todo el segmento de la red. Su

interfaz debe funcionar en modo promiscuo capturando así todo el tráfico de la red.

Denial-of-services (Dos) attacks un ataque de denegación de servicios, también llamado ataque DoS (siglas

en inglés de Denial of Service) o DDoS (de Distributed Denial of Service), es un ataque a un sistema de computadoras o red que causa que un servicio o recurso sea inaccesible a los usuarios legítimos. Normalmente provoca la pérdida de la conectividad de la red por el consumo del ancho de banda de la red de la víctima o sobrecarga de los recursos computacionales del sistema de la víctima. Un ejemplo notable de este tipo de ataque se produjo el 27 de marzo de 2013, cuando un ataque de una empresa a otra inundó la red de spam provocando una ralentización generalizada de Internet e incluso llegó a afectar a puntos clave como el nodo central de Londres.1

KDD 99 datasets Robust naive Bayes classifier (R-NBC) Particion-conditional independent component analysis (PC-ICA) Independent component analysis (ICA) Extended naive Bayes (ENB) Gaussian distribution NSL-KDD weighted average


Recommended