La minería de datos se refiere a extraer o extraer conocimiento de grandes cantidades de datos. En otras palabras, la minería de datos es la ciencia, el arte y la tecnología de descubrir cuerpos de datos grandes y complejos para descubrir patrones útiles. Los teóricos y los profesionales buscan continuamente técnicas mejoradas para hacer que el proceso sea más eficiente, rentable y preciso. Muchos otros términos tienen un significado similar o ligeramente diferente a la minería de datos, como la extracción de conocimiento de los datos, la extracción de conocimiento, el dragado de datos de análisis de datos/patrones.
La minería de datos se trata como un sinónimo de otro término de uso popular, Knowledge Discovery from Data o KDD. En otros, la minería de datos se ve simplemente como un paso esencial en el proceso de descubrimiento de conocimiento, en el que se aplican métodos inteligentes para extraer patrones de datos.
Gregory Piatetsky-Shapiro acuñó el término «Descubrimiento de conocimiento en bases de datos» en 1989. Sin embargo, el término «minería de datos» se hizo más popular en las comunidades empresarial y de prensa. Actualmente, la minería de datos y el descubrimiento del conocimiento se usan indistintamente.
Hoy en día, la minería de datos se utiliza en casi todos los lugares donde se almacena y procesa una gran cantidad de datos.
El descubrimiento de conocimiento a partir de datos consta de los siguientes pasos:
- Limpieza de datos (para eliminar ruido o datos irrelevantes).
- Integración de datos (donde se pueden combinar múltiples fuentes de datos).
- Selección de datos (donde los datos relevantes para la tarea de análisis se recuperan de la base de datos).
- Transformación de datos (donde los datos se transmutan o consolidan en formas apropiadas para la minería mediante la realización de funciones de resumen o agregación, para muestra).
- Minería de datos (un proceso importante donde se aplican métodos inteligentes para extraer patrones de datos).
- Evaluación de patrones (para identificar los patrones fascinantes que representan el conocimiento en función de algunas medidas de interés).
- Presentación del conocimiento (donde se utilizan técnicas de representación y visualización del conocimiento para presentar el conocimiento extraído al usuario).
Ahora discutimos aquí diferentes tipos de técnicas de minería de datos que se utilizan para predecir la salida del deseo.
Técnicas de Minería de Datos
1. Asociación
El análisis de asociación es el hallazgo de reglas de asociación que muestran condiciones de valor de atributo que ocurren frecuentemente juntas en un conjunto dado de datos. El análisis de asociación se usa ampliamente para una canasta de mercado o análisis de datos de transacciones. La minería de reglas de asociación es un área significativa y excepcionalmente dinámica de la investigación de minería de datos. Un método de clasificación basada en asociaciones, llamado clasificación asociativa, consta de dos pasos. En el paso principal, las instrucciones de asociación se generan utilizando una versión modificada del algoritmo de minería de reglas de asociación estándar conocido como Apriori. El segundo paso construye un clasificador basado en las reglas de asociación descubiertas.
2. Clasificación
La clasificación es el procesamiento de encontrar un conjunto de modelos (o funciones) que describen y distinguen clases de datos o conceptos, con el fin de poder utilizar el modelo para predecir la clase de objetos cuya etiqueta de clase se desconoce. El modelo determinado depende de la investigación de un conjunto de información de datos de entrenamiento (es decir, objetos de datos cuya etiqueta de clase se conoce). El modelo derivado se puede representar de varias formas, como reglas de clasificación (si – entonces), árboles de decisión y redes neuronales. Data Mining tiene un tipo diferente de clasificador:
- Árbol de decisión
- SVM (Máquina de vectores de soporte)
- Modelos Lineales Generalizados
- Clasificación bayesiana:
- Clasificación por retropropagación
- Clasificador K-NN
- Clasificación basada en reglas
- Clasificación basada en patrones frecuentes
- Teoría de conjuntos aproximados
- Lógica difusa
Árboles de decisión :Un árbol de decisión es una estructura de árbol similar a un diagrama de flujo, donde cada Node representa una prueba en un valor de atributo, cada rama denota un resultado de una prueba y las hojas del árbol representan clases o distribuciones de clases. Los árboles de decisión se pueden transformar fácilmente en reglas de clasificación. El registro del árbol de decisión es una metodología no paramétrica para construir modelos de clasificación. En otras palabras, no requiere supuestos previos sobre el tipo de distribución de probabilidad que satisfacen la clase y otros atributos. Los árboles de decisión, especialmente los árboles de menor tamaño, son relativamente fáciles de interpretar. Las precisiones de los árboles también son comparables a otras dos técnicas de clasificación para un conjunto de datos mucho más simple. Estos proporcionan una representación expresiva para el aprendizaje de funciones de valores discretos. Sin embargo,
Esta cifra se generó en el conjunto de datos IRIS del repositorio de máquinas UCI. Básicamente, tres etiquetas de clase diferentes disponibles en el conjunto de datos: Setosa, Versicolor y Virginia.
Método clasificador de la máquina de vectores de soporte (SVM) :Support Vector Machines es una estrategia de aprendizaje supervisado que se utiliza para la clasificación y, además, para la regresión. Cuando la salida de la máquina de vectores de soporte es un valor continuo, se afirma que la metodología de aprendizaje realiza una regresión; y una vez que la metodología de aprendizaje prediga una etiqueta de categoría del objeto de entrada, se conoce como clasificación. Las variables independientes pueden o no ser cuantitativas. Las ecuaciones del kernel son funciones que transforman información linealmente no separable en un dominio en otro dominio donde las instancias se vuelven linealmente divisibles. Las ecuaciones kernel también son lineales, cuadráticas, gaussianas o cualquiera que logre este propósito específico. Una técnica de clasificación lineal puede ser un clasificador que utiliza una función lineal de sus entradas para basar su decisión. La aplicación de las ecuaciones del núcleo organiza las instancias de información de tal manera a intervalos en el espacio multidimensional, que hay un hiperplano que separa las instancias de conocimiento de un tipo de las de otro. La ventaja de las máquinas de vectores de soporte es que harán uso de ciertos núcleos para transformar el problema, de modo que podamos aplicar técnicas de clasificación lineal al conocimiento no lineal. Una vez que logramos dividir la información en dos clases diferentes, nuestro objetivo es incluir el hiperplano más efectivo para separar dos tipos de instancias. La ventaja de las máquinas de vectores de soporte es que harán uso de ciertos núcleos para transformar el problema, de modo que podamos aplicar técnicas de clasificación lineal al conocimiento no lineal. Una vez que logramos dividir la información en dos clases diferentes, nuestro objetivo es incluir el hiperplano más efectivo para separar dos tipos de instancias. La ventaja de las máquinas de vectores de soporte es que harán uso de ciertos núcleos para transformar el problema, de modo que podamos aplicar técnicas de clasificación lineal al conocimiento no lineal. Una vez que logramos dividir la información en dos clases diferentes, nuestro objetivo es incluir el hiperplano más efectivo para separar dos tipos de instancias.
Modelos lineales generalizados:Los modelos lineales generalizados (GLM) son una técnica estadística para el modelado lineal. GLM proporciona estadísticas de coeficientes extensas y estadísticas de modelos, así como diagnósticos de filas. También admite límites de confianza.
Clasificación bayesiana:El clasificador bayesiano es un clasificador estadístico. Pueden predecir las probabilidades de pertenencia a una clase, por ejemplo, la probabilidad de que una muestra dada pertenezca a una clase en particular. La clasificación bayesiana se crea sobre el teorema de Bayes. Los estudios que comparan los algoritmos de clasificación han encontrado que un clasificador bayesiano simple conocido como el clasificador bayesiano ingenuo es comparable en rendimiento con los clasificadores de árboles de decisión y redes neuronales. Los clasificadores bayesianos también han mostrado una alta precisión y velocidad cuando se aplican a grandes bases de datos. Los clasificadores bayesianos ingenuos adoptan que el valor exacto del atributo en una clase dada es independiente de los valores de los otros atributos. Este supuesto se denomina independencia condicional de clase. Está hecho para simplificar los cálculos involucrados y se considera «ingenuo». Las redes de creencias bayesianas son réplicas gráficas que, a diferencia de los clasificadores bayesianos ingenuos, permiten la representación de dependencias entre subconjuntos de atributos. La creencia bayesiana también se puede utilizar para la clasificación.
Clasificación por retropropagación: una retropropagación aprende mediante el procesamiento iterativo de un conjunto de muestras de entrenamiento, comparando la estimación de la red para cada muestra con la etiqueta de clase conocida real. Para cada muestra de entrenamiento, los pesos se modifican para minimizar el error cuadrático medio entre la predicción de la red y la clase real. Estos cambios se realizan en la dirección «hacia atrás», es decir, desde la capa de salida, a través de cada capa oculta hasta la primera capa oculta (de ahí el nombre de propagación hacia atrás). Aunque no está garantizado, en general, los pesos finalmente convergen y el proceso de conocimiento se detiene.
Método de clasificador del vecino más cercano (K-NN) : el clasificador del vecino más cercano (K-NN) se tiene en cuenta como un clasificador basado en ejemplos, lo que significa que los documentos de capacitación se utilizan para la comparación en lugar de una ilustración de clase exacta , como los perfiles de clase utilizados por otros clasificadores. Como tal, no hay una sección de entrenamiento real. una vez que se tiene que clasificar un nuevo documento, se encuentran los k documentos más similares (vecinos) y si una proporción suficientemente grande de ellos se asigna a una clase precisa, el nuevo documento también se asigna a la clase actual, de lo contrario no. Además, la búsqueda de los vecinos más cercanos se acelera utilizando estrategias de clasificación tradicionales.
Clasificación basada en reglas:La clasificación basada en reglas representa el conocimiento en forma de reglas Si-Entonces. Una evaluación de una regla evaluada de acuerdo con la precisión y la cobertura del clasificador. Si se activa más de una regla, entonces necesitamos la resolución de conflictos en la clasificación basada en reglas. La resolución de conflictos se puede realizar en tres parámetros diferentes: ordenación por tamaño, ordenación basada en clases y ordenación basada en reglas. Hay algunas ventajas del clasificador basado en reglas como:
- Las reglas son más fáciles de entender que un árbol grande.
- Las reglas son mutuamente excluyentes y exhaustivas.
- Cada par atributo-valor a lo largo de un camino forma una conjunción: cada hoja contiene la predicción de la clase.
Clasificación basada en patrones frecuentes: el descubrimiento de patrones frecuentes (o descubrimiento de FP, minería de FP o minería de conjuntos de elementos frecuentes) es parte de la minería de datos. Describe la tarea de encontrar los patrones más frecuentes y relevantes en grandes conjuntos de datos. La idea se presentó por primera vez para la minería de bases de datos de transacciones. Los patrones frecuentes se definen como subconjuntos (conjuntos de elementos, subsecuencias o subestructuras) que aparecen en un conjunto de datos con una frecuencia no inferior a un umbral especificado por el usuario o determinado automáticamente.
Teoría de conjuntos aproximados:La teoría de conjuntos aproximados se puede utilizar para la clasificación para descubrir relaciones estructurales dentro de datos imprecisos o ruidosos. Se aplica a características de valores discretos. Por lo tanto, los atributos de valor continuo deben ser discretos antes de su uso. La teoría de conjuntos aproximados se basa en el establecimiento de clases de equivalencia dentro de los datos de entrenamiento dados. Todas las muestras de datos que forman una clase de similitud son indiscernibles, es decir, las muestras son iguales con respecto a los atributos que describen los datos. Los conjuntos aproximados también se pueden usar para la reducción de características (donde los atributos que no contribuyen a la clasificación de los datos de entrenamiento dados se pueden identificar y eliminar) y el análisis de relevancia (donde la contribución o la importancia de cada atributo se evalúa con respecto a la clasificación). tarea). El problema de encontrar los subconjuntos mínimos (redacts) de atributos que pueden describir todos los conceptos en el conjunto de datos dado es NP-difícil. Sin embargo, se han propuesto algoritmos para disminuir la intensidad de cálculo. En un método, por ejemplo, se usa una array de discernibilidad que almacena las diferencias entre los valores de los atributos para cada par de muestras de datos. En lugar de apuntar a todo el conjunto de entrenamiento, se busca en la array para detectar atributos redundantes.
Lógica difusa : Los sistemas de clasificación basados en reglas tienen la desventaja de que implican cortes precisos para atributos continuos. Fuzzy Logic es valioso para los marcos de minería de datos que realizan agrupaciones/clasificaciones. Proporciona la ventaja de trabajar a un alto nivel de abstracción. En general, el uso de la lógica difusa en los sistemas basados en reglas implica lo siguiente:
- Los valores de los atributos se cambian a valores borrosos.
- Para un nuevo conjunto de datos/ejemplo dado, se puede aplicar más de una regla difusa. Cada regla aplicable aporta un voto para la pertenencia a las categorías. Por lo general, se suman los valores de verdad para cada categoría proyectada.
3. Predicción
La predicción de datos es un proceso de dos pasos, similar al de la clasificación de datos. Aunque, para la predicción, no utilizamos la redacción de «atributo de etiqueta de clase» porque el atributo para el cual se predicen los valores se valora (ordena) de manera consistente en lugar de categórico (estimado discreto y desordenado). Se puede hacer referencia al atributo simplemente como el atributo predicho. La predicción puede verse como la construcción y el uso de un modelo para evaluar la clase de un objeto sin etiquetar, o para evaluar el valor o los rangos de valores de un atributo que es probable que tenga un objeto determinado.
4. Agrupación
A diferencia de la clasificación y la predicción, que analizan atributos o objetos de datos con etiquetas de clase, el agrupamiento analiza los objetos de datos sin consultar una etiqueta de clase identificada. En general, las etiquetas de clase no existen en los datos de entrenamiento simplemente porque, para empezar, no se conocen. La agrupación se puede utilizar para generar estas etiquetas. Los objetos se agrupan según el principio de maximizar la similitud intraclase y minimizar la similitud interclase. Es decir, se crean grupos de objetos para que los objetos dentro de un grupo tengan una gran similitud entre sí, pero son objetos diferentes en otros grupos. Cada Cluster que se genera se puede ver como una clase de objetos, de los cuales se pueden inferir reglas. La agrupación también puede facilitar la formación de clasificaciones, es decir,
5. Regresión
La regresión se puede definir como un método de modelado estadístico en el que los datos obtenidos previamente se utilizan para predecir una cantidad continua para nuevas observaciones. Este clasificador también se conoce como clasificador de valores continuos. Hay dos tipos de modelos de regresión: regresión lineal y modelos de regresión lineal múltiple.
6. Método clasificador de red neuronal artificial (ANN)
Una red neuronal artificial (ANN), también denominada simplemente «Red neuronal» (NN), podría ser un modelo de proceso respaldado por redes neuronales biológicas. Consiste en una colección interconectada de neuronas artificiales. Una red neuronal es un conjunto de unidades de entrada/salida conectadas donde cada conexión tiene un peso asociado. Durante la fase de conocimiento, la red adquiere ajustando los pesos para poder predecir la etiqueta de clase correcta de las muestras de entrada. El aprendizaje de redes neuronales también se denomina aprendizaje conexionista debido a las conexiones entre unidades. Las redes neuronales implican largos tiempos de entrenamiento y, por lo tanto, son más apropiadas para aplicaciones donde esto es factible. Requieren una serie de parámetros que, por lo general, se determinan mejor empíricamente, como la topología o la «estructura» de la red. Las redes neuronales han sido criticadas por su mala interpretabilidad, ya que es difícil para los humanos captar el significado simbólico detrás de los pesos aprendidos. En primer lugar, estas características hicieron que las redes neuronales fueran menos deseables para la minería de datos.
Sin embargo, las ventajas de las redes neuronales incluyen su alta tolerancia a los datos ruidosos, así como su capacidad para clasificar patrones en los que no han sido entrenadas. Además, recientemente se han desarrollado varios algoritmos para la extracción de reglas de redes neuronales entrenadas. Estos problemas contribuyen a la utilidad de las redes neuronales para la clasificación en la minería de datos.
Una red neuronal artificial es un sistema de adjetivos que cambia su información respaldada por estructura que fluye a través de la red artificial durante una sección de aprendizaje. La ANN se basa en el principio de aprender con el ejemplo. Hay dos tipos clásicos de redes neuronales, perceptrón y también perceptrón multicapa.
7. Detección de valores atípicos
Una base de datos puede contener objetos de datos que no cumplen con el comportamiento o modelo general de los datos. Estos objetos de datos son valores atípicos. La investigación de datos OUTLIER se conoce como OUTLIER MINING. Se puede detectar un valor atípico mediante pruebas estadísticas que asumen un modelo de distribución o probabilidad para los datos, o mediante medidas de distancia donde los objetos que tienen una pequeña fracción de vecinos «cercanos» en el espacio se consideran valores atípicos. En lugar de utilizar medidas fácticas o de distancia, las técnicas basadas en desviaciones distinguen excepciones/valores atípicos al inspeccionar las diferencias en los atributos principales de los elementos de un grupo.
8. Algoritmo genético
Los algoritmos genéticos son algoritmos de búsqueda heurística adaptativa que pertenecen a la mayor parte de los algoritmos evolutivos. Los algoritmos genéticos se basan en las ideas de la selección natural y la genética. Se trata de una explotación inteligente de la búsqueda aleatoria proporcionada con datos históricos para dirigir la búsqueda a la región de mejor rendimiento en el espacio de soluciones. Se utilizan comúnmente para generar soluciones de alta calidad para problemas de optimización y problemas de búsqueda. Los algoritmos genéticos simulan el proceso de selección natural, lo que significa que aquellas especies que pueden adaptarse a los cambios en su entorno pueden sobrevivir, reproducirse y pasar a la siguiente generación. En palabras simples, simulan la “supervivencia del más apto” entre individuos de generaciones consecutivas para resolver un problema. Cada generación consiste en una población de individuos y cada individuo representa un punto en el espacio de búsqueda y posible solución. Cada individuo se representa como una string de caracteres/entero/flotante/bits. Esta string es análoga al cromosoma.
Publicación traducida automáticamente
Artículo escrito por varshachoudhary y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA