Minería de Datos – Descubrimiento de Conocimiento en Bases de Datos (KDD).
¿Por qué necesitamos Minería de Datos?
Cada día aumenta el volumen de información que podemos manejar a partir de transacciones comerciales, datos científicos, datos de sensores, imágenes, videos, etc. Por lo tanto, necesitamos un sistema que sea capaz de extraer la esencia de la información disponible y que pueda generar automáticamente informes,
vistas o resumen de datos para una mejor toma de decisiones.
¿Por qué se utiliza la minería de datos en los negocios?
La minería de datos se utiliza en los negocios para tomar mejores decisiones gerenciales al:
- Resumen automático de datos
- Extraer la esencia de la información almacenada .
- Descubrir patrones en datos sin procesar.
La minería de datos, también conocida como descubrimiento de conocimiento en bases de datos, se refiere a la extracción no trivial de información implícita, previamente desconocida y potencialmente útil de los datos almacenados en las bases de datos.
Pasos involucrados en el proceso KDD:
- Limpieza de datos : la limpieza de datos se define como la eliminación de datos ruidosos e irrelevantes de la recopilación.
- Limpieza en caso de valores faltantes .
- Limpieza de datos ruidosos , donde el ruido es un error aleatorio o de varianza.
- Limpieza con detección de discrepancias de datos y herramientas de transformación de datos .
- Integración de datos : la integración de datos se define como datos heterogéneos de múltiples fuentes combinados en una fuente común (DataWarehouse).
- Integración de datos mediante herramientas de migración de datos .
- Integración de datos utilizando herramientas de sincronización de datos .
- Integración de datos mediante proceso ETL (Extract-Load-Transformation).
- Selección de datos : la selección de datos se define como el proceso en el que los datos relevantes para el análisis se deciden y recuperan de la recopilación de datos.
- Selección de datos mediante red neuronal .
- Selección de datos mediante árboles de decisión .
- Selección de datos mediante Naive bayes .
- Selección de datos mediante Clustering , Regresión , etc.
- Transformación de datos : la transformación de datos se define como el proceso de transformación de datos en la forma adecuada requerida por el procedimiento de minería.
La transformación de datos es un proceso de dos pasos:
- Mapeo de datos : asignación de elementos desde la base de origen hasta el destino para capturar transformaciones.
- Generación de código : Creación del programa de transformación real.
- Minería de datos : la minería de datos se define como técnicas inteligentes que se aplican para extraer patrones potencialmente útiles.
- Transforma los datos relevantes de la tarea en patrones .
- Decide el propósito del modelo usando clasificación o caracterización .
- Evaluación de patrones : la evaluación de patrones se define como la identificación de patrones estrictamente crecientes que representan el conocimiento basado en medidas dadas.
- Encuentre la puntuación de interés de cada patrón.
- Utiliza resumen y visualización para que los datos sean comprensibles para el usuario.
- Representación del conocimiento : la representación del conocimiento se define como una técnica que utiliza herramientas de visualización para representar los resultados de la minería de datos.
- Generar informes .
- Generar tablas .
- Generar reglas discriminantes, reglas de clasificación, reglas de caracterización , etc.
Nota :
- KDD es un proceso iterativo en el que se pueden mejorar las medidas de evaluación, se puede refinar la minería, se pueden integrar y transformar nuevos datos para obtener resultados diferentes y más apropiados.
- El preprocesamiento de bases de datos consiste en limpieza de datos e integración de datos .
Referencias :
Minería de datos: conceptos y técnicas
Publicación traducida automáticamente
Artículo escrito por Abhishek rajput y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA