1. Minería de
datos: la minería de datos se puede definir como el proceso de identificación de patrones en una base de datos preconstruida. Extrae patrones aberrantes, interconexión entre los grandes conjuntos de datos para obtener los resultados correctos.
Minería de datos, a veces conocida como “descubrimiento de conocimiento en bases de datos”. Podemos decir que es una combinación de tres disciplinas científicas, es decir, estadística, inteligencia artificial y aprendizaje automático.
- Estadísticas:
se ocupa de conjuntos de datos estadísticos mediante el análisis de varias colecciones de datos. Ayuda en cuestiones industriales, organizativas y sociales. - Inteligencia artificial:
es una parte importante de la minería de datos. Extrae datos de varios sistemas. - Aprendizaje automático:
utiliza técnicas de minería de datos y, con la ayuda de algunos algoritmos, se utiliza para construir modelos.
Pasos seguidos por la Minería de Datos:
- Exploración:
es un paso inicial en la minería de datos que utiliza técnicas estadísticas y visualización de datos para personalizar el carácter del conjunto de datos y comprender el comportamiento de los datos. - Identificación de patrones:
significa encontrar alguna interrelación entre los datos coexistentes con algunos otros datos. - Implementación:
es un método a través del cual podemos fusionar un modelo de aprendizaje automático en una producción ambiental existente para tomar mejores decisiones en la vida práctica de los negocios sobre la base de esos datos.
Técnicas y algoritmos de minería de datos:
Sobre la base de las bases de datos existentes, mediante el uso de varios tipos de algoritmos y técnicas, se realiza esta tarea. Es decir, clasificación, agrupamiento, regresión, inteligencia artificial, redes neuronales, reglas de asociación, árboles de decisión, algoritmo genético, método del vecino más cercano, etc.
- Clasificación:
es un proceso de búsqueda de un modelo que describe y distingue clases de datos y conceptos y los coloca en una categoría específica. - Agrupación:
para analizar los datos de una manera más específica, se utiliza este método. A veces se le llama análisis de conglomerados. Se puede decir que es un proceso de aprendizaje automático no supervisado para identificar y crear grupos con tipos de datos similares dentro de un gran conjunto de datos. - Regresión:
se utiliza básicamente para analizar la correlación entre valores continuos. - Regla de asociación:
implica modelos de aprendizaje automático para analizar datos en busca de patrones en una base de datos. Esto ayuda en el diseño del catálogo, el marketing cruzado y el análisis del comportamiento de compra del cliente para una mejor toma de decisiones. - Redes neuronales:
se puede decir que son una serie de algoritmos que aspiran a reconocer la relación subyacente entre las bases de datos con la ayuda de imitar el funcionamiento del cerebro humano.
2. Perfilado de
datos: el perfilado de datos es un proceso de análisis de datos del existente. Para transferir los datos de un sistema a otro, utiliza el proceso ETL (es decir, Extraer, Transformar y Cargar).
El perfilado de datos es muy crucial en:
- Proyectos de almacenamiento de datos e inteligencia empresarial (DW/BI):
con la ayuda de ETL, la creación de perfiles de datos puede detectar errores de calidad de datos en las fuentes de datos. - Proyectos de conversión y migración de datos:
transfieren datos de una plataforma a otras fuentes para que podamos agregar nuevas funciones a las tecnologías y mejorar su rendimiento para las organizaciones. - Proceso de calidad de datos del sistema de origen:
la creación de perfiles de datos puede resaltar los datos que tienen algunos problemas continuos y el origen de los problemas (ex-entradas, errores, corrupción de datos).
Técnicas de creación de perfiles de datos:
- Descubrimiento de estructura:
ayuda a analizar los datos si nuestros datos son acordes y tienen el formato correcto mediante la aplicación de estadísticas matemáticas sobre los datos, es decir, (suma, mínimo o máximo). - Descubrimiento de contenido:
se enfoca en el contenido específico para descubrir errores, como filas específicas en una tabla que tienen problemas y en qué parte del sistema ocurren los problemas. - Descubrimiento de relaciones:
recopila los datos y descubre la correlación entre diferentes elementos de datos o dentro de una base de datos.
Pasos seguidos por el perfilado de datos:
- Busque datos precisos para la creación de perfiles de datos.
- Descubra los problemas y corríjalos con respecto a la calidad de los datos en un conjunto de datos.
- Con la ayuda del proceso ETL, se pueden identificar problemas de calidad de datos.
- Con la ayuda de algunas relaciones de clave externa, estructuras jerárquicas y algunas reglas comerciales previstas, el proceso ETL se puede ejecutar perfectamente.
Diferencia entre la creación de perfiles de datos y la minería de datos:
S. NO. |
PROCESAMIENTO DE DATOS |
PERFILADO DE DATOS |
01. | La minería de datos es el proceso de identificar los patrones en una base de datos preconstruida. | 1. La elaboración de perfiles de datos es un proceso de análisis de datos del existente. |
02 | También se denomina KDD, que es descubrimiento de conocimiento en bases de datos. | También se conoce como arqueología de datos. |
03. | El propósito de la minería de datos es construir técnicas de aprendizaje automático para necesidades en tiempo real. | El propósito de la elaboración de perfiles de datos es brindarnos precisión, coherencia, unicidad y ausencia de errores dentro de un conjunto de datos. |
04. | Extrae datos aplicando algunas metodologías basadas en computadora y algún algoritmo. | Se extrae del conjunto de datos sin procesar existente. |
05. | El objetivo de la minería de datos es extraer los datos de las fuentes para resolver algunos problemas a través del análisis de datos. | El propósito es recopilar datos precisos para reconocer el uso y la calidad de esos datos. |
06 | Por lo general, se ejecuta en los datos estructurados. | Se ejecuta en datos estructurados y no estructurados. |
07 | Esto implica clasificación, agrupamiento, regresión, regla de asociación y redes neuronales para realizar tareas. | Esto implica técnicas analíticas y de descubrimiento para recopilar resúmenes informativos relacionados con los datos. |
08 | Las aplicaciones de la minería de datos involucran el comportamiento del cliente, análisis de crédito, detección de fraude, inteligencia comercial, etc. | Las aplicaciones de elaboración de perfiles de datos implican publicidad dirigida, detección de fraudes y riesgos, reconocimiento de imágenes, logística de entrega, etc. |
09 | Las herramientas utilizadas para la minería de datos son Weka, RapidMiner, Orange, KNIME, Sisense, SPSS, SPSS Modeler, Rattle, Data Melt, etc. | Las herramientas utilizadas para la creación de perfiles de datos son Atlan, Aggregate Profiler, IBM Infosphere Information Analyzer, Informatica Data Explorer, Melissa Data Profiler, Microsoft Docs, etc. |
Publicación traducida automáticamente
Artículo escrito por Satyabrata_Jena y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA