Cualquier situación se puede analizar de dos formas en la minería de datos:
- Análisis estadístico: en estadística, los datos se recopilan, analizan, exploran y presentan para identificar patrones y tendencias. Alternativamente, se le conoce como análisis cuantitativo.
- Análisis no estadístico: este análisis proporciona información generalizada e incluye sonido, imágenes fijas e imágenes en movimiento.
En estadística, hay dos categorías principales:
- Estadísticas descriptivas: el propósito de las estadísticas descriptivas es organizar los datos e identificar las principales características de esos datos. Los gráficos o números resumen los datos. La media, la moda, la SD (desviación estándar) y la correlación son algunos de los métodos estadísticos descriptivos más utilizados.
- Estadística inferencial: el proceso de sacar conclusiones basadas en la teoría de la probabilidad y generalizar los datos. Al analizar estadísticas de muestra, puede inferir parámetros sobre poblaciones y crear modelos de relaciones dentro de los datos.
Hay varios términos estadísticos que uno debe tener en cuenta al tratar con estadísticas. Algunos de estos son:
- Población
- Muestra
- Variable
- Variable cuantitativa
- Variable Cualitativa
- Variable discreta
- Variable continua
Ahora, comencemos a discutir los métodos estadísticos. Este es el análisis de datos sin procesar utilizando fórmulas, modelos y técnicas matemáticas. Mediante el uso de métodos estadísticos, la información se extrae de los datos de la investigación y hay diferentes formas disponibles para juzgar la solidez de los resultados de la investigación.
De hecho, los métodos estadísticos actuales que se utilizan en el campo de la minería de datos generalmente se derivan del vasto conjunto de herramientas estadísticas desarrollado para responder a los problemas que surgen en otros campos. Estas técnicas se enseñan en los currículos de ciencias. Es necesario comprobar y probar varias hipótesis. Las hipótesis descritas anteriormente nos ayudan a evaluar la validez de nuestro esfuerzo de minería de datos al intentar inferir cualquier inferencia de los datos bajo estudio. Cuando se utilizan estimadores y pruebas estadísticas más complejos y sofisticados, estos problemas se vuelven más pronunciados.
Para extraer conocimiento de bases de datos que contienen diferentes tipos de observaciones, en Minería de Datos se dispone de una variedad de métodos estadísticos y algunos de estos son:
- Análisis de regresión logística
- Análisis de correlación
- Análisis de regresión
- Análisis discriminado
- Análisis discriminante lineal (LDA)
- Clasificación
- Agrupación
- Detección de valores atípicos
- Árboles de clasificación y regresión,
- Análisis de correspondencia
- regresión no paramétrica,
- Reconocimiento de patrones estadísticos,
- Análisis de datos categóricos,
- Métodos de series de tiempo para tendencias y periodicidad.
- Redes neuronales artificiales
Ahora, intentemos comprender algunos de los métodos estadísticos importantes que se utilizan en la minería de datos:
- Regresión lineal: el método de regresión lineal utiliza la mejor relación lineal entre las variables independientes y dependientes para predecir la variable objetivo. Para lograr el mejor ajuste, asegúrese de que todas las distancias entre la forma y las observaciones reales en cada punto sean lo más pequeñas posible. Se puede determinar un buen ajuste determinando que ninguna otra posición produciría menos errores dada la forma elegida. La regresión lineal simple y la regresión lineal múltiple son los dos tipos principales de regresión lineal. Al ajustar una relación lineal a la variable independiente, la regresión lineal simple predice la variable dependiente. Usando múltiples variables independientes, la regresión lineal múltiple ajusta la mejor relación lineal con la variable dependiente. Para más detalles, puede consultarregresión lineal.
- Clasificación: Este es un método de minería de datos en el que una colección de datos se categoriza para poder predecir y analizar un mayor grado de precisión. Una forma efectiva de analizar conjuntos de datos muy grandes es clasificarlos. La clasificación es uno de varios métodos destinados a mejorar la eficiencia del proceso de análisis. Una regresión logística y un análisis discriminante se destacan como dos técnicas principales de clasificación.
- Regresión logística: también se puede aplicar a aplicaciones de aprendizaje automático y análisis predictivo. En este enfoque, la variable dependiente es binaria (regresión binaria) o multinomial (regresión multinomial): una de las dos o un conjunto de una, dos, tres o cuatro opciones. Con una ecuación de regresión logística, se pueden estimar probabilidades con respecto a la relación entre la variable independiente y la variable dependiente. Para comprender el análisis de regresión logística en detalle, puede consultar la regresión logística.
- Análisis Discriminante: Un Análisis Discriminante es un método estadístico para analizar datos basado en las mediciones de categorías o grupos y categorizar nuevas observaciones en una o más poblaciones que fueron identificadas a priori. El análisis discriminante modela cada clase de respuesta de forma independiente y luego usa el teorema de Bayes para cambiar estas proyecciones y estimar la probabilidad de cada categoría de respuesta dado el valor de X. Estos modelos pueden ser lineales o cuadráticos.
- Análisis Discriminante Lineal: Según el Análisis Discriminante Lineal, a cada observación se le asigna una puntuación discriminante para clasificarla en una clase de variable de respuesta. Combinando las variables independientes de forma lineal, se pueden obtener estos puntajes. Según este modelo, las observaciones se extraen de una distribución gaussiana y las variables predictoras se correlacionan en todos los k niveles de la variable de respuesta, Y. y, para obtener más detalles , el análisis discriminante lineal
- Análisis Discriminante Cuadrático: El Análisis Discriminante Cuadrático proporciona un enfoque alternativo. Tanto LDA como QDA asumen distribuciones gaussianas para las observaciones de las clases Y. A diferencia de LDA, QDA considera que cada clase tiene su propia array de covarianza. Como resultado, las variables predictoras tienen diferentes varianzas a lo largo de los k niveles en Y.
- Análisis de correlación: en términos estadísticos, el análisis de correlación captura la relación entre las variables en un par. El valor de tales variables generalmente se almacena en una columna o filas de una tabla de base de datos y representa una propiedad de un objeto.
- Análisis de regresión: basada en un conjunto de datos numéricos, la regresión es un método de minería de datos que predice un rango de valores numéricos (también conocidos como valores continuos). Podría, por ejemplo, usar la regresión para predecir el costo de los bienes y servicios en función de otras variables. Un modelo de regresión se utiliza en numerosas industrias para pronosticar datos financieros, modelar condiciones ambientales y analizar tendencias.
El primer paso para crear buenas estadísticas es tener buenos datos que se derivaron con un objetivo en mente. Hay dos tipos principales de datos: una variable de entrada (independiente o predictora), que controlamos o podemos medir, y una variable de salida (dependiente o de respuesta) que se observa. Algunas serán medidas cuantitativas, pero otras pueden ser variables cualitativas o categóricas (llamadas factores).