El análisis exploratorio de datos fue promovido por John Tukey para alentar a los estadísticos a explorar datos y posiblemente formular hipótesis que podrían generar nuevos experimentos y recopilación de datos. EDA se enfoca más específicamente en verificar los supuestos requeridos para el ajuste del modelo y la prueba de hipótesis. También verifica mientras maneja los valores faltantes y realiza transformaciones de variables según sea necesario.
EDA construye una comprensión sólida de los datos, problemas asociados con la información o el proceso. es un enfoque científico para obtener la historia de los datos.
TIPOS DE ANÁLISIS DE DATOS EXPLORATORIOS:
- Univariado No gráfico
- Multivariante No gráfico
- Gráfico univariado
- Gráfico multivariante
1. Univariado No gráfico: esta es la forma más simple de análisis de datos ya que durante esto usamos solo una variable para investigar la información. El objetivo estándar de la EDA no gráfica univariada es conocer la distribución/datos de la muestra subyacente y hacer observaciones sobre la población. La detección de valores atípicos también forma parte del análisis. Las características de la distribución de la población incluyen:
- Tendencia central: La tendencia central o ubicación de la distribución tiene que ver con valores típicos o medios. Las medidas de tendencia central comúnmente útiles son estadísticas denominadas media, mediana y, a veces, moda, en las que la más común es la media. Para una distribución sesgada o cuando hay preocupación por los valores atípicos, se puede preferir la mediana.
- Spread: Spread es un indicador de qué proporción lejos del medio estamos para buscar los valores de información. la desviación y la varianza de la calidad son dos medidas útiles de dispersión. La varianza es que la media del cuadrado de las desviaciones individuales y por lo tanto la varianza es la raíz de la varianza
- Sesgo y curtosis: dos descriptores univariados más útiles son el sesgo y la curtosis de la distribución. La asimetría es que la medida de asimetría y curtosis puede ser una medida más sutil de picos en comparación con una distribución normal.
2. No gráfico multivariante: la técnica EDA no gráfica multivariante suele mostrar la conexión entre dos o más variables en forma de tabulación cruzada o estadística.
- Para datos categóricos, una extensión de tabulación llamada tabulación cruzada es extremadamente útil. Para 2 variables, se prefiere la tabulación cruzada haciendo una tabla de doble entrada con encabezados de columna que coincidan con la cantidad de una variable y encabezados de fila que coincidan con la cantidad de las dos variables opuestas, luego completando los conteos con todos los sujetos que comparten una variable. par equivalente de niveles.
- Para cada variable categórica y una variable cuantitativa, creamos estadísticas para variables cuantitativas por separado para cada nivel de la variable específica y luego comparamos las estadísticas a través de la cantidad de variable categórica.
- La comparación de medias es una versión improvisada de ANOVA y la comparación de medianas puede ser una versión robusta de ANOVA unidireccional.
3. Gráfico univariado: Los métodos no gráficos son cuantitativos y objetivos, no dan la imagen completa de los datos; por lo tanto, los métodos gráficos implican más un grado de análisis subjetivo, también son necesarios. Los tipos comunes de gráficos univariados son:
- Histograma: el gráfico básico más importante es un histograma, que puede ser un gráfico de barras en el que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos para una variedad de valores. Los histogramas son una de las formas más sencillas de aprender rápidamente mucho sobre sus datos, incluida la tendencia central, la dispersión, la modalidad, la forma y los valores atípicos.
- Diagramas de tallo y hojas: un sustituto fácil de un histograma pueden ser los diagramas de tallo y hojas. Muestra todos los valores de los datos y, por lo tanto, la forma de la distribución.
- Boxplots: Otra técnica gráfica univariante muy útil es el boxplot. Los diagramas de caja son excelentes para presentar información sobre la tendencia central y muestran medidas sólidas de ubicación y dispersión, además de proporcionar información sobre la simetría y los valores atípicos, aunque pueden resultar engañosos en aspectos como la multimodalidad. Uno de los usos más simples de los diagramas de caja es en forma de diagramas de caja uno al lado del otro.
- Gráficas de cuantiles normales: la última técnica EDA gráfica univariante es la más compleja. se llama gráfico cuantil-normal o QN o, más generalmente, gráfico cuantil-cuantil o QQ. es costumbre ver qué tan bien una muestra específica sigue una distribución teórica específica. Permite la detección de no normalidad y el diagnóstico de asimetría y curtosis.
4. Gráfico multivariado: los datos gráficos multivariados utilizan gráficos para mostrar las relaciones entre dos o más conjuntos de conocimientos. El único que se usa comúnmente puede ser un gráfico de barras agrupado en el que cada grupo representa un nivel de 1 de las variables y cada barra dentro de un grupo representa la cantidad de la variable opuesta.
Otros tipos comunes de gráficos multivariantes son:
- Diagrama de dispersión: para 2 variables cuantitativas, la técnica EDA gráfica esencial es que el diagrama de dispersión, por lo tanto, tiene una variable en el eje x y otra en el eje y y, por lo tanto, el punto para cada caso en su conjunto de datos.
- Gráfico de ejecución: es un gráfico de líneas de datos trazados a lo largo del tiempo.
- Mapa de calor: es una representación gráfica de datos donde los valores se representan por color.
- Gráfico multivariado: Es una representación gráfica de las relaciones entre los factores y la respuesta.
- Gráfico de burbujas: es una visualización de datos que muestra varios círculos (burbujas) en un gráfico bidimensional.
En pocas palabras: siempre debe realizar la EDA adecuada antes de realizar más análisis de sus datos. Realice los pasos que sean necesarios para familiarizarse más con sus datos, verifique errores obvios, aprenda sobre distribuciones de variables y estudie las relaciones entre variables. EDA no es una ciencia exacta, ¡es muy importante!
HERRAMIENTAS REQUERIDAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS:
Algunas de las herramientas más comunes utilizadas para crear un EDA son:
1. R: un lenguaje de programación de código abierto y un entorno de software gratuito para computación estadística y gráficos respaldados por la base R para computación estadística. El lenguaje R se usa ampliamente entre los estadísticos para desarrollar observaciones estadísticas y análisis de datos.
2. Python: un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Sus estructuras de datos incorporadas de alto nivel, combinadas con el enlace dinámico, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, también como lenguaje de secuencias de comandos o pegamento para unir componentes existentes. Python y EDA a menudo se usan juntos para detectar valores faltantes en el conjunto de datos, lo cual es vital para que pueda decidir la forma de manejar los valores faltantes para el aprendizaje automático.
Además de estas funciones descritas anteriormente, EDA también puede:
- Realizar agrupamiento de k-means: realizar agrupamiento de k-means: es un algoritmo de aprendizaje no supervisado en el que los puntos de información se asignan a grupos, también denominados k-groups, el agrupamiento de k-means generalmente se utiliza en la segmentación del mercado, la compresión de imágenes y el patrón. reconocimiento
- EDA se utiliza a menudo en modelos predictivos como la regresión lineal, donde se acostumbra a predecir resultados.
- También se utiliza en la visualización univariante, bivariante y multivariante para resumir estadísticas, establecer relaciones entre cada variable y comprender cómo los diferentes campos dentro de los datos interactúan entre sí.
Publicación traducida automáticamente
Artículo escrito por simrankumar0799 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA