Exploración con Binning Hexagonal y Gráficos de Contorno

El agrupamiento hexagonal es un gráfico de dos variables numéricas con los registros agrupados en hexágonos. El siguiente código es un diagrama de agrupamiento hexagonal de la relación entre los pies cuadrados terminados y el valor de tasación fiscal de las viviendas. En lugar de trazar puntos, los registros se agrupan en contenedores hexagonales y … Continue reading «Exploración con Binning Hexagonal y Gráficos de Contorno»

Las 10 mejores habilidades de ciencia de datos para aprender en 2020

¿Sabes qué es un “Empleado Unicornio”? Bueno, en los tiempos de hoy eso es alguien que tiene múltiples talentos, trabaja duro y está listo para hacer un esfuerzo adicional. Y si bien es bastante difícil convertirse en un empleado unicornio, puede convertirse en uno en Data Science al comprender y aprender al menos los conceptos … Continue reading «Las 10 mejores habilidades de ciencia de datos para aprender en 2020»

Diferencia entre computación en la nube y Hadoop

La construcción de infraestructura para la computación en la nube representa casi un tercio de todo el gasto en TI en todo el mundo. La computación en la nube está jugando un papel importante en el sector de TI, sin embargo, por otro lado, las organizaciones comenzaron a usar Hadoop a gran escala hoy en … Continue reading «Diferencia entre computación en la nube y Hadoop»

Clustering proyectado en análisis de datos

En este artículo, vamos a discutir sobre el agrupamiento proyectado en el análisis de datos. Agrupamiento proyectado: el agrupamiento proyectado es el primer algoritmo de agrupamiento proyectado de partición de arriba hacia abajo basado en la noción de agrupamiento k-medoid que fue presentado por Aggarwal (1999). Determina medoids para cada grupo de forma repetitiva en … Continue reading «Clustering proyectado en análisis de datos»

¿Qué es Datos?

Según Oxford , “Los datos son piezas distintas de información, generalmente formateadas de una manera especial”. Los datos se miden, recopilan, notifican y analizan, luego de lo cual a menudo se visualizan mediante gráficos, imágenes u otras herramientas de análisis. Los datos sin procesar («datos no procesados») pueden ser una colección de números o caracteres … Continue reading «¿Qué es Datos?»

Creación de su blog de ciencia de datos con pelícano

El primer paso para conseguir un trabajo en Data Science es construir un perfil sólido. Los aspirantes a científicos de datos a menudo investigan y estudian en este campo, sin embargo, no dan los pasos correctos en la dirección correcta. Pero los expertos aconsejan a los aspirantes a científicos de datos que escriban un blog … Continue reading «Creación de su blog de ciencia de datos con pelícano»

Manejo de datos desequilibrados para la clasificación

Conjunto de datos equilibrado vs desequilibrado: Conjunto de datos equilibrado: en un conjunto de datos equilibrado, hay una distribución aproximadamente igual de clases en la columna de destino. Conjunto de datos desequilibrado: en un conjunto de datos desequilibrado, hay una distribución de clases muy desigual en la columna de destino. Entendamos esto con la ayuda … Continue reading «Manejo de datos desequilibrados para la clasificación»

Tutorial de ciencia de datos con Python

Este tutorial de ciencia de datos con Python lo ayudará a aprender los conceptos básicos de Python junto con los diferentes pasos de la ciencia de datos, como el preprocesamiento de datos, la visualización de datos, las estadísticas, la creación de modelos de aprendizaje automático y mucho más con la ayuda de ejemplos detallados y … Continue reading «Tutorial de ciencia de datos con Python»

Vectorización en Python

Sabemos que la mayor parte de la aplicación tiene que lidiar con una gran cantidad de conjuntos de datos. Por lo tanto, una función no óptima desde el punto de vista computacional puede convertirse en un gran cuello de botella en su algoritmo y puede dar como resultado un modelo que tarde años en ejecutarse. … Continue reading «Vectorización en Python»

Python – Prueba Chi-Cuadrado de Pearson

La hipótesis estadística Chi-Cuadrado de Pearson es una prueba de independencia entre variables categóricas. En este artículo, realizaremos la prueba usando un enfoque matemático y luego usando el módulo SciPy de Python. Primero, veamos el enfoque matemático: La tabla de contingencia: una tabla de contingencia (también llamada tabulación cruzada) se usa en estadísticas para resumir … Continue reading «Python – Prueba Chi-Cuadrado de Pearson»