Diferentes fuentes de datos para el análisis de datos

La recopilación de datos es el proceso de adquirir, recopilar, extraer y almacenar la gran cantidad de datos que pueden estar en forma estructurada o no estructurada, como texto, video, audio, archivos XML, registros u otros archivos de imagen utilizados en etapas posteriores de datos. análisis.
En el proceso de análisis de big data, la “recopilación de datos” es el paso inicial antes de comenzar a analizar los patrones o la información útil en los datos. Los datos que se van a analizar deben recopilarse de diferentes fuentes válidas.

Different-Sources-of-Data-for-Data-Analysis

Los datos que se recopilan se conocen como datos sin procesar que no son útiles ahora, pero al limpiar lo impuro y utilizar esos datos para obtener más información de formularios de análisis, la información obtenida se conoce como «conocimiento». El conocimiento tiene muchos significados, como conocimiento comercial o ventas de productos empresariales, tratamiento de enfermedades, etc. El objetivo principal de la recopilación de datos es recopilar datos ricos en información.

La recopilación de datos comienza con algunas preguntas, como qué tipo de datos se recopilarán y cuál es la fuente de recopilación. La mayoría de los datos recopilados son de dos tipos conocidos como «datos cualitativos», que es un grupo de datos no numéricos, como palabras, oraciones que en su mayoría se enfocan en el comportamiento y las acciones del grupo y otro es «datos cuantitativos» que está en forma numérica. formas y se puede calcular utilizando diferentes herramientas científicas y datos de muestreo.

Los datos reales se dividen principalmente en dos tipos conocidos como:

  1. Información primaria
  2. Datos secundarios

Data-Dividation-in-Data-Analysis

1. Datos primarios:

Los datos sin procesar, originales y extraídos directamente de las fuentes oficiales se conocen como datos primarios. Este tipo de datos se recopila directamente mediante la realización de técnicas como cuestionarios, entrevistas y encuestas. Los datos recopilados deben estar de acuerdo con la demanda y los requisitos del público objetivo sobre el que se realiza el análisis, de lo contrario sería una carga en el procesamiento de datos.

Pocos métodos de recopilación de datos primarios:

1. Método de entrevista:

Los datos recopilados durante este proceso son a través de entrevistas al público objetivo por una persona llamada entrevistador y la persona que responde a la entrevista se conoce como el entrevistado. Algunas preguntas básicas relacionadas con el negocio o el producto se hacen y se anotan en forma de notas, audio o video y estos datos se almacenan para su procesamiento. Estas pueden ser tanto estructuradas como no estructuradas como entrevistas personales o entrevistas formales por teléfono, cara a cara, correo electrónico, etc.

2. Método de encuesta:

El método de encuesta es el proceso de investigación en el que se hace una lista de preguntas relevantes y se anotan las respuestas en forma de texto, audio o video. El método de encuesta se puede obtener tanto en modo en línea como fuera de línea, como a través de formularios del sitio web y correo electrónico. Luego, las respuestas de la encuesta se almacenan para analizar los datos. Algunos ejemplos son las encuestas en línea o las encuestas a través de las redes sociales.

3. Método de observación:

El método de observación es un método de recopilación de datos en el que el investigador observa atentamente el comportamiento y las prácticas de la audiencia objetivo utilizando alguna herramienta de recopilación de datos y almacena los datos observados en forma de texto, audio, video o cualquier formato sin formato. En este método, los datos se recopilan directamente mediante la publicación de algunas preguntas a los participantes. Por ejemplo, observar un grupo de clientes y su comportamiento hacia los productos. Los datos obtenidos serán enviados para su tratamiento.

4. Método experimental:

El método experimental es el proceso de recopilación de datos mediante la realización de experimentos, investigación e investigación. Los métodos de experimentación más utilizados son CRD, RBD, LSD, FD.

  • CRD: el diseño completamente aleatorio es un diseño experimental simple utilizado en el análisis de datos que se basa en la aleatorización y la replicación. Se utiliza principalmente para comparar los experimentos.
  • RBD- Randomized Block Design es un diseño experimental en el que el experimento se divide en pequeñas unidades llamadas bloques. Se realizan experimentos aleatorios en cada uno de los bloques y los resultados se extraen utilizando una técnica conocida como análisis de varianza (ANOVA). RBD se originó en el sector agrícola.
  • LSD – Latin Square Design es un diseño experimental que es similar a los bloques CRD y RBD pero contiene filas y columnas. Es un arreglo de NxN cuadrados con la misma cantidad de filas y columnas que contienen letras que ocurre solo una vez en una fila. Por lo tanto, las diferencias se pueden encontrar fácilmente con menos errores en el experimento. El rompecabezas Sudoku es un ejemplo de un diseño cuadrado latino.
  • FD: el diseño factorial es un diseño experimental en el que cada experimento tiene dos factores, cada uno con valores posibles y, al realizar el seguimiento, se derivan otros factores combinacionales.

2. Datos secundarios:

Los datos secundarios son los datos que ya han sido recopilados y reutilizados nuevamente para algún propósito válido. Este tipo de datos se registra previamente a partir de datos primarios y tiene dos tipos de fuentes denominadas fuente interna y fuente externa.

Fuente interna:

Estos tipos de datos se pueden encontrar fácilmente dentro de la organización, como registros de mercado, registros de ventas, transacciones, datos de clientes, recursos contables, etc. El costo y el consumo de tiempo son menores en la obtención de fuentes internas.

Fuente externa:

Los datos que no se pueden encontrar en organizaciones internas y se pueden obtener a través de recursos externos de terceros son datos de fuentes externas. El costo y el consumo de tiempo es mayor porque contiene una gran cantidad de datos. Ejemplos de fuentes externas son las publicaciones gubernamentales, las publicaciones de noticias, el Registro General de la India, la comisión de planificación, la oficina laboral internacional, los servicios de sindicatos y otras publicaciones no gubernamentales.

Otras fuentes:

  • Datos de sensores: con el avance de los dispositivos IoT, los sensores de estos dispositivos recopilan datos que se pueden usar para el análisis de datos de sensores para rastrear el rendimiento y el uso de productos.
  • Datos de satélites: los satélites recopilan una gran cantidad de imágenes y datos en terabytes diariamente a través de cámaras de vigilancia que pueden usarse para recopilar información útil.
  • Tráfico web: debido a las instalaciones de Internet rápidas y económicas, muchos formatos de datos que cargan los usuarios en diferentes plataformas se pueden predecir y recopilar con su permiso para el análisis de datos. Los motores de búsqueda también brindan sus datos a través de palabras clave y consultas buscadas en su mayoría.

Publicación traducida automáticamente

Artículo escrito por akhaleqh02 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *