En esta publicación, discutiremos cuáles son las diferentes fuentes de datos que se utilizan en el proceso de minería de datos. Los datos de múltiples fuentes se integran en una fuente común conocida como Data Warehouse .
Analicemos qué tipo de datos se pueden extraer:
- Archivos planos
- Bases de datos relacionales
- Almacén de datos
- Bases de datos transaccionales
- Bases de datos multimedia
- Bases de datos espaciales
- Bases de datos de series temporales
- World Wide Web (WWW)
- Archivos planos
- Los archivos planos se definen como archivos de datos en formato de texto o binario con una estructura que se puede extraer fácilmente mediante algoritmos de minería de datos.
- Los datos almacenados en archivos sin formato no tienen relación ni ruta entre ellos, como si una base de datos relacional se almacenara en un archivo sin formato, entonces no habrá relaciones entre las tablas.
- Los archivos planos están representados por un diccionario de datos. Por ejemplo: archivo CSV.
- Aplicación : se utiliza en almacenamiento de datos para almacenar datos, se utiliza para transportar datos hacia y desde el servidor, etc.
- Bases de datos relacionales
- Una base de datos relacional se define como la colección de datos organizados en tablas con filas y columnas.
- El esquema físico en las bases de datos relacionales es un esquema que define la estructura de las tablas.
- El esquema lógico en las bases de datos relacionales es un esquema que define la relación entre las tablas.
- La API estándar de la base de datos relacional es SQL .
- Aplicación : Minería de datos, modelo ROLAP, etc.
- Almacén de datos
- Un almacén de datos se define como la recopilación de datos integrados de múltiples fuentes que servirán para realizar consultas y tomar decisiones.
- Hay tres tipos de datawarehouse: Enterprise datawarehouse, Data Mart y Virtual Warehouse.
- Se pueden utilizar dos enfoques para actualizar datos en DataWarehouse: enfoque basado en consultas y enfoque basado en actualizaciones .
- Aplicación : toma de decisiones empresariales, minería de datos, etc.
- Bases de datos transaccionales
- Las bases de datos transaccionales son una colección de datos organizados por marcas de tiempo, fecha, etc. para representar transacciones en bases de datos.
- Este tipo de base de datos tiene la capacidad de revertir o deshacer su operación cuando una transacción no se completa o confirma.
- Sistema altamente flexible donde los usuarios pueden modificar la información sin cambiar ninguna información sensible.
- Sigue la propiedad ACID de DBMS.
- Aplicación : Banca, Sistemas distribuidos, Bases de datos de objetos, etc.
- Bases de datos multimedia
- Las bases de datos multimedia consisten en medios de audio, video, imágenes y texto.
- Se pueden almacenar en bases de datos orientadas a objetos.
- Se utilizan para almacenar información compleja en formatos preestablecidos.
- Aplicación : Bibliotecas digitales, video-on-demand, news-on-demand, base de datos musical, etc.
- Base de datos espacial
- Almacenar información geográfica.
- Almacena datos en forma de coordenadas, topología, líneas, polígonos, etc.
- Aplicación : Mapas, Posicionamiento global, etc.
- Bases de datos de series temporales
- Las bases de datos de series temporales contienen datos bursátiles y actividades registradas por el usuario.
- Maneja una array de números indexados por hora, fecha, etc.
- Requiere análisis en tiempo real.
- Aplicación : eXtremeDB, Graphite, InfluxDB, etc.
- WWW
- WWW se refiere a World wide web es una colección de documentos y recursos como audio, video, texto, etc., que se identifican mediante localizadores uniformes de recursos (URL) a través de navegadores web, vinculados por páginas HTML y accesibles a través de la red de Internet.
- Es el repositorio más heterogéneo ya que recopila datos de múltiples recursos.
- Es de naturaleza dinámica ya que el volumen de datos aumenta y cambia continuamente.
- Aplicación : compras en línea, búsqueda de empleo, investigación, estudio, etc.
Publicación traducida automáticamente
Artículo escrito por Abhishek rajput y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA