Los datos semiestructurados son datos que no se ajustan a un modelo de datos pero tienen alguna estructura. Carece de un esquema fijo o rígido. Son los datos que no residen en una base de datos racional pero que tienen algunas propiedades organizativas que facilitan su análisis. Con algunos procesos, podemos almacenarlos en la base de datos relacional.
Características de los Datos semiestructurados:
- Los datos no se ajustan a un modelo de datos pero tienen alguna estructura.
- Los datos no se pueden almacenar en forma de filas y columnas como en las bases de datos
- Los datos semiestructurados contienen etiquetas y elementos (metadatos) que se utilizan para agrupar datos y describir cómo se almacenan.
- Las entidades similares se agrupan y organizan en una jerarquía.
- Las entidades en el mismo grupo pueden o no tener los mismos atributos o propiedades
- No contiene suficientes metadatos, lo que dificulta la automatización y la gestión de datos.
- El tamaño y el tipo de los mismos atributos en un grupo pueden diferir
- Debido a la falta de una estructura bien definida, los programas de computadora no pueden utilizarlo fácilmente.
Fuentes de datos semiestructurados:
- correos electrónicos
- XML y otros lenguajes de marcado
- Ejecutables binarios
- paquetes TCP/IP
- archivos comprimidos
- Integración de datos de diferentes fuentes.
- páginas web
Ventajas de los datos semiestructurados:
- Los datos no están restringidos por un esquema fijo
- Flexible, es decir, el esquema se puede cambiar fácilmente.
- Los datos son portátiles
- Es posible ver los datos estructurados como datos semiestructurados
- Es compatible con los usuarios que no pueden expresar su necesidad en SQL
- Puede lidiar fácilmente con la heterogeneidad de las fuentes.
Desventajas de los datos semiestructurados
- La falta de un esquema fijo y rígido dificulta el almacenamiento de los datos
- Interpretar la relación entre los datos es difícil ya que no hay separación entre el esquema y los datos.
- Las consultas son menos eficientes en comparación con los datos estructurados .
Problemas enfrentados en el almacenamiento de datos semiestructurados
- Los datos suelen tener una estructura irregular y parcial. Algunas fuentes tienen una estructura de datos implícita, lo que dificulta la interpretación de la relación entre los datos.
- El esquema y los datos suelen estar estrechamente acoplados, es decir, no solo están vinculados entre sí, sino que también dependen unos de otros. La misma consulta puede actualizar tanto el esquema como los datos y el esquema se actualiza con frecuencia.
- La distinción entre esquema y datos es muy incierta o poco clara. Esto complica el diseño de la estructura de datos.
- El costo de almacenamiento es alto en comparación con los datos estructurados
Posible solución para almacenar datos semiestructurados
- Los datos se pueden almacenar en un DBMS especialmente diseñado para almacenar datos semiestructurados
- XML se usa ampliamente para almacenar e intercambiar datos semiestructurados. Permite a su usuario definir etiquetas y atributos para almacenar los datos en forma jerárquica.
El esquema y los datos no están estrechamente acoplados en XML. - El modelo de intercambio de objetos (OEM) se puede utilizar para almacenar e intercambiar datos semiestructurados. OEM estructura los datos en forma de gráfico.
- RDBMS se puede usar para almacenar los datos mapeando los datos a un esquema relacional y luego mapeándolos a una tabla
Extraer información de datos semiestructurados Los
datos semiestructurados tienen una estructura diferente debido a la heterogeneidad de las fuentes. A veces no contienen ninguna estructura en absoluto. Esto hace que sea difícil etiquetar e indexar. Entonces, mientras que extraer información de ellos es un trabajo difícil. Aquí hay posibles soluciones:
- Se pueden usar modelos basados en gráficos (p. ej., OEM) para indexar datos semiestructurados
- La técnica de modelado de datos en OEM permite que los datos se almacenen en un modelo basado en gráficos. Los datos en el modelo basado en gráficos son más fáciles de buscar e indexar.
- XML permite organizar los datos en orden jerárquico, lo que permite indexarlos y buscarlos
- Uso de varias herramientas de minería de datos.
Para leer las diferencias entre datos estructurados, semiestructurados y no estructurados, consulte el siguiente artículo: