Minería de datos: atributos y calidad de los datos

Prerrequisito – Data Mining  
Data: Es cómo se almacenan los objetos de datos y sus atributos. 
 

  • Un atributo es la propiedad o las características de un objeto. Por ejemplo. El color del cabello de una persona, la humedad del aire, etc.
  • Un conjunto de atributos define un objeto . El objeto también se conoce como un registro de las instancias o entidad.

Diferentes tipos de atributos o tipos de datos: 
 

  1. Atributo Nominal: Los Atributos 
    Nominales solo proporcionan suficientes atributos para diferenciar entre un objeto y otro. Tales como número de lista de estudiantes, sexo de la persona. 
     
  2. Atributo ordinal: 
    el valor del atributo ordinal proporciona información suficiente para ordenar los objetos. Tales como clasificaciones, grados, altura
  3. Atributo binario: 
    estos son 0 y 1. Donde 0 es la ausencia de características y 1 es la inclusión de características.
  4. Atributo numérico: Es cuantitativo, tal que la cantidad se puede medir y representar en valores enteros o reales, son de dos tipos
    Atributo escalado de intervalo: 
    Se mide en una escala de unidades de igual tamaño, estos atributos nos permiten comparar, como la temperatura en C o F y, por lo tanto, los valores de los atributos tienen orden.
     
  5. Atributo Ratio Scaled: 
    Tanto las diferencias como los ratios son significativos para Ratio. Por ej. edad, longitud, Peso.

Calidad de los datos: ¿Por qué preprocesamos los datos?  
Muchas características actúan como un factor decisivo para la calidad de los datos, como información incompleta e incoherente, que son propiedades comunes de la gran base de datos en el mundo real. Los factores utilizados para la evaluación de la calidad de los datos son: 
 

  • Precisión: 
    Hay muchas razones posibles para que los datos sean erróneos o inexactos aquí. es decir, tener valores incorrectos de propiedades que podrían ser errores humanos o informáticos. 
     
  • Integridad: 
    por algunas razones, pueden ocurrir datos incompletos, los atributos de interés, como la información del cliente para los datos de ventas y transacciones, pueden no estar siempre disponibles. 
     
  • Coherencia: Los 
    datos incorrectos también pueden resultar de inconsistencias en la convención de nomenclatura o códigos de datos, o del formato incoherente del campo de entrada. Las tuplas duplicadas también necesitan limpieza de detalles. 
     
  • Oportunidad: 
    También afecta la calidad de los datos. Al final del mes, varios representantes de ventas no presentan su registro de ventas a tiempo. Estas también son varias correcciones y ajustes que fluyen después de fin de mes. Los datos almacenados en la base de datos están incompletos durante un tiempo después de cada mes. 
     
  • Credibilidad: 
    Refleja cuánto confían los usuarios en los datos. 
     
  • Interpretabilidad: 
    Es un reflejo de la facilidad con la que los usuarios pueden entender los datos.

Publicación traducida automáticamente

Artículo escrito por pcp21599 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *