Prerrequisito – Data Mining
Data: Es cómo se almacenan los objetos de datos y sus atributos.
- Un atributo es la propiedad o las características de un objeto. Por ejemplo. El color del cabello de una persona, la humedad del aire, etc.
- Un conjunto de atributos define un objeto . El objeto también se conoce como un registro de las instancias o entidad.
Diferentes tipos de atributos o tipos de datos:
- Atributo Nominal: Los Atributos
Nominales solo proporcionan suficientes atributos para diferenciar entre un objeto y otro. Tales como número de lista de estudiantes, sexo de la persona.
- Atributo ordinal:
el valor del atributo ordinal proporciona información suficiente para ordenar los objetos. Tales como clasificaciones, grados, altura - Atributo binario:
estos son 0 y 1. Donde 0 es la ausencia de características y 1 es la inclusión de características. - Atributo numérico: Es cuantitativo, tal que la cantidad se puede medir y representar en valores enteros o reales, son de dos tipos
Atributo escalado de intervalo:
Se mide en una escala de unidades de igual tamaño, estos atributos nos permiten comparar, como la temperatura en C o F y, por lo tanto, los valores de los atributos tienen orden.
- Atributo Ratio Scaled:
Tanto las diferencias como los ratios son significativos para Ratio. Por ej. edad, longitud, Peso.
Calidad de los datos: ¿Por qué preprocesamos los datos?
Muchas características actúan como un factor decisivo para la calidad de los datos, como información incompleta e incoherente, que son propiedades comunes de la gran base de datos en el mundo real. Los factores utilizados para la evaluación de la calidad de los datos son:
- Precisión:
Hay muchas razones posibles para que los datos sean erróneos o inexactos aquí. es decir, tener valores incorrectos de propiedades que podrían ser errores humanos o informáticos.
- Integridad:
por algunas razones, pueden ocurrir datos incompletos, los atributos de interés, como la información del cliente para los datos de ventas y transacciones, pueden no estar siempre disponibles.
- Coherencia: Los
datos incorrectos también pueden resultar de inconsistencias en la convención de nomenclatura o códigos de datos, o del formato incoherente del campo de entrada. Las tuplas duplicadas también necesitan limpieza de detalles.
- Oportunidad:
También afecta la calidad de los datos. Al final del mes, varios representantes de ventas no presentan su registro de ventas a tiempo. Estas también son varias correcciones y ajustes que fluyen después de fin de mes. Los datos almacenados en la base de datos están incompletos durante un tiempo después de cada mes.
- Credibilidad:
Refleja cuánto confían los usuarios en los datos.
- Interpretabilidad:
Es un reflejo de la facilidad con la que los usuarios pueden entender los datos.