Selección de subconjuntos de atributos en minería de datos

La selección de subconjuntos de atributos es una técnica que se utiliza para la reducción de datos en el proceso de minería de datos. La reducción de datos reduce el tamaño de los datos para que se puedan utilizar con fines de análisis de manera más eficiente.

Necesidad de selección de subconjuntos de atributos
: el conjunto de datos puede tener una gran cantidad de atributos. Pero algunos de esos atributos pueden ser irrelevantes o redundantes. El objetivo de la selección de subconjuntos de atributos es encontrar un conjunto mínimo de atributos de modo que la eliminación de esos atributos irrelevantes no afecte mucho la utilidad de los datos y el costo del análisis de datos pueda reducirse. La minería en un conjunto de datos reducido también hace que el patrón descubierto sea más fácil de entender.

Proceso de selección de subconjuntos de atributos
: el enfoque de fuerza bruta puede ser muy costoso en el que se puede analizar cada subconjunto (2 ^ n subconjuntos posibles) de los datos que tienen n atributos.
La mejor manera de realizar la tarea es utilizar las pruebas de significación estadística de modo que se puedan reconocer los mejores (o peores) atributos. La prueba de significancia estadística asume que los atributos son independientes entre sí. Este es un tipo de enfoque codicioso en el que se decide un nivel de significancia (el valor estadísticamente ideal del nivel de significación es 5%) y los modelos se prueban una y otra vez hasta que el valor p (valor de probabilidad) de todos los atributos es menor o igual a el nivel de significación seleccionado. Los atributos que tienen un valor de p superior al nivel de significación se descartan. Este procedimiento se repite una y otra vez hasta que todo el atributo en el conjunto de datos tenga un valor p menor o igual al nivel de significancia. Esto nos da el conjunto de datos reducido que no tiene atributos irrelevantes.

Métodos de selección de subconjuntos de atributos:
1. Selección progresiva paso a paso.
2. Eliminación hacia atrás paso a paso.
3. Combinación de selección hacia adelante y eliminación hacia atrás.
4. Inducción del Árbol de Decisión.

Todos los métodos anteriores son enfoques codiciosos para la selección de subconjuntos de atributos.

Selección progresiva paso a paso: este procedimiento comienza con un conjunto vacío de atributos como conjunto mínimo. Se eligen los atributos más relevantes (que tienen un valor p mínimo) y se agregan al conjunto mínimo. En cada iteración, se agrega un atributo a un conjunto reducido.
Eliminación hacia atrás por pasos: aquí todos los atributos se consideran en el conjunto inicial de atributos. En cada iteración, se elimina un atributo del conjunto de atributos cuyo valor p es superior al nivel de significancia.
Combinación de selección hacia adelante y eliminación hacia atrás: la selección hacia adelante paso a paso y la eliminación hacia atrás se combinan para seleccionar los atributos relevantes de la manera más eficiente. Esta es la técnica más común que generalmente se usa para la selección de atributos.
Inducción del árbol de decisión: este enfoque utiliza el árbol de decisión para la selección de atributos. Construye una estructura similar a un diagrama de flujo que tiene Nodes que indican una prueba en un atributo. Cada rama corresponde al resultado de la prueba y los Nodes hoja son una predicción de clase. El atributo que no es parte del árbol se considera irrelevante y, por lo tanto, se descarta.

Publicación traducida automáticamente

Artículo escrito por deepak_jain y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta