Extracción de características en minería de datos

“Los datos son el nuevo petróleo para la industria de TI”. – por Clive Humby

“El mundo es un gran problema de datos”. – por Andrew McAfee, codirector de la Iniciativa MIT

“Los datos son la nueva ciencia. Big Data tiene las respuestas”. – Por Pat Gelsinger

De hecho, esto es cierto porque tenemos una gran cantidad de datos disponibles que definitivamente podemos utilizar en uno u otro campo una vez que se han procesado. Sin embargo, las industrias requieren solo un subconjunto de datos del lote completo. Entonces, en realidad, necesitamos algunos mecanismos para acceder a la parte de los datos que realmente necesitamos. Sin embargo, este trabajo no se puede hacer manualmente, ya que llevaría mucho tiempo y, en ocasiones, quedaría fuera de nuestro alcance.

Supongamos si queremos construir un proyecto de aprendizaje automático para alguna empresa o para los requisitos de nuestro propio proyecto donde necesitamos imágenes para hacer un proyecto sobre detección de objetos. Hacer este tipo de proyectos requiere un conjunto de datos de imagen que puede contener numerosos atributos. Entonces, para trabajar con ellos, primero debemos extraer las características que necesitamos. Entonces, en este caso, la extracción de características juega un papel importante para facilitarnos la vida.

Extracción de características

La extracción de características es básicamente un proceso de reducción de la dimensionalidad en el que los datos sin procesar obtenidos se separan en grupos manejables relacionados. Una característica distintiva de estos grandes conjuntos de datos es que contienen una gran cantidad de variables y, además, estas variables requieren muchos recursos informáticos para procesarlas. Por lo tanto, la extracción de características puede ser útil en este caso para seleccionar variables particulares y también para combinar algunas de las variables relacionadas, lo que de alguna manera reduciría la cantidad de datos. Los resultados obtenidos serían evaluados con la ayuda de medidas de precisión y recordación. PCA es una de las técnicas de reducción de dimensionalidad lineal más utilizadas. Es un algoritmo de aprendizaje no supervisado.

Generación de funciones

La generación de funciones es el proceso de inventar nuevas funciones a partir de las funciones ya existentes. Como los tamaños de los conjuntos de datos varían mucho, se vuelve imposible administrar los más grandes. Por lo tanto, este proceso de generación de funciones puede desempeñar un papel vital para facilitar la tarea. Para evitar generar características sin sentido, utilizamos algunas fórmulas matemáticas y modelos estadísticos para mejorar la claridad y la precisión. Este proceso generalmente agrega más información al modelo para hacerlo más preciso. Por lo tanto, mejorar la precisión del modelo es algo que se puede lograr a través de este proceso. Este proceso en cierto modo ignora la interacción sin sentido al detectar interacciones significativas.

Evaluación de funciones

Es de suma importancia priorizar inicialmente las funciones para realizar nuestro trabajo de manera bien organizada y, por lo tanto, la evaluación de funciones puede ser una herramienta para esto. Aquí se evalúan todas y cada una de las funciones para puntuarlas objetivamente y, en adelante, utilizarlas en función de las necesidades actuales. Los que no son importantes pueden ignorarse. Por lo tanto, la evaluación de características es una tarea importante que se debe realizar para obtener un resultado final adecuado del modelo al reducir el sesgo y la inconsistencia en los datos.

Extracción de características lineales y no lineales

La extracción de características se puede dividir en dos grandes categorías, es decir, lineal y no lineal . Uno de los ejemplos de extracción de características lineales es PCA (Análisis de componentes principales). Un componente principal es una combinación lineal normalizada de las características originales en un conjunto de datos. PCA es básicamente un método para obtener variables requeridas (importantes) de un gran conjunto de variables disponibles en un conjunto de datos. PCA tiende a utilizar la transformación ortogonal para transformar los datos en un espacio de menor dimensión que, a su vez, maximiza la varianza de los datos.

PCA se puede utilizar para la detección de anomalías y valores atípicos, ya que estos se consideran ruido o datos irrelevantes en todo el conjunto de datos.

Los pasos seguidos para construir PCA desde cero son:

En primer lugar, estandarizar los datos.
A partir de entonces, calcule la array de covarianza
Luego, calcule el vector propio y los valores propios para la array de covarianza.
Ordena todos los valores propios en orden decreciente.
Normalice los valores propios ordenados.
Apilar horizontalmente los valores propios normalizados

PCA falla cuando los datos no son lineales, lo que puede considerarse como una de las mayores desventajas de PCA. Aquí es donde Kernel-PCA juega su papel. Kernel-PCA es similar a SVM porque ambos implementan Kernel-Trick para convertir los datos no lineales en datos de mayor dimensión hasta el punto en que los datos son separables. Los enfoques no lineales podrían usarse en el caso del reconocimiento facial para extraer características de grandes conjuntos de datos.

Aplicaciones de la Extracción de Características

Bolsa de Palabras: Es la técnica más utilizada en el campo del Procesamiento del Lenguaje Natural. Aquí, en primer lugar, las oraciones se tokenizan, se lematizan y se eliminan las palabras vacías. Después de eso, las palabras se clasifican individualmente según la frecuencia de uso. Dado que las características generalmente se extraen de una oración presente en un documento o sitio web, la extracción de características juega un papel vital en este caso.
Procesamiento de imágenes: el procesamiento de imágenes es uno de los dominios más exploratorios donde la extracción de características se usa ampliamente. Dado que las imágenes representan diferentes características o atributos, como formas, matices, movimiento en el caso de las imágenes digitales, su procesamiento es de suma importancia para que solo se extraigan las características específicas. El procesamiento de imágenes también utiliza muchos algoritmos además de la extracción de características.
Codificadores automáticos: esto se usa principalmente cuando queremos aprender una representación comprimida de datos sin procesar. El procedimiento llevado a cabo es básicamente de carácter no supervisado. Por lo tanto, la extracción de características juega un papel importante en la identificación de las características clave de los datos que nos ayudarán a codificar aprendiendo de la codificación del conjunto de datos original para derivar otros nuevos.
La extracción efectiva de características también juega un papel importante en la resolución de problemas relacionados con el ajuste insuficiente y el ajuste excesivo en proyectos relacionados con el aprendizaje automático.
La extracción de características también nos brinda una visualización clara e improvisada de los datos presentes en el conjunto de datos, ya que solo se extrajeron los datos importantes y necesarios.
La extracción de características ayuda a entrenar el modelo de una manera más eficiente, lo que a su vez básicamente acelera todo el proceso.

¿En qué se diferencia de la selección de funciones?

La selección de características tiene como objetivo clasificar la importancia de las características previamente existentes en el conjunto de datos y, a su vez, eliminar las características menos importantes. Sin embargo, la extracción de características se ocupa de reducir las dimensiones del conjunto de datos para que el conjunto de datos sea más nítido y claro.

Entonces, Feature Extraction tiene un uso diverso en la mayoría de los dominios. Esto aparece en la etapa inicial de cualquier proyecto que haga uso de un gran conjunto de datos. Por lo tanto, todo el procedimiento de extracción de características debe ejecutarse y evaluarse cuidadosamente para obtener un resultado optimizado con mayor precisión, lo que a su vez nos ayudará a obtener una mejor comprensión de la relación entre las variables presentes en el conjunto de datos y, en adelante, planificar la siguiente etapa de La ejecución.

Publicación traducida automáticamente

Artículo escrito por sangramjit243 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA