Elegir un algoritmo de aprendizaje automático adecuado

Machine Learning es el campo de estudio que le da a las computadoras la capacidad de aprender sin ser programadas explícitamente. ML es una de las tecnologías más emocionantes que uno podría haber encontrado.
Un algoritmo de aprendizaje automático es un programa con una manera particular de alterar sus propios parámetros, dadas las respuestas sobre las predicciones pasadas del conjunto de datos.

¿Quién debería leer este artículo?

Cualquiera que quiera aprender sobre los factores a tener en cuenta al seleccionar un algoritmo
para un modelo de aprendizaje automático. Este artículo destacará estos componentes esenciales en breve.

img

Algoritmos de aprendizaje automático ampliamente utilizados:

  • Regresión Lineal: Es fundamental en la búsqueda de la relación entre dos variables continuas. Una es una variable independiente y otra es la variable dependiente.
  • Regresión logística: la regresión logística es uno de los métodos comunes para analizar los datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes de nivel nominal, ordinal, de intervalo o de relación.
  • KNN: KNN se puede utilizar para problemas predictivos de clasificación y regresión.
  • K-means: el agrupamiento de K-means es un algoritmo de aprendizaje no supervisado, que se utiliza cuando tratamos con datos que no están etiquetados (sin categorías o grupos adecuados). El objetivo del algoritmo es buscar los grupos en el conjunto de datos, con el número de grupos representado por la variable K.
  • Support Vector Machines (SVM): es un algoritmo de aprendizaje automático supervisado que se puede utilizar para tareas de clasificación o regresión. Utiliza una técnica llamada truco del kernel para transformar sus datos y luego, en función de estas transformaciones, encuentra un límite óptimo entre las posibles salidas.
  • Random Forest: Se puede utilizar para tareas de regresión y clasificaciones. Da como resultado una mayor precisión. El clasificador de bosque aleatorio puede administrar los valores faltantes y mantener la precisión de una proporción significativa de los datos. Si hay más árboles, entonces no permitirá que los árboles en el modelo de aprendizaje automático se sobreajusten.

Los siguientes factores deben tenerse en cuenta al elegir un algoritmo:

  • El tipo de modelo en uso (problema)
  • Análisis de los datos disponibles (tamaño del conjunto de entrenamiento)
  • La precisión del modelo.
  • Tiempo necesario para entrenar el modelo (tiempo de entrenamiento)
  • Número de parámetros
  • Número de características
  • linealidad

Comprender el tipo de problema: es realmente esencial comprender el tipo de modelo que queremos hacer y el propósito que debe cumplirse, ya que cada algoritmo ha sido diseñado de manera que tenga un propósito específico como clasificación, regresión, etc. Entonces , estamos obligados a elegir el algoritmo más apropiado que haría el trabajo.

Tipos de tareas de aprendizaje automático:

  1. Aprendizaje supervisado
  2. Aprendizaje sin supervisión
  3. Aprendizaje reforzado

Tamaño del conjunto de entrenamiento : Todos sabemos que cuando el conjunto de datos de entrenamiento no es suficiente, siempre resulta en una estimación deficiente. Un modelo con restricciones excesivas en el conjunto de datos de entrenamiento insuficiente siempre dará como resultado un ajuste insuficiente; por otro lado, es probable que un modelo con restricciones insuficientes resulte en un ajuste excesivo del conjunto de datos, en ambos casos el resultado será pobre actuación. El tamaño del conjunto de datos de entrenamiento es un factor que juega un papel importante para nosotros a la hora de decidir el algoritmo de nuestra elección. Para un pequeño conjunto de datos de entrenamiento, como es probable que los clasificadores de bajo sesgo/alta varianza (como k-vecinos más cercanos) sobreajusten el conjunto de datos de entrenamiento, los clasificadores de alto sesgo/baja varianza (como Naive Bayes) tienen una ventaja sobre esto. .

Precisión : utilizamos algoritmos de aprendizaje automático para tomar decisiones realistas, y los resultados de modelos más sólidos conducen a mejores decisiones. El costo de los errores puede ser masivo, por lo que es esencial para nosotros minimizar ese costo mejorando la precisión del modelo. La precisión necesaria será distinta, dependiendo del requisito. La aproximación suele ser suficiente, lo que puede dar como resultado una reducción masiva del tiempo de procesamiento. Sin embargo, es probable que las técnicas aproximadas den como resultado un sobreajuste del conjunto de datos de entrenamiento.

Tiempo de entrenamiento : el tiempo necesario para entrenar el modelo varía para cada algoritmo. Este tiempo de ejecución está en correlación con el tamaño del conjunto de datos y la precisión que buscamos.

Número de parámetros : los parámetros son uno de los factores más importantes para lograr un modelo de rendimiento decente y los componentes, como el nivel de tolerancia al error y el número total de iteraciones, dependen de la naturaleza del algoritmo. Por lo general, se necesita la mayor cantidad de rastros y errores para encontrar una combinación decente en los algoritmos que tienen una gran cantidad de parámetros. Aunque tener muchos parámetros generalmente brinda más versatilidad, el tiempo necesario para entrenar el modelo usando un algoritmo particular y la precisión del mismo pueden ser sensibles para obtener la configuración correcta.

Número de características : en comparación con la cantidad de puntos de datos, la cantidad de características de ciertos conjuntos de datos puede ser bastante grande. Nos enfrentamos a la misma situación cuando tratamos con los conjuntos de datos de NLP, que son más conjuntos de datos textuales. Algunos de los algoritmos de aprendizaje pueden llevar a un tiempo de entrenamiento muy pobre cuando se trata de una cantidad tan grande de funciones y hacer que nuestro trabajo sea inviable. Pocos algoritmos como Support Vector Machines (SVM) están especialmente bien diseñados para esta situación. Estas suposiciones que hacemos en base a experiencias pasadas no funcionan para todas las situaciones y se requiere que tengamos una mejor comprensión de dichos algoritmos para poder aplicar el mejor para un problema específico.

Linealidad : otro factor que se puede tener en cuenta es que los algoritmos de aprendizaje automático lineal como la regresión lineal, la regresión logística e incluso las máquinas de vectores de soporte utilizan la linealidad. El trabajo se vuelve relativamente fácil si es posible abordar los problemas utilizando estos algoritmos, ya que se basan en un algoritmo simple y no requieren mucho tiempo de entrenamiento (relativamente rápido para entrenar el modelo). Podrían disminuir la precisión del algoritmo que no es adecuado para ese tipo particular de problema.

Publicación traducida automáticamente

Artículo escrito por shardul_singh_tomar y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *