Los algoritmos de aprendizaje automático son útiles en todos los aspectos de la vida para analizar datos con precisión. La bioinformática puede derivar fácilmente información utilizando el aprendizaje automático y, sin él, es difícil analizar una gran cantidad de información genética.
Los algoritmos de aprendizaje automático se clasifican ampliamente en tres partes: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Este artículo analiza el contenido basado únicamente en el aprendizaje supervisado.
Los algoritmos de aprendizaje supervisado predicen iterativamente los resultados en función de un conjunto de datos de entrenamiento y corregidos por un supervisor, que puede asumirse como un maestro. En resumen, la expresión matemática del aprendizaje supervisado depende de la ecuación Y=f(X), donde, en función de los datos de entrada, X predice la variable de salida Y.
Los problemas de aprendizaje supervisado se resuelven utilizando cualquiera de los métodos más adecuados de los dos métodos categorizados como: Clasificación (el valor de salida está en una categoría), Regresión (el valor de salida es un número real). Los siguientes son algunos modelos que emplean el aprendizaje supervisado para lograr resultados para diferentes problemas que surgen en el campo de la Bioinformática:
Regresión logística:
La técnica que determina la relación entre una variable dependiente y una o más variables independientes, donde el tipo de dependiente es una variable binaria. Este modelo se usa para predecir K clases usando una suma ponderada. Mediante este modelo, podemos contar la probabilidad de que suceda cualquier evento.
Biopython tiene el módulo Bio.LogisticRegression para este tipo de operación. Actualmente, el valor de K es 2, para la búsqueda de ADN. Dos clases son OP (genes adyacentes de la misma persona) y NOP (genes adyacentes de diferentes personas). Un ejemplo de un modelo de regresión logística en Biopython es la regulación de genes (una variedad de formas de aumentar o disminuir los productos de genes) en bacterias.
Bayesiano ingenuo:
Es una colección de algoritmos que dependen del teorema de Bayes (basa la probabilidad de un evento en un evento que ocurrió antes). Esto se ajusta a nuevas observaciones y datos previos. Todos los datos son independientes entre sí.
El módulo Bio.NaiveBayes está ahí para trabajar en esto. Dado que el algoritmo Naive Bayes se considera una buena opción para los sistemas de recomendación, se está investigando la recomendación de genes basada en el modelo Naive Bayes.
Modelo de Markov y entropía máxima:
El modelo oculto de Markov (una forma sencilla de modelar datos secuenciales) se utiliza para el análisis de datos genómicos. Para la identificación de regiones génicas basadas en segmentos o secuencias, se utiliza este modelo. Y la entropía máxima es para el modelado biológico de secuencias de genes.
En el campo de la bioinformática se está trabajando con estos dos modelos. Los módulos Bio.MaximumEntropy, Bio.MarkovModel y/o Bio.HMM.MarkovModel se utilizan para permitir que la aplicación proporcionada por estos modelos funcione.
k-vecino más cercano:
Este modelo primero almacena una cantidad diferente de casos y luego trabaja en la categorización de datos en función de los datos del vecino más cercano que se ajustan al modelo. Para este propósito se utiliza la estimación estadística y el reconocimiento de patrones.
El módulo Bio.kNN es para este tipo de operación. La verificación de la precisión del par de genes (dos copias de un gen particular presente en una célula) es un ejemplo de un problema que emplea un modelo de este tipo para recuperar resultados .
Publicación traducida automáticamente
Artículo escrito por Subhajit Guha Thakurta y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA