El aprendizaje automático es un dominio de las ciencias de la computación que brinda la capacidad de que las computadoras aprendan sin ser programadas explícitamente. Machine Learning es una de las tecnologías más demandadas que todos quieren aprender y la mayoría de las empresas requieren ingenieros de Machine Learning altamente calificados. En este dominio, existen varios algoritmos de aprendizaje automático desarrollados para resolver problemas complejos con facilidad. Estos algoritmos están altamente automatizados y se automodifican, ya que continúan mejorando con el tiempo con la adición de una mayor cantidad de datos y con una mínima intervención humana requerida. Para conocer los principales algoritmos de Machine Learning que todo ingeniero de ML debería conocer, haga clic aquí .
En este artículo, nos centraremos más en los métodos de impureza y entropía de Gini en el algoritmo del árbol de decisión y cuál es mejor entre ellos.
Decision Tree es uno de los algoritmos de clasificación más populares y poderosos que usamos en el aprendizaje automático. El árbol de decisión del propio nombre significa que se utiliza para tomar decisiones a partir del conjunto de datos dado. El concepto detrás del árbol de decisión es que ayuda a seleccionar las características apropiadas para dividir el árbol en subpartes y el algoritmo utilizado detrás de la división es ID3. Si la construcción del árbol de decisiones es adecuada, la profundidad del árbol será menor o la profundidad será mayor. Para construir el árbol de decisión de manera eficiente utilizamos el concepto de Entropía . Para obtener más información sobre el árbol de decisiones, haga clic aquí . En este artículo, nos centraremos más en la diferencia entre la impureza de Gini y la entropía.
Entropía:
como se discutió anteriormente, la entropía nos ayuda a construir un árbol de decisión apropiado para seleccionar el mejor divisor. La entropía se puede definir como una medida de la pureza de la subdivisión. La entropía siempre se encuentra entre 0 y 1. La entropía de cualquier división se puede calcular mediante esta fórmula.
El algoritmo calcula la entropía de cada característica después de cada división y, a medida que la división continúa, selecciona la mejor característica y comienza a dividirse de acuerdo con ella. Para un cálculo detallado de la entropía con un ejemplo, puede consultar este artículo .
Impureza de Gini:
El funcionamiento interno de la impureza de Gini también es algo similar al funcionamiento de la entropía en el Árbol de decisión. En el algoritmo del árbol de decisión, ambos se usan para construir el árbol dividiéndolo según las características apropiadas, pero hay una gran diferencia en el cálculo de ambos métodos. La impureza de Gini de las características después de la división se puede calcular utilizando esta fórmula.
Para el cálculo detallado de la impureza de Gini con ejemplos, puede consultar este artículo . Mediante el uso de la fórmula anterior, se calcula la impureza gini de la función/división.
Entropía v/s Impureza de Gini:
ahora hemos aprendido sobre la impureza de Gini y la entropía y cómo funciona realmente. Además, hemos visto cómo podemos calcular la impureza/entropía de Gini para una división/función. Pero la pregunta principal que surge aquí es ¿por qué necesitamos tener ambos métodos de cálculo y cuál es mejor?
El funcionamiento interno de ambos métodos es muy similar y ambos se utilizan para calcular la función/división después de cada nueva división. Pero si comparamos ambos métodos, Gini Impureza es más eficiente que la entropía en términos de poder de cómputo. Como puede ver en el gráfico de entropía, primero aumenta hasta 1 y luego comienza a disminuir, pero en el caso de la impureza de Gini, solo sube a 0.5 y luego comienza a disminuir, por lo que requiere menos potencia de cálculo. El rango de Entropía se encuentra entre 0 y 1 y el rango de Gini Impureza se encuentra entre 0 y 0,5. Por lo tanto, podemos concluir que la impureza de Gini es mejor en comparación con la entropía para seleccionar las mejores características.