Las Redes Neuronales Cápsulas (Capsnets) son un tipo de ANN (Redes Neuronales Artificiales) cuyo principal objetivo es replicar mejor la red neuronal biológica para una mejor segmentación y reconocimiento. La palabra cápsula aquí representa una capa anidada dentro de una capa de redes de cápsulas. Las cápsulas determinan los parámetros de las características de un objeto. Durante el proceso de identificación de un rostro, las cápsulas no solo determinan la presencia o ausencia de rasgos faciales sino que también tienen en cuenta los respectivos parámetros en los que se organizan los rasgos faciales. Esto significa que el sistema solo detectará una cara si las características detectadas por las cápsulas están presentes en el orden correcto.
El trabajo de las cápsulas es hacer una representación de imagen inversa, lo que significa que obtenemos los parámetros de creación de instancias, como el ángulo, la escala y la posición del objeto, al analizar el objeto de acuerdo con las muestras de objetos dadas en su conjunto de entrenamiento.
Trabajo de Cápsulas –
- Las primeras cápsulas proceden con la multiplicación matricial de los vectores de entrada con arrays de peso que en realidad nos informa brevemente sobre la relación espacial de algunas características de bajo nivel con características de alto nivel.
- Luego, las cápsulas deciden su cápsula principal. La selección de la cápsula principal se realiza mediante el enrutamiento dinámico.
- Después de tomar la decisión sobre sus cápsulas principales, proceden a hacer la suma de todos los vectores que finalmente se aplastaron entre 0 y 1 mientras conservan su dirección. El aplastamiento se realiza utilizando la distancia del coseno como la medida de concordancia y la norma del marco de coordenadas como la probabilidad de existencia.
¿Qué es el enrutamiento dinámico?
Durante el proceso de enrutamiento dinámico, las cápsulas inferiores envían sus datos a la cápsula más adecuada. Esta cápsula que recibe la salida de las cápsulas de nivel inferior se denomina cápsula principal . Las cápsulas principales proceden con el enrutamiento siguiendo el mecanismo de acuerdo y asignación, es decir, basándose en el producto escalar, la maximización de expectativas y el uso de modelos mixtos. La cápsula que tiene el producto escalar más grande se elige como cápsula principal. Este producto escalar tiene lugar entre el vector de predicción calculado por las capas inferiores de la cápsula y la array de pesos.
El enrutamiento dinámico se puede incluso explicar a través del siguiente ejemplo:
Supongamos, si proporcionamos una imagen a un sistema para que pueda reconocerlo y decir lo que es.
La imagen es la de una casa en cuatro tipos diferentes de puntos de vista, CNN puede reconocer la vista frontal de la casa muy fácilmente que se le enseñó durante su capacitación, pero tendrá serios problemas para identificar la imagen de la casa desde la vista superior, así que aquí Las cápsulas entran en juego.
Las cápsulas detectan el techo y las paredes con mucha facilidad, pero no cualquier techo puede ser una casa, por lo que analizan la parte constante de la imagen, es decir, el marco de coordenadas de la cápsula de la casa con respecto al techo y las paredes. La predicción se hace tanto por el techo como por las paredes para decidir si el objeto es una casa o no. Estas predicciones luego se envían a la cápsula de nivel medio. Si la predicción del techo y las paredes solo coinciden, entonces se dice que el objeto es una casa, este proceso se denomina Enrutamiento por acuerdo .
Arquitectura general de las redes Capsule –
Codificador: toma la entrada de la imagen y la muestra como un vector que contiene todos los parámetros de creación de instancias necesarios para representar la imagen. El codificador encapsula aún más:
- Capa convolucional: detecta características básicas en la imagen.
- Capa PrimaryCaps: producen combinaciones basadas en las características básicas detectadas por la capa convolucional.
- Capa DigitCaps: esta es la capa de cápsula de más alto nivel que contiene todos los parámetros de creación de instancias.
Decodificador: su trabajo es decodificar el vector de 16 dimensiones de DigitCap en una imagen. Recrea la imagen de salida sin pérdida de píxeles. Obligan a las cápsulas a aprender las características que son útiles para reconstruir la imagen. Los decodificadores tienen además tres capas (densas) totalmente conectadas.
CNN y Capsnets –
La idea principal detrás de la introducción de Capsnets fue reducir el tamaño del conjunto de entrenamiento, que suele ser muy grande en el caso de CNN ( red neuronal convolucional ). CNN también es un tipo de red neuronal, pero en esta red, la salida depende del volumen del conjunto de entrenamiento. En el caso de CNN, el tamaño del conjunto de entrenamiento y prueba puede ser de 60 a 10 millones. CNN tiene el gran inconveniente de que no pueden adaptarse al punto de vista.
Si una imagen en particular está invertida, es posible que CNN no pueda identificar la imagen. Capsnet aquí explota el hecho de que los cambios de punto de vista tienen un efecto no lineal a nivel de píxel y un impacto lineal a nivel de objeto. Los capsnets pueden adaptarse a los cambios de punto de vista a medida que aprenden la variedad lineal entre un objeto y se presenta como una array de pesos.
Aquí, la variedad lineal se refiere a una relación lineal entre varios vectores de objetos en el espacio euclidiano que tiene n dimensiones.
Las CNN utilizan el sistema de grupo máximo, mientras que las cápsulas mantienen la suma ponderada de características de la capa anterior, que es más adecuada para detectar características superpuestas. Estas características que ofrece Capsnets son realmente útiles para identificar dígitos superpuestos en la escritura a mano. CNN identifica objetos utilizando demasiados sistemas de capas que ralentizan el proceso de reconocimiento; sin embargo, los Capsnets no creen en demasiadas capas, sino que utilizan el anidamiento de capas en una capa.
Capsnets actualmente solo se prueban para MNIST (gran base de datos de dígitos escritos a mano que se usan comúnmente para entrenar varios sistemas de procesamiento de imágenes) y luchan con datos más complejos que se encuentran en Imagenet. Además, las cápsulas requieren más tiempo de entrenamiento. A pesar de tener tales inconvenientes, posiblemente tengan un largo camino por recorrer en el futuro.
Publicación traducida automáticamente
Artículo escrito por gaurisharma360 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA