Google Net (o Inception V1) fue propuesto por una investigación en Google (con la colaboración de varias universidades) en 2014 en el trabajo de investigación titulado “Going Deeper with Convolutions”. Esta arquitectura fue la ganadora del desafío de clasificación de imágenes ILSVRC 2014. Ha proporcionado una disminución significativa en la tasa de error en comparación con los ganadores anteriores AlexNet (Ganador de ILSVRC 2012) y ZF-Net (Ganador de ILSVRC 2013) y una tasa de error significativamente menor que VGG (finalista de 2014). Esta arquitectura utiliza técnicas como convoluciones 1×1 en el medio de la arquitectura y agrupación de promedio global.
Características de GoogleNet:
La arquitectura de GoogLeNet es muy diferente de las arquitecturas de última generación anteriores, como AlexNet y ZF-Net. Utiliza muchos tipos diferentes de métodos, como la convolución 1 × 1 y la agrupación promedio global que le permite crear una arquitectura más profunda. En la arquitectura, discutiremos algunos de estos métodos:
- Convolución 1×1 : la arquitectura inicial utiliza convolución 1×1 en su arquitectura. Estas circunvoluciones solían disminuir el número de parámetros (pesos y sesgos) de la arquitectura. Al reducir los parámetros también aumentamos la profundidad de la arquitectura. Veamos un ejemplo de unaconvolución 1×1 a continuación:
- Por ejemplo, si queremos realizar una convolución de 5×5 con 48 filtros sin usar una convolución de 1×1 como intermedia:
- Número total de operaciones: (14 x 14 x 48) x (5 x 5 x 480) = 112,9 M
- Con convolución 1×1:
- (14 x 14 x 16) x (1 x 1 x 480) + (14 x 14 x 48) x (5 x 5 x 16) = 1,5 M + 3,8 M = 5,3 M que es mucho más pequeño que 112,9 M.
- Agrupación promedio global:
en la arquitectura anterior, como AlexNet, las capas completamente conectadas se utilizan al final de la red. Estas capas totalmente conectadas contienen la mayoría de los parámetros de muchas arquitecturas que provocan un aumento en el costo de cómputo.
En la arquitectura de GoogLeNet, hay un método llamado agrupación promedio global que se usa al final de la red. Esta capa toma un mapa de características de 7×7 y lo promedia a 1×1 . Esto también reduce el número de parámetros entrenables a 0 y mejora la precisión del top 1 en un 0,6 %. - Módulo de inicio:
el módulo de inicio es diferente de las arquitecturas anteriores, como AlexNet, ZF-Net. En esta arquitectura, hay un tamaño de convolución fijo para cada capa.
En el módulo Inception , la convolución 1 × 1, 3 × 3, 5 × 5 y la agrupación máxima 3 × 3 se realizan de manera paralela en la entrada y la salida de estos se apilan juntos para generar el resultado final. La idea detrás de los filtros de convolución de diferentes tamaños manejará mejor los objetos en múltiples escalas.
- Clasificador auxiliar para entrenamiento: la
arquitectura de inicio usó algunas ramas clasificadoras intermedias en el medio de la arquitectura, estas ramas se usan solo durante el entrenamiento. Estas ramas consisten en una capa de agrupación promedio de 5 × 5 con un paso de 3, una convoluciones de 1 × 1 con 128 filtros, dos capas completamente conectadas de 1024 salidas y 1000 salidas y una capa de clasificación softmax. La pérdida generada de estas capas se sumó a la pérdida total con un peso de 0,3. Estas capas ayudan a combatir el problema de desaparición de gradientes y también proporcionan regularización.
Arquitectura modelo:
A continuación se muestran los detalles arquitectónicos capa por capa de GoogLeNet. La arquitectura general tiene 22 capas de profundidad. La arquitectura fue diseñada para tener en cuenta la eficiencia computacional. La idea detrás de que la arquitectura se puede ejecutar en dispositivos individuales incluso con bajos recursos computacionales. La arquitectura también contiene dos capas clasificadoras auxiliares conectadas a la salida de las capas Inception (4a) e Inception (4d).
Los detalles arquitectónicos de los clasificadores auxiliares son los siguientes:
- Una capa de agrupación promedio de tamaño de filtro 5×5 y zancada 3.
- Una convolución 1×1 con 128 filtros para reducción de dimensión y activación de ReLU.
- Una capa totalmente conectada con 1025 salidas y activación ReLU
- Regularización de la deserción con índice de deserción = 0,7
- Un clasificador softmax con 1000 clases de salida similar al clasificador softmax principal.
Esta arquitectura toma imagen de tamaño 224 x 224 con canales de color RGB. Todas las circunvoluciones dentro de esta arquitectura utilizan Unidades Lineales Rectificadas (ReLU) como sus funciones de activación.
Resultados:
GoogLeNet fue el ganador en ILSRVRC 2014 ocupando el primer lugar tanto en la clasificación como en la tarea de detección. Tiene una tasa de error entre los 5 primeros del 6,67 % en la tarea de clasificación. Un conjunto de 6 GoogLeNets proporciona un 43,9 % de mAP en el conjunto de prueba de ImageNet.
Referencias: