SRGAN fue propuesto por investigadores de Twitter. El motivo de esta arquitectura es recuperar texturas más finas de la imagen cuando la escalamos para que su calidad no se vea comprometida. Existen otros métodos, como la interpolación bilineal, que se pueden usar para realizar esta tarea, pero sufren pérdida y suavizado de información de la imagen. En este artículo, los autores propusieron dos arquitecturas, una sin GAN (SRResNet) y otra con GAN (SRGAN). Se concluye que SRGAN tiene una mejor precisión y genera una imagen más agradable a la vista en comparación con SRGAN.
Arquitectura: similar a las arquitecturas GAN, Super Resolution GAN también contiene dos partes, Generador y Discriminador, donde el generador produce algunos datos en función de la distribución de probabilidad y el discriminador intenta adivinar los datos meteorológicos provenientes del conjunto de datos de entrada o del generador. Generador que intenta optimizar los datos generados para engañar al discriminador. A continuación se muestran los detalles arquitectónicos del generador y el discriminador:
Arquitectura del generador:
La arquitectura del generador contiene redes residuales en lugar de redes de convolución profunda porque las redes residuales son fáciles de entrenar y les permite ser sustancialmente más profundas para generar mejores resultados. Esto se debe a que la red residual usaba un tipo de conexiones llamadas conexiones de salto.
Hay B bloques residuales (16), originados por ResNet. Dentro del bloque residual, se utilizan dos capas convolucionales, con pequeños núcleos de 3×3 y 64 mapas de características seguidos de capas de normalización por lotes y ParametricReLU como función de activación.
La resolución de la imagen de entrada aumenta con dos capas de convolución de subpíxeles entrenadas.
Esta arquitectura de generador también usa ReLU paramétrico como una función de activación que en lugar de usar un valor fijo para un parámetro del rectificador (alfa) como LeakyReLU. Aprende adaptativamente los parámetros del rectificador y mejora la precisión a un costo computacional adicional insignificante
Durante el entrenamiento, una imagen de alta resolución (HR) se reduce a una imagen de baja resolución (LR). La arquitectura del generador intenta aumentar la muestra de la imagen de baja resolución a superresolución. Luego, la imagen pasa al discriminador, el discriminador e intenta distinguir entre una imagen de súper resolución y una de alta resolución y generar la pérdida adversaria que luego se propaga hacia atrás en la arquitectura del generador.
Arquitectura discriminadora:
La tarea del discriminador es discriminar entre imágenes HR reales e imágenes SR generadas. La arquitectura discriminadora utilizada en este documento es similar a la arquitectura DC-GAN con LeakyReLU como activación. La red contiene ocho capas convolucionales con núcleos de filtro de 3×3, aumentando en un factor de 2 de 64 a 512 núcleos. Las circunvoluciones estriadas se utilizan para reducir la resolución de la imagen cada vez que se duplica el número de características. Los 512 mapas de características resultantes son seguidos por dos capas densas y una ReLU con fugas aplicada entre una función de activación sigmoidea final para obtener una probabilidad para la clasificación de la muestra.
Función de pérdida:
El SRGAN utiliza la función de pérdida perpetua (L SR ), que es la suma ponderada de dos componentes de pérdida: pérdida de contenido y pérdida adversaria. Esta pérdida es muy importante para el rendimiento de la arquitectura del generador:
- Pérdida de contenido: utilizamos dos tipos de pérdida de contenido en este documento: pérdida de MSE por píxeles para la arquitectura SRResnet, que es la pérdida de MSE más común para la superresolución de imágenes. Sin embargo, la pérdida de MSE no puede lidiar con el contenido de alta frecuencia en la imagen que resultó en la producción de imágenes demasiado suaves. Por lo tanto, los autores del artículo decidieron utilizar la pérdida de diferentes capas de VGG. Esta pérdida de VGG se basa en las capas de activación ReLU de la red VGG de 19 capas preentrenada. Esta pérdida se define de la siguiente manera:
- Pérdida Adversarial : La pérdida Adversarial es la función de pérdida que obliga al generador a generar una imagen más similar a la imagen de alta resolución mediante el uso de un discriminador que está entrenado para diferenciar entre imágenes de alta resolución y súper resolución.
- Por lo tanto, la pérdida total de contenido de esta arquitectura será:
Resultados:
Los autores realizaron experimentos en tres conjuntos de datos de referencia ampliamente utilizados conocidos como Conjunto 5, Conjunto 14 y BSD 100. Estos experimentos se realizaron en un muestreo de 4x tanto de filas como de columnas.
En la capa anterior, MSE significa que tomamos el error de píxel cuadrático medio simple como pérdida de contenido, VGG22 indica el mapa de características obtenido por la segunda convolución (después de la activación) antes de la segunda capa de agrupación máxima dentro de la red VGG19 y calculamos la pérdida de VGG usando la fórmula descrita anteriormente . Esta pérdida es, por lo tanto, una pérdida en las características de bajo nivel. De manera similar, VGG 54 usa la pérdida calculada en el mapa de características obtenido por la cuarta convolución (después de la activación) antes de la quinta capa de agrupación máxima dentro de la red VGG19. Esto representa la pérdida de funciones de nivel superior de capas de red más profundas con más potencial para centrarse en el contenido de las imágenes.
La imagen de arriba muestra las puntuaciones de MOS en BSD100 dat
un conjunto. Para cada método se evaluaron 2600 muestras (100 imágenes × 26 evaluadores). La media se muestra como marcador rojo, donde los contenedores se centran alrededor del valor i.
Las principales contribuciones de este trabajo son:
- Este documento genera resultados de última generación sobre el muestreo ascendente (4x) según lo medido por PNSR (relación máxima de señal a ruido) y SSIM (similitud estructural) con una red SRResNet de 16 bloques de profundidad optimizada para MSE.
- Los autores proponen una nueva Super Resolución GAN en la que los autores reemplazan la pérdida de contenido basada en MSE con la pérdida calculada en la capa VGG
- SRGAN pudo generar resultados de última generación que el autor validó con una extensa prueba de puntuación de opinión media (MOS) en tres conjuntos de datos de referencia públicos.
Referencias :