RoBERTa significa Robustly Optimized BERT Pre-training Approach. Fue presentado por investigadores de Facebook y la Universidad de Washington. El objetivo de este artículo fue optimizar el entrenamiento de la arquitectura BERT para tomar menos tiempo durante el pre-entrenamiento.
Modificaciones al BERT:
RoBERTa tiene una arquitectura casi similar a BERT , pero para mejorar los resultados en la arquitectura BERT, los autores hicieron algunos cambios de diseño simples en su arquitectura y procedimiento de entrenamiento. Estos cambios son:
- Eliminación del objetivo de predicción de la siguiente oración (NSP) : en la predicción de la siguiente oración, el modelo se entrena para predecir si los segmentos de documentos observados provienen del mismo documento o de documentos distintos a través de una pérdida auxiliar de predicción de la siguiente oración (NSP). Los autores experimentaron eliminando/agregando la pérdida de NSP a diferentes versiones y concluyeron que eliminar la pérdida de NSP coincide o mejora ligeramente el rendimiento de las tareas posteriores.
- Entrenamiento con tamaños de lote más grandes y secuencias más largas: originalmente, BERT está entrenado para 1 millón de pasos con un tamaño de lote de 256 secuencias. En este artículo, los autores entrenaron el modelo con 125 pasos de secuencias de 2K y 31K pasos con secuencias de 8k de tamaño de lote. Esto tiene dos ventajas, los lotes grandes mejoran la perplejidad en el objetivo de modelado de lenguaje enmascarado y también la precisión de la tarea final. Los lotes grandes también son más fáciles de paralelizar a través del entrenamiento paralelo distribuido.
- Cambio dinámico del patrón de enmascaramiento : en la arquitectura BERT, el enmascaramiento se realiza una vez durante el preprocesamiento de datos, lo que da como resultado una única máscara estática. Para evitar el uso de la máscara estática única, los datos de entrenamiento se duplican y enmascaran 10 veces, cada vez con una estrategia de máscara diferente durante 40 épocas, por lo que se tienen 4 épocas con la misma máscara. Esta estrategia se compara con el enmascaramiento dinámico en el que se genera un enmascaramiento diferente cada vez que pasamos datos al modelo.
Conjuntos de datos utilizados:
Los siguientes son los conjuntos de datos utilizados para entrenar el modelo ROBERTa:
- BOOK CORPUS y conjunto de datos de Wikipedia en inglés: estos datos también se utilizan para entrenar la arquitectura BERT, estos datos contienen 16 GB de texto.
- CC-NOTICIAS . Estos datos contienen 63 millones de artículos de noticias en inglés rastreados entre septiembre de 2016 y febrero de 2019. El tamaño de este conjunto de datos es de 76 GB después del filtrado.
- OPENWEBTEXT: este conjunto de datos contiene contenido web extraído de las URL compartidas en Reddit con al menos 3 votos a favor. El tamaño de este conjunto de datos es de 38 GB.
- HISTORIAS: este conjunto de datos contiene un subconjunto de datos de rastreo común filtrados para que coincidan con el estilo similar a una historia de la tarea de NLP de Winograd. Este conjunto de datos contiene 31 GB de texto.
Resultados:
- En las tareas de NLP de referencia de GLUE, el modelo logra una puntuación de 88,5 en la tabla de clasificación pública y logra la puntuación más avanzada en 4 de las tareas de GLUE: Inferencia de lenguaje natural múltiple (MNLI), QuestionNLI, Comparación de similitud textual semántica ( STS-B), y Reconocimiento de Implicaciones Textuales (RTE) en el momento de su publicación.
- En el momento de su lanzamiento, en los conjuntos de datos SQuAD 1.1 y SQuAD 2.0, puede igualar los resultados anteriores de última generación de XLNet.
- También logra mejores resultados que el modelo BERT (LARGE) y XLNet en conjuntos de datos de referencia RACE.
Referencias: