Abrir IA GPT-3

Los investigadores de OpenAI proponen Open AI GPT-3 como una próxima serie de modelos GPT en el artículo titulado «Language Models are few shots learners». Está entrenado en 175 mil millones de parámetros, que es 10 veces más que cualquier modelo no disperso anterior. Puede realizar varias tareas, desde traducción automática hasta generación de código, etc.

El modelo no está disponible para descargar a partir de ahora debido a sus preocupaciones sobre usos incorrectos. OpenAI proporcionará una API premium para usar la capacidad GPT-3. La API está actualmente disponible en versión beta.

  • Aprendizaje de disparo cero: el modelo intenta predecir la respuesta sin entrenamiento (actualización de gradientes). El modelo ha proporcionado la entrada y la descripción de la tarea. El modelo necesita predecir la salida sobre la base de la entrada.
  • One-Shot Learning: el modelo intenta predecir la respuesta con solo un ejemplo de una tarea. El modelo ve un solo ejemplo para una tarea pero no se usa para el entrenamiento. Esto se usa comúnmente en la visión por computadora, como la red siamesa, donde un ejemplo de entrenamiento y uno de prueba pasan a través de una red neuronal y calculan la distancia entre ellos.
  • Aprendizaje de pocos intentos: el modelo intenta predecir la respuesta con solo unos pocos ejemplos de tareas. El modelo proporciona algunos ejemplos de una tarea y una descripción de la tarea.

Aprendizaje de disparo cero, disparo único y pocos disparos

Los métodos de entrenamiento anteriores se utilizan para el aprendizaje en contexto, lo que significa que proporcionó una tarea y ejemplos, en función de lo que el modelo necesita para realizarla en el conjunto de datos de prueba. Este método de entrenamiento comúnmente utilizado en GPT-3

Ajuste fino: en este proceso, el modelo se entrena proporcionando una gran cantidad de datos. En este método, entrenaremos el modelo realizando actualizaciones de gradiente después de cada época (o cada ejemplo) similar al entrenamiento de redes neuronales.

Arquitectura: GPT-3 se entrena con diferentes variantes de modelos con una cantidad de parámetros que van desde 125 millones hasta 175 mil millones. A continuación se muestran los detalles arquitectónicos de diferentes modelos de GPT-3.

Nombre del modelo n parámetros n capas modelo _ n cabezas d cabezas Tamaño del lote Tasa de aprendizaje
GPT-3 pequeño 125M 12 768 12 64 0,5 millones 6 * 10 -4
Medio GPT-3 350M 24 1024 dieciséis 64 0,5 millones 3 * 10 -4
GPT-3 grande 760 M 24 1536 dieciséis 96 0,5 millones 2.5 * 10 -4
GPT-3XL 1.3B 24 2048 24 128 1M 2 * 10 -4
GPT-3 2.7B 2.7B 32 2560 32 80 1M 1.6 * 10 -4
GPT-3 6.7B 6.7B 32 4096 32 128 2 millones 1.2 * 10 -4
GPT-3 13B 13B 40 5140 40 128 2 millones 1 * 10 -4
GPT-3 175B 175B 96 12288 96 128 3,2 millones 0,6 * 10 -4
  • n params : Número de parámetros en el modelo
  • n capas :  Número de capas en el modelo.
  • d modelo : Número de unidades en cada modelo de cuello de botella.
  • d head : Dimensión de cabezas de atención.
  • n head : Número de cabezas de atención.

Detalles del resultado:

  • Modelado de lenguaje: Para la tarea de modelado de lenguaje, el GPT-3 se evalúa en el conjunto de datos de Penn Treebank. El modelo de lenguaje utiliza la configuración Zero-shot para evaluar el resultado. El modelo GPT-3 más grande mejoró los resultados del estado del arte (SOTA) en 15 puntos. El GPT-3 también se evalúa en otros 3 conjuntos de datos de modelado de lenguaje.
    • Conjunto de datos LAMBADA: El conjunto de datos LAMBADA prueba el modelado de dependencias de largo alcance en el texto. La tarea es predecir la última palabra de oraciones que requiere leer un párrafo de contexto. En el conjunto de datos LAMBADA, el modelo GPT-3 de pocos disparos mejora la precisión en un 18 %, incluso el GPT-3 de cero disparos también brinda una precisión un 8 % mejor que el SOTA anterior.
    • Conjunto de datos de HellaSwag : el conjunto de datos de HellaSwag consiste en elegir el mejor final para una historia o un conjunto de instrucciones. Los ejemplos se extrajeron de manera adversaria de tal manera que se volvieron difíciles para los modelos de lenguaje mientras seguían siendo fáciles para los humanos. En el conjunto de datos de HellaSwag, el GPT-3 de pocos disparos obtuvo una precisión del 79,3 %, que no es mejor que el estado del arte anterior (85,6 %).
    • StoryCloze: el conjunto de datos StoryCloze 2016 implica seleccionar la oración final correcta para historias largas de cinco oraciones. Los pocos dispararon GPT-3. El aprendizaje de pocos disparos de GPT-3 obtiene una precisión del 87,7 %, que está más cerca de la precisión del estado del arte (91 %).
  • Respuesta a preguntas de libro cerrado: esta tarea mide la capacidad del modelo GPT-3 para responder a la pregunta sin proporcionar ningún dato auxiliar para buscar respuestas. En esta tarea, el modelo utiliza el amplio conocimiento fáctico para responder a las preguntas. El modelo GPT-3 se evalúa en tres conjuntos de datos (NaturalQS, WebQS y TriviaQA) para el aprendizaje de disparo cero, disparo único y pocos disparos. A continuación se muestran los resultados generados por GPT-3 en comparación con esta tarea. En el conjunto de datos de TriviaQA, el GPT-3 obtuvo simplemente mejores resultados (71,2 %) que los conjuntos de datos de última generación anteriores (pero en los conjuntos de datos de NaturalQS y WebQS, todavía está rezagado con respecto al modelo de generación aumentada de recuperación (RAG).
  • Traducción: dado que la mayoría de los datos de entrenamiento de GPT-3 son un conjunto de datos de rastreo común sin procesar con filtrado. Entonces, la mayoría de los datos de capacitación están en inglés (93 %) con solo un 7 % en otros idiomas. La configuración de disparo cero que proporcionó la única descripción de la tarea tiene un rendimiento inferior al de los modelos anteriores de traducción automática neuronal no supervisada. Sin embargo, los autores notaron que el puntaje BLEU para la tarea de traducción aumentó en 7 puntos en promedio con 4 aumentos adicionales de AZUL de un solo intento a varios intentos. En otro punto, los autores concluyeron que, al traducir del inglés a otros idiomas, se queda rezagado con respecto a los modelos NMT de última generación. Sin embargo, mientras se traduce al inglés, logra resultados de última generación (o más cercanos).
  • Tarea de estilo Winograd : en esta palabra, el objetivo del modelo es determinar a qué palabra se refiere un pronombre cuando el pronombre no es ambiguo para modelar pero no para que los humanos lo entiendan. Los modelos recientes han logrado una precisión a nivel humano en la tarea de Winograd. GPT-3 también obtuvo una precisión más cercana al estado del arte anterior. Pero en el conjunto de datos más grande de Winogrande, hay margen de mejora en comparación con el estado del arte anterior.
  • Razonamiento de sentido común : para capturar el razonamiento físico y científico, el modelo se evalúa en tres conjuntos de datos. Estos son:
    • Control de calidad físico: contiene preguntas de sentido común sobre cómo funciona el mundo físico y pretende ser una prueba de comprensión fundamentada del mundo. GPT-3 logra un 81,0 % de precisión en un disparo cero, un 80,5 % de precisión en un disparo y un 82,8 % de precisión en el aprendizaje de pocos disparos. Esto es mejor que la precisión de vanguardia anterior de RoBERTa ajustado.
    • ARC: contiene preguntas de opción múltiple recopiladas de los exámenes de ciencias de 3.º a 9.º grado. GPT-3 logra una precisión del 51,4 % en la configuración de disparo cero, del 53,2 % en la configuración de un disparo y del 51,5 % en la configuración de pocos disparos.
    • OpenBookQA: en OpenBookQA, GPT-3 mejora significativamente de cero a unas pocas configuraciones de disparo, pero todavía tiene más de 20 puntos por debajo del estado del arte general (SOTA). El rendimiento de pocos disparos de GPT-3 es similar a una línea de base BERT grande ajustada en la tabla de clasificación.
  • Comprensión de lectura : para la comprensión de lectura, GPT-3 se evalúa en 5 conjuntos de datos diferentes. Los resultados de GPT-3 están más cerca del estado del arte en el conjunto de datos de respuesta de preguntas conversacionales. Sin embargo, en los cuatro conjuntos de datos (incluido el conjunto de datos DROP, QuCA, Stanford Question Answer (SQuAD), Reading Comprehension From Extraction (RACE)), el GPT-3 va a la zaga del estado del arte por un amplio margen.
  • superpegamento . Para resumir mejor los resultados de las tareas de PNL y compararlos con modelos populares como BERT y RoBERTa de una manera más sistemática, también evaluamos GPT-3 en una colección estandarizada de conjuntos de datos, el punto de referencia SuperGLUE. A continuación se muestra el resultado del rendimiento de GPT-3 en este conjunto de datos de referencia.

Resultados en los puntos de referencia de SuperGLUE

  • NLI : la inferencia del lenguaje natural (NLI) se refiere a la capacidad de comprender la relación entre las dos oraciones. En la práctica, esta tarea suele estructurarse como un problema de clasificación de dos o tres clases en el que el modelo clasifica si la segunda oración sigue lógicamente a la primera, contradice a la primera o es una posible combinación de dos oraciones. SuperGLUE contiene un conjunto de datos NLI (RTE) cuyos resultados se proporcionan arriba. GPT-3 se prueba en otro conjunto de datos NLI llamado ANLI (Inferencia de lenguaje natural adversario). Este conjunto de datos contiene 3 niveles de preguntas extraídas adversamente (R1, R2 y R3). El modelo GPT-3 más grande brinda una precisión de ~40 % en R3, que está muy por debajo del estado del arte (48,3 %).
  • Tarea sintética y cualitativa: para probar las habilidades de GPT-3, los autores proporcionan tareas que requieren observar patrones en tiempo real, que no había visto en el entrenamiento . Primero, los autores prueban la capacidad de GPT-3 para realizar tareas aritméticas. En segundo lugar, los autores evaluaron GPT-3 en tareas que implican reorganizar o descifrar las letras de una palabra (como anagramas, palabras inversas, etc.). En tercer lugar, los autores prueban la capacidad de GPT-3 para resolver problemas de analogía al estilo SAT para unas pocas tomas. Finalmente, GPT-3 se evalúa en varias tareas cualitativas, incluido el uso de nuevas palabras en una oración, la corrección de la gramática del inglés y la generación de artículos de noticias.
    • En las tareas aritméticas, el aprendizaje de pocos intentos de GPT-3 inicialmente da casi un 100 % de resultados correctos en sumas y restas de 2 dígitos, pero a medida que aumentan los dígitos, la precisión también se ve afectada.
  • GPT-3 también demostró resultados impresionantes en la generación de artículos de noticias. Luego, los artículos se prueban en humanos para detectar si son reales o generados. Los artículos generados por el modelo GPT-3 175B solo son detectados correctamente por el 52% de los humanos (frente al 50% de forma aleatoria). A continuación se muestra la muestra del artículo en el que la mayoría de los humanos se equivocaron (12% de precisión).
Title: United Methodists Agree to Historic Split
Subtitle: Those who oppose gay marriage will form their own denomination
Article: After two days of intense debate, the United Methodist Church
has agreed to a historic split - one that is expected to end in the
creation of a new denomination, one that will be "theologically and
socially conservative," according to The Washington Post. The majority of
delegates attending the church's annual General Conference in May voted to
strengthen a ban on the ordination of LGBTQ clergy and to write new rules
that will "discipline" clergy who officiate at same-sex weddings. But
those who opposed these measures have a new plan: They say they will form a
separate denomination by 2020, calling their church the Christian Methodist
denomination.
The Post notes that the denomination, which claims 12.5 million members, was
in the early 20th century the "largest Protestant denomination in the U.S.,"
but that it has been shrinking in recent decades. The new split will be the
second in the church's history. The first occurred in 1968, when roughly
10 percent of the denomination left to form the Evangelical United Brethren
Church. The Post notes that the proposed split "comes at a critical time
for the church, which has been losing members for years," which has been
"pushed toward the brink of a schism over the role of LGBTQ people in the
church." Gay marriage is not the only issue that has divided the church. In
2016, the denomination was split over ordination of transgender clergy, with
the North Pacific regional conference voting to ban them from serving as
clergy, and the South Pacific regional conference voting to allow them.

Conjuntos de datos utilizados: hay cinco conjuntos de datos diferentes que se utilizan en el entrenamiento, el más grande de ellos es el conjunto de datos de rastreo común que contiene casi un billón de palabras antes del filtrado. Pero este conjunto de datos se filtra y procesa previamente para obtener casi 400 mil millones de tokens. El otro conjunto de datos incluye una versión ampliada del conjunto de datos WebText y dos conjuntos de datos de corpus de libros basados ​​en Internet y texto de Wikipedia en inglés.

conjunto de datos Cantidad (número de fichas) Peso en la mezcla de entrenamiento
Conjunto de datos de rastreo común (filtrado) 410 mil millones 60%
Texto web 2 19 mil millones 22%
Libros1 12 mil millones 8%
Libros2 55 mil millones 8%
Wikipedia 3 mil millones 3%

Detalles de entrenamiento:

Todas las versiones de GPT-3 están (pre) entrenadas con Adam como Optimizer con β 1 = 0.9, β 2 = 0.95 y epsilon = 10 -8 . El tamaño del lote de datos de entrenamiento aumenta linealmente de 32k tokens a un máximo de 4 a 12 mil millones de tokens. Los datos se muestrean sin reemplazo durante el entrenamiento para minimizar el sobreajuste.

Limitaciones :

A pesar de su fuerte mejora en el resultado cualitativo y cuantitativo, GPT-3 también tiene algunas limitaciones:

  • GTP-3 también sufre el mismo problema que otros modelos de NLP, a pesar del tamaño del modelo, las muestras de GPT-3 a veces se repiten semánticamente a nivel de documento, comienzan a perder coherencia en pasajes suficientemente largos, se contradicen y ocasionalmente contienen oraciones no concluyentes o párrafos
  • Dado que el aprendizaje en contexto es diferente del entrenamiento del modelo estándar, no implica arquitecturas bidireccionales ni otros objetivos de entrenamiento, como la eliminación de ruido. Esta podría ser una posible explicación del desempeño comparativamente malo de GPT-3 en algunas tareas, como WIC (que involucra comparar el uso de una palabra en dos oraciones), ANLI (que involucra comparar dos oraciones para ver si uno implica el otro), y varias tareas de comprensión lectora (p. ej., QuAC y RACE).
  • Si bien GPT-3 da un paso hacia la eficiencia de la muestra en tiempo de prueba más cercana a la de los humanos (un disparo o un disparo cero), aún requiere mucho más texto durante el entrenamiento previo del que un humano ve en su vida.
  • GPT-3 también sufre de sesgos comunes, como el sesgo hacia la raza, el género, la religión, etc.
    • Sesgo hacia el género : para probar el sesgo de género, los autores probaron las asociaciones de género de diferentes ocupaciones. A continuación se muestran los resultados
      • El 83% de las 388 ocupaciones evaluadas tenían más probabilidades de estar asociadas con un identificador masculino por GPT-3. Esto incluye los trabajos intensivos en mano de obra, trabajos que requieren altos niveles de educación y competencia.
      • La mayoría de las palabras descriptivas femeninas están relacionadas con su apariencia, mientras que las palabras descriptivas masculinas son bastante diversas.
    • Sesgo hacia la raza : en los modelos, los autores notaron que los asiáticos tienen sentimientos comparativamente buenos, mientras que los negros tienen sentimientos comparativamente bajos.
    • Sesgo hacia la religión: para evaluar los sesgos relacionados con la religión, los autores toman el texto generado a partir de 800 resultados del modelo de longitud ≈50 dando un aviso con el nombre de una religión. Los autores encontraron que algunas palabras están más asociadas con una religión en particular en comparación con otras.

Referencias:

Publicación traducida automáticamente

Artículo escrito por pawangfg y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *