ML | JURASSIC-1 – Modelo de lenguaje

Jurassic-1 , el ‘modelo de lenguaje’ más reciente y avanzado , es desarrollado por AI21 Labs de Israel . ‘Jurassic-1’ es el nombre dado a un par de modelos de procesamiento de lenguaje natural (NLP) autorregresivos. Este modelo, que se desarrolló en competencia con el GPT-3 de OpenAI, consta de J1 Jumbo y J1 Large. Este modelo rompe múltiples récords. No solo en términos del tamaño de Jumbo, que es de 178 mil millones de parámetros, sino también en términos de su alcance y usabilidad por parte de las personas. Este es el primero de todos los modelos de lenguaje que estará disponible para desarrolladores e investigadores.

Este modelo futurista, introducido con la idea de tener máquinas como compañeros de pensamiento de los humanos, promete llevar a cabo todo tipo de lenguajes y tareas operativas. No solo eso, permite a los usuarios crear sus propias aplicaciones y servicios. Algunas de sus mejores características se describen a continuación.

  1. Resumen o simplificación de texto: Jurassic-1 hace un trabajo increíble al reducir textos de cualquier longitud a textos más cortos que contienen solo la información relevante. Esta función se puede utilizar para crear actas de reuniones, captar la esencia de correos/textos extensos, concluir si una revisión o comentario fue positivo o negativo, etc.
  2. Clasificación: Este modelo se especializa en clasificar textos en base a etiquetas o categorías. Esta clasificación no se limita solo a la clasificación binaria. Un caso de uso principal de la clasificación es el caso del análisis de sentimientos.
  3. Conocimiento del mundo y creatividad: este modelo ha sido entrenado en grandes cantidades de datos por lo que es competente para responder preguntas, dar sugerencias y aclarar dudas. No solo eso, este modelo es tan creativo que es capaz de escribir artículos por sí solo. También es divertido, aunque es bastante difícil para la IA comprender esas cosas. Su capacidad para ser tan inteligente y creativo tiene aplicaciones en áreas de redacción, ideación, marketing y creación de chatbots interactivos.

Otras de sus funciones incluyen la traducción de programas y códigos de un lenguaje de programación a otro, la generación de códigos basados ​​únicamente en comandos textuales, la extracción de información y el formateo. Puede escribir la letra de una canción o un rap, disfrutar de un juego de charadas y jugar al ajedrez contra ti.

Para almacenar alrededor de 178 mil millones de parámetros, Jurassic-1 requiere un poco más de 356 GB de memoria con precisión media. Debido a que incluso la mejor memoria de la GPU está limitada a unos 80 GB de memoria, se entrenó con múltiples Nodes. El modelo ha sido entrenado con 300 mil millones de tokens (un token es el pequeño fragmento de texto que se produce separando textos grandes para que la PNL lo entienda) extraídos de fuentes disponibles públicamente. En otras palabras, el modelo ha eliminado casi todos los recursos disponibles públicamente. Este mismo hecho convierte al modelo en un sabelotodo.

Este modelo se diferencia de su predecesor GPT-3 en los siguientes aspectos. GPT-3 tiene una capacidad de 175 mil millones de parámetros, lo que lo convierte en el segundo modelo de idioma más grande. Se han utilizado alrededor de 250 000 tokens únicos, en los que un token puede representar una palabra o una parte de la palabra, para entrenar a Jurassic-1, mientras que GPT-3 se ha entrenado utilizando solo alrededor de 50 000 tokens únicos. Esto hace que el procesamiento de Jurassic-1 sea eficiente, ya que su proporción de tokens por byte (TPB) es más pequeña, lo que implica que el mismo texto se puede representar con menos tokens en Jurassic-1 en comparación con su representación en GPT-3. Esto acelera el procesamiento de consultas de Jurassic-1 1,4 veces si se supone que tanto GPT-3 como Jurassic-1 tienen la misma arquitectura. Pero el problema es que la arquitectura de Jurassic-1 es diferente, ya que varía la relación profundidad/ancho de su red neuronal.mesa 1 . Teniendo en cuenta la arquitectura diferente de Jurassic-1 y su entrenamiento en vocabulario, acelera el procesamiento de consultas en 1,8 veces. Debido a su mayor eficiencia computacional, Jurassic-1 puede incluir más ejemplos, en comparación con GPT-3, en entornos de aprendizaje de pocas tomas. Otra característica muy especial de Jurassic-1 es que permite a sus usuarios entrenar el modelo de forma personalizada dándole muy pocos ejemplos (conjuntos de datos mapeados/respondidos correctamente). Los fabricantes afirman que darle entre 50 y 100 ejemplos debería ser suficiente para que el modelo brinde resultados bastante precisos. Aunque siempre es cierto que cuanto mayor sea el número de ejemplos alimentados, mayor será su precisión. Esto, a diferencia de GPT-3, les da permiso a los usuarios para usarlo también como un chatbot.

Tabla 1: Comparación de arquitecturas de GPT-3 y Jurassic-1 

  •    n params : Número de parámetros en el modelo
  •    n capas : Número de capas en el modelo
  •    d modelo : Número de unidades en cada modelo de cuello de botella
  •    d head : Dimensión de las cabezas de atención
  •    n head : Número de cabezas de atención
  •    n vocab : Número de tokens únicos usados ​​en el entrenamiento

AI21 se encuentra actualmente en versión beta abierta, por lo tanto, permite que todos experimenten con Jurassic-1. Ve a experimentar.

Referencias: 

Publicación traducida automáticamente

Artículo escrito por rvpooja y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *