Más allá de GPT-3: otras alternativas de modelos de lenguaje que posiblemente no conoces (y deberías)

Como a la mayoría de las personas que siguen las noticias sobre los avances de la inteligencia artificial, tanto optimistas como temerosos por la idea del futuro que pudiera derivarse de su utilización, todos quedamos impresionados por el gran paso de avance que supuso GPT-3.

Tanto ha sido así con nosotros que le hemos dedicado ya varios artículos en SaasRadar, en los que además de dejar claro su potencial inmediato, hablábamos de las posibilidades futuras cuando las principales empresas de este tipo en el mundo activaran el modo competencia para lograr el producto con mejores resultados.

El campo de utilización de estos modelos ha tenido un crecimiento exponencial en el último año, con sistemas que se han enfocado en resolver problemas concretos utilizando modelos de lenguaje similares a GPT-3.

El objetivo del artículo de hoy es precisamente presentar algunos de ellos.

Comenzamos.

Contenidos mostrar

Github Copilot

Desde que la programación de sistemas informáticos dejó de ser tarea de una élite para convertirse en una materia cada vez más común en el mundo, la idea de tener una tecnología aliada que nos ayudara a generar código representaba todo un sueño.

Este sueño comienza a cumplirse mediante la asociación entre Github y OpenAI. Sí, OpenAI, los creadores de GPT-3.

Es que precisamente Copilot se basa en el algoritmo Codex de OpenIA, un modelo de lenguaje enfocado en la generación de código entrenado con los repositorios públicos de Github.

Dicho de otra manera, Copilot es un modelo similar a GPT-3, pero con un entrenamiento acotado al ámbito de la programación.

En la práctica, se traduce en un complemento online que puedes activar para recibir sugerencias de código basado en el contexto que estás programando.

Es importante destacar que Copilot es un excelente primer paso, pero aún es muy propenso a cometer errores que luego deben ser corregidos por el desarrollador, sobre todo en funcionalidades complejas.

Pueden acceder de forma gratuita los miembros del «GitHub Global Campus Program», los desarrolladores que trabajan en proyectos de código abierto o utilizar la versión de prueba por 60 días.

Cuentan además con 2 opciones de pago.

La opción Team, para equipos colaborativos tiene un precio de $44 por usuario al año y la opción Enterprise con un precio de $231 por usuario al año.

Mi opinión es que vale la pena cada centavo de su precio porque si te dedicas al desarrollo de software el tiempo que pierdes buscando detalles insignificantes en internet tiene un costo mucho más alto, y Copilot resolverá esto rápidamente.

En próximos artículos estaremos probando este modelo de lenguaje.

Web Oficial: https://github.com/features/copilot

Ahorra en software

Únete al boletín premium semanal con los mejores lifetime deals y ofertas de software.

Unirme

AlphaCode

Cuando recién pasaba nuestra euforia con Copilot y ya lo asumíamos como parte de nuestro día a día, se aparece DeepMind y nos vuelve a dejar con la boca abierta con AlphaCode.

Pero primero que todo, ¿te suena DeepMind?

DeepMind es una empresa dedicada a la inteligencia artificial creada en el año 2010 en Londres y adquirida por Google en 2014, convirtiéndose en símbolo de éxito garantizado con la solidez y resultados de cada uno de sus grandes proyectos.

Por ejemplo, en el año 2016 crearon una red neuronal y la entrenaron para jugar Go, y lograron vencer a un jugador profesional y campeón del mundo.

En el año 2019 hicieron algo similar con AlphaStar, inteligencia artificial que aprendió a jugar el célebre StarCraft II.

Se van a una rama totalmente diferente y se proponen resolver el problema del plegamiento de proteínas, para lo cual crean AlphaFold.

Acuden a un evento donde se presentan soluciones a este problema, ganando en su primer año y con una ventaja inmensa en su segunda presentación, logrando una precisión similar a las tecnologías más precisas del momento.

Con estos antecedentes era de esperar una fuerte incursión en el mundo del desarrollo, pero AlphaCode ha superado todas las expectativas.

Mientras Copilot sugiere código sencillo a medida que vas programando, AlphaCode es capaz de resolver problemas computacionalmente complejos, los típicos ejercicios de programación para concursos.

Estos problemas requieren el uso de herramientas del lenguaje y técnicas avanzadas de programación para resolver de manera óptima un ejercicio complejo.

¿Cómo funciona?

Este modelo utiliza un tipo de red neuronal denominado transformer entrenado con más de 700 GB de código fuente para crear una estructura de datos propia denominada CodeContests.

Esta estructura está conformada por el enunciado del problema a resolver, soluciones en diferentes lenguajes, ejemplos de entrada y salida y metadatos que se consideren necesarios.

Siguiendo esta estructura, desde una descripción en lenguaje natural el sistema es capaz de generar millones de soluciones diferentes, que pasan por varios filtros hasta dejar las que considera más óptimas.

AlphaCode ha sido probado en diferentes escenarios con resultados muy prometedores, llegando a superar a un programador promedio. Estos resultados lo convierten en un avance vital ya en tiempo presente, y con posibilidades futuras increíbles.

Web Oficial: https://alphacode.deepmind.com/

LaMDA

Es probable que hayas escuchado hablar de la polémica del mes de junio de este año, cuando Blake Lemoine, un ingeniero de Google, afirmaba que LaMDA había adquirido algún nivel de consciencia según las conversaciones que había mantenido con la IA.

Después de hacer estas afirmaciones y publicar como evidencia toda la conversación, estuvo en problemas con Google que derivó en su despido de la empresa por violar su política de privacidad.

Definitivamente, creo que vale la pena que busques la interacción y emitas tus propios criterios, ya que, al menos, la IA supo salir muy bien parada de planteamientos filosóficos y retos complejos que logró convencer a su interlocutor de que sentía como un ser humano.

Pero, ¿qué es exactamente LaMDA?

LaMDA es un modelo de lenguaje para aplicaciones de diálogo que se comporta como un sistema creador de chatbots donde puedes elegir que rol quieres que adopte y te responderá en una conversación acorde a dicha elección.

En las pruebas presentadas por Google cuando lo sacó a la luz en el año 2021, se mostraron conversaciones con LaMDA asumiendo el rol de un planeta y de un avión de papel, con respuestas lógicas derivadas de la interpretación de ese papel.

LaMDA, como otros modelos de lenguaje como GPT-3, basan su funcionamiento en los Transformers, entrenado con grandes cantidades de datos en forma de reto en el que intenta adivinar la palabra siguiente y consultando que tan bien estuvo, para volverlo a intentar.

De este modo tenemos en teoría uno de los modelos de lenguaje más acertados hasta la fecha, con menos libertad que GPT-3 pero más enfocado en dar respuestas reales en una conversación.

Hasta el momento no tenemos una versión para el público, pero se espera con ansias la interacción que pudiera presentarse como un servicio de Google que entendiera mejor el lenguaje natural y te diera los datos precisos que buscas, mejorando la experiencia de aprendizaje.

GPT-J

Si hablamos de los modelos de lenguaje inspirados en GPT-3 no podemos dejar fuera los resultados asombrosos de EleutherAI y su comunidad.

Su objetivo, llegar un modelo de software libre tan grande como GPT-3, suponen un gran reto al no estar apoyado por la infraestructura de las grandes empresas, pero podemos decir que van por buen camino.

Ejemplo de ello es GPT-J, uno de sus modelos de lenguaje con 6 mil millones de parámetros que lo convierten en un modelo equivalente a Curie de OpenAI.

Este modelo es el sucesor de 2 versiones anteriores de modelos denominados GPT-Neo que funcionaban con 1.6 y 2.7 mil millones de parámetros.

Para entrenar estos modelos EleutherAI creó un conjunto de datos de 800 GB denominado The Pile, disponible públicamente.

Como resultado de este trabajo puedes descargar GPT-J y correrlo en tu infraestructura, con el costo de hardware asociado a la inferencia del modelo solamente, aproximadamente 25 GB de GPU VRAM.

Este modelo significa un gran avance para la inteligencia artificial debido a que cualquier persona con los recursos suficientes puede tener control total y crear sus propios chatbots, con un modelo que, aunque aun no tiene la calidad del modelo más grande de GPT-3 (DaVinci), si es un muy buen paso de avance.

Web Oficial: https://www.eleuther.ai/

GPT-NeoX

Si GPT-J era el equivalente de software libre a Curie de GPT-3, EleutherAI en febrero de este 2022 nos llegó con la noticia de que nacía GPT-NeoX, uno de sus modelos de lenguaje, esta vez con 20 mil millones de parámetros.

Esta cantidad puede que no asombre demasiado comparado con los 175 mil millones con que cuenta DaVinci de GPT-3, sin embargo, en las pruebas que se le han realizado se han obtenido muy buenos resultados, veamos.

Accuracy Test Más allá de GPT-3: otras alternativas de modelos de lenguaje que posiblemente no conoces (y deberías)

TEst2 Más allá de GPT-3: otras alternativas de modelos de lenguaje que posiblemente no conoces (y deberías)

En estas imágenes podemos observar la comparación entre varios de los modelos de GPT-3, GPT-J y GPT-NeoX, sobre todo la cercanía de este último con DaVinci.

GPT-NeoX fue entrenado con The Pile y puede ser utilizado con GPU de 48 GB de VRAM según información dada por su co-fundador Connor Leahy en entrevista.

Estos modelos suponen un acercamiento a las grandes comunidades de software libre con los modelos de lenguaje, de la que se espera grandes contribuciones futuras para proyectos que pudieran traducirse en bajos costos o gratuitos.

Web Oficial: https://www.eleuther.ai/

Wudao

Quiero terminar el artículo con Wudao 2.0, uno de los modelos de lenguaje inspirados en GPT-3 que más prometen para el futuro.

Este modelo chino presentado por la Academia de Inteligencia Artificial de Beijing adquirió fama en 2021 por involucrar 1.75 billones de parámetros, 10 veces más grande que GPT-3.

Wudao destaca por ser un sistema multimodelo, lo que significa que no se enfoca en una única tarea, sino que puede realizar trabajos con textos e imágenes y hasta predicción de estructuras de las proteínas, con el objetivo de acercarse un poco más al funcionamiento del cerebro humano.

Para lograr su objetivo, este modelo fue entrenado con 4.9 TB de imágenes y texto tanto en chino como en inglés.

De momento es una tecnología que promete sobre todo por el tamaño de su modelo y haciendo uso del mismo es posible unificar en una herramienta varios de los grandes modelos actuales de propósito fijo. Ahora solo queda esperar a probarlo para tener una prueba en la práctica de estas promesas.

Web Oficial: https://wudaoai.cn/en.html

Resumiendo, un poco, Copilot es ese modelo que te acompaña mientras programas sugiriéndote líneas de código y funciones.

AlphaCode va un poco más allá y ya es capaz de resolver ejercicios de programación para concursos, con un nivel de rigor mucho más fuerte.

LaMDA es un modelo generador de chatbots que puede asumir un rol indicado y mantener una conversación contigo con un realismo que puede llegar a asustar incluso en temas filosóficos y de consciencia.

Luego los modelos de software libre de EleutherAI, GPT-J y GPT-NeoX que proponen un acercamiento bastante asequible por la comunidad a los grandes modelos del momento, con la idea de seguir avanzando, aunque aún estén por debajo.

Por último, Wudao, la gran promesa China, un gigantesco modelo multifuncional que combina varias herramientas.

De este modo concluimos nuestro resumen de los modelos de lenguaje inspirados en GPT más destacados.

Si te perdiste nuestro análisis técnico del funcionamiento de GPT-3 te recomiendo que lo visites, así tendrás una visión más profunda de cómo funcionan los modelos de lenguaje.