Inteligencia artificial: los 4 modelos generadores de imágenes más populares

Para quienes no tenemos habilidades de diseño, crear una imagen que represente exactamente la idea que queremos transmitir en un artículo, software o publicidad es a menudo un dolor de cabeza.

A veces encontramos exactamente esa imagen que necesitamos, pero está protegida por licencias restrictivas que protegen a sus autores de cualquier uso por parte de terceros.

En ese momento debemos invertir en los honorarios de un diseñador o sacrificar calidad y tiempo intentándolo nosotros mismos.

Pero estamos en el año 2022 y la inteligencia artificial ha llegado a darnos una mano, específicamente los modelos generadores de imágenes.

En este artículo te presento algunos de los más populares y cómo le puedes sacar partido a sus bondades para llevar tus diseños a otro nivel fácilmente.

Comenzamos.

¿Qué son los modelos generadores de imágenes?

Los modelos generadores de imágenes son redes neuronales capaces de relacionar texto con los patrones de distribución de píxeles que las representan.

Un modelo de este tipo es entrenado con un set gigante de imágenes con su descripción, de modo que es capaz de organizar toda la información del color y posición de cada píxel para generar una imagen que nadie en el mundo había visto antes.

Su funcionamiento se basa en el uso de modelos de difusión, que son modelos generativos que se construyen diseñando un procedimiento para convertir datos en ruido, y luego entrenar una red neuronal que aprenda a revertir este proceso paso a paso.

Estas redes neuronales se encuentran en un proceso de mejora continua, basado en la competencia entre varias de las empresas líderes del mercado, junto a las tecnologías libres que emergen con fuerza.

Empezamos ya, y lo hacemos en grande con el modelo de OpenIA.

Ahorra en software

Únete al boletín premium semanal con los mejores lifetime deals y ofertas de software.

Unirme

Dall-E

Comenzamos por Dall-E, uno de los primeros modelos generadores de imágenes con resultados importantes y que se nos presenta ahora en su versión 2 de la mano de OpenAI.

La primera versión de Dall-E fue presentada el 5 de enero de 2021 como una versión de 12 mil millones de parámetros de GPT-3, preparada para el procesamiento de imágenes. Los resultados fueron asombrosos.

Un año más tarde OpenAI saca al mercado Dall-E 2, una versión de 3500 millones de parámetros. Esta versión, aunque tiene muchos menos parámetros, ofrece una resolución 4 veces superior que su predecesora.

Dall-E 2 funciona con un proceso denominado diffusion.

Este proceso genera una imagen con una distribución de píxeles aleatorios que luego va acomodando hasta llegar a la imagen que solicitaste según el campo de entrada.

Además, este modelo es capaz de realizar in-painting que permite editar una parte de una imagen reemplazando cualquier elemento por uno generado por la inteligencia artificial de acuerdo con el texto en lenguaje natural.

Para rematar, si tienes una imagen que por algún motivo no puedes utilizar, pero quieres mantener la idea, puedes pasarla como entrada al modelo que te generará diferentes variaciones de la misma, creadas en ese instante.

Actualmente para acceder a Dall-E hay que anotarse en la lista de espera. Cuenta con un sistema de créditos para su uso donde un crédito equivale a 4 imágenes generada.

Puedes adquirir 115 créditos por un precio de $15 USD, unas 460 imágenes.

Web Oficial: https://openai.com/dall-e-2/

Craiyon

Craiyon, anteriormente conocido como Dall-E mini, es uno de los modelos generadores de imágenes libres y se financia incluyendo publicidad en el proceso.

Este modelo no es tan potente como Dall-E.

Tiene limitaciones en el tamaño de las imágenes que puede generar, el grado de ajuste al texto introducido, la calidad de los rostros y el tiempo de respuesta, alrededor de 2 minutos por cada entrada.

Como ventajas, tenemos una interfaz web muy bien lograda y la posibilidad de generar las imágenes que desees, lo que representa un buen paso inicial para probar las potencialidades de estos modelos.

Cuenta además con una aplicación para Android que tener todas las bondades del modelo a mano siempre.

Te invito a que entres en su web oficial y pruebes sus potencialidades.

Web Oficial: https://www.craiyon.com/

MidJourney

Continuamos con Midjourney, nombre de un laboratorio de investigaciones independiente y su herramienta generadora de imágenes basada en modelos de difusión.

MidJourney estuvo en fase beta cerrada hasta el 13 de julio de 2022. Desde ese entonces y hasta la fecha se encuentra en beta abierta accesible a todos a través de un bot en Discord.

Estamos hablando de uno de los más fuertes competidores directos de Dall-E 2 en cuanto a calidad de imágenes, con un enfoque artístico excepcional que podrás percibir con solo entrar a Discord y ver las imágenes que están generando los usuarios.

Aquí algunos ejemplos:

Como puedes observar, la calidad que se logra es impresionante.

Todas estas imágenes fueron generadas en la beta abierta por usuarios, no son parte de ninguna campaña publicitaria ni algo demasiado rebuscado, resultados como estos son muy comunes.

Puedes comprobarlo entrando a la web oficial de Midjourney que te dejo debajo.

En ella tendrás un link para unirte a Discord e interactuar con un plan de pruebas. Eso sí, aprovéchalo bien porque solo tendrás 25 minutos de generación de imágenes. Luego de esto, tendrás que adquirir uno de sus planes de pago.

En estos momentos MidJourney cuenta con 3 planes de pago, el plan Basic tiene un precio de $10 USD al mes y aporta 200 minutos de generación de imágenes.

El plan Stardard cuesta $30 USD al mes con 15 horas de generación y el plan Corporate, con un precio de $600 USD al año proporciona 120 horas de generación anuales.

Web Oficial: https://www.midjourney.com

Stable Diffusion

Y quiero terminar con Stable Diffusion, uno de los modelos generadores de imágenes basados en dufusión más populares hoy.

Se trata de un modelo de código abierto, por lo que si tienes una buena tarjeta de video puedes descargarlo y, con un peso de aproximadamente 4 GB, generar imágenes en tu ordenador con total libertad y sin censura.

El desarrollo de un modelo con estas características marca un hito muy importante para la masificación del uso de esta tecnología en todo tipo de herramientas de diseño y edición de imágenes, bots y una inmensa cantidad de servicios al poder vincularlo de forma gratuita y sin restricciones.

MidJourney por ejemplo, ya incorporó Stable Diffusion en su modelo para potenciarlo, de modo que lo complementará y lo hará crecer.

Por parte de la calidad de imagen que podemos obtener con Stable Diffusion debo decir que el nivel de detalle es excepcional, al nivel de sus más potentes competidores de pago.

Veamos algunos ejemplos de imágenes generadas por los usuarios:

Puedes ver muchos más ejemplos con sus textos de entrada en la web de Lexica o ir directamente a generar tus propias imágenes.

Puedes descargar el código aquí, sigue las instrucciones para descargar los paquetes de Python necesarios.

Posteriormente debes descargar el modelo aquí y ya serás capaz de probar utilizar tu tarjeta gráfica para explotar todas las potencialidades del modelo.

Si no cuentas con el hardware necesario puedes ejecutar Stable Diffusion desde esta web, creada por su equipo de desarrollo.

Como desventaja de este método es que esta página sí es de pago, lo que tiene sentido ya que usas sus recursos de hardware.

No obstante, al registrarte obtienes algunos créditos para generar imágenes como prueba del modelo.

Web Oficial: https://stability.ai

Hasta aquí la presentación de los modelos generadores de imágenes fundamentales hoy, Dall-E 2, MidJourney y Stable Diffusion, además de Craiyon que va siglos por detrás en cuanto a calidad de los resultados, pero como una aproximación de conceptos, me pareció de utilidad incluirlo, sobre todo porque te da opciones muy asequibles para la generación de imágenes sin pagar ni utilizar tu hardware.

Espero que te haya resultado interesante el artículo. Si te interesa este tipo de contenido puedes decirnos en los comentarios y te invito a darle una ojeada a las principales alternativas a GPT-3 conocer.