Stable Diffusion, paso a paso para crear imágenes desde texto | Computer Hoy

2023-01-10 18:14:44 By : Ms. mika cui

Antes, si querías crear una imagen digital, tenías que saber dibujar y usar herramientas como Photoshop. Sin embargo, a partir de 2022 todo ha cambiado, y todo gracias a la IA y herramientas como Stable Diffusion. Veamos cómo funciona.

La generación de imágenes por parte de la IA es la capacidad más reciente de la IA que está dejando a la gente boquiabierta. La capacidad de crear imágenes impactantes a partir de descripciones de texto tiene una cualidad mágica y apunta claramente a un cambio en la forma en que los humanos crean arte. 

Stable Diffusion, muy concretamente, es un modelo de aprendizaje automático de código abierto que puede generar imágenes a partir de un texto, modificar imágenes basadas en un texto o rellenar detalles en imágenes de baja resolución o con pocos detalles. 

Se ha entrenado con miles de millones de imágenes y puede producir resultados comparables a los que se obtienen con DALL-E 2 y MidJourney. Ha sido desarrollado por Stability AI y fue lanzado públicamente por primera vez el 22 de agosto de 2022.

Stable Diffusion no tiene una interfaz de usuario (todavía) como algunos generadores de imágenes de IA, pero tiene una licencia muy permisiva, y, lo mejor de todo, es completamente gratis para usar en tu propio PC o Mac. El lanzamiento de Stable Diffusion es un claro hito en este desarrollo porque puso a disposición de las masas un modelo de creación de imágenes de alto rendimiento.

Gracias a Jay Alammar, un experto en aprendizaje automático (machine learning), vamos a adentrarnos en el funcionamiento de esta curiosa herramienta. Destacar que nos centraremos en cómo esta herramienta genera una imagen introduciendo un texto, que puede ser desde una frase hasta una simple palabra (también se puede introducir otras imágenes).

Primero de todo, miremos bajo el capó y observaremos que esta herramienta está formada por varios componentes y modelos (azul, rosa y amarillo). 

Por un lado, y si hablamos de generación imagen basada en texto, encontramos un componente que se encarga de traducir ese texto a números, un codificador de texto denominado CLIPtext (Paso 1).

En pocas palabras, este modelo coge el texto de entrada y produce una lista de números (un vector) que representa cada palabra del texto (lo codifica y genera lo que se conoce como ruido).

Tras esto, la información se pasa por el generador de imágenes en dos etapas (denominada como Image Generator en la imagen que os mostramos, pasos 2 y 3):

En este proceso entra en juego la red neuronal UNet y un algoritmo de programación que se encargan de agrupar (eliminar el ruido) lo traducido previamente en una matriz de información procesada (Paso 2). Esto se va produciendo en diferentes pasos, en los que se va añadiendo cada vez más información y eliminando más ruido.

Os dejamos un ejemplo realizado por nosotros, cogiendo la misma frase, para qué veáis como realmente las creaciones no son fijas y varían de un usuario a otro, aparte de que las opciones que te presenta son multitudinarias para que elijas la que más te gusta.

El gran dilema que actualmente vivimos, como suele ocurrir siempre que surge alguna nueva herramienta digital que nos facilita la vida, es si estamos perdiendo nuestra esencia como ser humano creativo. Y es que sí, parece que hay poco mérito en aquello que es generado por una máquina, pero alguien ha tenido que estar detrás ideándola y dándole forma (redes neuronales). 

Algunos artistas, como Ryan Murdoch, han defendido que se reconozca como arte la creación de imágenes basadas en el estímulo. Señala como ejemplo a la experimentada artista de la IA Helena Sarin y, desde luego, no sería un mal primer paso. 

Recientemente, la Oficina de Derechos de Autor de EE.UU. ha otorgado el primer copyright conocido por una imagen generada por IA a una artista neoyorkina llamada Kris Kashtanova. 

Desde luego, a favor o en contra, la Inteligencia Artificial en general y sobre todo, estas nuevas herramientas, están planteando una serie de dilemas éticos y legales bastante preocupantes, pero debe quedar claro el arte que reside en ambas creaciones.

Descubre más sobre Carolina González Valenzuela, autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.

Axel Springer España es una compañía neutra en carbono