Stable Diffusion: para qué sirve y cómo funciona la IA que…

Stable Diffusion es un modelo de inteligencia artificial que convierte texto en imágenes. Describís lo que querés ver —en inglés o español— y el sistema genera una imagen desde cero. Fue lanzado en agosto de 2022 por Stability AI junto a investigadores de la Universidad Ludwig Maximilian de Múnich (CompVis) y el estudio Runway ML. Desde el primer día fue código abierto: cualquiera puede descargarlo, correrlo en una computadora con 8 GB de VRAM y generar imágenes sin límite ni costo.

Cómo genera una imagen a partir de palabras

El proceso no ocurre en el espacio de los píxeles sino en un espacio matemático comprimido llamado espacio latente. Esa es la diferencia central con sistemas anteriores: trabajar en un espacio reducido hace que el proceso sea más eficiente y pueda correr en hardware doméstico.

El recorrido de una imagen tiene tres etapas. Primero, el texto del prompt pasa por CLIP, un modelo de lenguaje que traduce las palabras a vectores matemáticos que el sistema entiende. Segundo, el modelo parte de ruido gaussiano —estática pura— y aplica entre 20 y 50 pasos de denoising: en cada paso elimina un poco de ruido y agrega estructura coherente, guiado por los vectores del texto. Tercero, un decodificador traduce el resultado del espacio latente a píxeles visibles. El nombre técnico de esta arquitectura es Latent Diffusion Model (LDM).

Para qué se usa en la práctica

La generación de imágenes desde un prompt es solo el punto de partida. Stable Diffusion tiene cuatro modos de uso principales:

Inpainting: el usuario marca una zona de una imagen existente y el modelo la rellena con contenido coherente con el resto. Útil para eliminar objetos, retocar fondos o cambiar elementos específicos sin rehacer toda la imagen.

Outpainting: extiende una imagen más allá de sus bordes originales. El modelo infiere qué debería haber fuera del encuadre y genera ese contenido de forma consistente con la imagen original.

Img2img: transforma una foto existente siguiendo un prompt. Un boceto a mano puede convertirse en una ilustración detallada; una foto de día puede reinterpretarse como escena nocturna.

Fine-tuning con LoRA: los modelos LoRA (Low-Rank Adaptation) permiten entrenar Stable Diffusion con un conjunto pequeño de imágenes para que aprenda un estilo visual específico, un personaje o una estética particular. Los archivos resultantes pesan pocos megabytes y se comparten libremente en plataformas como Civitai.

ControlNet: generación precisa y reproducible

En 2023 apareció ControlNet, una extensión que cambió el nivel de control disponible. Antes de ControlNet, el resultado dependía fuertemente de cómo estaba redactado el prompt y el factor aleatorio del proceso. ControlNet agrega condicionantes visuales: pose de un esqueleto humano, mapa de bordes, mapa de profundidad, líneas de perspectiva. Con esa información, el modelo genera imágenes que respetan la estructura indicada aunque el estilo o el contenido varíen. Un diseñador puede mantener la pose exacta de un personaje entre decenas de variaciones.

Versiones y la bifurcación con Flux

Stable Diffusion tuvo varias versiones entre 2022 y 2024. SD 1.5 (2022) sigue siendo la base de la mayoría de los modelos personalizados disponibles en la comunidad. SD 2.0 y 2.1 (también 2022) mejoraron resolución pero perdieron compatibilidad con muchos modelos LoRA del 1.5, lo que frenó su adopción. SDXL (2023) introdujo mayor resolución nativa y mejor comprensión de prompts complejos. SD 3.0 y SD 3.5 (2024) rediseñaron la arquitectura con un enfoque llamado Multimodal Diffusion Transformer.

En agosto de 2024, varios de los investigadores originales que salieron de Stability AI fundaron Black Forest Labs y lanzaron Flux.1, un modelo que en pruebas comparativas supera a SDXL en calidad general, coherencia de texto dentro de las imágenes y representación de manos —históricamente uno de los puntos débiles de todos los modelos de difusión.

Stable Diffusion frente a Midjourney

La diferencia más práctica entre Stable Diffusion y Midjourney no es estética sino estructural. Midjourney es un servicio en la nube accesible vía Discord o web, con planes de suscripción que arrancan en 10 dólares mensuales y un número limitado de imágenes según el plan. Stable Diffusion se instala localmente, corre en la propia computadora, no tiene límite de imágenes y no tiene costo de uso. La contrapartida es que requiere configuración inicial y hardware suficiente.

Para quienes no quieren instalarlo, existen interfaces web que permiten usarlo sin setup técnico: ComfyUI y Automatic1111 son las más usadas en instalación local; DreamStudio es la plataforma oficial de Stability AI; Leonardo.ai ofrece una capa gratuita generosa. DALL-E 3 de OpenAI usa una arquitectura diferente pero cubre un perfil de usuario similar.

En Argentina y el resto de Latinoamérica, Stable Diffusion se volvió una herramienta frecuente entre diseñadores freelance, artistas digitales y creadores de contenido, principalmente por el costo cero y la posibilidad de entrenarlo con estilos propios mediante LoRA.

Imagen: Ilustración editorial original de Un Mundo Loco.

Fuente original: Stability AI