Nano Banana: El Inicio de la Congruencia Visual en Imágenes Generadas por IA

El último semestre de la licenciatura en Arquitectura hablé sobre las relaciones entre la ceguera y la disciplina, especialmente sobre cómo los ciegos interpretan el espacio sin la necesidad de mirarlo, y cómo a partir de allí se podría generar una arquitectura que pudiera ser apreciada por cualquier tipo de persona a través de los demás sentidos. Mientras escribía, y a medida que me iba dando cuenta de cómo estamos absolutamente dominados por estímulos visuales (Pallasma lo llama ocularcentrismo), el documento tiró un enfoque hacia la crítica de lo visual y cómo nuestro mundo se construye a partir de la imagen.

Una de las conclusiones a las que llegué es que las Inteligencias Artificiales generadoras de imagen llegarían a dominar la creación arquitectónica si es que el arquitecto no era capaz de presentar argumentos sólidos sobre sus proyectos fuera de la realidad visual. Lo equiparé a cuando se inventó la cámara fotográfica, que, en vez de dejar obsoletos a los artistas, los obligó a evolucionar y a encontrar formas nuevas de manifestar su arte mediante la pintura, ya no enfocándose en el realismo, pues la cámara en ese sentido se volvió un enemigo imbatible, más bien, el artista debería de retratar algo más; una emoción, un sentimiento, un instante, el alma de la escena retratada, invisible al ojo.
De allí surgieron algunos capítulos, donde describo cómo las IAs habían tomado gran importancia en la elaboración de sketches y hasta de anteproyectos enteros, donde la intervención del arquitecto se había reducido a ser un curador de imágenes generadas por la máquina. Destaco ahí, como carencia de la IA, la dificultad que tenía en aquel entonces de realizar imágenes simultaneas congruentes entre sí. Es decir, al pedirle una fotografía del exterior y del interior del mismo edificio, fracasaba en generar imágenes que resultasen veraces, por más que se detallase el prompt.

Con el lanzamiento de Nano Banana de Google AI, me he visto en la necesidad de revisitar estos capítulos pues, como advertí cuando escribí ese ensayo, era cuestión de tiempo que las IAs aprendieran a mantener una congruencia entre sus diferentes imágenes, lo que cambia totalmente el panorama actual. Ergo, revisaremos estos capítulos viendo qué se puede decir ahora con estos nuevos avances tecnológicos.

“Pasado presente y futuro de la realidad visual”

Sobre el primer capítulo que escribí acerca del tema: “presente y futuro de la realidad visual”, mantengo mi postura y la corroboro: las Inteligencias Artificiales de imagen se encuentran más que bien posicionadas en el mercado actual, pues ahorran muchísimo tiempo y eso favorece la economía. Además, mantengo y corroboro mi postura sobre cómo la hegemonía visual actualmente reside en las pantallas, pues consumimos más imágenes dentro del entorno digital que en la propia realidad.
La diferencia es que esto no sólo ha impactado al mercado directamente, sino que usuarios casuales alrededor del mundo, han encontrado un uso recreativo en estas tecnologías. Generando imágenes con sus rostros, aprovechando la fidelidad de estos nuevos modelos y haciéndolos partes de las tendencias de las redes sociales.

“Midjourney [aquí hablaba de la versión 6.0 y 6.5], una de las Inteligencias Artificiales de generación de imagen más potentes actualmente en el mercado, puede generar edificios visualmente fascinantes, sin embargo, por más que se detalle el prompt (las instrucciones) para la generación del espacio pensado, las imágenes suelen carecer de sentido funcional o estructural, siendo su enfoque meramente estético. Aunque con el tiempo estos vicios se han ido puliendo, aún se pueden apreciar errores en estas imágenes.”

Describí algunas incongruencias generales que encontraba en aquellas imágenes, por ejemplo: la ubicación incongruente de vanos y ventanas; escaleras que llevaban a ningún sitio; puertas que parecían conectar con espacios redundantes; errores en escala tanto de la estructura como de los materiales; mobiliario duplicado, como varias tarjas en la misma cocina; etcétera. Cosa que se veía amplificada con las IAs de video, que replicaban estos mismos vicios, pero los hacían más evidentes.
Ahora, con Nano Banana y Veo3, curiosamente ambas de Google, veo cada vez más cerca la resolución de este problema, aunque, pensándolo bien, sigo dudando que esto demuestre que no se trate de una habitación china como lo sugerí en el documento. Para ponernos en contexto, citaré este fragmento del capítulo donde se describe a qué nos referimos cuando hablamos de una habitación china:

“Propuesto por John Searle en 1980, es un experimento mental que cuestiona la idea de que una máquina que procesa información pueda realmente comprender lo que hace. En base a este experimento podemos comparar si una IA de generación de imagen realmente entiende el espacio arquitectónico como lo hace un humano, el planteamiento expresa lo siguiente:

Imagina que una persona que no sabe chino está encerrada en un cuarto con un conjunto de reglas en su idioma nativo que le indican cómo manipular símbolos chinos. Desde afuera, alguien le pasa preguntas escritas en chino, y la persona dentro del cuarto sigue las instrucciones del manual para seleccionar y devolver respuestas en chino, sin entender lo que está escribiendo. Para quien está afuera, parecería que la persona dentro del cuarto sabe hablar chino, ya que las respuestas son correctas, pero en realidad solo sigue reglas mecánicas sin comprender el significado. (Searle, 1980, págs. 417 – 457)

Searle usa este experimento para argumentar que una computadora, por más avanzada que sea, solo manipula símbolos sin comprenderlos. Así, aunque una IA pueda parecer, como su nombre lo indica, “inteligente” (en realidad una palabra usada para marketing), no significa que realmente entienda lo que está procesando. Con esto, Searle refuta la idea de la inteligencia artificial fuerte, que sostiene que una máquina puede llegar a tener una mente y comprensión genuina.”

Podríamos estar cayendo en una falacia similar al creer que ahora las IAs que aparentan ser más congruentes realmente entienden el objeto que están manipulando o es sólo que ahora cuentan con mucha más información para proceder.
Si bien ha habido un avance, y a simple vista se podría decir que, en efecto, entienden a los objetos, realmente poniéndonos meticulosos con los resultados seguimos encontrando incongruencias en los resultados de estas máquinas. Pero estas artimañas visuales, cada vez más sofisticadas, nos hacen creer que realmente hay un entendimiento detrás del supuesto razonamiento de las IAs.

Sorprende más cuando Seadream, un modelo (irónicamente) chino, anuncia que su motor es el mejor para la interpretación de texto a imagen. Siendo capaz de generar letreros, subtítulos y descripciones de objetos dentro de una publicidad generada enteramente con IA, sin la necesidad de recurrir a otro editor de texto en imagen como Photoshop o Illustrator. El hecho de que sea capaz de interpretar texto y cada uno de los caracteres que conforman la escritura, que varían según la fuente con la que se escriba, y además mantenga congruencia representa un gran avance para este tipo de tecnologías. Tan sólo hay que imaginar cuántas formas existen para representar la letra “A”.
Pero ¿cómo es que logran este efecto? ¿Cómo una IA puede diferir entre tantos caracteres y entre tantas formas de representar un mismo símbolo? Y, además, ¿cómo es que logra mantener la congruencia entre el mismo personaje? Ambas cualidades se basan en un mismo principio y es en el reconocimiento de patrones y del “espacio negativo” que es la novedad en este nuevo tipo de modelos.

Breve resumen de la historia de las IAs de imagen (hecho con el propio Gemini)

La generación de imágenes a partir de texto ha pasado de ser una curiosidad a un campo de investigación y aplicación central en la inteligencia artificial. A continuación, se detallan las arquitecturas clave que han impulsado esta evolución, desde las primeras redes neuronales hasta los modelos de vanguardia, con un enfoque en los mecanismos de funcionamiento y las innovaciones técnicas que permitieron saltos en la calidad y coherencia de las imágenes generadas.

1. Redes Generativas Antagónicas (GANs)

Las Generative Adversarial Networks (GANs), introducidas por Ian Goodfellow y sus colegas en 2014, representaron la primera arquitectura prominente en el campo de la generación de imágenes. Su diseño se basa en una teoría de juegos no cooperativa, donde dos redes compiten en un “juego de suma cero”:

El Generador (G): Una red neuronal que toma un vector de ruido aleatorio (generalmente una variable latente muestreada de una distribución simple, como una normal) y lo transforma en una imagen. Su objetivo es generar imágenes tan realistas que puedan engañar al Discriminador.
El Discriminador (D): Otra red que actúa como un clasificador. Recibe una mezcla de imágenes reales (del conjunto de entrenamiento) y las imágenes falsas del Generador, y su tarea es discernir cuál es cuál.

El entrenamiento de una GAN es un proceso de optimización minimax, donde el Generador intenta minimizar una función de pérdida mientras que el Discriminador intenta maximizarla. La función objetivo del Discriminador se expresa como $ \log(D(x)) + \log(1 - D(G(z))) $, que el Generador busca minimizar.

Desafíos y Limitaciones

A pesar de su éxito en la generación de rostros y texturas, las GANs presentaban limitaciones significativas:

Inestabilidad en el entrenamiento: El equilibrio entre G y D era difícil de mantener, lo que a menudo resultaba en el colapso del modo (mode collapse), donde el Generador se estancaba y producía una variedad muy limitada de imágenes.
Dificultad con la coherencia a gran escala: Las GANs luchaban por generar escenas complejas con múltiples objetos relacionados, a menudo produciendo “artefactos” o incoherencias visuales.

2. Modelos de Difusión

Los Modelos de Difusión (Sohl-Dickstein et al., 2015) surgieron como una alternativa superior. Estos modelos se inspiran en la termodinámica, simulando un proceso de “difusión” para generar datos. Su funcionamiento se divide en dos fases:

El Proceso de Difusión (Forward): Es una cadena de Markov que, de manera gradual y controlada, añade ruido gaussiano a una imagen de entrada hasta que se convierte en ruido puro. Este proceso está definido y no requiere aprendizaje.
El Proceso de Denoising (Reverse): Es la fase de aprendizaje. La red neuronal (típicamente una variante de U-Net) se entrena para predecir y eliminar el ruido añadido en cada paso del proceso de difusión. Al entrenarse en millones de imágenes, la red aprende a revertir el proceso de ruido de manera efectiva.

Para generar una imagen, el modelo comienza con un tensor de ruido puro y lo pasa por la red en múltiples pasos, con la red eliminando gradualmente el ruido hasta que una imagen coherente emerge.

El Salto de la Difusión Latente

Una innovación clave fue la introducción de los Latent Diffusion Models (LDMs) (Rombach et al., 2022), utilizados por modelos como Stable Diffusion. Estos modelos no operan en el espacio de píxeles de alta resolución, que es computacionalmente costoso, sino en un espacio latente (comprimido) de menor dimensión.
El proceso de un LDM es el siguiente:

Encoder: Una imagen se comprime en su representación latente.
Difusión en el espacio latente: El proceso de difusión se aplica a esta representación más pequeña, en lugar de a la imagen completa.
Decoder: La representación latente final se “descomprime” para generar la imagen de alta resolución.

La guía del texto se logra mediante un codificador de texto (como un modelo de lenguaje grande pre-entrenado, por ejemplo, CLIP), que convierte el prompt en un vector numérico (embedding) que se utiliza en la red de denoise a través de mecanismos de atención cruzada (cross-attention).

3. El Presente: Modelos Multimodales Nativos

La vanguardia actual va más allá de la simple combinación de texto y difusión. Los modelos como el gemini-2.5-flash-image-preview de Google (casi siempre referido como “nanobanana”) representan una arquitectura multimodal nativa.
En lugar de ser un modelo de texto-a-imagen adaptado, estos modelos son entrenados desde cero con una comprensión intrínseca de múltiples modalidades (texto, imágenes, código, etc.). Esto les permite:

Coherencia conceptual avanzada: Pueden manejar prompts complejos que describen relaciones espaciales y contextuales (“un perro en una bicicleta con un sombrero”) de manera mucho más efectiva que modelos anteriores.
Mantenimiento de la identidad: Logran mantener la apariencia de un personaje o un objeto a través de múltiples imágenes o ediciones.
Edición guiada por texto: Permiten transformaciones y ediciones locales precisas dentro de una imagen existente usando lenguaje natural.

Este salto es posible gracias a arquitecturas unificadas y conjuntos de datos masivos que entrelazan las modalidades de entrada y salida, permitiendo que el modelo no solo genere, sino que también “razone” sobre el contenido visual y textual.