IA CHARLA UTN

LA SITUACIÓN INICIAL: Es el Dia 3 de la Jam y nuestro ilustrador nos dice que se va con un mensaje muy claro: "para hacer cosas con IA...

Ver más →

LA SITUACIÓN INICIAL:

Es el Dia 3 de la Jam y nuestro ilustrador nos dice que se va con un mensaje muy claro: "para hacer cosas con IA y de mala calidad prefiero no participar", en su defensa yo no le había contado el completo de lo que iba a hacer y eso pudo haber sido esclarecedor, no había tiempo para contárselo al completo, solo le dije "podemos tener el control y no sacrificar nada de nuestra visión".

Con el diario del lunes y con BA RUNNER llegando a ser presentado en la JAM abriendo la puerta a esta charla, podemos mirar hacia atrás y decir que, las palabras de nuestro ex-ilustrador envejecieron muy mal.

¿QUE ES BA RUNNER?:

BA RUNNER es un videojuego construido en BUNKER 26 (un equipo que armamos en medio de la JAM), la definicion corta del juego es que es un juego sobre esquivar autitos con mucho estilo, muy rapido y muy satisfactorio, la version larga de la deficion es que consiste en la visibilización del aislamiento con el que conviven los conductores de servicios de transporte mientras lo envolvemos en una suerte de endless runner que más que endless runner es un bullet hell rítmico que busca estimular al jugador mediante micro victorias y un gameloop que recompensa el aprendizaje.

En el videojuego controlamos a Enzo, un remisero de Capital Federal pero reimaginada, basada en una realidad bajo la premisa de cómo era la percepción del futuro de los 2010 desde la mirada de los 90s solo que sin el componente futurista extremo.

WORLDBUILDING DE BA RUNNER:

Específicamente entre esas épocas y las épocas más recientes, el conflicto entre taxistas (CABA tiene alrededor de 38 mil licenciados) y conductores de apps es muy intenso, más que nada por alegaciones diversas de competencia desleal. Enzo vive en esa transición y en esa tensión y el juego remarca lo fuera del sistema que se puede estar aún estando en el sistema.

Lo podemos ver por ejemplo en:

El hecho de que Enzo es remisero y en CABA eso es muy improbable.
El hecho de que el Peugot 205 Blanco que conduce es un coche que no se permite en aplicaciones de conducción y tampoco es visto entre los taxistas.
O también en la apariencia del personaje teniendo una combinación de colores extraña en su pelo y ojos (solo el 1.4% de 8300 millones de personas a nivel mundial la tiene), eso también fue una decisión de diseño.

Otra de las decisiones importantes de diseño se encuentra en su chaqueta, no solo por el detalle de Bunker 26 en la espalda que es el nombre del equipo sino que también en la forma de la chaqueta que es particular. Inspirada por ejemplo en la chaqueta que maneja rambo en la película de first blood o la parte de las mangas que podemos encontrar en la camiseta retro de Boca 2001.

Adicionalmente Enzo se combina en postura, apariencia, silueta, movimientos, construcción psicológica e interpelación con el mundo con actitudes encontrables en títulos como Blade Runner 2049 con Ryan Gosling, o Taxi Driver con Robert De Niro.

También podemos ver en el manejo del pelo inspiración de Char Aznable de Mobile Suit Gundam aunque no precisamente cualquier versión de Char sino la versión del Universal Century en su variante Mobile Suit Zeta Gundam.

Jonathan Ingram, el protagonista de Policenauts también fue tomado para la parte de la composición visual.

Y yendo incluso aún más en profundidad, la presentación de Akira por ejemplo fue de gran ayuda para nuestra visión en los apartados de composición visual también.

Más en profundidad podemos mencionar la intención de hacer que el personaje en el guión hablara de un modo muy específico a lo Jhon Wick o que los frames contemplativos se inspirarán en la forma de construir escenas de Akira Kurosawa con la muestra de 1 frame 1 cuadro.

ASPECTOS TÉCNICOS DE GAME DESIGN Y ARTÍSTICOS:

Físicamente podemos ahondar mucho más y ya tocar apartados estéticos como lo pueden ser :

1.Policenauts de Hideo Kojima , de quien sacamos el uso y juego de las cinemáticas que queríamos tanto para la maniobrabilidad de modo animación como para el uso de modo subtitulo de quick mode, que fue el que era más efectivo para nosotros en el momento de la JAM de decir, "vamos a entregarlo y si llegamos con cinemática, llegamos", aunque siempre estuvo en nuestros planes que así todo fuera animacion y no keyframe por keyframe.

2. Otra de las inspiraciones fue el pase de niveles que se llevaba en los juegos retro de donde sacamos el continue clásico de los juegos arcade pero con el tono de "Estas despedido" apropiado para la visión de aislamiento que buscábamos, el uso de las pantallas de victoria, de derrota y la inclusión de un Asset que para nosotros capaz es común como la estrella pero para el Sekai Kan (recordemos que es la cosmovisión y la dirección de ese mundo) era muy importante porque además complementaba la visión de aislamiento, tenia que si o si ser una estrella debido a que las valoraciones de las apps utilizan estas estrellas y el riesgo de tener malas estrellas (absolutamente dependientes de la percepción de los usuarios) podría generar un bloqueo de la cuenta del conductor.

3. La estética de 8 bits para las demás instancias nos permite entre otras cosas manejar la animación del auto de un modo específico que es en gran medida evitar crear una animación mucho mayor y poder usar la vista como una suerte de ayuda técnica que no rompe la ilusión si está bien acompañada. De ahí también emergen las canciones en bits que al principio las que usamos de referencia fueron Nightcall de Kavinsky pero en un remixado de 8 bits.

4. Sabíamos también que queríamos construir un Parallax estilo la Neo-GEO para el momento de la progresión de los niveles, que de hecho cuando ustedes están avanzando en el juego nunca llegan a ver la imágen completa final pero eso solo lo sabemos nosotros.

Con todo esto que estoy nombrando construimos un panorama completo de lo que se conoce como documento de Game Design que describe todas las decisiones del juego y su porqué. Pero adicionalmente a esto, también escribimos un documento de contexto cultural, de investigación que complementará la existencia de estas reglas del mundo y aportará lo que se conoce como "La vibe" o en términos mucho más del mundo del gaming, el "Sekai Kan"

En otras palabras, este concepto significa la cosmovisión del mundo y cómo ese mundo está afectando no solo al arte sino que influenciando todas las decisiones de diseño para que las conecciones entre game feel (lo que siente un jugador al jugar el juego), mecánicas, premisa, guión, música e historia se sientan siempre del mismo canal y compartan la misma visión.

En términos más prácticos, lograr esto es lo que permite en mayor medida que el juego se sienta un juego y el jugador pueda empatizar con él.

Capaz no en todo, yo vengo del área del diseño y cuando construimos diseño para páginas webs pasa lo que se llama "Porcentaje de Brandeo" que es, que tanto de la marca se está mostrando y aplicando dentro del sitio, debido a que hay que respetar ciertos standards que tal vez no permitan que la marca se despliegue del todo, en este caso el mensaje está ahí al 100% dentro de cada una de nuestras decisiones y direcciones específicas, lo que le pueda llegar al jugador es un porcentaje de eso que depende del momento y la atención que el jugador quiera darle al juego.

Aun y con esto, por suerte el feedback fue mayormente positivo y todos esos puntos donde el juego debía sentirse se sienten. Creando puntos en común entre jugadores como la parte de los despidos, el ritmo del esquive, la charla sobre los patrones, las estrategias entre acelerar y dejar pasar y la narrativa de Enzo en cuanto a sensaciones.

PLASMARLO CON IA:

Normalmente esto se habría considerado over scope sobre un área que es la parte del diseño, donde en otro tiempo esta toma de decisiones si bien podría producir una planificación más lineal y clara de todo, en el contexto de JAM para la producción de MVP nos dejaría afuera, el asunto es que BA RUNNER es literalmente concebido como un todo, si desprendemos la concepción del mundo del juego, ya no se siente igual, si cambiamos la música, ya no se siente igual, si quitamos la estética, ya no se siente igual.

Un juego concebido de esta manera para ser presentado tenía que tener todos los aspectos tratados, el gameplay tenía que tener ese complemento. La solución fue afrontar ese proceso con IA. No sin antes tener toda esta conceptualización de la que estuve a cargo.

RESULTADO DE BA RUNNER:

Los resultados son visibles en el juego, que está disponible y es jugable en su página de itch.io , finalmente llegamos, lo presentamos, lo logramos y ahora estoy dando una charla el día de hoy con ustedes, muchas gracias por venir, sobre cómo lo hicimos.

¿CÓMO LO LOGRAMOS?

La respuesta corta sobre cómo logramos construir lo que construimos en BA RUNNER sin sacrificar nuestra visión creativa en el proceso fue un conjunto de factores que complementamos con inteligencia artificial y técnicas muy avanzadas, entre ellas Deep Research, Meta Prompting, Rol Prompting, Canvas Prompting, Hoja de Personaje, Style Transfer y construcción de cinemáticas mediante el uso de prompts para eso (como pueden ser JSON PROMPTING y Timeline Prompting).

DEEP RESEARCH CON ROL PROMTING Y META PROMTING

Lo primero que trabajamos fue la búsqueda de insights que complementarán nuestra idea del videojuego. A esto se le conoce como la creación del documento para Game Design y el documento de Contexto Cultural que habla a niveles generales de la dirección de arte del videojuego.

Algo que normalmente, según las charlas que tuvimos previo al evento, se comentó que era aproximadamente un proceso largo de 2 semanas, nosotros lo construimos en 30 minutos/1 hora utilizando la capacidad del modelo para hacer Deep Research mientras que lo potenciamos además con Meta Prompting y Rol Prompting. Gracias al Mixture of Experts del modelo, ese Prompt fue mucho mejor que uno que se hubiera pedido en condiciones normales.

Una vez obtenida la información lo que hicimos fue pasar a la creación del personaje mediante métodos tradicionales, debido que aunque sabemos de la potencia de la IA eso no asegura bajo ninguna circunstancia que estemos en la misma página de creación a menos que seamos extremadamente específicos con todos los datos.

LLM: REPASO RÁPIDO

Para estas instancias conviene entender una definición de LLM que si bien no es completa ni ultra precisa en términos, es práctica para nosotros para comprender su topología interior.

El LLM maneja en su interior algo que se conoce como Transformer, ese transformer construye Espacios Vectoriales que se puede imaginar como una coordenada en un plano tridimensional, el transformer maneja muchos espacios vectoriales de modo Multidimensional y los conecta mediante algo conocido como Token, la coneccion lleva muchos de estos tokens y depende de la cantidad de palabras que tenga nuestro pedido o lo que nos devuelve el LLM (esto se lo conoce como tokens de input y tokens de output).

Para fines prácticos en esta charla, es conveniente imaginar el espacio vectorial como el universo, y cada estrella de ese universo como una palabra. Aunque a niveles técnicos las palabras están formadas por más de un token, a nosotros nos sirve entenderlo de este modo.

La función de un LLM en sí es tomar nuestro pedido y devolver la respuesta más probable a ese pedido. Parece una conversación pero no lo es. Solo es la devolución de esas conecciones realizadas por el transformer que al ser curadas mediante varios mecanismos empieza a tener mucho más sentido. Por esto la existencia del término alucinación en LLM, referido a cuando un LLM está respondiendo algo que ya no tiene sentido humano.

Es conveniente mencionar esto porque es la base de cómo hacemos que la IA responda.

MOVER EL PROMEDIO

Si se fijan, ahora se hace mucho más sentido por ejemplo el Rol Prompting sumado al Meta Prompting para la creación de un Prompt de investigación profunda. Porque estamos construyendo un pedido en un espacio vectorial mucho más específico.

Lo que en realidad estamos haciendo es utilizar la capacidad de devolvernos el promedio estadístico del Transformer como una herramienta. Sí lo general está acá, voy a delimitar todo lo que está en los alrededores para que lo más probable que me vayas a dar sea esto, transformas la respuesta general del LLM en la respuesta que vos necesitas.

TODO ES TEXTO

También es apropiado comentar antes de seguir hablando del personaje que el LLM en sí construye esto mediante texto y todos los datos que les aportan también son texto, el motivo de las conexiones que se obtienen y sus devoluciones en el chat es porque ese texto está referido a otra información de datos por fuera. Es decir, mecanismos de generación, como también de video u otro tipo de herramientas que el LLM puede emplear.

Esto es bueno para discernir entre el LLM con el que ustedes van a hablar y su interior, con las herramientas de dentro de él.

DIFERENCIAR MODELO DE HERRAMIENTAS DEL MODELO

No es que cuando hablan con el LLM, hablan al mismo tiempo con Nano Banana o con Chat Gpt Image 2, están hablando con el LLM que habla con el Modelo Generador de Imagen/Video. Son herramientas que están por separado y este es otro de los conceptos importantes.

VISIÓN API

Nosotros para poder trabajar con Enzo o cualquier personaje en profundidad tenemos que primero entender todo el personaje para poder explicarlo.

Lo siguiente, no podemos confiar en que nuestra explicación va a ser suficiente, para esto vamos a aprovecharnos de la VISIÓN API (así lo llama google pero otros modelos tienen otro tipo de API que a fines prácticos hacen la misma tarea de mejor o menor forma).

La visión api hace cosas bastante complejas pero para comprenderlo ahora mismo, cuando nosotros enviamos una imagen a un LLM, la visión api analiza esa imagen y genera un texto de ese análisis, ese texto no siempre es visible para el usuario sino que es un texto interno que vive en el contexto del LLM por eso también cuando alguien sube una imagen, consume tokens.

Estas vision api están entrenadas con por ejemplo los captcha de verificación de humanos que hacen que distingas donde esta un semáforo, sendas peatonales o demás.

CONTRAS DE LA VISIÓN API

Al nosotros construir al personaje no podemos diseñarlo solo con una vista, porque el análisis de esa visión api, va a ser solo de esa vista y si había un detalle en la espalda, ese detalle ya no va a existir.

Para esto tomamos prestado el concepto de la hoja de personaje que pueden encontrar más comúnmente en el campo de la animación.

OBJETIVO: REDUCIR LA AMBIGÜEDAD

Esto es todo un camino hacia reducir la ambigüedad, como es un teléfono descompuesto de HUMANO > LLM > GENERADOR > RESULTADO.

Nuestro objetivo es darle a nuestro LLM de confianza la capacidad necesaria para dar la orden correcta al GENERADOR para que este último nos devuelva el RESULTADO que esperamos.

FUNDAMENTALES DE HOJA DE PERSONAJE

En la creación de la hoja de personaje es importante ser conscientes de que necesitamos diferentes vistas, como si fuera a ser usado por un estudio de animación humano. Las vistas más comunes para esto son: Vista Frontal, Vista Trasera, Plano Detalle y a mi también me gusta utilizar una de posición dinámica referida al personaje para poder construirle ya una caracterización. Pero en caso de que solo tengamos la hoja de personaje, las vistas más importantes son estas.

Esto reduce la ambigüedad al darle al modelo una vista de cómo es el personaje. Así y todo, la VISIÓN API si solo confiamos en ella puede fallar. Es importante tener una pipeline de producción con pasos muy estrictos a la hora de trabajar con IA para reducir la ambigüedad.

Un caso de cómo Google nos permite ver un poco del análisis que le daba la VISIÓN API al modelo en su momento fue con Whisk, que debajo de una imagen siempre había un texto. El LLM solo ve ese texto y produce la imagen que ese texto puede producir con ligeras libertades de variabilidad por la temperatura.

CANVAS PROMPTING

Generar confiando únicamente en la VISIÓN API sigue siendo tirar una moneda, para reducir aún más la ambigüedad tenemos que utilizar un truco de Ingeniería de Prompts que se llama Canvas Prompting.

El Canvas Promting consiste en escribir por encima de la imagen, haciendo que la visión api del modelo note aun mas informacion o que el conjunto de información le permita entender mejor lo que está viendo. En este caso nosotros no vamos a hacer una gran construcción de Canvas Prompting perse, que igual se puede, sino que vamos a tomar este truco para escribir en alguna parte del personaje, el nombre del personaje.

Si volvemos a retomar el asunto de que todo es texto, estamos haciendo esto para que cuando la Visión Api pase, transforme esta imagen que construimos en un texto con el nombre de nuestro personaje.

El abordaje más técnico de lo que hicimos se le conoce como Anclaje semántico, estamos haciendo que el modelo escanee características únicas de nuestro personaje mientras también entiende que esas características únicas están anidadas a la palabra que le dejamos.

Enzo = Pelo rubio, ojos marrones, chaqueta pesada, bunker 26, etc…

Ahora vamos a poder desbloquear algo en la caja de mensajes si aplicamos ese paso de Canvas Prompting, en primer lugar, cuando mencionamos a Enzo, la Visión Api va a arrojar el texto que quedó Anclado Semánticamente al LLM y el LLM va a entender a qué nos referimos, es decir, ahora cuando hablemos con el modelo, ambos vamos a hablar del mismo personaje.

MICRO GESTUALIDADES

Eso es una parte del camino, ya podemos obtener presumiblemente una buena cantidad de consistencia. Pero no lo es todo. Recuerdan lo de que a la máquina le gusta que hablemos como Máquina?

Eso sigue siendo parte de la construcción. Para poder abordar este asunto tenemos que en primera instancia construir un análisis, esto lo logramos enviando la hoja de personaje y pidiendo que se analice. La ambigüedad de este análisis puede reducirse aplicando Rol Prompting + todo tu conocimiento.

RECURSOS

Entre los recursos que dejamos ya facilitamos la construcción de este y todos los pasos que están viendo.

No sabíamos con exactitud en que etapa o conocimiento ibamos a encontrarnos en la charla, asi que en colaboracion con Prompteando elegimos aprovechar las capacidades reflectivas del modelo construyendo varios recursos que se adaptan a nivel agéntico a sus propias formas de trabajar, desde las diferentes etapas en las que se encuentren.

La charla que estamos teniendo es necesaria para entender todo el proceso de esos recursos y además para saber cuando algo sale muy bien y cuando algo sale muy mal, y sobre todas las cosas el porqué, que les permita curarlo.

STYLE TRANSFER

Ahora, una vez teníamos al personaje construido y curado, con su análisis, con su anclaje, con el canvas prompting, con sus vistas, en el caso particular de BA RUNNER, el juego es trabajado en un pixel art perceptual inspirado en la NEC PC 98 más específicamente Policenauts de Hideo Kojima. Ese estilo no fue el que me devolvió, me devolvió una hoja de personaje que si bien me quitaba del sketch inicial aun me faltaba un trayecto hasta llegar a lo que necesitábamos.

Para resolver este último punto específico, aplicamos el método que se conoce como Style Transfer.

El Style transfer consiste en primera instancia en dividir “lo que se ve” del “estilo de lo que se ve”. Una cosa es una espada y otra cosa es una espada con el estilo de ilustración 2D. Normalmente la curaduría del estilo suele tener problemas, sobre todo en los modelos antiguos debido a que los generadores no siempre entienden que es lo que se debe variar y que no.

Realizar un Style Transfer correctamente conservando todos sus elementos originales requiere de hacer esta definición con nuestro conocimiento en el juego como el eje central. Como todo es texto y todos son datos, la unica forma del LLM para diferenciar “lo que es” de “como se ve” o “el estilo de lo que se ve” es que nosotros declarativamente empecemos a definir primero sus invariantes. En los recursos que les dejamos van a encontrar un flujo de trabajo que les permite a ustedes construir esto de una manera mucho más avanzada.

Pero la base sigue siendo esta, definir las invariantes, en el caso de enzo todo lo que compone al personaje es una invariante, lo único que tiene que variar es estrictamente como está dibujado, el estilo final.

STYLE TRANSFER A NIVEL TRANSVERSAL

Como el estilo es algo subjetivo al que podemos hacer que se denomine de diferentes formas como por ejemplo estilo de personaje, estilo de espada, estilo de arma, ese concepto tiene una transversalidad que hace que la maquina al decirle simplemente estilo, no termine de entender con exactitud a que estilo se refiere.

No es lo mismo hablar del estilo de acabado (de ilustración 2D a pixel art perceptual) que un estilo de ropa por ejemplo, que no cambiaría para nada el acabado del personaje.

La potencia de esta técnica permite que se pueda tocar desde diferentes capas. Pero la que nos interesa a nosotros estrictamente ahora es la de Style Transfer para estilo de dibujo, en este caso de Ilustración 2D a Pixel Art y eso fue lo que hicimos.

PROMPTING DE AUTOR

Ahora, algo mucho más específico y es donde empieza el prompting de autor: Cuando uno conoce el concepto y el porqué del concepto en inteligencia artificial, empezamos a poder tener herramientas lógicas.

Estas herramientas son toda esa información que comúnmente se deja de lado o es implícita en la practica e indivisible excepto en los momentos donde se habla con otra persona para comunicarselo, cualquier tipo de información que pueda sumar a lo que nosotros estamos haciendo para poder realizar mejor el proceso o tener un mejor contexto del proceso se vuelve una herramienta lógica y un componente que tenemos que usar con la IA.

No es lo mismo decir Pixel Art, a decir Pixel Art perceptual de NEC PC 98 que ese pixel art en específico pese a ser un trabajo de 16 bits u 8 bits permite una interpolación de píxeles que habilita mucho más detalle, el acabado del personaje es radicalmente diferente. Esa información existe en nuestro conocimiento y si el modelo es lo suficientemente bueno, también en el modelo.

PROMPTING DE AUTOR: GRANULARIDAD

Lo que en gran medida nos permite un componente de Granularidad, tal granularidad se define en como ustedes logran pasar lo que quieren a palabras para que otros humanos/máquinas la entiendan. En este caso podemos hacerlo de este modo:

PEDIDO + HOJA DE PERSONAJE + FLUJO STYLE TRANFER > RESULTADO BASE.

O, incluir nuestro conocimiento en el pedido y hacerlo de este modo:

PEDIDO + CONOCIMIENTO ESPECIFICO + HOJA DE PERSONAJE + FLUJO STYLE TRANFER + META PROMPTING + ANALISIS DE PERSONAJE + ROL PROMTING > RESULTADO MEJORADO.

MANEJO DE LAS TÉCNICAS AVANZADAS:

TRASLACIÓN VECTORIAL: Una de las técnicas que pueden aplicar cuando empiezan a tener un dominio mayor sobre cómo trabajar con la Inteligencia Artificial, es algo que yo llamo Traslación Vectorial.

Cuando uno entiende que al formar una devolución muy específica y dotar de información a la IA es en sí, conectar toda una constelación de palabras para ordenar el conocimiento, empieza a notar que ese mismo proceso de razonamiento permite cosas como el movimiento de esos vectores como conjunto. Es decir, mover las coordenadas sencillamente de un lugar hacia otro lugar del espacio vectorial.

Esto nos permite primeramente, a nivel mental, entender que cuando nosotros somos muy buenos en nuestro conocimiento base, ese mismo conocimiento puede servir para construir algo muy bueno en otro campo de conocimiento diferente.

Hay experimentos muy recientes sobre esto hablando sobre cómo un usuario puede explicar a una IA de música con imágenes para generar sonido. Lo que nos compete a nosotros sobre esto en especifico que es que de la misma forma que aplicamos el style transfer podemos pedirle a la IA con una indicación como “aplica una traslación vectorial para cambiar el objeto que estamos viendo por otro objeto de la misma familia” o “modificar el personaje por uno del mismo universo”, estamos haciendo un cambio en la traslación vectorial que nos ayuda en la precisión siempre y cuando plasmamos de nuestro conocimiento en ello.

En este caso puede ser aplicado para construir diferentes personajes. A este método también se lo conoce como Modular Prompting o Compositional Prompting y tiene muchas más técnicas explicadas de ese modo.

PRE-PRODUCCIÓN AMPLIFICADA EN PIPELINE OPERATIVO: Cuando se trabaja con inteligencia artificial y se tiene las herramientas necesarias como las que les comente ahora, empieza a volverse mucho más importante entender cómo, cuándo y dónde aplicar cada estrategia y técnica. La mentalidad necesaria para llevarlo a cabo manteniendo la consistencia y el control creativo es visualizando de entrada el objetivo final al que se pretende llegar, sea una escena, sea un personaje, sea un asset, lo que fuera.

Una vez se tiene el objetivo final al que llegar se empieza a construir el kit de herramientas necesario. Si necesitas una escena para una cinemática ya la misma necesidad empieza decirte cuales son tus requerimientos.

Escena Keyframe = Análisis de Personaje + Hoja de Personaje + Pedido de la Escena

En caso de que esa escena necesite trabajarse en un estilo específico, lo suyo sería definir con anterioridad los componentes como el Analisis del estilo + Hoja de personaje (con el estilo aplicado).

Adicionalmente a todo esto, se tiene que tener un conocimiento absoluto sobre el worldbuilding y la narrativa del mundo en el que están construyendo todo lo que ocurre. Lo mejor sería aplicarlo con una visión por capas de lo macro a lo micro.

MANEJO DE LA CÁMARA: Una de las técnicas que mejor pueden servir para el uso avanzado de Style Transfer aplicado a la construcción de escenas es la construcción del personaje pasando de Ilustración 2D a Composición 3D o Art toy. Debido a que cuando están trabajando ciertas escenas la base de datos de los modelos suelen no tenerlas desde el campo de vectores en el que se encuentran, por ejemplo, es muy difícil que una posición dinámica con profundidad se pueda ver desde la perspectiva de pixel art aun y cuando hayamos construido todo un análisis muy preciso sobre lo que queremos.

OUTPUT GAP (LÍMITE DE CONTEXTO EN INPUT/OUTPUT) Y PROMPTS LARGOS: Esto ocurre por una limitación en el output cuando se trabaja con el modelo de primeras, en las subscripciones convencionales y chats con LLM nosotros conversamos con él en lo que se conoce como una Ventana de Contexto.

Esta ventana de contexto tiene un limite de output de salida de 8000 tokens aproximadamente, es decir, las imagenes que salen y el texto que produce tambien cuentan con ese output gap.

Por otro lado, los tokens de entrada para el modelo son de hasta 16.000 tokens, es decir, que aunque nuestro input sea grande, cuando eso ingresa se condensa siempre a un máximo de 16k de tokens.

Por esto es tan importante la precisión, porque el promedio siempre va a llevar la entrada a una entrega de 16k. El LLM va a comunicarse con el GENERADOR para darle lo que el LLM entendió del pedido mas no lo que nosotros escribimos completamente de nuestro pedido, es ahí donde radica la mayor ambigüedad para cualquier construcción.

Esto significa que tenemos que escribir a esa limitación? Al contrario. Tenemos que escribir conscientes de que eso va a pasar pero aun asi aumentar lo máximo que podamos la cantidad de información que vamos a darle siempre y cuando esta información sea coherente, complementaria y sin fisuras.

Es decir, si llevamos el proceso de Meta Prompting por ejemplo con los Rol Prompting específicos para cada cosa que necesitemos (podría ser style transfer y análisis de personajes), todo eso que empecemos a darle al modelo sumado a las imágenes que le demos al modelo, sumado al canvas prompting que incrustemos para el manejo del anclaje semántico, sumado también a la información que va a producir la visión api del modelo, todo eso va a terminar por construir una condensación de 16K de tokens de entrada que el LLM va a darle al GENERADOR muy diferente de la que podría haberle dado con menos información, es decir, el resumen de un libro completo de muchas páginas no es lo mismo que el resumen de un resumen de un libro.

Cabe aclarar que las cantidades de tokens son variables y en este caso particular también es indiferente, lo importante es entender que el canal de comunicación que tiene el LLM con el GENERADOR siempre es menor que el canal de comunicación que tiene con el usuario y que la salida suele estar limitada a una cantidad muy específica de tokens.

CONSTRUCCIÓN DE ESCENAS:

Una vez determinado nuestro personaje, obtenidos los análisis con meta prompting y trabajado en el Style transfer correcto para la construcción. Empezamos a trabajar en la construcción de las escenas donde se abre todo un nuevo campo de conocimiento adicional.

En el caso específico de BA RUNNER nosotros teniamos muy en claro muchas cosas relacionadas con la vision, como queriamos contar las cinematicas y como ibamos a trabajar cada keyframe en particular.

Una de nuestras ventajas tecnicas fue que tomamos de google maps varias imagenes reales y las transformamos en pixel art utilizando la tecnica de style transfer. Eso hizo que la carga para nosotros de algunas escenas se hiciera mucho mas ligera.

Pero lo mas importante para la construccion de cada escena fue un proceso de direccion y cinematografia que esta muy por fuera de la inteligencia artificial pero que aplica el principio de que “El conocimiento profundo que se puede explicar es una herramienta en el campo de la inteligencia artificial”.

Si nosotros sabemos como es el plano de una camara, la composicion que queremos transmitir, el clima, la atmosfera, la construccion, el mood, la posicion, de donde tiene que verse, el angulo y entendemos a la perfeccion todo lo que buscamos de esa escena y podemos escribirlo sin ser ambiguos. Podemos crear la escena.

Es como Jk rowling diciendo donde esta la cicatriz de harry potter al ilustrador. Tenemos que tener ese nivel de conocimiento profundo sobre nuestro personaje y el mundo en el que se encuentra.

Consejos para entender esto, es que lo manejen con una estructura de macro a micro y que cada conocimiento que vayan pudiendo agregar lo entiendan como una parte de ese todo.

En este caso, en BA RUNNER el personaje habita la realidad de un remisero con el sistema dejandolo aislado aun estando en el sistema y varias de las problematicas como tambien las virtudes que tienen los conductores.

Lo importante de esto es tener la construccion completa del Sekai Kan, es totalmente importante esa cosmovision del mundo porque de lo contrario nuestra capacidad para curar o dotar de mas informacion se empieza a ver mermada tanto asi como nuestra capacidad de poder distinguir donde esta el personaje y donde no esta el personaje.

En nuestro caso, el juego maneja un nivel de coherencia en todos los puntos, gameplay, musica, jugabilidad, narrativa, guion, direccion de arte y escenas. Los personajes que aparecen no sólo tienen referencias e inspiraciones de otros sino que también están elegidos meticulosamente, no es cualquier peugeot 205 blanco, sino que es un peugeot 205 blanco con patente JAM B15 (una referencia directa a la JAM y la temática de “Buenos Aires en 15 minutos”), no es cualquier personaje sino que es Enzo, un personaje que visualmente se lo marca como aislado desde todo lo que es, con evocaciones visuales muy claras que se combinan a la hora de traer a Enzo a la vida.

Este gusto humano no se pierde en ningún momento, no hay una sola escena donde no pasará exactamente lo que queríamos que pasara y este gusto humano no solo es importante para este punto en específico, sino que es importante para entender donde si y donde no estamos viendo a nuestro personaje o esta la Inteligencia artificial construyendo un personaje que se ve pero no es.

Como diría Daddy Yankee “tu puedes clonarme pero no tienes mis genes” ese aspecto es fundamental, los únicos que podemos saber como es el personaje y que haría el personaje somos nosotros y eso lo podemos expresar de diferentes maneras potenciando el Workflow Híbrido.

CONSTRUCCIÓN DE ESCENAS: JSON Y TIMELINE PROMPTING

JSON PROMTING: Entre los recursos ustedes pueden contar no solo con Roles para aplicar Rol Prompting sino tambien con comandos especificos para los Roles del Rol prompting que pueden darles un indicio y una base para construir prompting de autoria sumandole su conocimiento a lo que les dejamos. La emergencia de esa combinacion va a ser un dato completamente unico que define el gusto humano y como eso va a aplicarse en la IA. Sin ese canon, la IA no podria definirlo el 100% de las veces.

Mas alla de eso, van a encontrarse con movimientos rapidos para poder trabajar e iterar, 2 estilos de flujos y algo que tambien es fundamental para la construccion de cinematicas que son los Storyboard. El JSON Prompting es una tecnica que produce un pseudocodigo escrito de una forma en la que la inteligencia artificial confluye de mejor manera para seguir las instrucciones porque las empieza a asimilar (mi teoria) probablemente como una combinacion entre la zona neuronal que activa el conjunto de datos de programacion que es muy preciso con la zona neuronal del transformer que activa el conjunto de datos de arte. De este modo producir video con Json prompting es efectivo y puede ser mucho mas rapido a los inicios.

TIMELINE PROMPTING: El timeline prompting maneja una estrategia similar solo que funciona para definir mas de una accion cuando se esta trabajando en la parte de videos. Sus prompts suelen verse como una secuenciacion de escenas que sirve para marcar los tiempos en los espacios de generacion que normalmente son de 0 a 8 segundos. Yo les recomiendo que cuando construyan video con timeline prompting aun asi manejen un ritmo de tiempo en un parametro de tiempo propio, en mi caso suelo usar un parametro que denomino “t” debido a que el tiempo nunca pasa de la misma forma con IA.

Si ustedes definen un tiempo pueden determinar el inicio, el final y el medio (que suele ser el promedio estadistico entre el inicio y el final). Esto les permitiria hacer que su escena tenga 3 secuencias.

Aun y con todo esto, los resultados de un timeline prompting no siempre son del todo efectivos y pueden no tener los resultados esperados, por eso tambien les aconsejo trabajar el Timeline prompting con muchisimo conocimiento propio y con varias pruebas basandose en los frames iniciales que utilicen.

MENTALIDAD PARA ABORDAR EL CONTROL ABSOLUTO:

La clave para tener el control absoluto con la inteligencia artificial es manejar todos los parámetros y tener un conocimiento total no solo sobre el objetivo al que queremos dirigirnos sino también de todos los pasos del pipeline que necesitamos construir y seguir para llegar a esos lugares.

Adicionalmente tenemos que despojarnos del pensamiento de que si algo falla no es responsabilidad nuestra. Convertir a la IA en una herramienta es entender todas sus capacidades y todas sus limitaciones y romper esas limitaciones con un extenso conocimiento propio.

Si algo falla no necesariamente significa que la IA está fallando. De hecho, lo peor que puede pasarnos cuando trabajamos con IA en el workflow híbrido es que efectivamente la IA esté fallando. Lejos de hacer una defensa sobre la inteligencia artificial, es necesario saber cuando acierta, el motivo de porque acertó y cuando falla, el motivo de porque fallo.

Todos estos pasos, técnicas, metodologías y recursos están construidos con el único fin de reducir la ambigüedad y mantener la comunicación coherente. Eliminando cualquier suposición en el camino y entendiendola como la madre de todos los errores.

WORKFLOW HÍBRIDO:

El trabajo en Workflow híbrido para la inteligencia artificial es de los mejores métodos de abordaje que se puede tomar, un paradigma completo. La visión actual del uso de la IA a nivel general es una mentalidad de trabajo de lograr las cosas desde el Zero shooting (es decir la capacidad del modelo de lograr todo con un solo prompt) y asumir que no se puede hacer si no es de ese modo.

Otra de las cosas que hay que empezar a despojar es el hecho de que todo debe ser llevado a cabo desde el lado de la IA o todo debe ser llevado a cabo desde el lado de software tradicional, cuando el mundo hoy nos invita a no limitarnos con ninguna posibilidad y poder aplicar todo lo que sabemos de la mayor cantidad de formas posibles. Puede ser mediante el trabajo con IA puro combinado con nuestro conocimiento para lograr prompting avanzado de autoría o desde el trabajo híbrido con softwares mediante métodos que permiten que la IA trabaje donde es buena o ajustando el proceso al nivel donde nos sentimos cómodos de utilizar.

Adoptar la mentalidad de conseguir un workflow híbrido es lo más importante porque metodos para aplicarlo hay millones siempre que el razonamiento lo procese de ese modo. Desde la obtención de recursos que después se pueden trabajar a posterior, hasta la creación de prototipos que permiten la visión del comportamiento para el equipo como lo fue el caso del prototipo del juego con BA RUNNER o también el manejo de muchas más posibilidades de ofrecer recursos y resultados manteniendo la visión y el control creativo.

Entender como funciona, donde acierta y donde falla es el primer paso para adoptar la mentalidad. Lo siguiente es empezar a razonar el pensamiento que te lleva a hacer lo que haces de manera manual en software tradicional y trasladar esos procesos lo mejor que se pueda a la integración con inteligencia artificial.

TÉCNICAS DE WORKFLOW HÍBRIDO:

NARRATIVA + IA: El prompting de autoría vive de esta parte, la capacidad de trasladar el conocimiento que tenemos a una inteligencia artificial para construir nuestras propias directrices del mundo, nuestra narrativa, los elementos que queremos y cómo los queremos en el estilo específico que queremos, acomodando la ventana de contexto de una forma específica para que los resultados esten super alineados. Ideal para la generación Text-to-text y la salida de la hoja en blanco.

TRACING / OVERPAINT / RETOQUE FINAL: Tomar una imagen o una ilustración que aún no está terminada y terminarla mediante un trazado por encima para trasladar el estilo propio o directamente hacer overpaint sobre el resultado para obtener la visión deseada.

STYLE TRANSFER ESPECIALIZADO: Construir toda una ilustración, recurso o composición fotográfica en un estilo específico que permita ver en detalle la composición, el plano o el mensaje que se necesita transmitir y pasarlo al estilo buscado utilizando inteligencia artificial. En algunos casos este es otro paso intermedio para volver a hacer un pulido final luego de ver cómo tiene que quedar.

FLUJO DE TRABAJO ESPECIALIZADO: Construir mediante iteraciones un paso a paso con inteligencia artificial que permita sistematizar los procesos de construcción de personaje de un modo que el proceso sea cada vez mas llevadero y pulido acorde a las necesidades del autor o usuario. Esto se logra luego de empezar a iterar y explorar las posibilidades que ofrece la construcción de inteligencia artificial, curando información, manteniendo directrices o definiendo otro tipo de reglas, construyendo en el camino una biblioteca de recursos especializados que se empiezan a transformar en las nuevas herramientas IA del autor.

ESCENAS + EDICION: Es posible construir en los apartados de edicion de video un recorte especifico de escenas que curen las producciones de 8 segundos manteniendo la logica de cada escena desde un frame base hasta los planos necesarios para cada escena.

PROTOTIPADO RAPIDO + PROGRAMACION: Si se logra trasladar el conocimiento haciendo Prompting de autoria y explicando como si fuera un informe o reporte las estructuras necesarias es posible construir prototipados rapido como por ejemplo en videojuegos, donde plataformas como Google Ai Studio traen facilidades especificas a eso.

GUION + STORYBOARD IA + ESCENAS: Si el guion esta desde antes o si se trabaja el guion sumado al guion visual es posible construir con un flujo de trabajo especifico o con un rol prompting un storyboard que permita trabajar las escenas y crearlas una a una.

STACK IA:

Como herramientas del Stack de IA de las que experimente y que utilizo en mi dia a dia yo aconsejo estas:

Google Stack (Gemini, Flow, Google Ai Studio, Antigravity):

Gemini: Me parece un gran LLM para las producciones de generaciones en Text-to-Text y para la investigacion en Deep Research. Su ventana de tokens para el input es incluso mucho mejor que las otras ventanas de tokens de sus otros competidores (aunque ultimamente eso esta cambiando).

Flow: Pienso que es dentro de todo el mundo de la IA, de las mejores plataformas para abordar la creacion no solo de escenas sino tambien de cinematicas completas para video. Permitiendo varias funciones y tambien teniendo una facilidad superior para el uso de Canvas Prompting, ademas de permitir el anclaje semantico tambien cambiando el nombre de los ingredientes (que asi es como llama a las fotos), la plataforma tambien permite trabajar en video con Start / End, que seria el uso de fotogramas de inicio y fotogramas finales.

Antigravity: Creo que es una plataforma excelente para prototipado ademas de contar con otros modelos de lenguaje ademas del modelo de google que en este lugar es un modelo muy superior al que se encuentra desplegado en gemini. El software es principalmente para hacer prototipado y codigo, pero para los programadores o aquellos que puedan expresar todo el diseño del juego de manera correcta pueden entrar y explicar sobre el juego para que en antigravity se cree el prototipo necesario, probando tambien en el proceso otros modelos mucho mas potentes en el mercado como lo pueden ser Claudo Opus 4.6, tambien esta disponible una version de Chat Gpt.

Google Ai Studio: Maneja muy buen stack de programacion y es una plataforma donde escribir codigo de videojuegos para prototipado rapido o incluso afrontar algo escrito en javascript podria ser muy bueno para determinar comportamiento. Aunque tiene una desventaja que es importante mitigar desde el inicio, esta desventaja es el uso de paginas de codigo para agrupacion desde React o Angular, que si no se trabaja evitando que se supere las 1000 lineas de codigo, el mismo modelo tiende a asumir que la complejidad de lo escrito ya esta hecha y reducir el texto o hacerlo incompleto.

Esta desventaja también ocurre en gemini, por eso es que algunos profesionales suelen decir que la inteligencia artificial no puede hacer ciertas cosas, lo cierto es que hay cosas que la IA no puede hacer, pero no son ni por asomo las que suelen verse que no se pueden hacer, normalmente esas cosas que se dice que no se pueden hacer, son las que buscando caminos alternativos más es posible de realizar.

Chat Gpt Image 2: Al margen de la capacidad que están teniendo los nuevos modelos de Chat Gpt que pueden entregar outputs mucho más grandes, lo que es una ventaja enorme, este modelo en especifico de Chat Gpt para creacion de imagenes permite un control muy granular y un entendimiento sobre las indicaciones que es fascinante. Haciendo que los estilos de su base de datos preentrenada tengan acabados deseados aunque si es cierto que se requiere mucho de nuestro conocimiento para salir del promedio estadistico del acabado.

CONSEJOS ADICIONALES

Sea cual sea el modelo, es importante mantener la vision creativa del artista por sobre todas las cosas, de nada sirve aplicar ninguno de estos metodos si la vision del artista no se respeta ni se ejecuta a la perfeccion. Al final del dia utilizar inteligencia artificial como un motor de renderizado ultra rapido significa que la vision ya existe y que el arte ya esta definido asi como el diseño.

Significa que incluso cuando la IA divague, que eso puede ocurrir, que eso pase en una instancia donde nisiquiera nosotros sepamos como tenemos que resolver esa parte y estamos deliberadamente dejando que la IA lo resuelva por nosotros, es decir, tomar la desicion de que la maquina resuelva porque sabemos que va a resolver sobre nuestro terreno controlado mas no le damos el control completo de todo lo que ya sabemos exactamente como tiene que ser.

Consejos adicionales sobre esta parte es que Gemini tiene un control mucho mas fino sobre el estilo y la varianza de las lineas puede ser muy muy infima en todo sentido. Lo que produce entre otras cosas un control demasiado absoluto sobre la generacion final. Una contra de eso es que si nuestro dibujo tiene alguna ambiguedad o algo que queriamos que resolviera por su cuenta porque era irrelevante para nosotros, eso mismo que dejamos ahi se va a amplificar en una linea que no queda en si resuelta, sino que se muestra tal cual estaba en la ilustracion.

Algo que con Chat GPT tiene una variacion mucho mas aceptable en esos aspectos, es decir, la generacion sale con unas vistas que si bien se asemejan y pueden ser replicas exactas de lo que le das (de hecho en los recursos nosotros dejamos muchisimo mas sobre esto que del lado mas permisivo), aun asi existe la ligera posibilidad de que GPT tenga alguna injerencia diferente y sea permisivo con algunos aspectos, no necesariamente es malo, de hecho a veces puede ser visto como un complemento, sobre todo si lo que tenemos es una idea de lo que queremos y estamos buscando la propuesta final. Es decir parte desde nuestro pensamiento, se genera un preliminar pero se trabaja la propuesta y el pulido final sobre otros aspectos y con la potencia de renderizado de la IA.

LA INVESTIGACIÓN PROFUNDA EN BA RUNNER:

Lo primero, toda la información en la etapa de pre-producción se obtuvo realizando un research profundo una vez estuvimos de acuerdo en la idea que íbamos a trabajar, algo que normalmente tomaría una semana pero que resolvimos con las herramientas de búsqueda profunda con IA que pueden tomar de cualquier LLM que las posea en la actualidad. Uno muy famoso en su momento fue perplexity pero hay otros LLM como puede ser Gemini y Chat GPT.

Aca ya empezamos a hablar de IA en profundidad. Hay un principio que nos va a acompañar siempre a nosotros cuando hablemos de IA. Este principio es una base. Seguramente escucharon hablar de que hay que promptear bien, pero ¿Que es promptear bien? Dijeron, ser precisos, consisos, coherentes, sin ambiguedad. Eso es lo que siempre se dice a la hora de promptear bien.

Pero promptear bien tiene una trampa, por mas consisos, coherentes, cero ambiguos y precisos que seamos, algo que para un humano seria un 10 en precision y entendimiento, para una IA puede ser un 6 o un 5. Esto ocurre porque la base de datos por la que esta preentrenado el modelo es en si un mapa vectorial con diferentes conecciones que producen patrones probabilisticos diversos basados en el pedido que ustedes les den.

Por eso cuantas mas palabras hay en un prompt se suele decir que el prompt ya no es consistente. El problema no son las palabras, el problema es la formulacion. Para poder darle a una IA un prompt que la IA pueda entender tienen que empezar a hablar a la maquina como si fueran la maquina.

El ejercicio sencillo que les puedo dar para esto en este apartado que ya se puede denominar como el modo de generacion base, el Text-to-text, es pedirle a la inteligencia artificial que redacte un prompt de investigacion para poder buscar apuntes "basado en..." y darle nuestro pedido. Lo que la IA devuelve es el prompt especifico que necesitamos para que la investigacion profunda sea mucho mas poderosa y util que si solo la hubieramos pedido de base.

En este caso para lograr la investigacion profunda, hable con un Rol Prompting y le pedi un prompt (conocido como comando en este caso) para que cuando activara la herramienta de investigacion profunda pudiera darme un resultado aun mas especifico.

Este principio para el resto de la charla lo voy a empezar a llamar "La maquina quiere que le hables como si fueras la maquina" ¿Que significa esto? Que cualquier informacion que nosotros necesitamos, primero la tenemos que pasar por el LLM y aprovecharnos de sus capacidades de reflectividad para obtener un mejor input que nuestro input inicial.

Dado que todos los LLM son reflectivos en si mismos y esto significa que en base a nuestro input nos va a devolver un output acorde a lo mas probable que se espera de nuestro pedido y basado en su base de datos preentrenada. Esto acomoda el espacio vectorial de una forma mucho mas densa y rica semanticamente a la hora de ejecutar la tarea.

De este modo pueden obtener con Deep Research de Gemini, Investigacion Profunda de Chat Gpt o cualquier otra IA con estas herramientas de investigacion una respuesta completa acorde a lo que buscan. Por lo general son informes de 15 paginas que sirven para tener un contexto enorme, con bibliografias para curar todo lo dicho. De este modo es que la informacion que se obtiene para el juego fue complementaria y mi proceso ahi como parte del equipo fue de curador de ese contenido antes de enviarlo.

Este es el primer caso donde se puede aplicar inteligencia artificial de manera productiva para la construccion de la informacion. Esta informacion es super util para la construccion del mundo, el guion, la narrativa o el personaje en si mismo.

ADVERTENCIA:

Tambien tengo una advertencia, este tema es extremadamente sensible, mucho mas sensible que cualquier otro tema que al menos yo haya conocido. Es posible que varias veces el pensamiento del logro o la muestra de meritos derive en “Ah la IA hizo todo excelente” o en la excusa tradicional de “Ah la IA no puede”.

Es terrible el pensamiento pero es bastante callejon sin salida, si se usa IA, cuando la usas bien entonces es que la IA es muy buena y no hay valor en lo que hiciste. Y cuando la usas mal, entonces es que la IA es muy mala y no hay valor ni responsabilidad en lo que hiciste, simplemente es la IA siendo la IA. Ese pensamiento no lleva a ningun lado, no solo en la IA sino en la vida. Cambias la IA en la estructura pones otra cosa y es igual de malo.

GLOSARIO:

Deep Research: La capacidad del modelo para construir un informe de investigación profunda basado en nuestros pedidos.

Meta Prompting: La forma en la que el modelo reconstruye un pedido analizandolo y devolviendolo de un modo en que el mismo LLM puede entenderlo de mejor manera, lo que permite que el espacio vectorial arroje mejores resultados debido al movimiento del promedio.

Rol Prompting: La capacidad de instanciar en un modelo un rol que delimita la mirada en la que el modelo tiene que ver cómo se ejecutan las cosas, al poner un lente de perspectiva, el modelo se vuelve mucho mejor para analizar términos o elementos desde esa perspectiva.

Esto es porque las arquitecturas internas del modelo LLM suelen trabajar con una infraestructura conocida como MoE o Mixture of Experts, donde ciertos datos pre entrenados se conectan con el MoE mediante espacios delimitados, activando cantidades de conjuntos vectoriales específicas.

Mixture of Experts (MoE): La capacidad del modelo de separar el pensamiento en diferentes conjuntos vectoriales para dar una respuesta más especializada en menor capacidad de cómputo al localizar en su base de datos el conjunto referido de la información y conectarla con ciertas profesiones.

LLM: Modelo de lenguaje grande entrenado para procesar texto y devolver una respuesta probable en base al pedido del usuario, su ventana de contexto, los datos preentrenados y las conexiones internas que logra activar. Para fines prácticos, es el lugar donde nosotros construimos la instrucción, pero no necesariamente el lugar donde se ejecuta la imagen, el video o cualquier otra herramienta generativa.

Transformer: Arquitectura interna que permite al LLM relacionar tokens entre sí y construir conexiones semánticas dentro de un espacio vectorial. Es, de manera simplificada, el mecanismo que hace posible que el modelo tome nuestro pedido, lo interprete en base a patrones y devuelva una respuesta coherente según lo más probable para ese contexto.

Token: Unidad mínima de información con la que trabaja el modelo. Puede ser una palabra, parte de una palabra, un símbolo o una porción de texto. Todo lo que escribimos y todo lo que el modelo responde consume tokens, así como también la información interna que se genera cuando subimos imágenes, documentos o referencias.

Tokens de input: Cantidad de información que el usuario entrega al modelo en el pedido. Incluye texto, instrucciones, referencias, análisis, imágenes interpretadas por visión api y cualquier otro dato que entra en la ventana de contexto. Cuanto más coherente y complementaria sea esa información, mejor puede condensarse para producir una respuesta útil.

Tokens de output: Cantidad de información que el modelo puede devolver como respuesta. En los modelos convencionales suele existir un límite de salida, por eso no todo lo que entra puede volver en la misma escala. Esta diferencia entre lo que se entrega al modelo y lo que el modelo puede devolver es una de las razones por las que la precisión importa tanto.

Ventana de contexto: Espacio de trabajo que tiene el modelo para sostener la conversación, las instrucciones, las imágenes interpretadas, los documentos y los datos relevantes del pedido. No debe entenderse como memoria infinita, sino como una zona limitada donde la información se acomoda, se prioriza y se condensa para poder producir una respuesta.

Espacio vectorial: Forma práctica de imaginar cómo el modelo organiza relaciones entre palabras, conceptos, estilos, profesiones, objetos, referencias y sentidos. Para esta charla podemos pensarlo como un universo de coordenadas donde cada palabra o idea se conecta con otras, y donde el prompt sirve para movernos hacia zonas más específicas de ese universo.

Mover el promedio: Técnica o forma de entender el prompting donde usamos la información, el rol, el contexto, el metaprompting, las referencias y las restricciones para desplazar la respuesta general del modelo hacia la respuesta que necesitamos. En vez de aceptar el promedio estadístico más genérico, delimitamos el campo para que lo más probable sea más cercano a nuestra intención.

Alucinación: Momento en el que el modelo devuelve una respuesta que ya no tiene sentido humano, inventa información, completa de manera incorrecta o produce una conexión que parece coherente en forma pero no en contenido. En procesos creativos puede verse como un resultado que aparenta estar bien, pero que no responde al mundo, personaje, dato o intención original.

Visión API: Herramienta o capacidad que permite que el modelo analice una imagen y la convierta en información textual interna. Ese texto no siempre es visible para el usuario, pero vive dentro del contexto del modelo y condiciona lo que el LLM entiende sobre la imagen. Sirve para trabajar con referencias visuales, pero puede fallar si la imagen no muestra todo lo necesario.

Análisis interno de imagen: Texto o representación que el modelo genera al procesar una imagen. Es importante porque la IA no trabaja con la imagen exactamente como la ve un humano, sino con la información que pudo extraer de ella. Si esa extracción es incompleta, ambigua o incorrecta, el resultado posterior puede desviarse.

Hoja de personaje: Documento visual que muestra al personaje desde varias vistas para reducir ambigüedad. Puede incluir vista frontal, vista trasera, plano detalle y una posición dinámica. Su función no es solo estética, sino permitir que el modelo y el equipo entiendan mejor cómo es el personaje completo, incluso en zonas que una sola imagen no mostraría.

Vista frontal: Vista del personaje desde el frente. Sirve para estabilizar rostro, postura, proporciones, vestuario principal, silueta frontal y rasgos que deben ser reconocibles en futuras generaciones.

Vista trasera: Vista del personaje desde atrás. Es fundamental para no perder elementos de espalda, chaqueta, pelo, accesorios, logos, estructura de ropa o cualquier información que no exista en la vista frontal. Sin esta vista, la IA puede inventar o borrar detalles importantes.

Plano detalle: Vista cercana de un elemento específico del personaje, objeto, vestuario, rostro, accesorio o textura. Sirve para que el modelo entienda detalles que en una imagen completa podrían pasar desapercibidos o quedar demasiado ambiguos.

Posición dinámica: Vista del personaje en una pose más expresiva o narrativa. No solo muestra cómo es el personaje, sino cómo se comporta, cómo se mueve, cómo ocupa el espacio y qué tipo de energía transmite.

Canvas Prompting: Técnica de ingeniería de prompts visual donde se escribe o se coloca información encima de una imagen para que la visión api del modelo pueda detectar más datos o asociar elementos visuales con palabras específicas. En este caso, escribir el nombre del personaje sobre la imagen ayuda a que el modelo conecte ese nombre con sus rasgos visuales.

Anclaje semántico: Proceso mediante el cual asociamos una palabra, nombre o etiqueta con un conjunto de rasgos visuales o conceptuales. En el caso de Enzo, el nombre empieza a quedar vinculado a pelo, ojos, chaqueta, postura, Bunker 26 y demás características únicas. Esto ayuda a que cuando hablemos de Enzo, el modelo entienda mejor a qué personaje nos referimos.

Micro gestualidades: Rasgos pequeños de postura, mirada, expresión, tensión corporal, movimiento o actitud que hacen que un personaje no solo se parezca visualmente, sino que se sienta como el mismo personaje. Son parte de la identidad y muchas veces son las primeras cosas que se pierden si el modelo interpreta de forma genérica.

Style Transfer: Técnica que consiste en separar “lo que se ve” de “cómo se ve”. Permite conservar el objeto, personaje o composición original mientras se modifica su estilo visual. En BA RUNNER se usa para llevar una ilustración 2D hacia un pixel art perceptual inspirado en NEC PC 98 y Policenauts, sin cambiar la identidad de Enzo.

Invariantes: Elementos que no deben modificarse durante una generación, una iteración o un cambio de estilo. Pueden ser rostro, ropa, colores, silueta, accesorios, proporciones, postura o cualquier componente que sostenga la identidad del personaje o del mundo. Definir invariantes es clave para evitar que el modelo rediseñe lo que solo debía transformar.

Variantes: Elementos que sí pueden cambiar dentro de un margen controlado. Pueden ser estilo de acabado, iluminación, cámara, fondo, pose, nivel de detalle o composición, siempre que no rompan las invariantes definidas. Trabajar con variantes permite explorar sin destruir identidad.

Pixel Art Perceptual: Forma de abordar el pixel art donde lo importante no es únicamente reducir una imagen a píxeles, sino conservar la percepción visual del personaje, su silueta, su composición, su detalle y su identidad dentro de un lenguaje retro. En este caso se vincula con la estética NEC PC 98 y con el tipo de acabado que permite mucho más detalle que una simplificación básica.

Prompting de autor: Forma de promptear donde el conocimiento específico del autor, su criterio, sus referencias, su visión y su manera de entender el proyecto se vuelven parte de la instrucción. No es solo pedirle algo a la IA, sino trasladar el pensamiento propio al modelo para que trabaje dentro del terreno creativo del autor.

Granularidad: Nivel de precisión con el que se puede convertir una intención, referencia o conocimiento en palabras útiles para el modelo. A mayor granularidad, más detalles relevantes entran al pedido, y más posibilidades hay de que la IA entienda diferencias que para un pedido genérico quedarían mezcladas.

Traslación Vectorial: Técnica conceptual donde se entiende que un conjunto de relaciones, referencias o conocimientos puede moverse de un lugar del espacio vectorial a otro para construir variaciones, cambios de objeto, personajes de la misma familia o elementos del mismo universo. Es una forma de aplicar conocimiento profundo de un campo a otro sin perder coherencia.

Modular Prompting: Forma de trabajar prompts por módulos o partes separadas, donde cada módulo define una capa del resultado: personaje, estilo, escena, cámara, narrativa, restricciones, etc. Permite construir pedidos más controlados y reutilizables, especialmente cuando el proceso tiene varias etapas.

Compositional Prompting: Técnica donde se construye un pedido combinando componentes diferentes de manera organizada. En vez de pedir una imagen o escena completa de forma general, se compone el resultado desde partes: sujeto, acción, estilo, fondo, plano, luz, atmósfera, invariantes y salida esperada.

Pipeline: Secuencia de pasos necesarios para llegar a un resultado. En inteligencia artificial aplicada a producción visual, un pipeline puede incluir investigación, análisis, hoja de personaje, anclaje semántico, style transfer, generación, corrección, escenas, storyboard, video y edición final. La clave es que cada paso prepare mejor al siguiente.

Pre-producción amplificada: Etapa donde usamos IA no para producir directamente el resultado final, sino para ampliar investigación, ordenar referencias, construir análisis, definir personaje, mundo, estilo, escenas y herramientas necesarias. Es una forma de preparar mejor el terreno antes de generar.

Workflow híbrido: Paradigma de trabajo donde no se depende únicamente de la IA ni únicamente del software tradicional. Combina conocimiento humano, herramientas generativas, edición manual, overpaint, prototipado, programación, narrativa, prompts avanzados y curaduría. La IA trabaja donde es buena, y el humano dirige donde el criterio es indispensable.

Zero Shotting: Forma de intentar obtener un resultado completo con un solo prompt, sin pasos intermedios, sin iteración y sin pipeline. Puede funcionar en casos simples, pero para proyectos complejos suele ser insuficiente porque deja demasiadas decisiones libradas a la interpretación del modelo.

Output Gap: Diferencia entre toda la información que el usuario puede entregar al modelo y la cantidad de información que el modelo puede devolver o trasladar efectivamente al generador. Este límite obliga a ser precisos, coherentes y complementarios, porque el modelo no entrega todo literalmente, sino una condensación de lo que entendió.

Límite de contexto: Restricción técnica sobre cuánta información puede sostener el modelo en una conversación o tarea. Aunque pueda recibir mucho texto, imágenes o datos, esa información debe entrar en una estructura manejable. Cuando el contexto se vuelve demasiado grande o contradictorio, aumenta la ambigüedad.

Condensación de contexto: Proceso por el cual el modelo resume, prioriza o comprime la información que recibió para poder trabajar con ella. No es lo mismo condensar un pedido rico, coherente y bien dirigido que condensar una instrucción pobre o contradictoria. Por eso un prompt largo solo sirve si su información realmente suma.

Text-to-text: Modalidad base donde el modelo recibe texto y devuelve texto. Puede usarse para investigación, análisis, guion, prompts, documentación, metaprompting, estructura de escenas o cualquier instancia donde la salida buscada sea lenguaje.

Text-to-image: Modalidad donde una instrucción textual se transforma en imagen mediante un modelo generador. En este caso, el LLM puede actuar como intermediario que interpreta el pedido y lo comunica al generador visual.

Text-to-video: Modalidad donde una instrucción textual, a veces acompañada por imágenes de inicio o final, se transforma en video. Requiere todavía más control de acción, tiempo, cámara, continuidad y escena porque la ambigüedad se multiplica con el movimiento.

Image-to-video: Proceso donde una imagen base se usa como ancla para generar movimiento. Es útil cuando queremos conservar personaje, estilo, composición o escena, pero necesitamos agregar una acción breve, cámara, atmósfera o transición.

Start / End: Uso de un fotograma inicial y un fotograma final para guiar una generación de video. Sirve para controlar mejor de dónde parte la toma y hacia dónde debe llegar, reduciendo parte de la ambigüedad del movimiento.

Storyboard: Organización visual de una secuencia en planos o momentos. Sirve para planificar escenas, cinemáticas, ritmo, cámara, acción y continuidad antes de generar imágenes o video. En IA es especialmente útil porque evita pedir escenas sueltas sin dirección.

Keyframe: Imagen clave que define un momento importante dentro de una animación, cinemática o escena. En flujos con IA puede funcionar como referencia para construir una toma, un movimiento, una transición o una escena completa.

Cinemática: Secuencia audiovisual que cuenta una parte narrativa, emocional o visual del proyecto. En BA RUNNER se vincula con el modo de contar escenas, usar subtítulos, trabajar keyframes y sostener una dirección visual cercana a referencias como Policenauts.

JSON Prompting: Técnica que utiliza una estructura similar a pseudocódigo para ordenar instrucciones de forma más clara. Sirve para que el modelo asimile campos, acciones, restricciones y secuencias con mayor precisión, especialmente en generación de video, escenas o procesos complejos.

Timeline Prompting: Técnica donde se ordenan acciones, tiempos o momentos de una escena en una secuencia temporal. Es especialmente útil para video, porque permite definir qué ocurre al inicio, en el medio y al final de una toma. Aun así, requiere mucho conocimiento propio y pruebas porque el tiempo con IA no siempre se comporta de manera exacta.

Parámetro t: Parámetro propio de tiempo utilizado para ordenar una escena en momentos internos. Sirve para marcar inicio, medio y final dentro de una generación de video, incluso cuando el tiempo real de la herramienta no responde exactamente como esperamos.

Game Design: Documento o conjunto de decisiones que explican cómo funciona el juego, qué mecánicas tiene, qué experiencia busca producir, qué reglas lo sostienen y por qué cada elemento existe dentro del sistema. En BA RUNNER no está separado de la estética ni de la narrativa, sino conectado con ellas.

Game Feel: Sensación que tiene el jugador al jugar. Incluye ritmo, respuesta, velocidad, satisfacción, tensión, aprendizaje y micro victorias. En BA RUNNER es importante porque el esquive, la música, la dificultad y la narrativa tienen que sentirse del mismo canal.

Gameloop: Ciclo principal de acción y recompensa que sostiene el juego. En BA RUNNER se relaciona con esquivar, aprender patrones, acelerar, dejar pasar, sobrevivir y obtener pequeñas victorias que mantienen al jugador dentro de la experiencia.

Micro victorias: Pequeños logros o momentos de satisfacción que el jugador experimenta dentro del flujo de juego. Sirven para sostener motivación y aprendizaje, especialmente en juegos de ritmo, esquive o dificultad progresiva.

Bullet Hell Rítmico: Tipo de dinámica donde el jugador debe esquivar múltiples amenazas, pero con una lectura de ritmo, patrones y tiempo. En BA RUNNER se usa para explicar que el juego no es solamente un endless runner, sino una experiencia de esquive más intensa y musical.

Endless Runner: Género donde el personaje o vehículo avanza continuamente y el jugador debe reaccionar a obstáculos, patrones o cambios de ritmo. En BA RUNNER funciona como punto de partida, pero se mezcla con bullet hell rítmico y dirección narrativa.

MVP: Versión mínima viable de un proyecto. En una JAM, implica llegar a una versión jugable y presentable dentro del tiempo disponible. En este caso, el desafío era lograr un MVP sin sacrificar la visión profunda del juego.

Over Scope: Situación donde un proyecto tiene más ambición, contenido o complejidad de la que el tiempo disponible permite producir de forma tradicional. BA RUNNER podía ser over scope para una JAM, pero la IA permitió sostener parte de esa complejidad sin abandonar la visión.

Asset: Recurso visual, sonoro, narrativo o interactivo que forma parte del juego o del proyecto. Puede ser un personaje, auto, estrella, fondo, pantalla, UI, sprite, música, objeto o animación. Un asset no es solo “una pieza”, sino una parte funcional del sistema.

Parallax: Técnica visual donde diferentes capas del fondo se mueven a distintas velocidades para generar profundidad. En BA RUNNER se vincula con la progresión de niveles y con referencias de estilo Neo-GEO.

Sekai Kan: Cosmovisión del mundo. Es la forma en la que el universo del juego afecta arte, mecánicas, música, guion, gameplay, escenas y todos los elementos de diseño. Cuando el Sekai Kan está bien construido, todo parece pertenecer al mismo canal.

Worldbuilding: Construcción del mundo narrativo, visual, cultural y funcional donde vive el personaje o el juego. Incluye contexto social, reglas, estética, objetos, conflictos, referencias, tono y lógica interna. En BA RUNNER sostiene la idea de aislamiento, transporte, ciudad y sistema.

Vibe: Sensación general que transmite el proyecto. No es solo estética, sino una combinación de mundo, música, tono, ritmo, referencias, imágenes, mecánicas y emoción. En términos más técnicos dentro de la charla, se vincula con el Sekai Kan.

Porcentaje de Brandeo: Nivel en el que una marca o mensaje se muestra dentro de una pieza o sistema. En el caso de BA RUNNER, sirve como analogía para explicar que la visión del juego está al 100% en cada decisión, aunque al jugador le llegue un porcentaje variable según su atención y experiencia.

Curaduría: Proceso humano de revisar, seleccionar, corregir y decidir qué información o resultado sirve y qué no. En IA es indispensable porque el modelo puede producir mucho material, pero el criterio de aprobación sigue dependiendo de quien conoce el proyecto.

Prompting avanzado de autoría: Uso de técnicas de prompting combinadas con conocimiento propio, referencias específicas, dirección estética, narrativa y criterio humano. Permite construir resultados más alejados del promedio genérico y más cercanos al universo particular del autor.

Motor de renderizado ultra rápido: Forma de entender la IA cuando la visión artística ya existe. La herramienta no decide el arte ni el diseño de fondo, sino que permite materializar, explorar o renderizar mucho más rápido una intención previamente definida.

Ambigüedad: Espacio de interpretación no resuelto entre lo que el humano quiere, lo que el LLM entiende, lo que el generador recibe y lo que el resultado devuelve. Reducir ambigüedad es el principio central para mantener control creativo con IA.

Teléfono descompuesto: Metáfora del flujo HUMANO > LLM > GENERADOR > RESULTADO. En cada paso se puede perder o deformar información. La función del pipeline, los prompts, las referencias y la curaduría es reducir esa pérdida.

Control creativo: Capacidad de sostener la visión original del proyecto durante todo el proceso. No significa que la IA no proponga nada, sino que cada variación, corrección o generación se evalúa contra el mundo, personaje, estilo y objetivo definidos por el autor o el equipo.

Gusto humano: Criterio subjetivo, autoral y profundo que permite saber cuándo algo pertenece al proyecto y cuándo solo parece pertenecer. Es lo que permite distinguir entre un personaje que “se ve parecido” y un personaje que realmente es el personaje dentro de ese mundo.

Canon: Conjunto de reglas, decisiones y referencias que definen qué pertenece al universo del proyecto y qué no. Sin canon, la IA puede generar resultados visualmente correctos pero no necesariamente coherentes con la obra.

Prompt: Instrucción que el usuario entrega al modelo. Puede ser simple o compleja, pero en un flujo profesional debería funcionar como una dirección clara, con contexto, objetivo, restricciones, referencias e información suficiente para reducir ambigüedad.

Comando: Prompt preparado para activar una función, flujo o herramienta específica. En el contexto de la charla, puede usarse para investigación profunda, análisis de personaje, style transfer o cualquier proceso donde se necesita una instrucción más estructurada.

Reflectividad del modelo: Capacidad del LLM de tomar un pedido, analizarlo y devolver una versión más estructurada, especializada o útil para ejecutar una tarea posterior. Es la base de muchas aplicaciones de Meta Prompting.

Generador: Herramienta o modelo que produce imagen, video, audio, código u otro tipo de salida a partir de una instrucción. No debe confundirse con el LLM, que puede actuar como intermediario, organizador o traductor del pedido.

Herramienta lógica: Todo conocimiento, referencia, explicación, criterio, dato o estructura que puede incorporarse al prompt para que la IA trabaje mejor. Lo que en un proceso humano quedaría implícito, con IA conviene volverlo explícito cuando suma precisión.

Macro a micro: Forma de organizar el conocimiento y la producción empezando por el mundo, la visión general y la narrativa, para luego bajar a personaje, escena, cámara, asset, detalle o corrección puntual. Sirve para no perder coherencia entre el todo y cada parte.

Escena Keyframe: Imagen clave de una escena que concentra composición, personaje, atmósfera, acción y dirección visual. Puede servir como base para cinemática, storyboard, video o producción de escenas posteriores.

Mood: Clima emocional y visual de una escena. Puede incluir luz, color, ritmo, tensión, atmósfera, composición y sensación general. En IA conviene explicarlo porque si queda implícito el modelo suele resolverlo desde promedios genéricos.

Composición: Organización visual de los elementos dentro de la imagen o escena. Incluye plano, encuadre, profundidad, jerarquía, dirección de mirada, balance y relación entre personaje, fondo y objetos.

Plano de cámara: Forma en la que la cámara encuadra al sujeto o la escena. Puede ser plano general, primer plano, plano detalle, plano medio, etc. En generación con IA ayuda a controlar cuánto se ve, desde dónde se ve y qué información domina.

Dirección cinematográfica: Conjunto de decisiones sobre cámara, ritmo, escena, atmósfera, composición, luz, actuación visual y montaje. En IA no se reemplaza; se traduce a instrucciones para que la herramienta pueda acercarse a la intención buscada.

Overpaint: Intervención manual sobre una imagen generada o incompleta para corregir, mejorar, terminar o llevarla hacia la visión deseada. Es una práctica propia del workflow híbrido porque combina IA con criterio y técnica humana.

Tracing: Trazado sobre una imagen base para reconstruir formas, líneas, estilo o composición. Puede usarse para recuperar control manual después de una generación o para preparar una base más clara para otro proceso.

Retoque final: Etapa donde se ajusta manualmente o con herramientas específicas el resultado producido por IA. Puede incluir corrección de color, limpieza, detalles, composición, edición o integración en el proyecto.

Prototipado rápido: Construcción veloz de una versión funcional o visual de una idea para probar comportamiento, interacción, mecánicas o dirección. En videojuegos, permite validar rápidamente si algo funciona antes de invertir más producción.

Stack IA: Conjunto de herramientas de inteligencia artificial que se usan dentro de un flujo de trabajo. Puede incluir LLMs, generadores de imagen, generadores de video, plataformas de código, herramientas de investigación, editores y modelos especializados.

Textura semántica: Densidad de significado que se le da a un pedido cuando se incorporan referencias, contexto, intención, reglas, mundo, personaje y restricciones. Cuanto más rica y coherente es esa textura, mejor puede el modelo orientarse dentro del espacio vectorial.

Referencia: Imagen, texto, obra, estilo, personaje, película, juego, canción o concepto que sirve para orientar una decisión creativa. La referencia no debe ser copiada de manera literal, sino traducida al sistema visual y narrativo del proyecto.

Resultado base: Primera salida útil obtenida después de aplicar un flujo o técnica. No necesariamente es el resultado final, sino una base desde la cual iterar, corregir, transferir estilo o seguir produciendo.

Resultado mejorado: Salida obtenida cuando al pedido base se le suma conocimiento específico, análisis, rol prompting, meta prompting, hoja de personaje, style transfer, restricciones e información curada. Representa un resultado más alineado con la intención del autor.

Promptear bien: No significa solamente ser breve, claro y coherente para un humano. Significa formular un pedido de manera que el modelo pueda interpretarlo con menor ambigüedad, activando el campo semántico correcto y devolviendo una respuesta más cercana a lo que necesitamos.

FRANCO WAYNE

VIVO CHARLA UTN CENTRO METROPOLITANO DE DISEÑO INTELIGENCIA ARTIFICIAL COMO HERRAMIENTA EN EL ARTE Y DISEÑO

RECURSOS

DIRECCIÓN CREATIVA CON IA

ROL PROMPTING

COMO CREAR UN PERSONAJE CON IA DESDE CERO

DE UNA IMAGEN A UN CHARACTER SHEET

DE IMAGEN SUELTA A BIBLIA VISUAL

STYLE TRANSFER CON IA EN PERSONAJES

PRODUCCIÓN DE ASSETS CON IA

PIPELINE CREATIVO CON IA

DE DISEÑO 2D A PIXEL ART PERCEPTUAL CON IA

DE BIBLIA VISUAL A ESCENAS NARRATIVAS

DEL CHARACTER SHEET AL MODELO 3D

EDICIÓN E ITERACIÓN DE PERSONAJES CON IA

STORYBOARD Y GUIÓN VISUAL CON IA

CINEMÁTICAS CON IA + BIBLIOTECA DE PARAMETROS

JSON PROMPTING y TIMELINE PROMPTING

Anexo de comandos especializados

SOBRE MÍ

MÁS RECURSOS

RECURSOS

ARCHIVO

IA CHARLA UTN

LA SITUACIÓN INICIAL:

¿QUE ES BA RUNNER?:

Todos los articulos