Por Hector Luis Lopez
hlopez at geekmagazine.mx
Que un modelo de inteligencia artificial pueda producir imágenes realistas no es novedad en la actualidad. Modelos como Midjourney, DALL-E 3 o Stable Diffusion, han demostrado capacidades asombrosas en este aspecto. Sin embargo, cuando se trata de generar vídeos, la situación es diferente y aunque existen modelos como Pika o Morph que logran resultados aceptables, según la empresa matriz de TikTok, ByteDance, ninguno se compara con lo que puede lograr el modelo recién anunciado: MagicVideo-V2.
Videos realistas y, especialmente, coherentes. En la página web del proyecto, se pueden encontrar algunos videos generados mediante esta inteligencia artificial y los resultados son excelentes. No solo se destaca por el nivel de detalle, sino también por la consistencia de las imágenes. Si observamos detenidamente, podemos identificar algunas imperfecciones, pero la verdad es que las 94 imágenes que conforman cada secuencia mantienen una coherencia excepcional.
Pero cómo opera MagicVideo-V2, se compone de cuatro módulos: texto a imagen (T2I), imagen a video (I2V), video a video (V2V) y un modelo de interpolación de frames. Según la explicación de los desarrolladores, el módulo T2I produce una imagen de 1.024 x 1.024 píxeles basada en la indicación dada. Posteriormente, el módulo I2V anima la imagen generando 32 fotogramas de 600 x 600 píxeles. En tercer lugar, el módulo V2V incrementa la resolución a 1.048 x 1.048 píxeles y, por último, el módulo de interpolación amplía la secuencia a 94 fotogramas.
Comparación con otros modelos, de manera previsible, los desarrolladores han compartido los resultados al emplear el mismo estímulo en distintos modelos de generación de videos mediante inteligencia artificial. De acuerdo con las imágenes proporcionadas, el modelo de ByteDance logra resultados considerablemente superiores a los de la competencia, aunque en ciertos contextos, Stable Difussion Video y Pika muestran resultados bastante similares. La disparidad radica en que los modelos de la competencia están disponibles para uso, mientras que MagicVideo-V2, al menos por el momento, no parece estar accesible para pruebas.
Aunque es innegable que el estado actual de esta tecnología resulta notable, los videos producidos aún difieren de ser completamente convincentes y suelen ser fragmentos de video cortos que demandan considerables recursos computacionales para su generación. Sin embargo, es una tecnología en constante mejora y es probable que continúe sorprendiéndonos en un futuro cercano.