sora 1

Sora por ahora es capaz de generar videos en alta resolución con escenas detalladas y movimientos de cámara en todos los ángulos.

OpenAI acaba de presentar a Sora, su modelo de texto a video el cual puede generar detalladas escenas.

De acuerdo a lo que detallaron desde OpenAI, “Sora puede crear videos de hasta 60 segundos mostrando escenas altamente detalladas, complejos movimientos de cámara, y múltiples personajes con vibrantes emociones”.

Según agregan, este modelo no sólo es capaz de entender lo que el usuario le solicitó en el texto, si no que también como es que estas cosas existen en el mundo físico.

De esta forma, Sora funciona con la misma mecánica que los generadores de texto a imagen, donde el usuario entrega una indicación inicial, conocida como prompt y luego la inteligencia artificial genera la imagen a partir de esto.

En el caso de los videos de Sora, desde OpenAI presentaron varios ejemplos, los cuales mencionan no fueron editados y muestran desde calles de Japón a mamuts corriendo por la nieve.

De acuerdo a lo que detallan el modelo aún cuenta con algunas debilidades y puede tener problemas al intentar simular las físicas de una escena compleja, así como puede no entender algunas instancias de causa y efecto. Según detallan, esto se podría ver al momento de pedirle un video de alguien mordiendo una galleta, la cual luego podría estar sin la marca de la mordida.

Antes de estar disponible, según mencionan desde la compañía, están tomando una serie de importantes medidas de seguridad. “Estamos trabajando con una serie de entrenadores -expertos en áreas como desinformación, contenido de odio y prejuicios - quienes están testeando el modelo”.