OpenAI Sora - Modèles de génération vidéo comme simulateurs du monde

Cet article est la traduction de l’article de recherche publié par OpenAI sur OpenAI Sora

Nous explorons la formation à grande échelle de modèles génératifs sur des données vidéo. Plus précisément, nous entraînons conjointement des modèles de diffusion conditionnelle de texte sur des vidéos et des images de durées, résolutions et formats d’image variables. Nous exploitons une architecture de transformateur qui fonctionne sur des correctifs spatio-temporels de codes latents de vidéo et d’image. Notre plus grand modèle, Sora, est capable de générer une minute de vidéo haute fidélité. Nos résultats suggèrent que la mise à l’échelle des modèles de génération vidéo constitue une voie prometteuse vers la création de simulateurs à usage général du monde physique.

Ce rapport technique se concentre sur (1) notre méthode pour transformer des données visuelles de tous types en une représentation unifiée qui permet une formation à grande échelle de modèles génératifs, et (2) l’évaluation qualitative des capacités et des limites de Sora. Les détails du modèle et de la mise en œuvre ne sont pas inclus dans ce rapport.

De nombreux travaux antérieurs ont étudié la modélisation générative des données vidéo à l’aide de diverses méthodes, notamment les réseaux récurrents, les réseaux antagonistes génératifs, les transformateurs autorégressifs et les modèles de diffusion. Ces travaux se concentrent souvent sur une catégorie restreinte de données visuelles, sur des vidéos plus courtes ou sur des vidéos de taille fixe. Sora est un modèle généraliste de données visuelles : il peut générer des vidéos et des images couvrant diverses durées, formats et résolutions, jusqu’à une minute complète de vidéo haute définition.

Transformer les données visuelles en correctifs

Nous nous inspirons de grands modèles de langage qui acquièrent des capacités généralistes en s’entraînant sur des données à l’échelle d’Internet. Le succès du paradigme LLM est rendu possible en partie par l’utilisation de jetons qui unifient élégamment diverses modalités de texte : code, mathématiques et divers langues naturelles. Dans ce travail, nous examinons comment les modèles génératifs de données visuelles peuvent hériter de tels avantages. Alors que les LLM ont des jetons de texte, Sora a des correctifs visuels. Il a déjà été démontré que les correctifs constituent une représentation efficace des modèles de données visuelles. Nous constatons que les correctifs constituent une représentation hautement évolutive et efficace pour entraîner des modèles génératifs sur divers types de vidéos et d’images.

À un niveau élevé, nous transformons les vidéos en patchs en les compressant d’abord dans un espace latent de dimension inférieure, puis en décomposant la représentation en patchs spatio-temporels.

Réseau de compression vidéo

Nous formons un réseau qui réduit la dimensionnalité des données visuelles. Ce réseau prend la vidéo brute en entrée et produit une représentation latente compressée à la fois temporellement et spatialement. Sora est formé et génère ensuite des vidéos dans cet espace latent compressé. Nous formons également un modèle de décodeur correspondant qui mappe les latents générés à l’espace des pixels.

Correctifs latents spatio-temporels

À partir d’une vidéo d’entrée compressée, nous extrayons une séquence de patchs spatio-temporels qui agissent comme des jetons de transformateur. Ce schéma fonctionne également pour les images puisque les images ne sont que des vidéos avec une seule image. Notre représentation basée sur des correctifs permet à Sora de s’entraîner sur des vidéos et des images de résolutions, durées et formats d’image variables. Au moment de l’inférence, nous pouvons contrôler la taille des vidéos générées en disposant les correctifs initialisés de manière aléatoire dans une grille de taille appropriée.

Transformateurs de mise à l’échelle pour la génération vidéo

Sora est un modèle de diffusion ; étant donné les correctifs bruyants d’entrée (et les informations de conditionnement telles que les invites textuelles), il est entraîné à prédire les correctifs « propres » d’origine. Il est important de noter que Sora est un transformateur de diffusion. Les transformateurs ont démontré des propriétés de mise à l’échelle remarquables dans divers domaines, notamment la modélisation du langage, la vision par ordinateur et la génération d’images.

Dans ce travail, nous constatons que les transformateurs de diffusion s’adaptent également efficacement aux modèles vidéo. Ci-dessous, nous montrons une comparaison d’échantillons vidéo avec des graines et des entrées fixes au fur et à mesure de la progression de la formation. La qualité des échantillons s’améliore nettement à mesure que le calcul d’entraînement augmente.

Calcul de base

Calcul x4

Calcul x32

Durées, résolutions, formats d’image variables

Les anciennes approches de génération d’images et de vidéos redimensionnaient, recadraient ou rognaient généralement les vidéos à une taille standard, par exemple des vidéos de 4 secondes à une résolution de 256 x 256. Nous constatons qu’en revanche, l’entraînement sur les données dans leur taille native offre plusieurs avantages.

Flexibilité d’échantillonnage

Sora peut échantillonner des vidéos grand écran 1920 x 1080p, des vidéos verticales 1080 x 1920 et tout le reste. Cela permet à Sora de créer du contenu pour différents appareils directement dans leurs proportions d’origine. Il nous permet également de prototyper rapidement du contenu dans des tailles inférieures avant de le générer en pleine résolution, le tout avec le même modèle.

Cadrage et composition améliorés

Nous constatons empiriquement que l’entraînement sur des vidéos dans leurs proportions d’origine améliore la composition et le cadrage. Nous comparons Sora à une version de notre modèle qui recadre toutes les vidéos de formation pour qu’elles soient carrées, ce qui est une pratique courante lors de la formation de modèles génératifs. Le modèle entraîné sur des cultures carrées (à gauche) génère parfois des vidéos où le sujet n’est que partiellement visible. En comparaison, les vidéos de Sora (à droite) ont un cadrage amélioré.

Language understanding

Training text-to-video generation systems requires a large amount of videos with corresponding text captions. We apply the re-captioning technique introduced in DALL·E 3³⁰ to videos. We first train a highly descriptive captioner model and then use it to produce text captions for all videos in our training set. We find that training on highly descriptive video captions improves text fidelity as well as the overall quality of videos.

Similar to DALL·E 3, we also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model. This enables Sora to generate high quality videos that accurately follow user prompts.