OpenAI ne se contente pas d’être connue comme la société ChatGPT ou même LLM. Dans une démarche innovante, OpenAI se lance dans la génération vidéo avec Sora, un modèle de GenAI qui transforme le texte en vidéos de 1080p. Ce développement vise à aider les utilisateurs à relever les défis de l’interaction avec le monde réel en générant des vidéos qui adhèrent étroitement aux prompts spécifiés tout en conservant une grande fidélité visuelle.

Le cofondateur et PDG Sam Altman a déclaré sur X (anciennement Twitter) qu’il s’agissait d’un « moment remarquable ».

here is sora, our video generation model:https://t.co/CDr4DdCrh1 today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team. remarkable moment. — Sam Altman (@sama) February 15, 2024

Bien que le produit ne soit pas encore officiellement utilisable par le plus grand nombre en raison de ce que Altman a qualifié dans son message de « red-teaming initial », c’est-à-dire de tests opposés de ses défenses de sécurité, de ses failles et de ses utilisations abusives, le fondateur a indiqué qu’il était mis à la disposition d’un « nombre limité de créateurs », l’expansion publique étant prévue à une date ultérieure.

Sora se distingue par sa capacité à créer des scènes dynamiques avec divers personnages, types de mouvements et détails d’arrière-plan, promettant une immersion à la hauteur des films. Le modèle peut également enrichir des clips vidéo existants, ajoutant des détails manquants pour une expérience plus complète.

Avec une compréhension profonde du langage, Sora interprète avec précision les demandes des utilisateurs, donnant vie à des personnages expressifs et de vives émotions. Ce modèle comprend la demande non seulement dans le contexte du langage, mais aussi dans sa manifestation physique réelle.

Sora est capable de générer des vidéos jusqu’à une minute dans une variété de styles, y compris photoréaliste, animé, et noir et blanc, évitant ce que l’on pourrait appeler les « bizarreries de l’IA » communes à d’autres technologies de génération de texte en vidéo.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance … pic.twitter.com/Um5CWI18nS — OpenAI (@OpenAI) February 15, 2024

Quelques limites identifiées

Si Sora présente des capacités impressionnantes en matière de génération de scènes vidéo détaillées et complexes, il rencontre également des difficultés en ce qui concerne la précision de la simulation physique et la reconnaissance des détails dans l’espace. Ces défis mettent en évidence les limites actuelles du modèle dans la compréhension et la reproduction des complexités de la physique et des relations spatiales du monde réel.

OpenAI positionne Sora comme un aperçu de recherche, conscient du potentiel d’abus de cette technologie et travaillant activement à développer des outils pour détecter les vidéos générées par Sora. La société envisage une collaboration avec des experts, des décideurs politiques, des enseignants et des artistes pour explorer les cas d’utilisation positive de cette technologie, tout en incluant des métadonnées de provenance dans les productions générées pour garantir une utilisation sûre et responsable de Sora.