L’arrivée de Sora, le modèle de génération de vidéos à partir de prompts textuels développés par OpenAI, représente une véritable révolution dans le paysage de l’intelligence artificielle.

Cette technologie prometteuse permet de transformer de simples descriptions textuelles en vidéos d’une minute, offrant ainsi une nouvelle dimension à la création de contenu numérique.

OpenAI, déjà connu pour ses avancées significatives avec des produits comme ChatGPT et Dall-E, repousse les limites de l’IA avec Sora, en produisant des vidéos d’une qualité quasi photoréaliste. Si Sora peut « créer des scènes réalistes et imaginatives à partir d’instructions textuelles », selon OpenAI, elle fait déjà parler d’elle sur Internet.

Contrairement aux précédents précédents qui étaient largement accessibles, Sora est actuellement en phase de test et n’est accessible qu’à un nombre restreint d’utilisateurs, notamment les testeurs internes d’OpenAI et un groupe sélectionné d’artistes visuels et de cinéastes.

Cette approche sélective vise à identifier et à corriger les potentielles failles du système qui pourraient présenter des risques d’abus ou de détournement. OpenAI met en garde contre les annonces frauduleuses promettant un accès non autorisé à Sora, soulignant l’importance de se référer uniquement aux canaux officiels pour les informations d’accès.

Sora s’appuie sur une méthodologie innovante en matière de traitement vidéo. Analogue aux Large Language Model pour le texte, Sora utilise des « patches » de données vidéo, transformées en un espace latent de dimension inférieure, pour générer des vidéos cohérentes et de haute qualité.

Ce processus s’inscrit dans la continuité des modèles de diffusion, une avancée par rapport aux modèles GAN utilisés antérieurement dans la génération de vidéos basées sur le texte. Sora se distingue par sa capacité à comprendre les nuances du langage liées à la réalité physique, permettant une reproduction fidèle et détaillée des scènes décrites.

Malgré ses capacités impressionnantes, Sora n’est pas exempt de défis, notamment en ce qui concerne la représentation précise de la physique et le changement d’état des objets dans les vidéos.

OpenAI a admis ouvertement que Sora n’est pas sans limites et qu’il y a beaucoup de place pour l’amélioration. Il existe actuellement deux limitations majeures :

OpenAI est consciente de ces limitations et travaille à l’amélioration continue du modèle. Pour prévenir les risques associés aux deepfakes, une signature spécifique est intégrée dans les métadonnées des vidéos générées, accompagnée du développement d’un détecteur dédié.

Des interrogations demeurent quant aux données utilisées pour entraîner Sora, ainsi qu’aux implications sur le marché du travail et aux coûts liés à la génération de contenu vidéo. La collaboration d’OpenAI avec Shutterstock pour l’accès à sa bibliothèque média soulève des questions sur les supports de formation et les droits d’utilisation.

De plus, l’impact de l’IA sur les emplois créatifs et les potentiels coûts pour l’accès à cette technologie avancée font l’objet d’un examen attentif.

Les réactions en ligne ont été très variées, certains utilisateurs X étant très enthousiastes, tandis que d’autres sont beaucoup plus méfiants. Marques Brownlee, blogueur et critique technique, a déclaré dans un tweet accompagné de quelques vidéos de Sora : « Si cela ne vous inquiète pas au moins un peu, rien ne le fera ».

Every single one of these videos is AI-generated, and if this doesn’t concern you at least a little bit, nothing will

— Marques Brownlee (@MKBHD) February 15, 2024