À la fin de la semaine dernière, OpenAI a dévoilé un nouveau système d’IA génératif appelé Sora, capable de produire de courtes vidéos à partir de textes d’invitation. Même si Sora n’est pas encore disponible au grand public, la qualité élevée des exemples de résultats publiés jusqu’à présent a suscité des réactions à la fois enthousiastes et préoccupantes.
Les vidéos publiées par OpenAI, affirmant qu’elles ont été créées directement par Sora sans aucune modification, montrent des résultats d’invitations tels que « une vidéo photoréaliste en gros plan de deux navires pirates se battant alors qu’ils naviguent dans une tasse de café » et « des images historiques de la Californie pendant la ruée vers l’or ».
Au premier abord, il est fréquemment compliqué de distinguer qu’ils sont créés par l’intelligence artificielle, en raison de la qualité élevée des vidéos, des textures, de la dynamique des scènes, des mouvements de caméra et d’un bon niveau de cohérence.
Comment fonctionne Sora ?
Sora fonctionne en combinant les fonctionnalités des outils de génération de texte et d’images dans un modèle de transformateur de diffusion. Les transformateurs sont un type de réseau neuronal introduit par Google en 2017 et sont principalement utilisés dans de grands modèles linguistiques tels que ChatGPT et Google Gemini. Les modèles de diffusion, quant à eux, sont à la base de nombreux générateurs d’images d’IA. Ils commencent par un bruit aléatoire et itèrent vers une image « propre » qui correspond à une invitation de saisie.
Une vidéo peut être réalisée à partir d’une séquence de telles images. Ou, dans une vidéo, la cohérence et l’homogénéité entre les images sont essentielles.
Sora utilise l’architecture du transformateur pour gérer les relations entre les images. Alors que les transformateurs ont été initialement conçus pour trouver des modèles dans des jetons représentatifs du texte, Sora utilise à la place des jetons représentatifs de petites zones d’espace et de temps .
En première position
Sora n’est pas le premier modèle texte-vidéo. Les modèles précédents incluent Emu de Meta, Gen-2 de Runway, Stable Video Diffusion de Stability AI et récemment Lumiere de Google.
Lumière, sorti il y a quelques semaines à peine, prétendait produire une meilleure vidéo que ses précédentes. Mais Sora semble être plus puissant que Lumière à au moins certains égards.
Sora peut générer des vidéos avec une résolution allant jusqu’à 1920 × 1080 pixels et dans une variété de formats d’image, tandis que la Lumière est limitée à 512 × 512 pixels. Les vidéos de Lumière durent environ 5 secondes, tandis que Sora réalise des vidéos jusqu’à 60 secondes.
Lumiere ne peut pas créer de vidéos composées de plusieurs plans, contrairement à Sora. Sora, comme d’autres modèles, serait également capable d’effectuer des tâches de montage vidéo telles que la création de vidéos à partir d’images ou d’autres vidéos, la combinaison d’éléments de différentes vidéos et l’extension de vidéos. dans le temps.
Les deux modèles génèrent des vidéos globalement réalistes, mais peuvent souffrir d’hallucinations. Les vidéos de Lumière peuvent être plus facilement reconnues comme étant générées par l’IA. Les vidéos de Sora semblent plus dynamiques, avec plus d’interactions entre les éléments.
Cependant, dans de nombreux exemples de vidéos, des incohérences deviennent apparentes après une inspection minutieuse.
Des applications prometteuses
Le contenu vidéo est actuellement produit soit en filmant le monde réel, soit en utilisant des effets spéciaux, deux méthodes qui peuvent s’avérer coûteuses et longues. Si Sora devient disponible à un prix raisonnable, les gens pourraient commencer à utiliser comme logiciel de prototypage pour visualiser des idées à un coût bien inférieur.
D’après ce que nous connaissons des capacités de Sora, il pourrait même être utilisé pour créer de courtes vidéos pour certaines applications dans les domaines du divertissement, de la publicité et de l’éducation.
Le document technique d’OpenAI sur Sora s’intitule « Modèles de génération vidéo en tant que simulateurs mondiaux ». L’article affirme que des versions plus grandes de générateurs vidéo comme Sora pourraient être « des simulateurs capables du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent ».
Si cela est exact, les versions futures pourraient avoir des applications scientifiques pour des expériences physiques, chimiques et même sociétales. Par exemple, on pourrait tester l’impact des tsunamis de différentes tailles sur différents types d’infrastructures – et sur la santé physique et mentale des personnes à proximité.
Atteindre ce niveau de simulation est un véritable défi, et certains experts affirment qu’un système comme Sora est fondamentalement incapable de le faire.
Un simulateur complet devrait pouvoir calculer les réactions physiques et chimiques aux niveaux les plus détaillés de l’univers. Cependant, simuler une approximation approximative du monde et réaliser des vidéos réalistes à l’œil humain pourrait être à la portée des années à venir.
Risques et préoccupations éthiques
Les principales préoccupations autour d’outils comme Sora tournent autour de leur impact sociétal et éthique. Dans un monde déjà en proie à la désinformation , des outils comme Sora pourraient aggraver les choses.
Il est facile de voir comment la capacité de générer une vidéo réaliste de n’importe quelle scène que vous pouvez décrire pourrait être utilisée pour diffuser de fausses nouvelles convaincantes ou jeter le doute sur des images réelles. Cela peut mettre en danger les mesures de santé publique, être utilisé pour influencer les élections ou même surcharger le système judiciaire de fausses preuves potentielles .
Les générateurs de vidéos peuvent également être utilisés pour menacer directement des individus ciblés, en particulier avec des deepfakes à caractère pornographique. Ces situations pourraient avoir des conséquences graves sur la vie des personnes touchées et de leurs proches.
En plus de ces préoccupations, se posent également les questions de droits d’auteur et de propriété intellectuelle. Les outils d’IA générative nécessitent de vastes quantités de données pour l’entraînement, et OpenAI n’a pas divulgué l’origine des données utilisées pour former Sora.
Les grands modèles de langage et les générateurs d’images ont également été mis en cause pour cette raison. Aux États-Unis, un groupe d’écrivains renommés a intenté un procès contre OpenAI pour une possible utilisation abusive de leurs œuvres. L’affaire allègue que les grands modèles linguistiques et les entreprises qui les utilisent volent le travail des auteurs pour créer du nouveau contenu.
Il n’est pas rare que la technologie précède la loi, comme cela a été le cas récemment. Par exemple, la question de la responsabilité des plateformes de médias sociaux en matière de modération du contenu a suscité un débat animé au cours des deux dernières années, avec une grande partie de l’attention portée sur l’article 230 du Code américain.
Bien que ces préoccupations soient légitimes, nous ne prévoyons pas, à partir de notre expérience passée, qu’elles influencent le développement de la technologie de génération vidéo. OpenAI affirme prendre plusieurs mesures de sécurité importantes avant de rendre Sora accessible au public, notamment en collaborant avec des experts en désinformation, contenu haineux et préjugés, ainsi qu’en développant des outils pour détecter les contenus trompeurs.