Meta dévoile Emu Video et Emu Edit : deux outils IA révolutionnaires pour la création visuelle

Emu Video et Emu Edit Meta AI

Meta a présenté deux nouveaux outils d’intelligence artificielle générative qui visent à faciliter la création de vidéos et d’images à partir d’e simples invites en texte. Ces outils, nommés Emu Video et Emu Edit, sont basés sur le projet de recherche Emu, qui explore de nouvelles façons d’utiliser les invites d’IA générative pour des projets visuels. Voici ce que vous devez savoir sur ces outils innovants et leurs applications potentielles.

Emu Video : créer des vidéos à partir de texte ou d’images

Emu Video est un outil qui vous permet de créer de courts clips vidéo basés sur des invites textuelles ou des images fixes. Par exemple, si vous tapez “un chat qui joue avec une pelote de laine”, Emu Video sera capable de générer une vidéo d’un chat qui joue avec une pelote de laine, avec des détails réalistes et des mouvements fluides. Vous pouvez également fournir une image fixe, comme une photo de produit, et une invite textuelle, comme « montrer le produit sous différents angles », et Emu Video créera une vidéo qui montre le produit sous différents angles.

Comment fonctionne Emu vidéo ?

Emu Video utilise une architecture unifiée pour les tâches de génération vidéo, qui peut répondre à une variété d’entrées : texte uniquement, image uniquement, et texte et image simultanément. Le processus se déroule en deux étapes : 

  • 👉 premièrement, générer des images conditionnées par une invite de texte, 
  • 👉 puis générer une vidéo conditionnée à la fois par le texte et l’image générée. 

Cette approche “factorisée” ou divisée de la génération vidéo permet de former efficacement des modèles de génération vidéo.

Des vidéos génératives de 512 x 512 

Emu Video sera capable de générer des vidéos 512 x 512 d’une durée de quatre secondes, fonctionnant à 16 images par seconde. Les évaluations humaines indiquent une nette préférence pour les générations vidéo d’Emu par rapport aux travaux antérieurs de Meta, soulignant son avance en termes de qualité et de fidélité à l’invite de texte. 

Emu Video pourrait avoir de nombreuses utilisations, notamment pour les marques qui veulent créer des vidéos promotionnelles à partir de photos de produits et de descriptions textuelles, ou pour les créateurs de contenu qui veulent générer des vidéos à partir d’idées textuelles. Emu Video pourrait également être intégré aux plateformes de Meta, comme Facebook et Instagram, pour permettre aux utilisateurs de créer des vidéos personnalisées à partir de leurs propres photos et textes.

Emu Edit : modifier des images en utilisant des invites conversationnelles

Emu Edit est un outil qui permet de modifier des images en utilisant des invites conversationnelles. Par exemple, si vous avez une image d’un paysage, vous pouvez demander à Emu Edit de « changer la couleur du ciel en rose” ou de “rendre l’herbe plus verte », et Emu Edit effectuera les modifications souhaitées. Vous n’avez pas besoin de sélectionner la partie de l’image que vous voulez modifier, Emu Edit comprend à quelle partie de l’image vous faites référence.

Emu Edit utilise un modèle d’IA qui combine la compréhension du langage naturel et la génération d’images, pour interpréter les invites de l’utilisateur et modifier les images en conséquence. Le modèle est entraîné sur un grand ensemble de données d’images et de textes, qui contient des exemples de modifications d’images et les invites correspondantes. Le modèle apprend ainsi à associer les mots aux parties de l’image, et à effectuer les modifications appropriées.

Emu Edit pourrait être un outil utile pour les personnes qui veulent modifier des images sans avoir à utiliser des logiciels complexes ou à apprendre des compétences techniques. Cette IA pourrait aussi être intégrée aux plateformes de Meta, comme Facebook et Instagram, pour permettre aux utilisateurs de personnaliser leurs photos en utilisant des invites simples et naturelles.

Emu : un projet de recherche sur l’IA générative

Emu Video et Emu Edit sont basés sur le projet de recherche Emu, qui explore de nouvelles façons d’utiliser les invites d’IA générative pour des projets visuels. L’IA générative est un domaine de l’intelligence artificielle qui consiste à créer du contenu à partir de rien, comme des images, des vidéos, des textes, des sons, etc. Les invites d’IA générative (prompts) sont des entrées qui déclenchent la génération de contenu, comme des mots, des phrases, des images, des sons, etc.

Le projet Emu vise à développer des modèles d’IA générative qui peuvent répondre à des prompts variés et créatifs, et qui peuvent générer du contenu visuel de haute qualité et diversifié. Il s’inspire également de la façon dont les humains utilisent les invites pour stimuler leur créativité, et cherche à créer des outils d’IA qui peuvent faciliter et enrichir le processus créatif.

Emu Video et Emu Edit sont deux exemples de ce que le projet Emu peut réaliser, mais il y a encore beaucoup d’autres possibilités à explorer. Meta prévoit de continuer à travailler sur le projet, et de partager ses progrès ainsi que ses résultats avec la communauté scientifique et le grand public.

Suivez ce lien pour en savoir plus sur le projet Emu de Meta

Adeline G.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *