Qu'est-ce que le Dalle-mini et comment ça marche ?

Qu Est Ce Que Le Dalle Mini Et Comment Ca Marche



Dalle-mini est un modèle d'apprentissage en profondeur qui peut générer des images de haute qualité à partir du texte saisi par l'utilisateur. Il est basé sur le modèle DALL-E, qu'OpenAI a publié en janvier 2021. DALL-E signifie ' Langage désenchevêtré et expression latente ' est un réseau neuronal basé sur un transformateur qui peut encoder du texte et des images dans un espace latent commun, puis les décoder dans l'une ou l'autre modalité.

Cet article explique le contenu suivant :







Qu'est-ce que la Dalle-mini ?

Donnez-lui-mini est une version plus petite et plus rapide de DALL-E, qui a été créée par EleutherAI, un collectif de recherche open source. Dalle-mini n'utilise que 6 milliards de paramètres, contre 12 milliards pour DALL-E, et peut fonctionner sur un seul GPU. Dalle-mini utilise également un tokenizer et un vocabulaire différents pour la saisie de texte, ce qui le rend plus compatible avec différents langages et domaines :




Note : Les utilisateurs peuvent générer des images gratuites à l'aide de Dalle-mini en suivant les lien .



Quel est le fonctionnement de Dalle-mini ?

L'idée principale derrière Dalle-mini est la puissance des transformateurs, qui sont des réseaux de neurones. Ils peuvent apprendre des dépendances à longue portée et des modèles complexes dans des données séquentielles, telles que du texte ou des images.





Les transformateurs se composent de deux parties principales : un encodeur et un décodeur. La première partie prend une entrée (une description textuelle) et la transforme en vecteurs cachés. Après cela, le décodeur le prend et génère une sortie (une image) qui est pertinente pour l'entrée.

Quelle est la différence entre Dalle-mini et DALL-E ?

La Dalle-mini et la DALL-E utilisent une architecture encodeur-décodeur commune pour le texte et les images. Ils peuvent encoder et décoder les deux modalités en utilisant le même réseau. Cela leur permet d'apprendre un espace latent commun qui capture la relation sémantique entre le texte et les images. Après cela, leur permet d'effectuer une génération intermodale, telle que la création d'images à partir de texte ou vice versa.



Comment fonctionne Dalle-mini ?

Pour générer une image à partir d'une description textuelle, Dalle-mini commence par segmenter le texte à l'aide d'un algorithme de codage par paires d'octets (BPE), qui divise le texte en unités de sous-mots en fonction de leur fréquence et de leur cooccurrence :


Passons au détail du fonctionnement interne de Dalle-mini :

Fonctionnement interne de Dalle-mini

Supposons que le mot ' jouant ' pourrait être divisé en ' pla ' et ' ying ”. Les jetons sont ensuite mappés sur des identifiants numériques à l'aide d'un vocabulaire de 8192 jetons. Les identifiants sont introduits dans l'encodeur, produisant une représentation latente de taille 256 x 64 :


Le décodeur prend alors la représentation latente et génère une image de taille 256 x 256 pixels. Le décodeur utilise un processus autorégressif, c'est-à-dire qu'il génère chaque pixel un par un, en fonction des pixels précédents et de la représentation latente.

Comment générer une image à partir d'une description textuelle à l'aide de Dalle-mini ?

Pour générer une description textuelle à partir d'une image à l'aide de Dalle-mini, saisissez le texte dans la fenêtre d'invite. Par exemple, tapez ' Une peinture de fleurs au hasard ' dans l'invite et appuyez sur ' Courir ' bouton:


La sortie montre que Dalle-mini a généré des images pertinentes en fonction du texte saisi.

Conclusion

Dalle-mini est un modèle remarquable qui démontre le potentiel des transformateurs pour la génération intermodale. Ils peuvent créer des images réalistes et diversifiées à partir de descriptions en langage naturel, ainsi que des textes cohérents et pertinents à partir d'images. Ils peuvent également gérer des compositions complexes, telles que la combinaison de plusieurs objets ou attributs dans une image ou un texte. Cet article a expliqué en détail la Dalle-mini et son fonctionnement.