Comment créer une intégration à partir d'une liste de phrases en anglais

Comment Creer Une Integration A Partir D Une Liste De Phrases En Anglais



Avez-vous déjà pensé lorsque nous communiquons avec nos machines (ordinateurs) et leur donnons des instructions pour effectuer une tâche spécifique pour nous, comme effectuer une recherche spécifique ou traduire d'une langue à une autre, comment un ordinateur comprend-il et traite-t-il cela ? Tout cela se fait à travers le sous-domaine de l'intelligence artificielle du traitement du langage naturel. L'ordinateur comprend les valeurs numériques et la technique d'« incorporation de mots » de la PNL convertit le mot et les textes que nous donnons en entrée aux ordinateurs en ce vecteur numérique afin que l'ordinateur puisse le reconnaître. Plusieurs autres processus de la PNL se produisent au-delà de cette interaction homme-ordinateur à travers des modèles de langage, mais nous couvrirons le mot incorporation en détail dans ce guide.

Syntaxe:

Différentes fonctions relèvent du traitement du langage naturel pour l'incorporation de mots dans le texte. Cet article couvre la fonction 'word2vec' à cet effet. Pour le rendre plus clair, le mot incorporation convertit nos entrées de texte dans la représentation vectorielle où les mots qui ont plus ou moins les mêmes significations contextuelles ont donné la même représentation.

L'algorithme 'word2vec' est un modèle de réseau neuronal qui est formé de telle manière qu'il apprend l'incorporation des mots en prédisant d'abord le contexte du mot dans lequel il apparaît. Ce modèle prend le texte en entrée. Ensuite, pour chaque mot du texte, la représentation vectorielle est créée pour ce mot. Ce modèle est basé sur l'idée que les mots qui semblent avoir le même contexte ont les mêmes significations. La syntaxe de 'word2vec' est la suivante :







$ Word2Vec(phrases, min_count)

Cet algorithme a deux paramètres qui sont 'sentences' et 'minimum_count'. La phrase est la variable où la liste des phrases ou le texte sous forme de phrases est stocké et le minimum_count parle de la valeur de comptage de 1, ce qui signifie que l'un des mots du texte qui est apparu moins d'un doit être ignoré .



Exemple 1:

Dans cet exemple, nous créons les incorporations de mots pour les mots qui existent dans la liste des phrases anglaises. Pour créer le mot 'embedding', nous devons utiliser le modèle 'word2vec'. Ce modèle est un package de la bibliothèque 'gensim' de Python. Nous devons avoir Gensim installé dans nos référentiels de bibliothèque Python pour fonctionner avec 'word2vec'.



Pour implémenter cet exemple, nous allons travailler sur le compilateur Python en ligne « google colab ». Pour installer le gensim, utilisez la commande « pip install gensim ». Cela démarre le téléchargement de cette bibliothèque avec tous ses packages associés. Une fois installé, nous importons le package 'word2vector' depuis le gensim.





Pour entraîner ce modèle 'word2vec', nous devons créer un jeu de données d'entraînement. Pour cela, nous créons une liste de phrases contenant quatre à cinq phrases en anglais. Nous sauvegardons cette liste dans la variable « training_data ».

Notre prochaine étape après la création de l'ensemble de données d'entraînement consiste à entraîner le modèle 'word2vec' sur ces données. Donc, nous appelons le modèle. Nous donnons les données d'apprentissage dans les paramètres d'entrée de ce modèle que nous avons sauvegardés dans la variable 'input'. Ensuite, nous spécifions le deuxième paramètre qui est le 'minimum_count'. Nous fixons sa valeur égale à '1'. La sortie de ce modèle d'entraînement est enregistrée dans la variable 'trained_model'.



Une fois que nous avons fini de former le modèle, nous pouvons simplement accéder au modèle avec le préfixe 'wv' qui est le mot modèle vectoriel. Nous pouvons également accéder au vocabulaire du jeton de nos mots et pouvons les imprimer avec la méthode suivante :

vocabof_tokens = liste (model.wv.vocab)

Le modèle représente le modèle entraîné dans notre cas. Maintenant, nous accédons à la représentation vectorielle du seul mot dans la liste de la phrase qui, dans notre cas, est 'pomme'. Pour ce faire, nous appelons simplement le modèle entraîné. Nous passons le mot dont nous voulons imprimer la représentation vectorielle comme 'modèle'. wv ['pomme']' à son argument d'entrée. Ensuite, nous imprimons les résultats avec la fonction 'print'.

depuis en tant que nation des modèles importer Word2Vec

données d'entraînement = [ [ 'pomme' , 'est' , 'le' , 'doux' , 'pomme' , 'pour' , 'word2vec' ] ,
[ 'ce' , 'est' , 'le' , 'deuxième' , 'pomme' ] ,
[ 'ici' , 'un autre' , 'pomme' ] ,
[ 'un' , 'doux' , 'pomme' ] ,
[ 'et' , 'plus' , 'doux' , 'pomme' ] ]

modèle = Word2Vec ( données d'entraînement , min_count = 1 )
imprimer ( modèle )
vocabof_tokens = liste ( modèle. wv . index_to_key )
imprimer ( vocabof_tokens )
imprimer ( modèle. wv [ 'pomme' ] )

À partir de la sortie et du code mentionnés précédemment, le mot incorporé pour le mot 'pomme' est affiché. Dans l'exemple, nous avons d'abord créé un ensemble de données d'entraînement. Ensuite, nous avons formé un modèle dessus et résumé le modèle. Ensuite, en utilisant le modèle, nous avons eu accès au vocabulaire symbolique des mots. Après cela, nous avons affiché le mot incorporation pour le mot 'pomme'.

Exemple 2 :

En utilisant la bibliothèque gensim, créons une autre liste de phrases. Entraînez notre modèle pour chaque mot de la phrase afin de créer l'incorporation de mots à l'aide du modèle 'word2vec'. Tout d'abord, à partir du package de la bibliothèque gensim, le modèle 'word2vec' est importé. Ensuite, nous créons un autre ensemble de données qui sera la liste contenant les deux phrases. Chaque phrase de la liste comporte quatre mots.

Maintenant, nous enregistrons cette liste dans la variable 'data'. Ensuite, nous appelons le modèle 'word2vec ()' et alimentons les données aux arguments de ce modèle avec la valeur minimum_count qui est égale à '1'. C'est ainsi que nous entraînons notre modèle. Maintenant, il est capable et peut apprendre l'incorporation de mots des mots qui existent dans les phrases qui sont présentes dans la liste en prédisant le contexte dans lequel ils existent. Pour tester les résultats de notre modèle, nous passons simplement un mot comme 'chien' dans nos données au modèle. Ensuite, nous imprimons les résultats à l'aide de la fonction 'print ()'.

depuis en tant que nation des modèles importer Word2Vec
données = [ [ 'lapin' , 'a' , 'dents' ] , [ 'chien' , 'a' , 'oreilles' ] ]
modèle = Word2Vec ( données , min_count = 1 )
imprimer ( modèle. wv [ 'chien' ] )

Nous pouvons observer la représentation vectorielle du mot que nous avons transmis au modèle en tant qu'entrée de l'extrait précédent de la sortie.

Conclusion

Ce guide montre la méthode pour créer le word embedding pour les mots qui existent dans la liste des phrases anglaises. Nous avons découvert la bibliothèque 'gensim' de Python qui fournit le modèle 'word2vec' pour créer l'incorporation de mots. De plus, nous avons appris les paramètres d'entrée, comment entraîner le modèle 'word2vec' sur les données d'entraînement et comment présenter le mot dans une représentation du vecteur.