Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

Comment Utiliser Les Tokenizers Dans Les Transformateurs Hugging Face



Le traitement du langage naturel (NLP) fonctionne sur la forme brute des données. Les modèles d’apprentissage automatique sont formés sur des données complexes, mais ils ne peuvent pas comprendre les données brutes. Cette forme brute de données doit être associée à une valeur numérique. Cette valeur détermine la valeur et l'importance du mot dans les données et sur cette base, des calculs sont effectués.

Cet article fournit un guide étape par étape sur l'utilisation des tokenizers dans Hugging Face Transformers.

Qu'est-ce qu'un Tokenizer ?

Tokenizer est un concept important de la PNL, et son objectif principal est de traduire le texte brut en chiffres. Il existe diverses techniques et méthodologies à cet effet. Cependant, il convient de noter que chaque technique répond à un objectif précis.
Comment utiliser les tokenizers dans les transformateurs Hugging Face ?







Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

La bibliothèque tokenizer doit d'abord être installée avant de l'utiliser et d'en importer des fonctions. Après cela, entraînez un modèle à l'aide d'AutoTokenizer, puis fournissez les informations nécessaires pour effectuer la tokenisation.



Hugging Face présente trois grandes catégories de tokenisation qui sont indiquées ci-dessous :



  • Tokenizer basé sur des mots
  • Tokenizer basé sur les personnages
  • Tokenizer basé sur des sous-mots

Voici un guide étape par étape pour utiliser les tokenizers dans Transformers :





Étape 1 : Installer les transformateurs
Pour installer des transformateurs, utilisez la commande pip dans la commande suivante :

! pépin installer transformateurs



Étape 2 : Importer des classes
Depuis les transformateurs, importez pipeline , et AutoModelForSequenceClassification bibliothèque pour effectuer la classification :

à partir du pipeline d'importation de transformateurs, AutoModelForSequenceClassification

Étape 3 : Importer le modèle
Le ' AutoModelForSequenceClassification ' est une méthode qui appartient à Auto-Class pour la tokenisation. Le from_pretrained() La méthode est utilisée pour renvoyer la classe de modèle correcte en fonction du type de modèle.

Ici, nous avons fourni le nom du modèle dans le champ « nom du modèle 'variable :

nom du modèle = 'distilbert-base-uncased-finetuned-sst-2-anglais'
modèle pré_entraînement =AutoModelForSequenceClassification.from_pretrained ( nom du modèle )

Étape 4 : Importer AutoTokenizer
Fournissez la commande suivante pour générer des jetons en passant le « nom du modèle » comme argument :

à partir des transformateurs importer AutoTokenizer

le jeton généré =AutoTokenizer.from_pretrained ( nom du modèle )

Étape 5 : Générer un jeton
Maintenant, nous allons générer des jetons sur une phrase «J'aime la bonne nourriture» en utilisant le ' le jeton généré 'variable :

mots = générer un jeton ( 'J'aime la bonne nourriture' )
imprimer ( mots )

Le résultat est donné comme suit :

Le code ci-dessus Google Co. est donné ici.

Conclusion

Pour utiliser les tokenizers dans Hugging Face, installez la bibliothèque à l'aide de la commande pip, entraînez un modèle à l'aide d'AutoTokenizer, puis fournissez l'entrée pour effectuer la tokenisation. En utilisant la tokenisation, attribuez des pondérations aux mots en fonction desquels ils sont séquencés pour conserver le sens de la phrase. Ce score détermine également leur valeur pour l’analyse. Cet article est un guide détaillé sur la façon d'utiliser les tokenizers dans Hugging Face Transformers.