Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

Le traitement du langage naturel (NLP) fonctionne sur la forme brute des données. Les modèles d’apprentissage automatique sont formés sur des données complexes, mais ils ne peuvent pas comprendre les données brutes. Cette forme brute de données doit être associée à une valeur numérique. Cette valeur détermine la valeur et l'importance du mot dans les données et sur cette base, des calculs sont effectués.

Cet article fournit un guide étape par étape sur l'utilisation des tokenizers dans Hugging Face Transformers.

Qu'est-ce qu'un Tokenizer ?

Tokenizer est un concept important de la PNL, et son objectif principal est de traduire le texte brut en chiffres. Il existe diverses techniques et méthodologies à cet effet. Cependant, il convient de noter que chaque technique répond à un objectif précis.
Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

La bibliothèque tokenizer doit d'abord être installée avant de l'utiliser et d'en importer des fonctions. Après cela, entraînez un modèle à l'aide d'AutoTokenizer, puis fournissez les informations nécessaires pour effectuer la tokenisation.

Hugging Face présente trois grandes catégories de tokenisation qui sont indiquées ci-dessous :

Tokenizer basé sur des mots
Tokenizer basé sur les personnages
Tokenizer basé sur des sous-mots

Voici un guide étape par étape pour utiliser les tokenizers dans Transformers :

Étape 1 : Installer les transformateurs
Pour installer des transformateurs, utilisez la commande pip dans la commande suivante :

! pépin installer transformateurs

Étape 2 : Importer des classes
Depuis les transformateurs, importez pipeline , et AutoModelForSequenceClassification bibliothèque pour effectuer la classification :

à partir du pipeline d'importation de transformateurs, AutoModelForSequenceClassification

Étape 3 : Importer le modèle
Le ' AutoModelForSequenceClassification ' est une méthode qui appartient à Auto-Class pour la tokenisation. Le from_pretrained() La méthode est utilisée pour renvoyer la classe de modèle correcte en fonction du type de modèle.

Ici, nous avons fourni le nom du modèle dans le champ « nom du modèle 'variable :

nom du modèle = 'distilbert-base-uncased-finetuned-sst-2-anglais'
modèle pré_entraînement =AutoModelForSequenceClassification.from_pretrained ( nom du modèle )

Étape 4 : Importer AutoTokenizer
Fournissez la commande suivante pour générer des jetons en passant le « nom du modèle » comme argument :

à partir des transformateurs importer AutoTokenizer

le jeton généré =AutoTokenizer.from_pretrained ( nom du modèle )

Étape 5 : Générer un jeton
Maintenant, nous allons générer des jetons sur une phrase «J'aime la bonne nourriture» en utilisant le ' le jeton généré 'variable :

mots = générer un jeton ( 'J'aime la bonne nourriture' )
imprimer ( mots )

Le résultat est donné comme suit :

Le code ci-dessus Google Co. est donné ici.

Conclusion

Pour utiliser les tokenizers dans Hugging Face, installez la bibliothèque à l'aide de la commande pip, entraînez un modèle à l'aide d'AutoTokenizer, puis fournissez l'entrée pour effectuer la tokenisation. En utilisant la tokenisation, attribuez des pondérations aux mots en fonction desquels ils sont séquencés pour conserver le sens de la phrase. Ce score détermine également leur valeur pour l’analyse. Cet article est un guide détaillé sur la façon d'utiliser les tokenizers dans Hugging Face Transformers.

Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

Qu'est-ce qu'un Tokenizer ?

Comment utiliser les tokenizers dans les transformateurs Hugging Face ?

Conclusion

Catégorie

Articles Populaires

Elasticsearch Sélectionner des champs spécifiques

6 correctifs pour 'Vous n'avez actuellement pas l'autorisation d'accéder à ce dossier'

Comment utiliser le bac à sable Windows ?

Comment afficher DateTime au format 12 heures AM/PM en JavaScript ?

Comment accélérer votre site WordPress : meilleurs conseils en matière de performances

Comment définir la page d'accueil (page d'accueil)

Comment utiliser les sprites d'image en CSS ?

Puis-je exécuter Arduino 24h/24 et 7j/7

Comment vérifier l'existence d'un argument d'entrée dans un script shell bash

Que sont les widgets Discord et que font-ils ?

Comment ajouter un saut de ligne dans LaTeX

Comment installer Starship Shell Prompt pour Zsh sur Mac ?

Analyse des attaques par usurpation d'ARP dans Wireshark

Fonction Stol() en C++

Comment vérifier et réduire l’utilisation élevée de la mémoire dans Windows 11 ?

Concaténation de chaînes PostgreSQL

Commande Kubectl Cluster-Info

Comment reconfigurer les packages installés sur Debian 11

Comment transférer une nouvelle branche locale vers un référentiel Git distant et la suivre également ?

Comment définir différentes stratégies de redémarrage Kubernetes