Comment utiliser les ensembles de données de visage câlin

Comment Utiliser Les Ensembles De Donnees De Visage Calin



L'applicabilité et la convivialité des modèles de Machine Learning sont testées sur des données. La fiabilité des tests dépend grandement de la quantité et de la qualité des données sur lesquelles ces modèles sont appliqués. C'est une tâche complète en soi que de créer, d'obtenir et de nettoyer un ensemble de données suffisamment volumineux pour tester votre « Traitement du langage naturel (PNL) » Modèle d’apprentissage automatique.

Hugging Face offre une solution intéressante pour cela avec sa bibliothèque exceptionnellement vaste d'ensembles de données parmi lesquels choisir et trouver celui qui correspond parfaitement à vos besoins. Ici, nous allons vous montrer comment trouver l'ensemble de données idéal et le préparer pour tester adéquatement votre modèle.







Comment utiliser les ensembles de données Câlins ?

Nous allons vous montrer comment utiliser les ensembles de données Hugging Face en utilisant l'exemple de « Petites histoires ' Ensemble de données de Hugging Face.



Exemple

L'ensemble de données TinyStories contient plus de 2 millions de lignes de données dans la répartition du train et compte plus de 2 000 téléchargements sur la plateforme Hugging Face. Nous l'utiliserons dans le code de Google Colab ci-dessous :



! pépin installer transformateurs
! pépin installer ensembles de données

à partir des ensembles de données importer load_dataset

ensemble de données = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
exemple_string = ensemble de données [ 'former' ] [ TinyStories_Story ] [ 'texte' ]

imprimer ( exemple_string )


Dans ce code, considérez les étapes indiquées ci-dessous :





Étape 01 : La première étape est la « installation » des ensembles de données sur les transformateurs.

Étape 02 : Ensuite, importez l'ensemble de données requis, ' Petites histoires » dans votre projet.



Étape 03 : Ensuite, chargez l'ensemble de données sélectionné à l'aide du bouton « charger_dataset() ' fonction.

Étape 04 : Maintenant, nous spécifions le numéro d'histoire que nous voulons à partir de l'ensemble de données TinyStories. Nous avons spécifié le numéro 03 dans notre exemple de code.

Étape 05 : Enfin, nous utiliserons la méthode « print() » pour afficher la sortie.

Sortir



Note: Le code et le résultat peuvent également être consultés directement dans notre Google Colab .

Conclusion

' Ensembles de données Hugging Face » permettent aux utilisateurs de tester incroyablement efficacement leurs modèles de Machine Learning tout en important directement de grands ensembles de données à partir de leur bibliothèque en ligne. En conséquence, l’application des algorithmes NLP est devenue plus facile et plus rapide, car les programmeurs peuvent tester leurs projets sur un ensemble de données à la fois qualitatives et quantitatives.