Comment concaténer les ensembles de données dans Hugging Face

Comment Concatener Les Ensembles De Donnees Dans Hugging Face



La bibliothèque « ensembles de données » de Hugging Face offre un moyen pratique de travailler avec et de manipuler les ensembles de données pour les tâches de traitement du langage naturel. Une fonction utile offerte par la bibliothèque est concatenate_datasets() qui vous permet de concaténer plusieurs ensembles de données en un seul ensemble de données. Ce qui suit est un bref aperçu de la fonction concatenate_datasets() et de la manière de l'utiliser.

concatenate_datasets()

Description:

La bibliothèque « datasets » de Hugging Face fournit la fonction concatenate_datasets(). Il est utilisé pour concaténer plusieurs ensembles de données, en les combinant en un seul ensemble de données le long d'un axe spécifié. Cette fonction est particulièrement utile lorsque vous disposez de plusieurs ensembles de données partageant la même structure et que vous souhaitez les fusionner en un ensemble de données unifié pour un traitement et une analyse ultérieurs.







Syntaxe:



depuis ensembles de données importer concatenate_datasets

jeu de données_concaténé = concatenate_datasets ( ensembles de données , axe = 0 , Info = Aucun )

Paramètres:

ensembles de données (liste d'ensembles de données) : une liste d'ensembles de données que vous souhaitez concaténer. Ces ensembles de données doivent avoir des fonctionnalités compatibles, ce qui signifie qu'ils ont le même schéma, les mêmes noms de colonnes et les mêmes types de données.



axe (int, facultatif, par défaut = 0) : l'axe le long duquel la concaténation doit être effectuée. Pour la plupart des ensembles de données NLP, la valeur par défaut de 0 est utilisée, ce qui signifie que les ensembles de données sont concaténés verticalement. Si vous définissez l'axe = 1, les ensembles de données sont concaténés horizontalement, en supposant qu'ils ont des colonnes différentes comme caractéristiques.





Info (datasets.DatasetInfo, facultatif) : informations sur l'ensemble de données concaténé. Si elles ne sont pas fournies, les informations sont déduites du premier ensemble de données de la liste.

Retour:

jeu de données_concaténé (Ensemble de données) : l'ensemble de données résultant après la concaténation de tous les ensembles de données d'entrée.



Exemple:

# Étape 1 : Installer la bibliothèque de jeux de données

# Vous pouvez l'installer en utilisant pip :

# !pip installer des ensembles de données

# Étape 2 : Importer les bibliothèques requises

depuis ensembles de données importer chargement_dataset , concatenate_datasets

# Étape 3 : Chargez les ensembles de données de critiques de films IMDb

# Nous utiliserons deux ensembles de données IMDb, un pour les avis positifs

#et un autre pour les avis négatifs.

# Charger 2500 avis positifs

jeu de données_pos = chargement_dataset ( 'imdb' , diviser = 'train[:2500]' )

# Charger 2500 avis négatifs

jeu de données_neg = chargement_dataset ( 'imdb' , diviser = 'train[-2500:]' )

# Étape 4 : Concaténer les ensembles de données

# Nous concaténons les deux ensembles de données le long de l'axe=0, comme ils l'ont fait

le même schéma ( mêmes caractéristiques ) .

jeu de données_concaténé = concatenate_datasets ( [ jeu de données_pos , jeu de données_neg ] )

# Étape 5 : Analyser l'ensemble de données concaténé

# Pour simplifier, comptons le nombre de positifs et de négatifs

# avis dans l'ensemble de données concaténé.

num_positive_reviews = somme ( 1 pour étiquette dans

jeu de données_concaténé [ 'étiquette' ] si étiquette == 1 )

num_negative_reviews = somme ( 1 pour étiquette dans

jeu de données_concaténé [ 'étiquette' ] si étiquette == 0 )

# Étape 6 : Afficher les résultats

imprimer ( 'Nombre d'avis positifs :' , num_positive_reviews )

imprimer ( 'Nombre d'avis négatifs :' , num_negative_reviews )

# Étape 7 : Imprimez quelques exemples d'avis à partir de l'ensemble de données concaténé

imprimer ( ' \n Quelques exemples d'avis :' )

pour je dans gamme ( 5 ) :

imprimer ( F 'Révision {i + 1} : {concatenated_dataset['text'][i]}' )

Sortir:

Ce qui suit est l’explication du programme de bibliothèque « ensembles de données » de Hugging Face qui concatène deux ensembles de données de critiques de films IMDb. Ceci explique le but du programme, son utilisation et les étapes impliquées dans le code.

Fournissons une explication plus détaillée de chaque étape du code :

# Étape 1 : Importer les bibliothèques requises

depuis ensembles de données importer chargement_dataset , concatenate_datasets

Dans cette étape, nous importons les bibliothèques nécessaires au programme. Nous avons besoin de la fonction « load_dataset » pour charger les ensembles de données de critiques de films IMDb, et de « concatenate_datasets » pour les concaténer plus tard.

# Étape 2 : Charger les ensembles de données IMDb Movie Review

# Charger 2500 avis positifs

jeu de données_pos = chargement_dataset ( 'imdb' , diviser = 'train[:2500]' )

# Charger 2500 avis négatifs

jeu de données_neg = chargement_dataset ( 'imdb' , diviser = 'train[-2500:]' )

Ici, nous utilisons la fonction « load_dataset » pour récupérer deux sous-ensembles de l'ensemble de données IMDb. Le « dataset_pos » contient 2 500 avis positifs et le « dataset_neg » contient 2 500 avis négatifs. Nous utilisons le paramètre split pour spécifier la plage d'exemples à charger, ce qui nous permet de sélectionner un sous-ensemble de l'ensemble de données.

# Étape 3 : Concaténer les ensembles de données

jeu de données_concaténé = concatenate_datasets ( [ jeu de données_pos , jeu de données_neg ] )

Dans cette étape, nous concaténons les deux sous-ensembles de l'ensemble de données IMDb en un seul ensemble de données appelé « concatenated_dataset ». Nous utilisons la fonction « concatenate_datasets » et lui transmettons une liste contenant les deux ensembles de données à concaténer. Étant donné que les deux ensembles de données ont les mêmes caractéristiques, nous les concaténons le long de l'axe = 0, ce qui signifie que les lignes sont empilées les unes sur les autres.

# Étape 4 : Analyser l'ensemble de données concaténé

num_positive_reviews = somme ( 1 pour étiquette dans

jeu de données_concaténé [ 'étiquette' ] si étiquette == 1 )

num_negative_reviews = somme ( 1 pour étiquette dans

jeu de données_concaténé [ 'étiquette' ] si étiquette == 0 )

Ici, nous effectuons une analyse simple de l’ensemble de données concaténé. Nous utilisons les compréhensions de liste ainsi que la fonction « somme » pour compter le nombre d'avis positifs et négatifs. Nous parcourons le ' label » du « concatenated_dataset » et incrémentons les comptes chaque fois que nous rencontrons une étiquette positive (1) ou une étiquette négative (0).

# Étape 5 : Afficher les résultats

imprimer ( 'Nombre d'avis positifs :' , num_positive_reviews )

imprimer ( 'Nombre d'avis négatifs :' , num_negative_reviews )

Au cours de cette étape, nous imprimons les résultats de notre analyse – le nombre d’avis positifs et négatifs dans l’ensemble de données concaténées.

# Étape 6 : Imprimez quelques exemples d'avis

imprimer ( ' \n Quelques exemples d'avis :' )

pour je dans gamme ( 5 ) :

imprimer ( F 'Révision {i + 1} : {concatenated_dataset['text'][i]}' )

Enfin, nous présentons quelques exemples d'avis tirés de l'ensemble de données concaténées. Nous parcourons les cinq premiers exemples de l'ensemble de données et imprimons leur contenu textuel à l'aide de la colonne « texte ».

Ce code montre un exemple simple d'utilisation de la bibliothèque « ensembles de données » de Hugging Face pour charger, concaténer et analyser les ensembles de données de critiques de films IMDb. Il met en évidence la capacité de la bibliothèque à rationaliser la gestion des ensembles de données PNL et présente son potentiel pour créer des modèles et des applications de traitement du langage naturel plus sophistiqués.

Conclusion

Le programme Python qui utilise la bibliothèque « ensembles de données » de Hugging Face démontre avec succès la concaténation de deux ensembles de données de critiques de films IMDb. En chargeant les sous-ensembles d'avis positifs et négatifs, le programme les combine en un seul ensemble de données à l'aide de la fonction concatenate_datasets(). Il effectue ensuite une analyse simple en comptant le nombre d’avis positifs et négatifs dans l’ensemble de données combiné.

La bibliothèque « datasets » simplifie le processus de gestion et de manipulation des ensembles de données NLP, ce qui en fait un outil puissant pour les chercheurs, les développeurs et les praticiens de la PNL. Avec son interface conviviale et ses fonctionnalités étendues, la bibliothèque permet un prétraitement, une exploration et une transformation des données sans effort. Le programme présenté dans cette documentation sert d'exemple pratique de la façon dont la bibliothèque peut être exploitée pour rationaliser les tâches de concaténation et d'analyse des données.

Dans des scénarios réels, ce programme peut servir de base à des tâches de traitement du langage naturel plus complexes telles que l'analyse des sentiments, la classification de texte et la modélisation du langage. Grâce à la bibliothèque « ensembles de données », les chercheurs et les développeurs peuvent gérer efficacement les ensembles de données à grande échelle, faciliter l'expérimentation et accélérer le développement de modèles NLP de pointe. Dans l’ensemble, la bibliothèque « ensembles de données » de Hugging Face constitue un atout essentiel dans la poursuite des progrès dans le traitement et la compréhension du langage naturel.