Pandas

Pandas



'Le' Python 'contient de nombreuses bibliothèques, et lorsque nous voulons analyser ou manipuler des données, nous utilisons ces bibliothèques' Python ', et les 'pandas' en sont également la bibliothèque. La bibliothèque « pandas » est utilisée dans le domaine des sciences des données, ainsi que dans les activités d'apprentissage automatique. Le DataFrame 'pandas' nous aide à sauvegarder les données. Dans 'pandas', lorsque nous voulons regrouper les données, nous utilisons la méthode 'qcut()'. La méthode 'qcut()' est utilisée pour convertir les caractéristiques continues en caractéristiques catégorielles. Nous pouvons ajouter différents types de paramètres dans cette méthode 'qcut()' pour obtenir différents types de résultats. Ce didacticiel concerne la méthode 'qcut ()', et nous expliquerons en détail la méthode 'qcut ()' ici. Nous allons vous expliquer comment nous faisons le binning de données à l'aide de la fonction « qcut() » dans « pandas » dans ce tutoriel.

Exemple # 01

Nous appliquerons la méthode 'qcut ()' dans ces codes, et nous ferons ces codes dans l'application 'Spyder'. Lorsque nous devons travailler avec les 'pandas', nous ne pouvons accéder à ses fonctions que lorsque nous importons la bibliothèque 'pandas' dans nos codes. D'abord, nous mettons 'import', puis nous écrivons 'pandas as pd'. Maintenant, nous devons appliquer la méthode 'qcut ()', donc pour cela, nous créons le DataFrame ici. Nous construisons 'Random_df' contenant 'R_ID, R_name et R_age' comme colonnes, et également dans 'R_ID', nous plaçons 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 et R_81 ». Ensuite, nous ajoutons 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob et Harper' dans la colonne 'R_name'. Après cela, nous insérons '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 et 40' dans la colonne 'R_age'. Maintenant, nous utilisons le 'print()', qui contient 'Random_df', et cela aidera à rendre le DataFrame 'Random_df'. Nous venons de créer le DataFrame et n'appliquons pas encore la méthode 'qcut()'.








L'icône 'Exécuter' nous aide à exécuter les codes. Lorsque nous appuyons sur cette icône 'exécuter', le résultat de ce code s'affiche sur le terminal de l'application 'Spyder'. Le DataFarme 'Random_df' est affiché comme le résultat du code que nous avons écrit dans cet exemple. Maintenant, nous allons appliquer la méthode 'qcut()' et afficherons également son résultat.




Nous regroupons les données ici. Nous regroupons la colonne 'R_age' et plaçons la méthode 'pd.qcut()', qui est la méthode des 'pandas' qui aide au regroupement des données. Dans cette méthode, on insère le nom du DataFrame ainsi que le nom de la colonne sur laquelle on veut appliquer cette méthode « qcut() ». Nous définissons également la valeur de « q » sur « 5 », et elle est utilisée pour couper les données de la colonne « R_age » en cinq quantiles égaux. Nous ajoutons la méthode 'qcut()' dans le 'print()', afin qu'elle affiche également les données de binning sur le terminal.




Ici, les données après regroupement sont affichées et coupent le « R_age » en cinq quantiles. Il affiche également les catégories dans lesquelles les données de la colonne 'R_age' sont regroupées. La série catégorielle représente les tranches « R_age ».






Nous pouvons également ajuster l'étiquette de ces bacs. Nous ajoutons ces étiquettes de poubelle pour les rendre faciles à interpréter. On ajoute une colonne « R_age_qcut » au « Random_df » dans laquelle on ajoute les étiquettes de ces bacs. Nous utilisons à nouveau la méthode 'pd.qcut()' pour les étiqueter. Nous y ajoutons les étiquettes « petit, pas si petit, médiocre, élevé et supérieur ». Ensuite, nous mettons à nouveau 'Random_df' dans 'print ()'.


Tous les bacs sont étiquetés et présentés dans ce résultat. La colonne 'R_age_qcut' est affichée dans ce DataFrame dans lequel les bacs étiquetés sont affichés.



Exemple # 02

Pour créer le DataFrame, nous ajoutons d'abord des 'notes', qui sont '3, 6, 8, 7, 2, 5, 1, 9, 4, 7 et 8'. Ensuite, nous ajoutons les noms des étudiants dans 'étudiants', qui sont 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard et Alexander'. Ensuite, nous générons le 'Grades_df' où nous avons ajouté la méthode 'pd.DataFrame ()', et dans cette méthode, nous mettons 'Std_name', qui apparaîtra comme nom de colonne, et attribuons des valeurs de 'étudiants' à cela. Ensuite, nous définissons 'Students_grades' comme nom de colonne du DataFrame et attribuons également des 'notes' ici, que nous avons créées ci-dessus. Après cela, nous avons le 'print ()' dans lequel nous ajoutons 'Grades_df' pour l'impression.


Le DataFrame contenant deux colonnes est affiché dans le résultat de ce code. Maintenant, nous allons appliquer la méthode 'qcut()' à la colonne 'Students_grades' pour regrouper les données des valeurs de cette colonne.


Nous ajoutons ici une nouvelle colonne 'grade' dans laquelle nous avons appliqué 'pd.qcut()' à la colonne 'Students_grades', et aussi, nous avons utilisé '4' pour la valeur du 'q', donc ça va couper les données en quatre quantiles égaux. Après cela, nous spécifions ces quantiles ici en plaçant des valeurs dans 'q', qui sont '0, 0,4, 0,8 et 1'. Ensuite, nous affichons également ceci. Maintenant, nous étiquetons ces données regroupées, et les étiquettes que nous ajoutons ici sont 'D, C, A et B' et sont également stockées dans la colonne 'note'.


Ici, les données après regroupement sont affichées ici dans la colonne 'grade', et elles coupent les données de la colonne 'Students_grades' en quatre quantiles égaux.


Le DataFrame que nous obtenons après avoir appliqué la méthode 'qcut()' et spécifié les quantiles est affiché dans ce résultat.


Maintenant, après avoir ajouté les étiquettes à ces bacs, elles sont également rendues dans ce résultat dans la colonne 'grade', et vous pouvez voir qu'il attribue les étiquettes en fonction des valeurs des bacs.

Exemple # 03

On peut aussi appliquer la méthode « qcut() » aux données du fichier CSV. Pour cela, nous lisons d'abord les données du fichier CSV à l'aide de la méthode 'read_csv()'. Nous lisons les données du fichier 'office2.csv', puis les données de ce fichier sont placées dans le 'Office_df'. Cette méthode convertira les données du fichier 'office2' dans le DataFrame et l'enregistrera dans 'Office_df'. Ensuite, nous montrons également ces données en mettant le 'Office_df' dans le 'print()'. Après cela, nous ajoutons une nouvelle colonne appelée 'Units_qcut', à laquelle nous appliquons la fonction 'pd.qcut()' à la colonne 'Units'.

De plus, nous définissons la valeur de la variable 'q' sur '5', ce qui divisera les données en cinq quantiles égaux. Les données, après découpage en 5 quantiles égaux, sont stockées dans la colonne 'Units_qcut', et cette colonne est également ajoutée au 'Office_df', et au 'Office_df' rendu ici encore à l'aide de 'print()'. Nous étiquetons maintenant ces données regroupées, en ajoutant les étiquettes dans la méthode 'qcut()', qui sont 'Unité 1, Unité 2, Unité 3, Unité 4 et Unité 5' et en les stockant également dans la colonne 'Étiquettes'. . Nous rendons également ce DataFrame dans lequel la colonne 'Labels' est ajoutée.


Les données que nous obtenons après lecture du fichier « office2.csv » sont rendues ici sous la forme de DataFrame. Ensuite, la colonne 'Units_qcut' est ajoutée, dans laquelle les valeurs groupées de la colonne 'Units' sont affichées. Après cela, la colonne 'Libellés' est également ajoutée, qui attribue les libellés à ces valeurs regroupées. Tout cela est fait en utilisant la méthode 'qcut()' dans 'pandas'.

Conclusion

Nous avons expliqué en détail la méthode 'qcut()' dans ce tutoriel qui aide à regrouper les données en 'pandas'. Nous avons discuté du fait que les données sont regroupées en fonction de la valeur quantile 'q' que nous avons ajoutée dans la méthode 'qcut()', et nous avons également ajusté les étiquettes à ces données regroupées. Nous avons exploré la méthode 'qcut()' et avons appliqué cette méthode aux colonnes du DataFrame, et nous avons également appliqué cette méthode 'qcut()' aux données du fichier CSV après avoir lu les fichiers CSV. Nous avons présenté le résultat de tous les codes dans ce tutoriel pour expliquer et montrer clairement le résultat de la méthode 'qcut()'.