Colonne Somme Pandas

Colonne Somme Pandas



'Cet article montrera comment additionner toutes les colonnes ou certaines colonnes dans un Pandas DataFrame à l'aide de Python. La fonction DataFrame.sum() sera utilisée avec quelques paramètres utiles dans les nombreux exemples de ce tutoriel.

Une fois ce didacticiel terminé, vous saurez peut-être comment :







    • Trouvez la somme de la colonne dataframe dans Pandas.
    • Ajout des colonnes de dataframe ensemble
    • Ajoutez des colonnes à une trame de données Pandas qui répondent à la condition spécifiée.
    • Déterminez la somme après avoir regroupé les données de la dataframe.

Comment déterminer la somme des colonnes de dataframe ?

La fonction 'dataframe.sum()' dans Pandas renvoie la somme totale pour l'axe spécifié. Si l'entrée est un axe de l'index, la fonction ajoute les valeurs de chaque colonne individuellement, puis fait la même chose pour chaque colonne, renvoyant une série stockant la somme des données/valeurs dans chaque colonne. De plus, il prend en charge le calcul de la somme de la trame de données en ignorant les valeurs manquantes.



Syntaxe : DataFrame.sum(axis = None, skipna = None, level = None, numeric_only = None, min_count = 0, **kwargs)



Où,





axe: {colonnes (1), index (0)}

ordre: Ignorer les valeurs NA/null lors du calcul du résultat.



niveau: Si l'axe spécifié est hiérarchique (un multi-index), compter jusqu'à un niveau d'index particulier avant de convertir en série.

numérique_seulement : Seules les colonnes float, int et boolean sont acceptables. Si aucun, essayez de tout utiliser ; sinon, uniquement des données numériques. Pour la série, non implémenté.

min_count : Le nombre de valeurs possibles requises pour terminer l'opération. Le résultat sera NA s'il y a moins de valeurs non NA présentes que min_count.

Retour: DataFrame (si le niveau est spécifié) ou Series.

Exemple # 01 : Déterminer la somme d'une colonne de dataframe et de toutes les colonnes

Nous avons d'abord exigé une trame de données avec les types de données valides, c'est-à-dire int, float, etc., colonne ou colonnes pour lesquelles nous pouvons trouver la somme des données. La trame de données sera créée à l'aide de la fonction pd.DataFrame().


Nous avons créé la trame de données requise à partir d'un dictionnaire python à l'intérieur de la fonction pd.DataFrame(). Dans le dataframe créé ci-dessus, il y a quatre colonnes 'Name', 'day1', 'day2' et 'day3'. Sur quatre colonnes, les trois colonnes, à savoir 'jour1', 'jour2' et 'jour3', sont des colonnes numériques avec les valeurs de données (4, 4, 3, 2, 4, 6, 5, 3), (2, 4, 5, 2, 3, 4, 6, 2) et (7, 4, 3, 5, 6, 2, 1, 4) respectivement. Nous ne pouvons trouver la somme que pour ces trois colonnes. La somme des deux séries (c'est-à-dire une colonne) et d'une trame de données entière peut être déterminée à l'aide de la méthode sum(). Commençons par apprendre à additionner toutes les données dans une colonne Pandas.


Pour déterminer la somme, nous avons utilisé la méthode sum() sur la colonne « day2 ». La fonction a renvoyé la valeur de somme de 28. De la même manière, nous pouvons déterminer la somme de chaque colonne Dataframe. Le simple fait d'utiliser la méthode sum () sur l'ensemble de la trame de données permettra d'accomplir cela.


Comme on peut le voir, la somme de la colonne « day1 » est 31 ; pour « jour2 », la valeur de la somme est 28, tandis que pour la colonne « jour3 », la valeur de la somme est 32.

Exemple # 02 : Utilisation de la fonction sum() pour résumer ensemble les valeurs des colonnes de la trame de données

Comme vous pouvez le voir dans la sortie de l'exemple précédent, la fonction n'a pas renvoyé les données réelles de la colonne de trame de données qui composaient la somme. Cependant, en attribuant la méthode 'DataFrame.sum()' à une colonne DataFrame, vous pouvez accéder à chaque colonne du DataFrame, y compris la colonne sum. Tout d'abord, nous créons un autre dataframe pour cet exemple.


En utilisant pd.DataFrame(), notre dataframe a été créé. Nous avons créé le cadre de données avec trois colonnes : article, prix et taxe. L'élément de colonne contenant les valeurs de chaîne ('stylo', 'marqueur', 'règle', 'gomme', 'crayon', 'presse-papiers', 'agrafeuse', 'épingles'), le prix de colonne stockant les valeurs (20, 15, 10, 3, 5, 30, 35, 10), et la colonne 'taxe' se compose de valeurs (8, 5, 3, 3, 4, 10, 5, 2). Ajoutons maintenant les valeurs des colonnes de prix et de taxe et stockons les résultats dans une nouvelle colonne en conservant les colonnes de dataframe d'origine.


Comme on peut le remarquer avec la nouvelle colonne 'total', les colonnes d'origine de la trame de données donnée sont également renvoyées par la fonction. La colonne 'total' stocke la somme des valeurs des colonnes 'prix' et 'taxe' par rapport à chaque donnée 'article'.

Exemple # 03 : Utilisation de la fonction sum() pour déterminer la somme des colonnes de dataframe spécifiées

Pour additionner les multiples colonnes de la trame de données, nous pouvons spécifier une liste avec les étiquettes des colonnes, puis appliquer la méthode sum () sur la liste pour trouver la somme. Comme dans les exemples précédents, nous allons d'abord créer le dataframe.


Nous avons créé notre dataframe avec quatre colonnes 'students', 'marks1', 'marks2' et 'marks3'. La colonne 'students' stocke les données ('Larry', 'James', 'Rob', 'Arya', 'Max', 'Ben', 'Gwen', 'Bill'), et la colonne 'marks1' stocke les valeurs (8, 9, 6, 8, 10, 7, 9, 9), tandis que les colonnes 'marks2' et 'marks3' stockent les valeurs numériques (6, 6, 8, 6, 7, 9, 10, 9 ) et (7, 6, 9, 7, 8, 7, 10, 10) respectivement.


Tout d'abord, nous avons créé un objet de liste avec des étiquettes de colonne « étudiants », « notes1 » et « notes3 ». Ensuite, la méthode sum() est appliquée à la liste. La fonction a additionné les valeurs des colonnes marks1 et marks3 uniquement parce que la colonne « students » n'est pas numérique, de sorte que la fonction sum() ne peut pas trouver la somme des valeurs de la colonne « students ». Nous avons stocké la somme des valeurs des colonnes 'marks1' et 'marks3' dans la colonne 'sum'.

Exemple # 04 : Ajouter des colonnes de données Pandas qui satisfont à une condition spécifiée

Dans cet exemple, nous ajouterons les valeurs des colonnes spécifiées si elles remplissent la condition spécifiée.


Il y a 5 colonnes dans le cadre de données nouvellement créé, c'est-à-dire 'entreprise', 'ventes_semaine1', 'ventes_semaine2', 'ventes_semaine3' et 'branches'. Maintenant, supposons que nous ne voulions pas ajouter la valeur de la dernière colonne lorsque nous ajoutons ou trouvons la somme des valeurs des lignes de dataframe données. Disons que nous voulions simplement ajouter les valeurs de colonne avec le mot 'semaine' dans leurs étiquettes. Une compréhension de liste peut être créée pour déterminer si le mot « semaine » est présent ou non dans une étiquette de colonne.


Nous avons maintenant récupéré les colonnes contenant le mot 'semaine' dans leurs étiquettes. Nous pouvons résumer les colonnes contenant le mot 'week' en utilisant l'argument axis=1 dans la fonction sum().


De cette manière, nous pouvons résumer en toute sécurité les données sur les colonnes par ligne sans inclure les colonnes que nous ne voulons pas.

Exemple #5 : Déterminer la Somme Après Regroupement des Données de la Dataframe

Nous pouvons également trouver la somme des colonnes de dataframe après avoir regroupé les données d'une ou plusieurs colonnes. La méthode groupby() sera utilisée pour regrouper les données en catégories à l'intérieur de la colonne. Créons un dataframe afin de pouvoir regrouper les données d'une de ses colonnes.


Nous allons maintenant regrouper les données dans la colonne « âge » et additionner les valeurs des colonnes « score1 » et « score2 » pour chaque catégorie du groupe.


Nous pouvons voir que le fait de résumer les données dans la base de données après avoir d'abord regroupé les valeurs de données par âge donne une somme par colonne en fonction des groupes d'âge.

Conclusion

Dans ce didacticiel, nous avons essayé de vous apprendre à calculer la somme entre les dataframes à l'aide de la méthode Pandas sum. Nous avons discuté de l'addition de valeurs en ligne et en colonne dans les exemples de cet article. De plus, vous avez appris à ajouter des colonnes de manière conditionnelle et à additionner les valeurs après avoir regroupé la colonne du dataframe. Maintenant, vous pourrez peut-être additionner les colonnes de la trame de données ou additionner vous-même les valeurs de la colonne de la trame de données.