Les pandas remplissent Nan avec 0

Les Pandas Remplissent Nan Avec 0



La science des données implique généralement des données manquantes. Soit la ligne entière peut être ignorée, soit une valeur peut être ajoutée à la combinaison ligne-colonne. La suppression de la ligne/colonne serait absurde car elle élimine une certaine métrique pour chaque ligne. NaN, qui signifie 'Pas un nombre', est l'un des moyens typiques d'afficher une valeur manquante dans un ensemble de données. Pour obtenir les résultats escomptés, la manipulation de NaN est assez importante. Alors, découvrons comment changer les valeurs NaN dans une ligne ou une colonne d'un Pandas DataFrame à 0.

Les pandas remplissent les valeurs NaN

Si une colonne de votre bloc de données a des valeurs NaN ou None, vous pouvez utiliser les fonctions « fillna() » ou « replace() » pour les remplir par zéro (0).

remplir()







Les valeurs NA/NaN sont remplies avec l'approche fournie à l'aide de la fonction 'fillna()'. Il peut être utilisé en considérant la syntaxe suivante :



Si vous souhaitez remplir les valeurs NaN pour une seule colonne, la syntaxe est la suivante :




Lorsque vous devez remplir les valeurs NaN pour le DataFrame complet, la syntaxe est celle fournie :






Remplacer()

Pour remplacer une seule colonne de valeurs NaN, la syntaxe fournie est la suivante :




Alors que, pour remplacer l'ensemble des valeurs NaN de DataFrame, nous devons utiliser la syntaxe mentionnée suivante :


Dans cet article, nous allons maintenant explorer et apprendre la mise en œuvre pratique de ces deux méthodes pour remplir les valeurs NaN dans notre Pandas DataFrame.

Exemple 1 : Remplir des valeurs NaN à l'aide de la méthode 'Fillna()' de Pandas

Cette illustration montre l'application de la fonction Pandas 'DataFrame.fillna ()' pour remplir les valeurs NaN dans le DataFrame donné avec 0. Vous pouvez soit remplir les valeurs manquantes dans une seule colonne, soit les remplir pour l'ensemble du DataFrame. Ici, nous verrons ces deux techniques.

Pour mettre ces stratégies en pratique, nous devons disposer d'une plate-forme appropriée pour l'exécution du programme. Nous avons donc décidé d'utiliser l'outil 'Spyder'. Nous avons commencé notre code Python en important la boîte à outils 'pandas' dans le programme car nous devons utiliser la fonctionnalité Pandas pour construire le DataFrame ainsi que pour remplir les valeurs manquantes dans ce DataFrame. Le 'pd' est utilisé comme alias de 'pandas' tout au long du programme.

Maintenant, nous avons accès aux fonctionnalités de Pandas. Nous utilisons d'abord sa fonction 'pd.DataFrame()' pour générer notre DataFrame. Nous avons appelé cette méthode et l'avons initialisée avec trois colonnes. Les titres de ces colonnes sont « M1 », « M2 » et « M3 ». Les valeurs dans la colonne « M1 » sont « 1 », « Aucun », « 5 », « 9 » et « 3 ». Les entrées dans « M2 » sont « Aucun », « 3 », « 8 », « 4 » et « 6 ». Tandis que le « M3 » stocke les données sous « 1 », « 2 », « 3 », « 5 » et « Aucun ». Nous avons besoin d'un objet DataFrame dans lequel nous pouvons stocker ce DataFrame lorsque la méthode 'pd.DataFrame()' est appelée. Nous avons créé un objet DataFrame 'manquant' et l'avons affecté par le résultat que nous avons obtenu de la fonction 'pd.DataFrame ()'. Ensuite, nous avons utilisé la méthode 'print()' de Python pour afficher le DataFrame sur la console Python.


Lorsque nous exécutons ce morceau de code, un DataFrame à trois colonnes peut être visualisé sur le terminal. Ici, nous pouvons observer que les trois colonnes contiennent les valeurs nulles.


Nous avons créé un DataFrame avec des valeurs nulles pour appliquer la fonction Pandas 'fillna ()' pour remplir les valeurs manquantes avec 0. Voyons comment nous pouvons faire cela.

Après avoir affiché le DataFrame, nous avons invoqué la fonction 'fillna()' de Pandas. Ici, nous allons apprendre à remplir les valeurs manquantes dans une seule colonne. La syntaxe pour cela est déjà mentionnée au début du tutoriel. Nous avons fourni le nom du DataFrame et spécifié le titre de la colonne particulière avec la fonction '.fillna ()'. Entre les parenthèses de cette méthode, nous avons fourni la valeur qui sera mise dans les emplacements nuls. Le nom DataFrame est 'manquant' et la colonne que nous avons choisie ici est 'M2'. La valeur fournie entre les accolades du 'fillna ()' est '0'. Enfin, nous avons appelé la fonction 'print ()' pour afficher le DataFrame mis à jour.


Ici, vous pouvez voir que la colonne 'M2' du DataFrame ne contient plus aucune valeur manquante car la valeur NaN est remplie avec 0.


Pour remplir les valeurs NaN pour un DataFrame entier avec la même méthode, nous avons appelé le 'fillna ()'. C'est assez simple. Nous avons fourni le nom DataFrame avec la fonction 'fillna ()' et attribué la valeur de fonction '0' entre parenthèses. Enfin, la fonction 'print()' nous a montré le DataFrame rempli.


Cela nous donne un DataFrame sans valeurs NaN car toutes les valeurs sont remplies avec 0 maintenant.

Exemple 2 : Remplir des valeurs NaN à l'aide de la méthode 'Replace()' de Pandas

Cette partie de l'article montre une autre méthode pour remplir les valeurs NaN dans un DataFrame. Nous allons utiliser la fonction « replace() » de Pandas pour remplir les valeurs dans une seule colonne et dans un DataFrame complet.

Nous commençons à écrire le code dans l'outil 'Spyder'. Tout d'abord, nous avons importé les bibliothèques requises. Ici, nous avons chargé la bibliothèque Pandas pour permettre au programme Python d'utiliser les méthodes Pandas. La deuxième bibliothèque que nous avons chargée est NumPy et l'alias 'np'. NumPy gère les données manquantes avec la méthode 'replace ()'.

Ensuite, nous avons généré un DataFrame comportant trois colonnes - 'vis', 'clou' et 'perceuse'. Les valeurs de chaque colonne sont données respectivement. La colonne 'vis' contient les valeurs '112', '234', 'Aucun' et '650'. La colonne 'clou' contient '123', '145', 'Aucun' et '711'. Enfin, la colonne 'drill' contient les valeurs '312', 'Aucun', '500' et 'Aucun'. Le DataFrame est stocké dans l'objet DataFrame 'tool' et affiché à l'aide de la méthode 'print ()'.


Un DataFrame avec quatre valeurs NaN dans l'enregistrement peut être vu dans l'image de sortie suivante :


Maintenant, nous utilisons la méthode 'replace ()' de Pandas pour remplir les valeurs nulles dans une seule colonne du DataFrame. Pour la tâche, nous avons invoqué la fonction 'replace()'. Nous avons fourni le nom DataFrame « outil » et la colonne « vis » avec la méthode « .replace () ». Entre ses accolades, nous définissons la valeur '0' pour les entrées 'np.nan' dans le DataFrame. La méthode 'print()' est utilisée pour afficher la sortie.


Le DataFrame résultant nous montre la première colonne avec les entrées NaN remplacées par 0 dans la colonne 'vis'.


Maintenant, nous allons apprendre à remplir les valeurs dans l'ensemble du DataFrame. Nous avons appelé la méthode 'replace ()' avec le nom du DataFrame et fourni la valeur que nous voulons remplacer par les entrées np.nan. Enfin, nous avons imprimé le DataFrame mis à jour avec la fonction 'print()'.


Cela nous donne le DataFrame résultant sans enregistrements manquants.

Conclusion

Traiter les entrées manquantes dans un DataFrame est une condition fondamentale et nécessaire pour réduire la complexité et gérer les données avec défi dans le processus d'analyse des données. Pandas nous propose quelques options pour faire face à ce problème. Nous avons apporté deux stratégies pratiques dans ce guide. Nous mettons en pratique les deux techniques à l'aide de l'outil 'Spyder' pour exécuter les exemples de codes afin de rendre les choses un peu compréhensibles et plus faciles pour vous. Acquérir une connaissance de ces fonctions aiguisera vos compétences Pandas.