Fonction Sample() dans R

Fonction Sample Dans R



Dans R, nous obtenons des valeurs d'échantillons aléatoires à partir d'un vecteur ou d'une liste à l'aide de la fonction sample(). Il nous permet de sélectionner au hasard un sous-ensemble de données qui est utile dans de nombreuses applications statistiques. Si l'entrée est une liste dans la fonction sample(), la sortie sera également une liste avec le même nombre d'éléments, mais avec les éléments sélectionnés. Cet article illustre la fonction sample() de R avec l'implémentation qui définit les différents arguments.

Exemple 1 : Utilisation de la fonction Sample() avec l'argument de données

La fonction sample() de R doit être fournie avec les données d'échantillon pour générer aléatoirement un nombre. L'exemple de données est l'argument requis de la fonction sample() dont le code est donné ci-dessous :

donnéesX < -c ( dix , vingt , 30 , 40 , cinquante , 60 , 70 , 80 , 90 , 100 )

goûter ( donnéesX , 3 )

goûter ( donnéesX , 3 )

Ici, nous générons d'abord les vecteurs des éléments entiers dans la variable 'dataX'. Ensuite, nous appelons la fonction sample () deux fois dans le code et lui passons le vecteur 'dataX' que nous avons précédemment généré comme argument. La première utilisation de l'échantillon (dataX, 3) prend un échantillon aléatoire de trois éléments du vecteur 'dataX'. Les résultats sont une permutation aléatoire de trois éléments de 'dataX'. Après cela, nous utilisons à nouveau l'échantillon (a, 5) qui prend un autre échantillon aléatoire indépendant de trois éléments du vecteur 'dataX'. Cette fois, le dénouement est tout à fait distinct du précédent.







La sortie montre les différents éléments lors de l'appel de la fonction sample() deux fois. Notez qu'à chaque fois que nous créons l'échantillon au hasard, différents éléments des vecteurs sont obtenus :





Exemple 2 : Utilisation de la fonction Sample() avec l'argument Replace

De plus, nous avons l'argument 'replace' de la fonction sample() qui prend les valeurs logiques. Un élément similaire peut être sélectionné plus d'une fois si l'élément est échantillonné avec l'option de remplacement TRUE. Cependant, si la valeur est définie sur FALSE, il ne peut y avoir qu'une seule sélection de chaque élément, ce qui entraîne l'échantillonnage des éléments sans remplacement.





nombres aléatoires = c ( onze , 25 , 12 , 89 , Quatre cinq , 16 , 67 , 38 , 96 , 55 , 73 )

goûter ( nombres aléatoires , 4 , remplacer = VRAI )

goûter ( nombres aléatoires , 5 , remplacer = VRAI )

Ici, nous définissons d'abord le vecteur avec des valeurs numériques dans la variable 'random_numbers'. Après cela, nous invoquons la fonction sample () où les 'nombres_aléatoires' sont passés en argument. La valeur de '4' est spécifiée à la fonction sample() qui indique qu'elle ne sélectionne que quatre valeurs aléatoires parmi les vecteurs dans 'random_numbers'.

Ensuite, le replace=TRUE dans la fonction sample() spécifie que chaque valeur peut être sélectionnée plusieurs fois. Ensuite, nous déployons à nouveau la fonction sample () qui sélectionne cette fois '5' valeurs aléatoires à partir des vecteurs. De même, nous définissons l'argument de remplacement avec 'TRUE' comme précédemment pour les options de sélection multiples pour chaque valeur.



Comme nous pouvons le voir, la première sortie affiche le vecteur de 4 éléments sélectionnés au hasard dans le vecteur 'random_numbers'. La sortie suivante, cependant, affiche un vecteur de '5' éléments sélectionnés au hasard :

Exemple 3 : Utilisation de la fonction Sample() avec l'argument Size

L'argument suivant que la fonction sample() passe est la 'taille'. La « taille » est un paramètre facultatif qui indique la valeur des échantillons à prélever. Le code de la fonction sample() avec le paramètre « size » est donné ci-dessous :

vecteurs < - 1 : dix

goûter ( vecteurs , taille = 5 )

Ici, un vecteur numérique est défini comme une suite d'entiers de 1 à 10 dans la variable « vecteurs ». La fonction sample () est ensuite utilisée pour sélectionner des éléments aléatoires à partir du vecteur. Comme nous pouvons le voir, la fonction sample() prend deux arguments. Le premier argument sont les vecteurs à partir desquels nous obtenons l'échantillon. L'argument suivant est la taille qui est spécifiée avec la valeur '5' qui indique qu'il n'y a que cinq éléments à sélectionner dans le vecteur.

Par conséquent, les éléments sélectionnés sont renvoyés dans un ordre aléatoire en tant que nouveau vecteur dans la sortie suivante :

Exemple 4 : Utilisation de la fonction Sample() pour la liste R

De plus, la fonction sample() peut être utilisée pour la liste dans R. Cette section de l'exemple obtient des valeurs aléatoires de la liste.

R_list < - liste ( 1 : 4 ,

913 ,

c ( 'X' , 'AAAA' , 'BIEN' ) ,

'ZZZ' ,

5 )

résultat < - R_list [ goûter ( 1 :longueur ( R_list ) , taille = 4 ) ]

résultat

Ici, la liste de « R_list » est définie avec des éléments de différents types, y compris un vecteur de chiffres, un nombre unique, un vecteur de caractères, une chaîne et un autre nombre. Après cela, nous créons une variable 'résultat' où la fonction sample () est invoquée.

Dans la fonction sample(), nous définissons l'expression '1:length(R_list)' qui indique les vecteurs d'indices à échantillonner. Ensuite, nous avons un argument 'taille' pour spécifier le nombre d'éléments à échantillonner qui est '4'. Par conséquent, la 'R_list' génère trois éléments sélectionnés au hasard dans la liste de 'R_list'. Les éléments de la liste de « R_list » étant de types différents, les éléments résultants de « result » peuvent également être de types différents.

La sortie représente la nouvelle liste qui contient un sous-ensemble aléatoire de la liste d'origine :

Exemple 5 : Utilisation de la fonction Sample() avec l'argument Prob

De plus, nous avons le paramètre 'prob' de la fonction sample(). L'argument 'prob' donne la probabilité de l'élément sélectionné dans le vecteur. Notez que tous les éléments sont supposés avoir une probabilité égale lorsque l'argument 'prob' n'est pas utilisé.

mes données = c ( 31 , 99 , 5 , 24 , 72 )

goûter ( mes données , taille = dix , remplacer = VRAI ,

problème = c ( 0,5 , représentant ( 0,1 , 4 ) ) )

Ici, les éléments des vecteurs numériques sont référencés dans les 'my_data'. Dans l'étape suivante, nous appelons la fonction sample () où 'my_data' est transmis à 10 éléments sélectionnés au hasard. Ensuite, l'argument 'taille' est défini qui spécifie que la valeur à sélectionner au hasard doit être de taille '10'. Après cela, nous attribuons 'TRUE' à l'argument 'replace', ce qui signifie que chaque élément sélectionné est remplacé dans le vecteur avant de sélectionner le suivant. Le troisième argument défini dans la fonction sample() est 'prob' qui définit la probabilité que chaque élément du vecteur 'my_data' soit sélectionné. La probabilité du premier élément est fixée à '0,5'. Pour les quatre éléments vectoriels restants, la probabilité est de '0,1'.

La sortie suivante est récupérée avec la probabilité la plus élevée du premier élément dans les vecteurs comme prévu :

Exemple 6 : Utilisation de la fonction Sample() pour rendre le Barplot

Enfin, la fonction sample() est utilisée pour construire le barplot dans R afin de visualiser la distribution d'une variable catégorielle avec une distribution de probabilité donnée.

sample_data = c ( 1 , 2 , 3 )

graphique à barres ( tableau ( goûter ( sample_data , taille = 500 , remplacer = VRAI , problème = c ( .30 , .60 , .dix ) ) ) )

Ici, après avoir défini les 'sample_data' avec le vecteur d'une valeur entière, nous générons le barplot en déployant la fonction sample(). Tout d'abord, nous appelons le barplot qui invoque la fonction table() pour créer une table de fréquence de l'échantillon résultant. Ensuite, nous spécifions la fonction sample() dans la fonction table() où un échantillon aléatoire de taille 1000 est tiré d'un vecteur d'entiers de 1 à 3. Ensuite, l'argument 'prob' est utilisé pour spécifier la probabilité de sélectionner chaque entier .

Comme nous pouvons le voir maintenant, le barplot est rendu dans ce qui suit avec les trois barres, une pour chaque entier, et la hauteur des barres est pertinente pour l'entier qui se produit dans l'échantillon :

Conclusion

Nous avons vu comment la fonction sample() fonctionne avec divers exemples. La fonction sample() est utilisée avec différents arguments où les exemples de données sont requis et tous les autres arguments sont facultatifs et sont appelés dans des cas spécifiques. Cependant, la fonction sample() est utile dans l'analyse statistique ou lorsque vous travaillez avec de grands ensembles de données.