Générer une distribution Bootstrap
Le processus de génération d’une distribution Bootstrap est similaire au processus de génération d’une distribution d’échantillonnage, à l’exception de la première étape.
Pour créer une distribution d’échantillonnage, vous partez de la population et vous échantillonnez sans remplacement. Pour créer une distribution Bootstrap, vous commencez par un échantillon et vous l’échantillonnez avec remplacement. Ensuite, les étapes sont les mêmes : calculez la statistique récapitulative qui vous intéresse sur cet échantillon ou nouvel échantillon, puis reproduisez le processus de nombreuses fois. Dans chaque cas, vous pouvez visualiser la distribution à l’aide d’un histogramme.
Ici, spotify_sample
est un sous-ensemble de l’ensemble de données spotify_population
. Pour comprendre plus facilement le fonctionnement du rééchantillonnage, une colonne d’index de ligne appelée 'index'
a été ajoutée, et seules les colonnes nom de l’artiste, nom de la chanson et danceability
ont été incluses.
spotify_sample
est disponible. pandas
, numpy
, et matplotlib.pyplot
sont chargés avec leurs alias habituels.
Cet exercice fait partie du cours
L’échantillonnage en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Generate 1 bootstrap resample
spotify_1_resample = ____
# Print the resample
print(spotify_1_resample)