Les résultats de l’échantillon sont-ils généralisables ?
Vous venez de voir comment l’échantillonnage de commodité, c’est-à-dire la collecte de données à l’aide de la méthode la plus facile, peut aboutir à des échantillons qui ne sont pas représentatifs de la population. De manière équivalente, cela signifie que les résultats obtenus à partir de l’échantillon ne sont pas généralisables à la population. La visualisation des distributions de la population et de l’échantillon peut aider à déterminer si l’échantillon est représentatif de la population.
Le jeu de données Spotify contient une colonne acousticness
, qui est une mesure de confiance entre zéro et un qui indique si le titre a été créé avec des instruments qui ne sont pas branchés. Vous comparerez la distribution des valeurs de la colonne acousticness
de la population totale de chansons avec un échantillon de ces chansons.
spotify_population
et spotify_mysterious_sample
sont disponibles. pandas
est chargé en tant que pd
, matplotlib.pyplot
en tant que plt
, et numpy
en tant que np
.
Cet exercice fait partie du cours
L’échantillonnage en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Visualize the distribution of acousticness with a histogram
____
plt.show()