CommencerCommencer gratuitement

Les résultats de l’échantillon sont-ils généralisables ?

Vous venez de voir comment l’échantillonnage de commodité, c’est-à-dire la collecte de données à l’aide de la méthode la plus facile, peut aboutir à des échantillons qui ne sont pas représentatifs de la population. De manière équivalente, cela signifie que les résultats obtenus à partir de l’échantillon ne sont pas généralisables à la population. La visualisation des distributions de la population et de l’échantillon peut aider à déterminer si l’échantillon est représentatif de la population.

Le jeu de données Spotify contient une colonne acousticness, qui est une mesure de confiance entre zéro et un qui indique si le titre a été créé avec des instruments qui ne sont pas branchés. Vous comparerez la distribution des valeurs de la colonne acousticness de la population totale de chansons avec un échantillon de ces chansons.

spotify_population et spotify_mysterious_sample sont disponibles. pandas est chargé en tant que pd, matplotlib.pyplot en tant que plt, et numpy en tant que np.

Cet exercice fait partie du cours

L’échantillonnage en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Visualize the distribution of acousticness with a histogram
____
plt.show()
Modifier et exécuter le code