Échantillonnage simple avec dplyr
Dans ce chapitre, vous allez explorer des données de chansons issues de Spotify. Chaque ligne du jeu de données correspond à une chanson, et il contient 41 656 lignes. Les colonnes incluent le nom de la chanson, les artistes qui l’interprètent, l’année de sortie, ainsi que des attributs comme la durée, le tempo et la « danceability ». Nous allons commencer par examiner les durées.
Votre première tâche consiste à échantillonner le jeu de données des chansons et à comparer un calcul sur l’ensemble de la population et sur un échantillon.
spotify_population est disponible et dplyr est chargé.
Cet exercice fait partie du cours
Échantillonnage en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# View the whole population dataset
___
# Sample 1000 rows from spotify_population
spotify_sample <- ___
# See the result
spotify_sample