(Hé vous) C’est quoi ce son ?
Les morceaux sont à l’origine des phénomènes analogiques : leur son est en fait un ensemble de vibrations de l’air. Pour analyser un morceau, vous devez le convertir en nombres exploitables. Les pistes du Million Song Dataset comportent douze mesures de timbre effectuées à intervalles réguliers tout au long du morceau. (Le timbre reflète la qualité perçue d’un son ; il permet par exemple de distinguer une voix d’un instrument à cordes ou d’une percussion.)
Dans ce chapitre, vous allez essayer de prédire l’année de sortie d’une piste à partir de son timbre. Autrement dit, vous allez utiliser ces mesures de timbre pour générer des variables de type features pour les modèles. (Rappelez-vous : une feature est, en Machine Learning, une variable d’entrée d’un modèle. En statistique, on parle souvent de variables explicatives.)
Les données de timbre se présentent sous forme de matrice, avec des lignes correspondant aux instants temporels et des colonnes correspondant aux différentes mesures de timbre. Ainsi, toutes les matrices de timbre ont douze colonnes, mais le nombre de lignes varie selon les morceaux. La moyenne de chaque colonne estime la valeur moyenne d’une mesure de timbre sur l’ensemble du morceau. On peut ainsi générer douze features pour le modèle.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
timbre, qui contient les mesures de timbre de « Poker Face » de Lady Gaga, a été prédefini dans votre espace de travail.
- Utilisez
colMeans()pour obtenir la moyenne des colonnes detimbre. Affectez le résultat àmean_timbre.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# timbre has been pre-defined
timbre
# Calculate column means
(mean_timbre <- ___)