(Hey you) What's that sound?
Songs sind zunächst etwas Analoges: Ihr Klang besteht eigentlich aus vielen Luftschwingungen. Um einen Song zu analysieren, musst du ihn in sinnvolle Zahlen verwandeln. Tracks im Million Song Dataset besitzen zwölf Timbre-Messungen, die in regelmäßigen Zeitabständen über den gesamten Song hinweg erhoben wurden. (Timbre ist ein Maß für die wahrgenommene Klangfarbe eines Tons; damit lässt sich zum Beispiel die Stimme von Streich- oder Schlaginstrumenten unterscheiden.)
In diesem Kapitel wirst du versuchen, das Veröffentlichungsjahr eines Tracks auf Basis seiner Klangfarbe vorherzusagen. Das heißt, du verwendest diese Timbre-Messungen, um Merkmale für die Modelle zu erzeugen. (Zur Erinnerung: Ein Feature ist in der Machine-Learning-Terminologie eine Eingabevariable in einem Modell. In der Statistik heißen sie oft erklärende Variablen.)
Die Timbre-Daten liegen in Form einer Matrix vor, wobei die Zeilen Zeitpunkte und die Spalten die verschiedenen Timbre-Messungen repräsentieren. Alle Timbre-Matrizen haben daher zwölf Spalten, aber die Anzahl der Zeilen unterscheidet sich von Song zu Song. Das Mittel jeder Spalte schätzt den Durchschnitt einer Timbre-Messung über den gesamten Song. Diese können genutzt werden, um zwölf Merkmale für das Modell zu erzeugen.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
timbre mit den Timbre-Messungen von Lady Gagas „Poker Face“ ist bereits in deinem Workspace vordefiniert.
- Verwende
colMeans(), um die Spaltenmittelwerte vontimbrezu berechnen. Weise das Ergebnismean_timbrezu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# timbre has been pre-defined
timbre
# Calculate column means
(mean_timbre <- ___)