ComenzarEmpieza gratis

(Oye, tú) ¿Qué es ese sonido?

Las canciones empiezan siendo algo analógico: su sonido no es más que un montón de vibraciones del aire. Para poder analizar una canción, tienes que convertirla en números con sentido. Las pistas del Million Song Dataset tienen doce mediciones de timbre tomadas a intervalos regulares a lo largo de la canción. (El timbre es una medida de la calidad percibida de un sonido; por ejemplo, sirve para distinguir voces de instrumentos de cuerda o de percusión.)

En este capítulo, vas a intentar predecir el año en que se publicó una pista a partir de su timbre. Es decir, vas a usar estas mediciones de timbre para generar variables de entrada para los modelos. (Recuerda que feature es la terminología de Machine Learning para una variable de entrada en un modelo. En estadística a menudo se llaman variables explicativas.)

Los datos de timbre tienen forma de matriz, con las filas representando los puntos en el tiempo y las columnas representando las diferentes mediciones de timbre. Así, todas las matrices de timbre tienen doce columnas, pero el número de filas varía de una canción a otra. La media de cada columna estima el promedio de una medición de timbre a lo largo de toda la canción. Estas medias pueden usarse para generar doce características para el modelo.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

timbre, que contiene las mediciones de timbre de "Poker Face" de Lady Gaga, ya está predefinido en tu espacio de trabajo.

  • Usa colMeans() para obtener las medias por columna de timbre. Asigna el resultado a mean_timbre.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# timbre has been pre-defined
timbre

# Calculate column means
(mean_timbre <- ___)
Editar y ejecutar código