(Ei, você) Que som é esse?
As músicas começam como algo analógico: o som nada mais é do que um monte de vibrações do ar. Para analisar uma música, você precisa transformá-la em números significativos. As faixas do Million Song Dataset têm doze medições de timbre feitas em intervalos regulares ao longo da música. (Timbre é uma medida da qualidade percebida de um som; você pode usá-lo para distinguir, por exemplo, vozes de instrumentos de corda e de instrumentos de percussão.)
Neste capítulo, você vai tentar prever o ano em que uma faixa foi lançada com base no seu timbre. Ou seja, você vai usar essas medições de timbre para gerar features para os modelos. (Lembre que feature é a terminologia de Machine Learning para uma variável de entrada em um modelo. Em estatística, elas costumam ser chamadas de variáveis explicativas.)
Os dados de timbre têm a forma de uma matriz, com as linhas representando os pontos no tempo e as colunas representando as diferentes medições de timbre. Assim, todas as matrizes de timbre têm doze colunas, mas o número de linhas varia de música para música. A média de cada coluna estima o valor médio de uma medição de timbre ao longo de toda a música. Elas podem ser usadas para gerar doze features para o modelo.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
timbre, contendo as medições de timbre de "Poker Face", da Lady Gaga, já foi pré-definido no seu workspace.
- Use
colMeans()para obter as médias das colunas detimbre. Atribua o resultado amean_timbre.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# timbre has been pre-defined
timbre
# Calculate column means
(mean_timbre <- ___)