Come together
As features dos modelos que você está prestes a executar estão no conjunto de dados timbre, mas a variável de resposta — o ano — está no conjunto de dados track_metadata. Antes de rodar o modelo, você vai precisar juntar esses dois conjuntos de dados. Neste caso, há uma correspondência um-para-um entre as linhas dos dois conjuntos, então você precisa de um inner join.
Há mais uma tarefa de limpeza de dados para fazer. A coluna year contém inteiros, mas as funções de modelagem do Spark exigem números reais. Você precisa converter a coluna year para numeric.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão com o Spark foi criada para você como spark_conn. Os tibbles vinculados aos metadados das faixas e aos dados de timbre armazenados no Spark foram predefinidos como track_metadata_tbl e timbre_tbl, respectivamente.
- Faça um inner join dos metadados das faixas com os dados de timbre pela coluna
track_id. - Converta a coluna
yearparanumeric.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl
track_metadata_tbl %>%
# Inner join to timbre_tbl
___ %>%
# Convert year to numeric
___