ComeçarComece de graça

Come together

As features dos modelos que você está prestes a executar estão no conjunto de dados timbre, mas a variável de resposta — o ano — está no conjunto de dados track_metadata. Antes de rodar o modelo, você vai precisar juntar esses dois conjuntos de dados. Neste caso, há uma correspondência um-para-um entre as linhas dos dois conjuntos, então você precisa de um inner join.

Há mais uma tarefa de limpeza de dados para fazer. A coluna year contém inteiros, mas as funções de modelagem do Spark exigem números reais. Você precisa converter a coluna year para numeric.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão com o Spark foi criada para você como spark_conn. Os tibbles vinculados aos metadados das faixas e aos dados de timbre armazenados no Spark foram predefinidos como track_metadata_tbl e timbre_tbl, respectivamente.

  • Faça um inner join dos metadados das faixas com os dados de timbre pela coluna track_id.
  • Converta a coluna year para numeric.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl

track_metadata_tbl %>%
  # Inner join to timbre_tbl
  ___ %>%
  # Convert year to numeric
  ___
Editar e executar o código