ComenzarEmpieza gratis

Come together

Las features para los modelos que estás a punto de ejecutar están en el conjunto de datos timbre, pero la variable de respuesta —el año— está en el conjunto de datos track_metadata. Antes de ejecutar el modelo, tendrás que unir estos dos conjuntos de datos. En este caso, hay una correspondencia uno a uno de filas entre ambos conjuntos, así que necesitas un inner join.

Hay una tarea más de limpieza de datos que debes hacer. La columna year contiene enteros, pero las funciones de modelado de Spark requieren números reales. Tienes que convertir la columna del año a numeric.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión de Spark para ti como spark_conn. Se han predefinido como track_metadata_tbl y timbre_tbl los tibbles asociados a los metadatos de las pistas y a los datos de timbre almacenados en Spark, respectivamente.

  • Realiza un inner join de los metadatos de las pistas con los datos de timbre por la columna track_id.
  • Convierte la columna year a numeric.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl

track_metadata_tbl %>%
  # Inner join to timbre_tbl
  ___ %>%
  # Convert year to numeric
  ___
Editar y ejecutar código