ComenzarEmpieza gratis

Uniones con valoraciones

En el ejercicio del vídeo, has visto cómo utilizar transformaciones en PySpark uniendo las tablas film y ratings para crear una nueva columna que almacene la valoración media por cliente. En este ejercicio, vas a crear más sinergias entre las tablas film y ratings utilizando las mismas técnicas que aprendiste en el ejercicio del vídeo para calcular la valoración media de cada película.

El DataFrame de PySpark con películas, film_df y el DataFrame de PySpark con clasificaciones, rating_df, están disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Instrucciones del ejercicio

  • Toma la valoración media por film_id, y asigna el resultado a ratings_per_film_df.
  • Completa la declaración .join() para unir en la columna film_id.
  • Muestra los primeros resultados 5 del DataFrame resultante.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Editar y ejecutar código