Uniones con valoraciones
En el ejercicio del vídeo, has visto cómo utilizar transformaciones en PySpark uniendo las tablas film
y ratings
para crear una nueva columna que almacene la valoración media por cliente.
En este ejercicio, vas a crear más sinergias entre las tablas film
y ratings
utilizando las mismas técnicas que aprendiste en el ejercicio del vídeo para calcular la valoración media de cada película.
El DataFrame de PySpark con películas, film_df
y el DataFrame de PySpark con clasificaciones, rating_df
, están disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Instrucciones del ejercicio
- Toma la valoración media por
film_id
, y asigna el resultado aratings_per_film_df
. - Completa la declaración
.join()
para unir en la columnafilm_id
. - Muestra los primeros resultados
5
del DataFrame resultante.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)