Juntar-se a classificações
No exercício em vídeo, você viu como usar transformações no PySpark unindo as tabelas film
e ratings
para criar uma nova coluna que armazena a classificação média por cliente.
Neste exercício, você criará mais sinergias entre as tabelas film
e ratings
usando as mesmas técnicas que aprendeu no exercício do vídeo para calcular a classificação média de cada filme.
O PySpark DataFrame com filmes, film_df
, e o PySpark DataFrame com classificações, rating_df
, estão disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução à engenharia de dados
Instruções do exercício
- Pegue a classificação média por
film_id
e atribua o resultado aratings_per_film_df
. - Preencha a declaração
.join()
para você se unir à colunafilm_id
. - Mostrar os primeiros
5
resultados do DataFrame resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)