Fazendo join com ratings
No exercício em vídeo, você viu como usar transformações no PySpark fazendo join das tabelas film e ratings para criar uma nova coluna que armazena a avaliação média por cliente.
Neste exercício, você vai criar mais sinergias entre as tabelas film e ratings usando as mesmas técnicas que aprendeu no vídeo para calcular a avaliação média de cada filme.
O DataFrame do PySpark com filmes, film_df, e o DataFrame do PySpark com ratings, rating_df, estão disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Instruções do exercício
- Calcule a média de rating por
film_ide atribua o resultado aratings_per_film_df. - Complete a instrução
.join()para juntar pela colunafilm_id. - Mostre os primeiros
5resultados do DataFrame resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')
# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
ratings_per_film_df,
film_df.film_id==____
)
# Show the 5 first results
print(film_df_with_ratings.____)