ComeçarComece de graça

Juntar-se a classificações

No exercício em vídeo, você viu como usar transformações no PySpark unindo as tabelas film e ratings para criar uma nova coluna que armazena a classificação média por cliente. Neste exercício, você criará mais sinergias entre as tabelas film e ratings usando as mesmas técnicas que aprendeu no exercício do vídeo para calcular a classificação média de cada filme.

O PySpark DataFrame com filmes, film_df, e o PySpark DataFrame com classificações, rating_df, estão disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Introdução à engenharia de dados

Ver curso

Instruções do exercício

  • Pegue a classificação média por film_id e atribua o resultado a ratings_per_film_df.
  • Preencha a declaração .join() para você se unir à coluna film_id.
  • Mostrar os primeiros 5 resultados do DataFrame resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)
Editar e executar o código