Validar linhas por meio de junção
Outro exemplo de filtragem de dados é o uso de uniões para remover entradas inválidas. Você precisará verificar se os nomes das pastas estão de acordo com o esperado, com base em um DataFrame específico chamado valid_folders_df
. O DataFrame split_df
está como você o deixou pela última vez, com um grupo de colunas divididas.
O objeto spark
está disponível e pyspark.sql.functions
é importado como F
.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Renomeie a coluna
_c0
parafolder
no DataFramevalid_folders_df
. - Conte o número de linhas em
split_df
. - Junte os dois DataFrames no nome da pasta e chame o DataFrame resultante de
joined_df
. Certifique-se de que você transmita o DataFrame menor. - Verifique o número de linhas restantes no DataFrame e compare.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))